eBooks

Empirisches Arbeiten in Linguistik und Sprachlehrforschung

1027
2025
978-3-381-11522-8
978-3-381-11521-1
Gunter Narr Verlag 
Ruth Albert
Nicole Marx
10.24053/9783381115228

Das Studienbuch bietet eine systematische Anleitung für Studierende, die eine quantitativ vorgehende empirische Untersuchung im Bereich Linguistik/Sprachlehr- und -lernforschung planen. Jeder einzelne Schritt wird ausführlich erklärt: das Finden einer genau definierten Untersuchungsfrage, das Beachten wissenschaftlicher Gütekriterien, die Auswahl einer geeigneten Stichprobe, häufige Ansätze (Beobachtung, Befragung, Testen, Interventionen und Nutzung von Textkorpora), häufig eingesetzte Erhebungsinstrumente, die Datenaufbereitung und Datenauswertung, die Präsentation der Ergebnisse und das Schreiben des Forschungsberichts. Zu allen Kapiteln gibt es Übungsaufgaben mit Lösungshinweisen sowie ausführliche Hinweise auf weiterführende Literatur. Für die vierte, komplett überarbeitete Auflage wurden insbesondere neue Forschungstendenzen bei empirisch vorgehenden Untersuchungen beachtet. Stimmen zum Buch: "Der große Pluspunkt des Studienbuchs liegt in seiner Konzeption, die sehr durchdacht auf die Bedürfnisse von Studierenden zugeschnitten ist" - Zeitschrift für Romanische Sprachen und ihre Didaktik 13,1 (2019) "So darf das Buch als gelungene Didaktisierung empirischer Methoden für eine spezifische Zielgruppe betrachtet werden" - Zeitschrift für Angewandte Linguistik (2018)

9783381115228/9783381115228.pdf
<?page no="0"?> ISBN 978-3-381-11521-1 Das Studienbuch bietet eine systematische Anleitung für Studierende, die eine quantitativ vorgehende empirische Untersuchung im Bereich Linguistik/ Sprachlehr- und -lernforschung planen. Jeder einzelne Schritt wird ausführlich erklärt: das Finden einer genau definierten Untersuchungsfrage, das Beachten wissenschaftlicher Gütekriterien, die Auswahl einer geeigneten Stichprobe, häufige Ansätze (Beobachtung, Befragung, Testen, Interventionen und Nutzung von Textkorpora), häufig eingesetzte Erhebungsinstrumente, die Datenaufbereitung und Datenauswertung, die Präsentation der Ergebnisse und das Schreiben des Forschungsberichts. Zu allen Kapiteln gibt es Übungsaufgaben mit Lösungshinweisen sowie ausführliche Hinweise auf weiterführende Literatur. Für die vierte, komplett überarbeitete Auflage wurden insbesondere neue Forschungstendenzen bei empirisch vorgehenden Untersuchungen beachtet. Stimmen zum Buch: „Der große Pluspunkt des Studienbuchs liegt in seiner Konzeption, die sehr durchdacht auf die Bedürfnisse von Studierenden zugeschnitten ist“ - Zeitschrift für Romanische Sprachen und ihre Didaktik 13,1 (2019) „So darf das Buch als gelungene Didaktisierung empirischer Methoden für eine spezifische Zielgruppe betrachtet werden“ - Zeitschrift für Angewandte Linguistik (2018) Albert / Marx Empirisches Arbeiten Empirisches Arbeiten in Linguistik und Sprachlehrforschung 4., überarbeitete Auflage Ruth Albert / Nicole Marx <?page no="1"?> Empirisches Arbeiten in Linguistik und Sprachlehrforschung <?page no="3"?> Ruth Albert / Nicole Marx Empirisches Arbeiten in Linguistik und Sprachlehrforschung 4., überarbeitete Auflage <?page no="4"?> DOI: https: / / doi.org/ 10.24053/ 9783381115228 © 2025 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor: innen oder Herausgeber: innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor: innen oder Herausgeber: innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich. Internet: www.narr.de eMail: info@narr.de Druck: Elanders Waiblingen GmbH ISSN 0941-8105 ISBN 978-3-381-11521-1 (Print) ISBN 978-3-381-11522-8 (ePDF) ISBN 978-3-381-11523-5 (ePub) Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. <?page no="5"?> Prof. Dr. Ruth Albert lehrte Deutsch als Fremdsprache am Insti‐ tut für Germanistische Sprachwissenschaft der Philipps-Universi‐ tät Marburg. Prof. Dr. Nicole Marx lehrt Sprachliche Bildung und Deutsch als Zweitsprache an der Universität zu Köln. <?page no="7"?> 13 1 17 1.1 18 1.2 18 1.2.1 18 1.2.2 19 1.2.3 19 1.2.4 20 1.3 20 1.4 21 23 25 2 27 2.1 27 2.1.1 27 2.1.2 28 2.1.3 31 2.2 32 2.3 32 2.3.1 33 2.3.2 33 2.3.3 34 2.3.4 34 2.3.5 35 2.4 36 2.5 38 2.5.1 38 2.5.2 39 2.5.3 39 2.6 41 2.7 43 Inhalt Vorwort zur vierten Auflage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zur Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Empirische vs. nicht-empirische Forschung . . . . . . . . . . . . . . . . . . . . . . Forschungsparadigmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exploratives vs. deduktives Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . Qualitative vs. quantitative Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . Experimentelle vs. nicht-experimentelle Verfahren . . . . . . . . . . . . . . . Auswahl eines Forschungsparadigmas . . . . . . . . . . . . . . . . . . . . . . . . . . Wann eigentlich empirisch arbeiten? . . . . . . . . . . . . . . . . . . . . . . . . . . . Zum Aufbau des Studienbuchs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schritt 1: Planungsphase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Planung einer empirischen Studie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erste Überlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Forschungsethik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Operationalisierung zentraler Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . Formulierung einer Forschungsfrage . . . . . . . . . . . . . . . . . . . . . . . . . . . Verortung und Gestaltung der Studie . . . . . . . . . . . . . . . . . . . . . . . . . . . Grundlagen- oder experimentelle Forschung? . . . . . . . . . . . . . . . . . . . . Explorativ, beschreibend oder erklärend? . . . . . . . . . . . . . . . . . . . . . . . . Feld- oder Laborstudie? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Querschnitt oder Längsschnitt? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fallstudie oder Gruppenstudie? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Formulierung einer Hypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prüfen der Gütekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zuverlässigkeit (Verlässlichkeit, Reliabilität) . . . . . . . . . . . . . . . . . . . . . Objektivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gültigkeit (Validität) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Der Forschungsplan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Messbare Variablen bestimmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . <?page no="8"?> 2.8 43 2.8.1 43 2.8.2 45 2.9 45 46 3 49 3.1 49 3.2 50 3.3 51 3.4 52 3.4.1 52 3.4.2 54 3.5 56 56 57 4 59 4.1 59 4.2 61 4.2.1 61 4.2.2 62 4.2.3 63 4.3 64 4.4 66 4.5 67 4.6 69 69 5 71 5.1 71 5.2 73 5.3 75 5.3.1 75 5.3.2 75 5.3.3 78 79 6 83 6.1 83 Worauf muss man sonst noch achten? . . . . . . . . . . . . . . . . . . . . . . . . . . Konfundierende Variablen (Störfaktoren) . . . . . . . . . . . . . . . . . . . . . . . . Kontrollvariablen (Kontrollfaktoren) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stichproben und Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Was ist eine Stichprobe? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Größe der Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Repräsentativität der Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kriterien für die Stichprobenziehung . . . . . . . . . . . . . . . . . . . . . . . . . . . Zufallsstichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Nicht-zufällige Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schritt 2: Datenerhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Beobachtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Offene und verdeckte Beobachtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datenerhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Beobachtungsraster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Beobachtung mit Audio- und Videografie . . . . . . . . . . . . . . . . . . . . . . . Beobachtung durch Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datenklassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gütekriterien für Beobachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Arbeiten mit Textkorpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Auswahl eines linguistischen Korpus . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufbereitung von Korpusdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analyse von Korpusdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analyseeinheiten: Tokens und Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anwendungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Auswertung von Korpusdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mündliche vs. schriftliche Befragungen . . . . . . . . . . . . . . . . . . . . . . . . . 8 Inhalt <?page no="9"?> 6.2 85 6.3 87 6.3.1 87 6.3.2 88 6.3.3 89 6.3.4 91 6.3.5 92 6.3.6 92 6.4 93 6.5 94 95 7 99 7.1 99 7.2 100 7.2.1 100 7.2.2 102 7.2.3 103 7.2.4 104 7.3 105 7.4 105 7.4.1 106 7.4.2 106 7.4.3 108 7.5 109 110 8 111 8.1 111 8.2 112 8.3 114 8.3.1 114 8.3.2 115 8.4 118 8.4.1 118 8.4.2 120 8.5 123 8.6 125 8.7 125 126 Befragung als Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fragebogenentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Offene vs. geschlossene Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reihenfolge der Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Standardisierung von Antwortkategorien . . . . . . . . . . . . . . . . . . . . . . . Direkte und indirekte Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Heikle Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gefahr von Artefakten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufbereitung von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Was ist ein Test? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testgestaltung und -auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Geschlossene Items . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Offene Items . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gemischte Items . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wann sind Testitems „gut“? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Annahmen der Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gütekriterien für Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objektivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Validität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Methodische und ethische Bedenken . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Experimentelle Forschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Warum ein Experiment durchführen? . . . . . . . . . . . . . . . . . . . . . . . . . . . Kausale Inferenz als Grundlage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Entwurf des Forschungsvorhabens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erste Schritte: Alles wie gehabt! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Besonderheiten von Experimenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Designs der Interventionsforschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schwache Untersuchungsdesigns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stärkere Designs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere zu beachtende Faktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Experimente in der Linguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inhalt 9 <?page no="10"?> 129 9 131 135 10 137 10.1 137 10.2 139 10.3 141 10.4 145 146 11 147 11.1 148 11.2 151 11.3 152 11.4 153 11.5 154 11.6 157 11.7 159 161 12 163 12.1 165 12.1.1 165 12.1.2 166 12.1.3 168 12.1.4 169 12.2 171 12.2.1 172 12.2.2 173 12.2.3 174 12.2.4 175 176 13 179 13.1 179 13.2 180 13.3 181 13.3.1 182 13.3.2 184 Schritt 3: Datenauswertung und Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Beschreibung von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Häufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Maße der zentralen Tendenz: Modalwert, Median, Mittelwert . . . . . . Maße der Variabilität: Standardabweichung und Quartile . . . . . . . . . . Transformierte Messwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Beziehungen zwischen Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erste Darstellung von Zusammenhängen . . . . . . . . . . . . . . . . . . . . . . . . Stärke der Beziehung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metrische Daten: Korrelationen (r) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ordinalskalierte Daten: Assoziationen (Spearman Rho, r s ) . . . . . . . . . Nominalskalierte Daten: Kontingenzen (χ 2 ) . . . . . . . . . . . . . . . . . . . . . . Wofür sind Zusammenhänge sonst noch nützlich? . . . . . . . . . . . . . . . . Zusammenhang bedeutet nicht Kausalität . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prüfen von Unterschieden und Veränderungen . . . . . . . . . . . . . . . . . . . . . . . . Tests für metrisch skalierte Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Voraussetzungen von Tests für metrisch skalierte Daten . . . . . . . . . . t-Test für abhängige Gruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . t-Test für unabhängige Gruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varianzanalyse für Prä-/ Posttestdesigns mit zwei Gruppen . . . . . . . . . Tests für ordinalskalierte Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mann-Whitney-U-Test für Unabhängige-Gruppen-Designs . . . . . . . . Wilcoxon-Test für Abhängige-Gruppen-Designs . . . . . . . . . . . . . . . . . . Test für nominalskalierte Daten: Chi-Quadrat-Test . . . . . . . . . . . . . . . . Zusammenfassung: Wann man welchen Test benutzt . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statistische Signifikanz und Aussagekraft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wie interpretiere ich meine Ergebnisse? . . . . . . . . . . . . . . . . . . . . . . . . Was ist statistische Signifikanz? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Was ist die Aussagekraft? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erklärte Varianz: r 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenhangs-Effektgröße für nominale Daten: Cramérs V . . . . . . 10 Inhalt <?page no="11"?> 13.3.3 184 13.3.4 185 186 187 14 189 14.1 189 14.2 190 14.3 191 14.4 191 14.5 193 14.6 193 194 195 195 197 200 200 202 205 208 209 213 214 215 217 218 219 Unterschieds-Effektgröße: Effektstärke d . . . . . . . . . . . . . . . . . . . . . . . . Warum ist Aussagekraft besonders nützlich? . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schritt 4: Forschungsbericht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Der Forschungsbericht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einleitung, theoretischer Rahmen und relevante Literatur . . . . . . . . . Fragestellung und Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Forschungsdesign / Methodik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Präsentation der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Besprechung der Ergebnisse und Schlussfolgerungen bzw. Ausblick . Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anhang: Lösungen der Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben Kapitel 1: Zur Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben Kapitel 2: Vorplanung einer empirischen Untersuchung . . . . . . . . Aufgabe Kapitel 3: Stichproben und Sampling . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben Kapitel 4: Die Beobachtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben Kapitel 5: Arbeiten mit Textkorpora . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben Kapitel 6: Die Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben Kapitel 7: Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben Kapitel 8: Experimentelle Forschung . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben Kapitel 9: Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben Kapitel 10: Beschreibung von Daten . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben Kapitel 11: Beziehungen zwischen Daten . . . . . . . . . . . . . . . . . . . . Aufgaben Kapitel 12: Prüfen von Unterschieden und Veränderungen . . . . . . Aufgabe Kapitel 13: Signifikanz vs. Aussagekraft . . . . . . . . . . . . . . . . . . . . . . . Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inhalt 11 <?page no="13"?> 1 Wir verwenden aus Gründen der Lesbarkeit im Weiteren die Bezeichnung „Sprachlehrforschung“ und meinen damit die Sprachlehr- und -lernforschung sowie allgemein die fremdsprachendidakti‐ sche Forschung. Vorwort zur vierten Auflage Das vorliegende Buch bietet eine systematische Anleitung zum Planen, Durchführen und Schreiben einer quantitativ vorgehenden empirischen wissenschaftlichen Arbeit in der Sprachlehrforschung oder Linguistik, in der jeder einzelne Schritt genau erläutert wird. Der Linguistik und Sprachlehr- und -lernforschung 1 (die in vielen Ländern explizit „angewandte Linguistik“ genannt wird) ist gemeinsam, dass sie sich mit Sprachen beschäftigen und mit den Prozessen, in denen man Sprachen lernt. Obwohl es in den letzten Jahren viele methodische Entwicklungen gab, sodass die beiden Wissenschaften oft unterschiedliche Herangehensweisen vorziehen, scheint uns die Schnittmenge noch groß genug zu sein, um eine Einführung für beide Wissenschaften zu schreiben. In dieser, der vierten Auflage des Studienbuches, haben wir noch mehr Beispiele aus der Sprachlehrforschung einbezogen, weil entsprechende Fächer im Moment häufiger studiert werden. Wir richten uns besonders an Studierende linguistischer oder sprachdidaktischer Fächer, die ihre Bachelor-, Master-, Examens- oder Doktorarbeit schreiben und die eine quantitative Studie durchführen möchten, und haben uns deshalb auf die Beschreibung der Verfahren beschränkt, die Sprachwissenschaftlerinnen und Sprachwissenschaftler tatsächlich häufig benutzen, verweisen jedoch im Text und in unserem kommentierten Literaturverzeichnis auf nützliche weiterführende Literatur. Wir beschränken uns hier aus unterschiedlichen Gründen auf Studien, die quanti‐ tative Daten erheben, denn ein Bedarf an generalisierbaren Ergebnissen quantitativ vorgehender Forschung besteht nach wie vor. Auch wenn in vielen Kontexten eine Kombination qualitativer und quantitativer Methoden angebracht - geradezu notwen‐ dig - ist, würde eine Einführung in beide Perspektiven in einem so kurz bemessenen Studienbuch eine nicht zu vertretende Reduktion der wichtigen Inhalte und Überlegun‐ gen bedeuten. Wir empfehlen auf jeden Fall eine Auseinandersetzung mit qualitativer Forschungsmethodik und geben im Literaturverzeichnis einige Hinweise dazu, wo Sie weitere Informationen finden können. Gute Hinweise zu Mixed Methods-Designs finden Sie bei Hagenauer et al. (2023) und zu den wissenschaftstheoretischen Grenzen bei Riemer (2008). Dieses Buch kann keine Wunder bewirken. Es ersetzt nicht die Besprechung mit der Betreuerin oder dem Betreuer der Arbeit darüber, was genau untersucht werden soll, welche Methoden zur Datenerhebung eingesetzt werden können und wie bei der Analyse der erhobenen Daten vorzugehen ist. Wir erklären häufig benutzte Verfahren und warnen vor häufig vorkommenden Fehlern. Die Aufbereitung der Daten und <?page no="14"?> statistische Analyse als „Handwerkszeug“ können wir anleiten, den Gesamtprozess sollte man mit den Betreuenden durchsprechen. Wenn man ein Buch für Personen mit recht verschiedenem Hintergrundwissen schreibt, dann tut man gut daran, bei der Darstellung der einzelnen Methoden Beispiele zu wählen, die man verstehen kann, ohne dass vorher komplizierte linguistische Hypothesen oder lerntheoretische Annahmen erklärt werden müssen. Deshalb haben wir hier mit möglichst einfachen und meist auch erfundenen Beispielen gearbeitet. Die einzelnen Kapitel enden jeweils mit Übungsaufgaben, die es Ihnen ermöglichen sollen zu überprüfen, ob Sie das Gelesene schon selbstständig auf eine neue, konkrete Aufgabenstellung anwenden können. Erfahrungsgemäß ist man recht sicher, dass man die Aufgabe genau so gelöst hätte, wie es im Lösungsteil angegeben ist, wenn man unmittelbar nach dem Lesen der Aufgabe die Lösung nachliest. Wenn man die Aufgabe aber tatsächlich zu lösen versucht, ergeben sich doch Fragen. Wir raten Ihnen deshalb, die Aufgaben wirklich erst ohne die Lösungshinweise im Anhang zu bearbeiten. Im Literaturverzeichnis finden Sie eine Liste kommentierter weiterführender Lite‐ ratur. Sollten wir etwas nicht in diese Liste aufgenommen haben, finden Sie die Quelle direkt in einer Fußnote. Im Literaturverzeichnis sowie im Text richten wir uns an die Zitationskonventionen von APA7, die zur Zeit des Entstehens dieses Buchs gültige Version des Publication Manuals der American Psychological Association (APA). Viele Zeitschriften in der Sprachlehrforschung richten sich derzeit nach APA, und die Konvention ist in allen gängigen Literaturverwaltungsprogrammen aufgenommen. Andere Stile sind aber auch möglich, und Sie sollten sich vor dem Verfassen Ihres Forschungsberichts informieren, welche für Ihr Institut oder die Zeitschrift, bei der Sie einen Artikel einreichen, gelten. Zum Thema Gendern: Wir wollten einen möglichst leicht lesbaren Text schreiben, sodass wir uns entschieden haben, in Bezug auf die angemessene Berücksichtigung beider Geschlechter bei den Personenbezeichnungen wie folgt vorzugehen: Wenn eine geschlechtsneutrale Form (wie z. B. „Lehrkraft“ oder „die Studierenden“) nicht existiert, verwenden wir für die Personen, die forschen, im Text immer die grammatikalisch feminine Form, für die Teilnehmer immer die grammatisch maskuline Form. Selbstver‐ ständlich sind immer beide Geschlechter gemeint. Dieses Buch wird durch zusätzliches Material im Internet ergänzt, das man unter der Adresse http: / / narr-studienbuecher.de/ index.php/ 14-roksprocket-mosaic/ 52-empiri‐ sches-arbeiten-in-linguistik-und-sprachlehrforschung abrufen kann. Ein großer Dank gilt neben den in den ersten drei Auflagen erwähnten Personen den Lektoren dieser Auflage, Tillmann Bub, Barbara Landwehr und Lena Fleper, für ihr sorgfältiges Lektorieren. Wir danken auch den Studierenden unserer Seminare und Workshops für wertvolle Hinweise, die zur Verbesserung des Manuskripts beigetragen haben, sowie den Mitarbeiterinnen Anna Gorsch und Leonie Twente für ihre sehr wertvollen Hinweise zu dieser Auflage. Wir denken in Dankbarkeit an den verstorbe‐ 14 Vorwort zur vierten Auflage <?page no="15"?> nen Co-Autor des Vorgängerbuchs aus dem Jahr 2002, Cor J. Koster, dessen gute Ideen wir übernehmen durften. Diese 4. Auflage ist eine vollständig überarbeitete Version der 3. Auflage aus dem Jahr 2016 und berücksichtigt einige neuere Forschungstendenzen und natürlich, dass auch wir immer weiter dazu lernen. Vorwort zur vierten Auflage 15 <?page no="17"?> Themen Sprachlehr‐ forschung Themen Linguistik 1 Zur Einführung Manche Sprachlehrpersonen fragen sich Dinge wie beispielsweise: - Wie lehrt man am besten Vokabeln? Sollte man den Schülern Vokabeln mit Hilfe von Texten beibringen, indem man ihnen eine Übersetzung der unbekannten Wörter eines Textes gibt, oder sollte man die Schüler die Bedeutung der Wörter aus dem Text heraus selbst erraten lassen? - Würden die weniger begabten Schüler mehr lernen, wenn ich die Gruppe aufspalte in eine mit den besseren und eine mit den schlechteren Schülern? - Sind Schüler, die zu Hause zwei Sprachen sprechen, tatsächlich im Schnitt besser beim Lernen des Englischen als diejenigen, die zu Hause nur Deutsch sprechen, oder ist das nur ein Eindruck, den ich aufgrund meiner eigenen Schülergruppe habe? Linguistinnen interessieren sich für ganz andere Fragestellungen, wie beispielsweise: - Unterscheidet sich das Versprachlichen von Aspekt im Deutschen (ich bin gerade dabei, spazieren zu gehen vs. Ich bin am Spazieren) durch Personen, deren Erstsprachen grammatikalisierten Aspekt haben (wie z. B. das Russische) von der Verwendung durch Personen, deren Erstsprache Aspektinformationen nur lexikalisch wiedergibt? - Wie unterscheidet sich die gesprochene von der geschriebenen Sprache in Bezug auf den Gebrauch von Steigerungspartikeln? - Worin unterscheidet sich die Sprache der Boulevardpresse von der seriöser Zei‐ tungen? Einige dieser Fragen können sehr leicht beantwortet werden, weil auf diesem Gebiet schon viel Forschung betrieben wurde. Trotzdem kann man der Meinung sein, dass man selbst mehr darüber herausfinden möchte, oder vielleicht ist die vorhandene Forschung zu einer bestimmten Frage für die eigene Situation nicht besonders relevant, oder man hat einfach Spaß an der Überprüfung von Vermutungen und Annahmen. Forschung kann von unterschiedlichen Personen in ganz unterschiedlichen Kontex‐ ten betrieben werden. Alles, was man braucht, ist Neugier, eine Menge Geduld, ein paar Kenntnisse über Forschungsparadigmen und Statistik und eine gehörige Portion gesunden Menschenverstand. Zusätzlich muss man über die möglichen Fallen Bescheid wissen, die einen bei einem Forschungsprojekt erwarten. In diesem Buch wollen wir Neugier wecken, erste Kenntnisse über Forschungsparadigmen und Statistik anlegen und vor möglichen Fallen warnen - die Geduld und den Menschenverstand müssen Sie selbst beisteuern. <?page no="18"?> εμπειρία - auf Erfah‐ rung beru‐ hend nicht-empi‐ rische Wis‐ senschaften latente Variablen Explorative Forschung 1.1 Empirische vs. nicht-empirische Forschung Empirische Forschung heißt wörtlich „auf Erfahrung beruhende Forschung“. Gemeint ist damit, dass eine systematisch zu erfassende Erfahrung die Grundlage bildet, um eine Frage zu beantworten. Das Ziel ist es, eine Gruppe oder ihr Verhalten durch die Analyse von bestimmten Merkmalen zu beschreiben. Diese Merkmale werden durch Verfahren („Erfahrungen“) wie Tests, Beobachtung oder Befragung untersucht. In nicht-empiri‐ schen Wissenschaften wie z. B. der Philosophie, der Literaturwissenschaft oder der Mathematik werden dagegen Erkenntnisse durch den Rückgriff auf logische Schlüsse gewonnen; diese sind oft nicht empirisch überprüfbar, sondern in sich schlüssig. Die systematisch erhobenen Erfahrungen, die die empirischen Untersuchungen be‐ schreiben, betreffen teils direkt beobachtbare und messbare Merkmale (z. B. Körper‐ größe in Zentimetern), teils nur indirekt beobachtbare, - sogenannte latente Merkmale (z. B. Motivation zu lernen oder Einstellungen einer Sprache gegenüber). Latente Merkmale sind übrigens in der Sprachlehrforschung besonders bedeutsam, weil viele Untersuchungsobjekte oder Konstrukte, die uns interessieren, nicht direkt wahrnehm‐ bar sind. 1.2 Forschungsparadigmen Forschungsparadigmen werden gewöhnlich in unterschiedliche (dichotome) Katego‐ rien unterteilt. Für die Linguistik und Sprachlehrforschung sind insbesondere drei Differenzierungen relevant: deduktiv vs. explorativ, qualitativ vs. quantitativ, und experimentell vs. nicht-experimentell. Alle Möglichkeiten sind unterschiedlich mitein‐ ander kombinierbar - allerdings hat es sich eingebürgert, dass bestimmte Paradigmen fast nur gemeinsam auftreten. Auch deswegen gibt es manchmal Verwirrung darüber, welches Paradigma eigentlich gerade eingesetzt wird. Wir gehen nun kurz auf jede Unterscheidung ein. 1.2.1 Exploratives vs. deduktives Vorgehen Exploratives (auch: interpretatives) empirisches Arbeiten hat das Ziel, ein Phänomen zunächst zu erkunden, um Hypothesen erst aufstellen zu können und zur Theoriebil‐ dung beizutragen. Deswegen ist das explorative Arbeiten in einem neu entstehenden Forschungsbereich sinnvoll und wichtig - damit erlangt man überhaupt Informationen zu einer Gruppe oder einem Verhalten. Explorative Studien arbeiten oft zunächst mit kleineren Gruppen von Informanden oder kleineren Mengen von Daten und fokussieren spezifische Aspekte der interessierenden Situation. Da Forschungsergeb‐ nisse aber meist nur dann für die praktische Anwendung verwertbar sind, wenn sie generalisierbar sind, wird meist anschließend für weitere Studien plädiert. 18 1 Zur Einführung <?page no="19"?> Deduktive Forschung hypothesen‐ prüfend quantitative Daten qualitative Daten Deduktives (auch: analytisches, nomologisches) empirisches Arbeiten hat dagegen als Ziel das Prüfen von Hypothesen (mehr dazu im nächsten Kapitel) und die Verall‐ gemeinerung von Aussagen. In hypothesenprüfenden Studien hat man eine Idee, wie sich eine Gruppe verhalten wird, und man prüft diese Idee wissenschaftlich. Ein kon‐ kretes Beispiel: Sie vermuten, dass Schüler der vierten Klasse, die zu Hause kein Deutsch sprechen, im Deutschen genauso komplexe syntaktische Strukturen verwen‐ den wie Schüler, die zu Hause nur Deutsch sprechen. Dies ist eine Hypothese (wenn noch keine wissenschaftliche, s. Kapitel 2). Sie planen dann eine Untersuchung, um diese Hypothese zu belegen oder zu widerlegen - sie also zu testen. 1.2.2 Qualitative vs. quantitative Verfahren Die Unterscheidung in qualitative und quantitative Verfahren ist eine recht einfache, auch wenn diese Verfahren oft mit explorativen und deduktiven Vorgehensweisen verquickt werden. Es handelt sich darum, ob wir unsere erhobenen Informationen (Daten) quantifizieren können. Wenn wir das Vorkommen von Merkmalen zählen - das gilt auch für Kategorien wie z. B. „Geschlecht“ (männlich, weiblich, divers, keine Antwort) oder Herkunftsland (Deutschland, Kanada, Niederlande etc.) - dann sind die Daten quantitativ. Wenn wir eine Verhaltensweise aus der Perspektive der Beforschten nachvollziehen wollen und keine quantifizierbaren Daten daraus ableiten, dann arbeiten wir qualitativ. Qualitative Verfahren setzen tendenziell eher Befragungen, insbesondere Interviews, ein. Da sie sich generell auf die Verbalisierung der Aktanten verlassen müssen, sind bestimmte Personengruppen mit diesem Ansatz schwieriger zu beforschen. So ist die Befragung von sehr jungen Lernenden (die ein eher niedriges Reflexionsvermögen haben), von Immigranten mit wenigen Kenntnissen der Befragungssprache (die u. U. Schwierigkeiten mit der Verbalisierung ihrer Meinungen in dieser Sprache haben), oder von Personenkreisen, für die die Datenschutzrichtlinien besonders stringent sind und die man deswegen oft nicht umfangreich befragen darf (Minderjährige, Geflüchtete, Personen mit Behinderung), oft weniger aussichtsreich. 1.2.3 Experimentelle vs. nicht-experimentelle Verfahren Schließlich kann eine Studie experimentell oder nicht-experimentell angelegt werden. Nicht-experimentelle Forschung beobachtet nur etwas, ohne dass die Forscherin versucht, das Verhalten ihrer Informanden zu beeinflussen. Meinungsumfragen sind ein typisches Beispiel dafür („Wie viele Menschen beantworten eine bestimmte Frage mit ja, wie viele mit nein? “). Oft werden Antworten miteinander in Verbindung gesetzt, um zu sehen, ob Zusammenhänge aufzufinden sind (z. B. ob die durchschnittliche Anzahl an gelernten Sprachen mit dem Alter der Befragten steigt, oder ob das Genus im Deutschen häufiger korrekt gebraucht wird bei Studierenden mit bestandener C1-Prü‐ fung oder bei Studierenden ohne Prüfung). Experimentelle Forschung ist dadurch 1.2 Forschungsparadigmen 19 <?page no="20"?> 2 Wie der Großteil der derzeitigen Dissertationen in der Sprachlehrforschung in Deutschland, s. Heine et al., 2020. Übrigens wird dagegen in der Bildungsforschung oft quantitativ, deduktiv und nicht-experimentell verfahren. Triangula‐ tion charakterisiert, dass etwas (beispielsweise die Menge Alkohol, die man zu sich nimmt, oder die Art und Weise, wie man lernt) manipuliert wird, d. h. von der Forscherin kontrolliert wird. Auf diese Möglichkeit gehen wir im Kapitel 8 gesondert ein. 1.2.4 Auswahl eines Forschungsparadigmas Welches Paradigma letztendlich gewählt wird, hängt vom Erkenntnisinteresse, von den Forschungsfragen und vom Stand der Forschung ab. Das bedeutet: Das Paradigma muss so ausgewählt werden, dass es zum Forschungsinteresse und Forschungskontext passt. Das soll auch dann gelten, wenn bestimmte Forschungsansätze gerade in einer Community in „Mode“ sind: Dass die Betreuerin oder sehr viele andere Forschende mit z. B. explorativen, nicht-experimentellen Verfahren arbeiten, die qualitative Daten erheben, 2 bedeutet nicht, dass man selbst so vorgehen muss. Die Auswahl jeder Vorgehensweise muss sehr sorgfältig anhand der verfügbaren Informationen und der genauen Fragestellung der Untersuchung getroffen werden. Übrigens wird oft auf eine Kombination (Triangulation genannt) unterschiedlicher Daten, Designs oder Forschungsparadigmen zurückgegriffen, um ein möglichst voll‐ ständiges Bild von den untersuchten Merkmalen zu erzielen. Ebenso ist es möglich, in einer einzigen Studie sowohl quantitative als auch qualitative Verfahren zu verwenden, je nachdem, was man untersuchen will (Mixed Methods-Designs). Für größere Arbeiten ist eine solche Kombination oft durchaus sinnvoll, für kleinere Arbeiten, wie im Rah‐ men einer studentischen Abschlussarbeit, ist dies meist nicht notwendig. Wir gehen in Kapitel 2 etwas detaillierter darauf ein. Wenn auch wir hier, wie üblich, die unterschiedlichen Arten von Forschung getrennt behandeln, bedeutet das nicht, dass es keine Grauzonen zwischen den Ansätzen gibt. In dieser Einführung versuchen wir einen verständlichen Zugang zu den Themen zu geben, sodass Sie eine erste Orientierung gewinnen. Dabei beschäftigen wir uns - wie im Vorwort erklärt - im Weiteren nicht mit qualitativer Forschung. Wenn Sie sich besonders dafür interessieren, empfehlen wir Ihnen als Einführung die Werke von Altrichter et al. (2018) sowie Friebertshäuser et al. (2013). 1.3 Wann eigentlich empirisch arbeiten? Bei aller Begeisterung für die Empirie: Nicht jede Art von Forschungsfrage, die man sich als Linguistin oder Sprachlehrforscherin stellt, erfordert eine empirische Untersuchung oder ist überhaupt sinnvoll mit einer empirischen Untersuchung zu beantworten. Angenommen, Sie wollten herausfinden, wie das Partizip II der regelmäßigen Verben im Deutschen gebildet wird, so ist die richtige Antwort durch die eigene Introspektion 20 1 Zur Einführung <?page no="21"?> Konversati‐ onsanalyse (wenn Sie eine kompetente Sprecherin des Deutschen sind und regelmäßige Verben erkennen können) oder durch Nachschlagen in Grammatiken erheblich schneller und zuverlässiger zu finden als z. B. mit einer Befragung oder einer Beobachtung von Sprechern des Deutschen. Insofern ist die Frage nicht trivial, ob eine Forschungsfrage eine empirische Untersuchung erfordert. Die Introspektion einer Sprachwissenschaftlerin als kompetenter Sprecherin der zu untersuchenden Sprache ist für große Teile der Sprachbeschreibung die sinnvollste Methode der Datengewinnung. Sie ist jedoch nicht anwendbar, wenn man befürchten muss, dass nicht alle Sprecher dieser Sprache zu denselben Ergebnissen kämen, wenn sie ihren eigenen Sprachgebrauch reflektierten. Das kann daran liegen, dass es regionale oder soziolektale Unterschiede gibt oder dass ein Unterschied zwischen Sprachnorm und Sprachgebrauch zu vermuten ist. Es kann auch sein, dass man sein eigenes Verhalten gar nicht gut genug kennt, um es beschreiben zu können (etwa beim Geben von Hörersignalen wie hmhm), oder dass man das sprachliche Verhalten von Gruppen beschreiben möchte, zu denen man nicht gehört (z. B. Kinder im Erstspracherwerb oder erwachsene Zweitsprachenlernende auf einem bestimmten Sprachniveau). Ebenso kann es sein, dass das zu untersuchende Phänomen äußerst komplex ist, sodass man bei einer Introspektion niemals alle Komponenten beachten könnte. Das ist z. B. in der Wirklichkeit des Fremdsprachenunterrichts immer so. Aber auch in der „reinen Linguistik“ gibt es sehr komplexe Phänomene zu untersuchen. Dazu gehört vor allen Dingen die Beschreibung des Ablaufs von Gesprächsformen, z. B. Kommu‐ nikation vor Gericht oder in der Schule, Verkaufsgespräche, Verhandlungsgespräche, Arzt-Patienten-Gespräche u. a. m. Für diese Untersuchungen gibt es eine spezielle lin‐ guistische Methode, die Gesprächsanalyse (Konversationsanalyse). Sie beruht auf speziellen Verfahren der Datenerhebung und der Datenaufbereitung, darunter beson‐ ders die Transkription der Gespräche nach festgelegten Notationen, die nicht nur den Wortlaut der Äußerungen, sondern auch Betonungen, Gleichzeitig-Sprechen, Pausen, Tonhöhenverlauf und vieles andere mit berücksichtigen. Da es für diese Art empiri‐ scher Forschung bereits gute deutschsprachige Einführungen gibt (z. B. Brinker & Sa‐ ger, 2006; Deppermann, 2008; Henne & Rehbock, 2019), und für die Gesprächsforschung mehrere Sonderbedingungen gelten, soll dieses Thema hier nicht weiter aufgegriffen werden. Wir beschäftigen uns also mit der nicht konversationsanalytisch ausgerichte‐ ten, quantitativen empirischen Forschung im Bereich Linguistik und Sprach‐ lehrforschung. 1.4 Zum Aufbau des Studienbuchs Empirische Forschung im Bereich Linguistik und in weiten Teilen der Sprachlehrfor‐ schung folgt den üblichen Regeln der empirischen Sozialforschung, d. h. die dort gel‐ tenden Gütekriterien und die dort geltenden Methoden werden von Linguistinnen und Sprachlehrforscherinnen genauso benutzt wie z. B. von Soziologinnen oder Psycholo‐ 1.4 Zum Aufbau des Studienbuchs 21 <?page no="22"?> Ziel des Stu‐ dienbuchs Schritt 1: Planungs‐ phase Schritt 2: Datenerhe‐ bung Schritt 3: Datenana‐ lyse ginnen auch. Das Ziel dieser einführenden Darstellung ist, einen Überblick über gän‐ gige Methoden zu geben und die Lesenden in die Lage zu versetzen, selbst eine empi‐ rische Untersuchung in diesem Bereich zu planen und durchzuführen. Dazu wird das Vorgehen bei einer empirischen Forschungsarbeit von der ersten Grobplanung bis zur Niederschrift des Forschungsberichts beschrieben. Um die Planungs- und Durchführungsschritte deutlicher darzustellen, teilen wir das Buch in vier „Schritte“ auf. In Schritt 1 besprechen wir, wie man seinen Untersuchungsgegenstand abgrenzen kann und was zur Vorplanung einer Studie gehört, dann beschreiben wir die Gütekri‐ terien für empirische Sozialforschung allgemein. Hier gehen wir in einem gesonderten Kapitel auf die Stichprobenziehung ein, die besonders zentral für valide Ergebnisse ist. In Schritt 2 fokussieren wir gängige Erhebungsmethoden und die damit verbundenen Instrumente der Datenerhebung. Gegenstand unserer Untersuchungen ist im allerwei‐ testen Sinne menschliches Verhalten, nämlich Sprachverhalten, Kommunikationsver‐ halten oder Lernverhalten. Um über dieses Verhalten mehr zu erfahren, gibt es drei verschiedene Herangehensweisen. Zunächst einmal kann man das zu untersuchende Verhalten dort untersuchen, wo es natürlicherweise stattfindet. Das ist in der Sprach‐ lehrforschung das am weitesten verbreitete der angewandten Verfahren. Man beob‐ achtet das Unterrichtsgeschehen einfach im „normalen“ Unterricht, oder man beob‐ achtet das (Lern- oder Sprech-) Verhalten einzelner Personen in Fallstudien. Zur Beobachtung gehören, streng genommen, auch die Korpusanalyse und das Testen, die wir aber auf Grund von deren Besonderheiten in separaten Kapiteln behandeln. Die zweite Möglichkeit ist die Befragung. Hier stört die Forscherin nicht den Prozess, über den sie etwas aussagen will, sondern sie bittet die am Prozess Beteiligten um Auskünfte. In diesem Fall wird die Wirklichkeit durch bewusste Prozesse derjenigen gefiltert, die befragt werden. Das ist vor allem dann problematisch und erfordert besonders ausge‐ feilte Techniken, wenn Normen im Spiel sind. Die dritte Möglichkeit der Verhaltens‐ beobachtung ist das Experiment oder - in Lehr-/ Lernkontexten - die Intervention. Dabei versuchen wir, alles auszuschließen oder konstant zu halten, was für die Untersuchungsfragestellung keine Rolle spielt. Störende Einflüsse kann es trotzdem geben. Im dritten Teil des Buchs geht es um die Aufbereitung und statistische Auswertung der Daten, die man erhoben hat. Wichtig: Geisteswissenschaftlerinnen fangen beim Wort „Statistik“ oft an zu schwitzen. Es gibt aber keinen Grund, vor Statistik Angst zu haben - wie wir in den Kapiteln 9-13 zeigen werden. Die eigentliche Rechenarbeit übernehmen heutzutage Computerprogramme, wichtig ist nur zu verstehen, was vom Programm berechnet wird und warum es so berechnet wird, damit man das richtige Verfahren auswählen kann. Der in dieser Einführung behandelte Teil der Statistik ist nur der, den man als Sprachwissenschaftlerin/ Sprachlehrforscherin tatsächlich häufig braucht. 22 1 Zur Einführung <?page no="23"?> Schritt 4: Forschungs‐ bericht Das letzte Kapitel erläutert, wie Sie Ihre unternommenen Planungen, erhobenen Daten und die daraus gewonnenen Ergebnisse in einem Forschungsbericht präsentie‐ ren können. Sie müssen die Kapitel natürlich nicht in dieser Reihenfolge bearbeiten. Es kann durchaus sinnvoll sein, vor der Lektüre des dritten Teiles zuerst die Ausführungen zu statistischer Signifikanz zu lesen (Kapitel 13) oder zu den Skalenniveaus (Kapitel 7) zu behandeln, bevor Sie mit Kapitel 3 beginnen. Letztendlich müssen wir in einem gedruckten Buch alles linear präsentieren; der Forschungsprozess ist dagegen oft iterativ (rekursiv), und man sollte sich durchaus bereits in der Planungsphase mit Skalenniveaus und Statistiken befassen, um spätere Probleme zu umgehen. Aufgabe Nehmen wir an, Sie sollten Forschung auf einer Reihe von Gebieten, die unten in etwa beschrieben werden, betreiben. Welche Art der Forschung wäre am besten geeignet (deduktiv, explorativ, experimentell, nicht-experimentell, qualitativ, quantitativ)? Be‐ gründen Sie Ihre Entscheidung! a. Der Einfluss eines Partybesuchs in der Nacht vor einer Prüfung auf die Ergebnisse dieser Prüfung b. Die Beziehung zwischen Sprachlaborübungen und Aussprache c. Welche Ansichten von de Saussure heute noch für die Linguistik relevant sind d. Die Fremdsprachenkenntnisse niederländischer Geschäftsleute e. Der Nutzen von Korrekturen der Grammatikfehler von Fremdsprachenlernern f. Die Verwendung von Höflichkeitsformen bei internationalen Verhandlungen g. Arten der Selbstkorrektur beim L1-(Erst-) und L2-(Fremd-/ Zweit-) Spracherwerb h. Ein Vergleich des stillen und des lauten Lesens bei der Entwicklung der Lesefähig‐ keit i. Welches Testverfahren am besten für die Diagnostik von Wortschatzkenntnissen in einer anschließenden Studie bei einer bestimmten Personengruppe eingesetzt werden sollte. Aufgabe 23 <?page no="25"?> Schritt 1: Planungsphase Das Interesse ist geweckt - mit hoher Motivation kann das Forschungsprojekt starten! Aber: Bevor es an die Datenerhebung - oder gar an das Zusammenschreiben - gehen kann, sind sehr viele Überlegungen durchzuführen und sehr viele Entscheidungen abzuwägen. Wie so häufig in der empirischen Wissenschaft, gibt es selten Entschei‐ dungen, die eindeutig richtig oder falsch sind. Jeder Teil eines empirischen Projektes muss sorgfältig und in Relation zu allen anderen Teilen abgewägt werden. Damit sind viele Teile des Planungsprozesses nicht linear zu bestimmen, sondern als Teil des Gesamtprojekts. In diesem Schritt besprechen wir die ersten Entscheidungen, die zu treffen sind, bevor man sich konkret für ein Forschungsdesign entscheidet und dieses dann aufbaut. Im Kontrast zu früheren Auflagen haben wir uns entschieden, dem Thema „Stich‐ probe“ ein eigenes Kapitel (Kapitel 3) zu widmen. Das liegt daran, dass die Zusam‐ mensetzung einer Stichprobe ganz besondere Überlegungen benötigt, die gesonderte Aufmerksamkeit verdienen. <?page no="27"?> 2 Planung einer empirischen Studie Hat man sich dafür entschieden, ein empirisches Forschungsprojekt durchzuführen - und hier ist es unwesentlich, ob das Projekt ein sehr kleines ist (wie zum Beispiel eine Studie im Rahmen einer Seminararbeit, die einen Fragebogen einsetzt) oder ein größeres (wie ein Dissertationsprojekt, das eventuell unterschiedliche Forschungsme‐ thoden und mehrere Erhebungsinstrumente verwendet) -, ist der wichtigste Schritt die Planung. Wenn man versucht, in der Planungsphase Zeit zu sparen, zum Beispiel weil man schnell Daten erheben möchte, verliert man erheblich mehr Zeit bei der Aus‐ wertung und Interpretation, weil unpassende Untersuchungsteilnehmer ausgewählt wurden, weil die Daten nicht das Phänomen abbilden, das sie abbilden sollen, oder weil man nicht weiß, was man mit den gesammelten Daten anfangen soll. In solchen Fällen - und das passiert häufiger, als man denkt - muss man völlig neu beginnen. Wir gehen im Folgenden auf erste Entscheidungen ein, bevor wir zentrale Themen der Forschungsplanung besprechen. 2.1 Erste Überlegungen Bevor man ein passendes Untersuchungsdesign auswählt, sind sehr viele Entscheidun‐ gen notwendig. Die folgenden Fragen sind nicht nacheinander „abzuarbeiten“, sondern werden gleichzeitig und in Relation zueinander beantwortet: 1. Sind forschungsethische Bedenken zu berücksichtigen? 2. Wie grenze ich die Studie durch eine Exploration der vorhergehenden Forschung zum gleichen Untersuchungsgegenstand ein? 3. Welche Konstrukte sind zentral und müssen definiert werden? 2.1.1 Forschungsethik In der Sprachlehrforschung machen wir uns oft kaum Gedanken darüber, dass wir Menschen durch eine Forschungsstudie schädigen könnten. Manchmal denkt man deswegen, ethische Fragen seien nicht so wichtig wie für medizinische oder pharma‐ zeutische Forschungsstudien. So ganz stimmt das aber nicht, denn erstens können trotzdem Schäden entstehen (wenn Teilnehmer z. B. durch eine Testung nervös oder sogar ängstlich werden, ist das kein sorgsamer Umgang mit ihnen), und zweitens sind die Vorgaben für „ethische Forschung“ in den letzten Jahren deutlich umfangreicher geworden. Während des gesamten Forschungsprozesses muss man sich immer wieder fragen: Was für Konsequenzen können die getroffenen Entscheidungen für die untersuchten Personen und die durch sie vertretene Gruppe haben? Das betrifft dann nicht nur den Prozess der Stichprobenauswahl oder der Datenerhebung, sondern auch, was mit <?page no="28"?> 3 Der „Verbund Forschungsdaten Bildung“ ist für diverse Fragen rund um den Forschungsprozess eine gute Quelle, auch für Forschungsethik: https: / / www.forschungsdaten-bildung.de/ ethische-aspekte# Ethisch-handeln-in-der-Forschungspraxis [30.11.2024]. 4 Eines der grundlegenden Anliegen von Open Science („offene Wissenschaft“) ist, dass Daten aufbereitet und dann für die nachhaltige Verwendung zur Verfügung gestellt werden. Damit können erstens Forschungsergebnisse durch Externe geprüft werden, zweitens müssen nicht immer neue Daten erhoben und eine bestimmte Zielgruppe damit belastet werden. den Daten später passiert. Auch wenn man keinen Ethikantrag stellen muss (was aber immer häufiger erforderlich wird), sollte man sich deswegen immer Gedanken zur Forschungsethik machen. Das Thema Ethik ist komplex. Wir geben hier daher nur zwei kleine Beispiele und empfehlen eine vertiefte Lektüre zu Forschungsethik, wenn Sie selbst mit selbst- oder auch fremderhobenen Daten (Sekundärdaten) arbeiten. 3 Beispiel 1: Jemand will wissen, ob Kinder in einem bestimmten Alter Partikelverben korrekt verwenden. Er kann zwar Daten von vielen Kindern einsammeln. Das erfordert aber viel Zeit - von den Kindern, aber auch von ihren Eltern (die die ganze Zeit mindestens dabei sein müssen oder auch Erhebungen durchführen, indem sie z. B. Beobachtungsbögen ausfüllen). Die Forschungsfrage kann man aber genauso gut (ver‐ mutlich noch besser) durch Rückgriff auf bereits bestehende Daten beantworten, indem man in einem öffentlichen Korpus recherchiert. Es wäre unethisch, neue Personen durch weitere Erhebungen zu belasten, wenn passende Daten bereits bestehen. 4 Beispiel 2: Jemand will herausfinden, wie der Englischunterricht an Grundschulen bewertet wird, und erstellt dafür einen (anonymisierten) Fragebogen für Eltern. Er führt dies an zwei Grundschulen durch und erhält mehr als 100 Antworten von den Eltern, die er dann auswertet. Es wäre trotzdem nicht ethisch, die Ergebnisse zu publizieren - denn es wäre schnell ersichtlich, um welche Lehrkräfte es sich handelt. (An den meisten Grundschulen gibt es nur eine Englischlehrkraft, sodass insgesamt nur zwei Personen eine „Bewertung“ erhalten - das könnte unglückliche Konsequenzen für sie haben.) Die meisten Hochschulen haben inzwischen Stellen, die zur Forschungsethik bera‐ ten. Nehmen Sie möglichst das Angebot wahr, bevor Sie zur Datenerhebung kommen. Das hilft, unbeachtete Konsequenzen für die Zielgruppe zu vermeiden. 2.1.2 Exploration Forschungsstudien beginnen mit einem Wunsch, etwas Unklares klarzustellen. In der Sprachlehrforschung hat man den Vorteil, dass sich viele interessante Themen direkt aus der Praxis ergeben. Als Lehrperson wird man täglich mit Fragen und Problemen konfrontiert, die sich hervorragend für kleinere oder größere Projekte eignen: Fällt es Schülern in bestimmten sprachlichen Kontexten leichter, französische Possessivpronomen korrekt zu verwenden? Hilft es, wenn Schüler anstatt des regulä‐ ren Sprachunterrichts jede Woche eine Stunde lang Grammatik mit Hilfe einer Lernapp üben? In welchen Situationen schafft es Janet, ein Adverbial ins Vorfeld zu setzen, ohne 28 2 Planung einer empirischen Studie <?page no="29"?> 5 In der Linguistik bedeutet das * vor einer Äußerung, dass die Äußerung fehlerhaft ist. 6 Thoma, D. (2024). Language-dependent emotions in heritage and second language bilinguals: When physiological reactions deviate from feelings. International Journal of Bilingualism, 28(3), 374-389. h ttps: / / doi.org/ 10.1177/ 13670069231159840 Erkenntnis‐ interesse Durchführ‐ barkeit vor das Verb noch das Subjekt zu stellen („Heute lerne ich Deutsch“ anstatt *„Heute, ich lerne Deutsch“ 5 )? Und hat Pierre, der aus Frankreich kommt, mit dieser Struktur mehr Probleme als Marijke aus den Niederlanden? Aber auch wenn man nicht in der beruflichen Praxis steht, trifft man auf erfor‐ schenswerte Bereiche: durch das eigene persönliche Umfeld, durch Seminarthemen oder durch Literaturrecherche. Wichtig dabei ist, dass man weiß, was genau untersucht werden soll. Das Formulieren eines Erkenntnisinteresses ist der erste Schritt dazu und ein zentraler Bestandteil der Explorationsphase. Zum Einschränken des Erkenntnisinteresses gehören drei zentrale Leitlinien: Ers‐ tens muss das Projekt machbar sein, zweitens muss es auf der Basis des relevanten Informationsstandes der Forschung aufgebaut werden, und drittens muss vor Beginn der Datenerhebung deutlich sein, zu welchem Zweck die Daten erhoben werden sollen. Machbar zu sein bedeutet mehreres. So muss das Projekt so weit eingegrenzt werden, dass es auch mit den zur Verfügung stehenden Mitteln und in der zur Verfügung ste‐ henden Zeit durchgeführt werden kann. Ist es dagegen zu weit eingegrenzt, läuft man Gefahr, dass die Ergebnisse nicht mehr valide sind (s. Kapitel 2.5). Hierzu gehören viele Überlegungen, z. B. zur Größe und Auswahl der untersuchten Gruppe. Möchte man herausfinden, ob es einen Unterschied zwischen Chinesen und Russen in der benötigten Unterrichtszeit zum Erreichen des GER A1-Niveaus in Deutsch gibt, kann man un‐ möglich sämtliche chinesischen und russischen Lerner testen, aber auch nicht einen chinesischen und einen russischen Lerner, die man zufällig kennt. Und ebenso braucht man eine Gruppe von Menschen, die zur Forschungsfrage passt - möchte man den bilingualen Spracherwerb untersuchen, hilft es wenig, wenn man keinen Zugriff auf junge Lerner hat (mehr zum Thema Stichproben lesen Sie in Kapitel 3). Ebenso wenig ist es für die meisten Untersuchungen sinnvoll, „Sprachkenntnisse“ generell überprü‐ fen zu wollen: Man wählt einen bestimmten, eingegrenzten Bereich aus und versucht, diesen genau zu untersuchen. So könnte man sich dafür entscheiden, Genuskongruenz in der Nominalphrase oder Erfolg beim Verstehen von Richtungsanweisungen oder das Gesamtergebnis in einem Spracherhebungsverfahren bei Kindergartenkindern ei‐ ner bestimmten Herkunft zu untersuchen. Machbar zu sein bedeutet aber auch, dass alles, was man für die Untersuchung braucht, auch vorhanden oder zu beschaffen ist. Möchte man physiologische Reaktio‐ nen durch Personen mit unterschiedlichen Erstsprachen messen, während sie Video‐ sequenzen auf Englisch ansehen, dann kann die Studie nur dann durchgeführt werden, wenn die Forscherin auch eine zuverlässige Möglichkeit hat, solche Reaktionen zu messen (z. B. elektrodermale Aktivität, Pupillendurchmesser). 6 Möchte man Fehler analysieren, die deutschsprachige Lerner beim Schreiben von Texten in Farsi machen, muss man diese Fehler auch kompetent erkennen können (d. h. man muss entweder 2.1 Erste Überlegungen 29 <?page no="30"?> Kenntnis der bisherigen Forschung Replikati‐ onsstudien selbst fundierte Farsikenntnisse oder Zugriff auf jemanden mit diesen Kenntnissen haben). Die Einschätzung der Machbarkeit hängt wie viele andere zentrale Themen davon ab, wie informiert die Studie ist. Das bedeutet nichts Anderes, als dass man sich - genau wie für eine Seminararbeit - vor der endgültigen Formulierung einer For‐ schungsfrage durch vertiefte Literaturrecherche über die vorliegenden Erkenntnisse zum Thema informiert, und zwar sowohl über den Forschungsgegenstand als auch über die mögliche Forschungsmethodik. Das hilft sowohl das Projekt zu planen als auch Fallen beim Untersuchungsaufbau zu vermeiden: Man lernt aus den Überlegungen anderer, vor allem wenn dabei die einzelnen Schritte der Planung und Durchführung besprochen werden. Eine grundlegende Literaturrecherche zeigt v. a., was für eine Forschungsstudie man überhaupt durchführen kann - d. h., ob sie explorativ, deskriptiv oder explanativ (erklärend) sein soll (s. Kap.-2.3.2). Schließlich muss man wissen, zu welchem Zweck die Daten erfasst werden. Bereits vor der Datenerhebung muss man überlegen, welche Schlussfolgerungen man hinter‐ her tatsächlich aus den Ergebnissen ziehen kann. Soll z. B. eine bestehende Hypothese oder Theorie überprüft werden, so wird man sich fragen, welche Vorhersagen diese für bestimmte Situationen impliziert. Dann kann man versuchen, entsprechende Situationen zu beobachten oder sie künstlich zu schaffen, um zu überprüfen, ob sich die Wirklichkeit den Vorhersagen entsprechend verhält. Das ist keine Lappalie: Viele laienhaft angelegte empirische Untersuchungen sam‐ meln Daten, die dann nicht interpretierbar sind. Man beobachtet z. B. bei Befragungen oft, dass Studierende Fragen stellen, ohne sich vorher ausreichend überlegt zu haben, was die möglichen Antworten für ihre Untersuchung überhaupt bedeuten können („Ich sehe mal, was dabei herauskommt“). Den daraus resultierenden Problemen kann man entgehen, indem man den Fragebogen oder das Interview vor dem Einsatz systematisch daraufhin untersucht, ob die zu erwartenden Antworten überhaupt für die Argumentation zu gebrauchen sind. Vor allem für erste empirische Versuche wie im Rahmen von Seminar- oder Ab‐ schlussarbeiten sind Replikationsstudien sehr zu empfehlen (vgl. Porte & McManus, 2019). Replikationsstudien testen, ob sie die Ergebnisse aus anderen Studien wieder‐ holen können. Sie können sehr eng an das Design der ersten Studie angelehnt werden, indem sie z. B. dieselbe Untersuchungsfrage und dasselbe Untersuchungsdesign ein‐ setzen, oder leicht unterschiedlich sein, indem sie z. B. mit einer unterschiedlichen Zielgruppe oder einer unterschiedlichen Zielsprache die gleiche Untersuchung durch‐ führen. Wenn man eine Replikationsstudie durchführt, hat man die Gelegenheit, ers‐ tens die theoretischen Grundlagen und den daraus entwickelten Forschungsprozess stark angeleitet zu erleben und zu reflektieren, zweitens aber auch, die Ergebnisse aus anderen Untersuchungen zu prüfen (und zu bestätigen bzw. in Frage zu stellen). Neben diesen Vorteilen haben Replikationsstudien für die gesamte Forschungsgemeinschaft einen nicht zu unterschätzenden Wert: Sie tragen dazu bei, die Verlässlichkeit von Er‐ kenntnissen und damit die Transparenz von empirischen Studien zu stützen, und gehen 30 2 Planung einer empirischen Studie <?page no="31"?> 7 Gigerenzer, G. (2018). Statistical rituals: The replication delusion and how we got there. Advances in Methods and Practices in Psychological Science, 1(2), 198-218. https: / / doi.org/ 10.1177/ 2515245918771 329 Operationa‐ lisierung Konstrukt damit auf die viel diskutierte „Replikationskrise“ ein. 7 Daher werden sie immer häufiger in wissenschaftlichen Zeitschriften anerkannt und veröffentlicht. 2.1.3 Operationalisierung zentraler Begriffe Spätestens im Laufe der Explorationsphase wird deutlich, dass man mit bestimmten Begriffen und Annahmen arbeitet, die nicht immer gleich verstanden werden, und die näher bestimmt werden müssen. Man muss also damit beginnen, zentrale Konstrukte zu operationalisieren. Zunächst zum Begriff Konstrukt. Bei manchen Begriffen weiß jede Zuhörerin, was wir damit meinen. Sage ich zum Beispiel, dass ich heute 10 km gelaufen bin, ist die Distanz unproblematisch - jede weiß oder kann zumindest sicher nachschlagen, wie weit 10 km sind. Mit dem Begriff „laufen“ ist es schon schwieriger, da müsste ich evtl. hinzufügen, dass ich 5 km in einem bestimmten Tempo gejoggt und im restlichen Ta‐ gesverlauf weitere 5 km gegangen bin, z. B. durch den Gang von der Bushaltestelle zur Bibliothek. In der Linguistik und Sprachlehrforschung ist die Bestimmung von Begriffen, die für Forschungsstudien relevant sind, selten einfach. Wir machen das an zwei Beispielen deutlich. Nehmen wir an, es soll untersucht werden, ob man das Hörverstehen von Fremdsprachenlernern besser mit der Methode X oder mit der Methode Y fördern kann. Dann wird eine ganz entscheidende Frage für den Wert der Untersuchung sein, ob es gelingt, den Faktor „Hörverstehen“ hinreichend von anderen Faktoren zu isolieren (wir operationalisieren das Konstrukt). Denn ob die Lerner etwas verstehen, hängt nicht nur vom eigentlichen Hörverständnis ab, sondern sie nehmen z. B. ihr Weltwissen und Informationen aus der Situation zu Hilfe, und in der Planung der Untersuchung muss man das berücksichtigen (man muss also konfundierende Faktoren identifizieren und ausschließen, worauf wir unten eingehen). Es wird auch wichtig sein, zu entscheiden, ob „Hörverstehen“ rein auditiv gemessen sein soll, oder ob audiovisuelles Verstehen (also mit einer Unterstützung durch visuelle Informationen wie Bilder oder Videos) dazu gehört. Eine Möglichkeit, ein Konstrukt zu operationalisieren, ist es, auf bekannte Testformate zu verweisen. So könnte man „Hörverstehen“ z. B. als „Erreichte Punktzahl im Test Z“ operationalisieren. Das ist dann eine handhabbare Möglichkeit, etwas zu messen, was auch leicht überprüft (oder sogar repliziert) werden kann. Ein zweites Beispiel führen wir für korpusanalytische Untersuchungen an. Nehmen wir an, wir wollen auszählen, in welchen Satzarten bestimmte Modalpartikel vorkom‐ men. Wenn z. B. die Beschreibung der Fälle, in denen eben als Modalpartikel angesehen wird (Männer sind eben so), nicht exakt genug ist, werden Adverbien mitgezählt (Eben war Fritz noch nüchtern). 2.1 Erste Überlegungen 31 <?page no="32"?> 8 Dass auch publizierte Forschungsstudien nicht immer ihre eigenen Operationalisierungen konse‐ quent einhalten, ist gut dokumentiert, z. B. hier: Boers, F., Bryfonski, L., Faez, F. & McKay, T. (2021). A call for cautious interpretation of meta-analytic reviews. Studies in Second Language Acquisition (SSLA), 43(1), 2-24. https: / / doi.org/ 10.1017/ S0272263120000327 9 Weitere Probleme - die Gruppen können vorher unterschiedlich viel gewusst haben, wir wissen nicht, was wirklich der Lernzuwachs ist, wenn der Test nicht vorher schon gemacht wurde, usw. - behandeln wir später in diesem Kapitel bei den konfundierenden und Kontrollvariablen. Durch die Operationalisierung können Begriffe standardisiert und transparent dargestellt und eine Studie im Gesamtforschungskontext verortet werden. Die Prüfung der Operationalisierung soll daher auch bei zentralen Konstrukten in allen herangezo‐ genen Forschungsstudien, auf die man selbst referiert, erfolgen. 8 2.2 Formulierung einer Forschungsfrage Nach der Exploration wird (mindestens) eine Forschungsfrage bestimmt. Diese ver‐ deutlicht möglichst präzise, worum es in der Studie geht; sie entwickelt sich aus dem Erkenntnisinteresse und der Literaturrecherche und spiegelt häufig den theoretischen Rahmen wider, in den die Studie eingebettet ist. Nehmen wir an, wir interessieren uns für den Einfluss einer Sprachlernapp auf das Lernen des Unterschieds zwischen dem present perfect tense und dem simple past tense im Englischen. Angemessen ist eine Fragestellung, die das Forschungsinteresse möglichst klar darstellt, z. B. „Lernen Schüler, die - nach derselben Einführung in den Unterschied zwischen den beiden Tempusformen - dazu zwei Stunden mit der Lernapp X üben, besser als Schüler, die im gleichen Zeitraum dieselben oder sehr ähnliche Übungen im Arbeitsbuch lösen, und zwar gemessen an der Leistung bei einem Entscheidungstest mit diesen beiden Tempusformen? “ Diese Frage sagt uns, (1) was der Forschungsgegenstand ist (Vergleich zwischen dem Lernen mit einer App und dem Lernen mit einem Arbeitsbuch in einer Situation, in der möglichst nur das Lernmedium verschieden ist), (2) wie der Forschungsgegenstand operationalisiert wird (Lernen des Unterschieds zwischen present perfect und simple past), und (3) wie „Lernenerfolg“ operationalisiert wird (Ergebnis bei einem Test, in dem die Schüler entscheiden müssen, ob die richtige Tempusform eingesetzt worden ist). 9 Problematisch dagegen wäre eine Fragestellung wie die folgende: „Lernen Schüler besser mit Hilfe einer Sprachlernapp? “, denn diese Frage sagt uns weder, was unter „Lernen“ verstanden wird, noch was die Schüler lernen sollen (man kann z. B. relativ sicher sein, dass eine App weniger hilfreich ist, wenn man in der Fremdsprache streiten lernen möchte), noch wie man den Erfolg des Lernens feststellen will. 2.3 Verortung und Gestaltung der Studie Mit dem Formulieren einer Forschungsfrage müssen mehrere weitere Entscheidungen getroffen werden, bevor die Studie im Detail geplant werden kann. Denn welche 32 2 Planung einer empirischen Studie <?page no="33"?> explorativ deskriptiv erklärend korrelativ Art von Frage man stellt, hängt vom Erkenntnisinteresse ab und beeinflusst das Untersuchungsdesign. Wir gehen nun auf zentrale Einordnungsmerkmale ein und erklären sie kurz. 2.3.1 Grundlagen- oder experimentelle Forschung? Eine vertiefte Literaturrecherche ist notwendig, um zu entscheiden, ob man Hinter‐ grundwissen zum Forschungsgegenstand aufbauen will, weil noch keine ausreichende Grundlage besteht, oder ob man untersuchen will, ob eine Änderung in der (Lern-/ Lehr-)Situation etwas bewirken kann. Im ersteren Fall arbeitet man im Rahmen der Grundlagenforschung und versucht, weitere Informationen z. B. zum Verhalten von Personen oder zur sprachlichen Entwicklung einer Zielgruppe herauszufinden. In der experimentell ausgerichteten Interventions- und Evaluationsforschung, die auf solchen Grundlagen aufbaut, entwickelt die Forscherin bestimmte Maßnahmen im Lernkontext oder ändert bestimmte Variablen und untersucht, wie Personen (oft Lerner) darauf reagieren. Das Ziel ist also, einer Wirkung einer Variablen auf eine andere (Kausalität) nachzugehen. Der experimentellen Forschung widmen wir uns in Kapitel 8, weil sie eine ganz besondere Forschungskonstellation erforderlich macht. 2.3.2 Explorativ, beschreibend oder erklärend? Welches Ziel verfolgt die Untersuchung: Soll das Forschungsinteresse neu erschlossen werden (explorativ)? Soll die Studie eine Begebenheit oder Population beschreiben (deskriptiv)? Oder soll eine Erklärung für bestimmte Phänomene gefunden werden (erklärend)? Explorative Fragestellungen werden häufig in wenig erschlossenen Bereichen auf‐ gestellt und sollen dazu dienen, der Forschungsgemeinschaft in einem Thema oder Forschungsfeld Orientierung zu bieten. Fragen wie „Wie empfinden Sprachlehrkräfte in Schulen mit sonderpädagogischem Schwerpunkt die Unterrichtssituation in mehr‐ sprachigen Lerngruppen? “ sind oft explorativ, weil so wenig über die Situation bekannt ist. Eine deskriptive Studie ist dagegen fokussierter in der Ausrichtung und interessiert sich für die Beschreibung einer Begebenheit. Eine typische deskriptive Frage wäre: „Wie häufig erhalten Grundschüler mit türkischem Migrationshintergrund eine Gym‐ nasialempfehlung? “ Viele deskriptive Fragen werden allerdings erst dann interessant, wenn sie korrelativ formuliert sind. Eine korrelative Fragestellung fragt, welche Va‐ riablen häufig zusammenkommen, z. B. „Erhalten Grundschüler mit türkischem, rus‐ sischem und italienischem Migrationshintergrund mit unterschiedlicher Häufigkeit eine Gymnasialempfehlung im Vergleich zu Kindern ohne Migrationshintergrund? “ Schließlich versucht eine erklärende (kausale) Fragestellung, Gründe oder Auslöser für bestimmte Variablen nachzuweisen, z. B. „Erhalten Grundschüler mit türkischem Migrationshintergrund häufiger eine Gymnasialempfehlung, wenn ihre Schulnoten 2.3 Verortung und Gestaltung der Studie 33 <?page no="34"?> Laborstudie Feldstudie ökologische Validität und das Ergebnis in einem Leistungstest anonymisiert an eine externe Kommission gegeben werden? “ 2.3.3 Feld- oder Laborstudie? Je nach Forschungsfrage, Stichprobenzugriff und beabsichtigtem Untersuchungsdesign wird eine Studie Daten erheben, die eher in einem natürlichen Setting vorkommen oder die in einer durch die Forscherin künstlich geschaffenen Situation entstehen. Es gibt gute Gründe für beide Settings, die oft mit Fragen der Validität (s. Kapitel 2.5) zusam‐ menhängen. Studien der Psycholinguistik arbeiten fast nur in einer künstlich geschaf‐ fenen Situation - man nennt das auch eine Laborstudie -, wenn sie z. B. Sprachdaten elizitieren oder Experimente durchführen. Auch Interviewstudien können als Labor‐ studien durchgeführt werden, wenn sie außerhalb vom regulären Wirkungs- oder Lernort stattfinden. Dagegen sind Studien der Soziolinguistik fast immer Feldstudien, wenn das Ziel ist, ein natürliches Sprachverhalten unterschiedlicher Personen zu be‐ schreiben. In der Sprachlehrforschung werden beide herangezogen, denn Feldstudien sind für bestimmte Forschungsfragen sinnvoller als Laborstudien, und für andere Fra‐ gen ist es genau umgekehrt. Wir reflektieren das an einem Beispiel einer (experimentellen) Interventionsstudie, die die Effektivität einer Vokabellernmethode prüfen will. Wir stellen uns vor, wir set‐ zen die Methode in einer Situation mit besonders guten Bedingungen ein (viel Ruhe, kein Zugriff auf Handys, angenehmer Lernort usw.) Damit sind wir sicher, dass die Intervention einigermaßen zuverlässig umgesetzt werden kann (sie wird eine hohe interne Validität aufweisen). Das bedeutet aber längst nicht, dass die Methode genauso gut in der echten Unterrichtssituation funktioniert, in der manche Teilnehmende heim‐ lich TikTok-Videos anschauen, andere sich über die komische Frisur des Sitznachbarn wundern und wiederum andere gegen den Stuhl der Person, die vor ihnen sitzt, treten. Das ist besonders bei Interventionen sehr wichtig: Die Durchführung einer Studie ist immer ein Balanceakt zwischen dem Schaffen guter Lern- und Erhebungsbedingungen und der Erhöhung der externen oder ökologischen Validität. Für Interventionen ist es empfehlenswert, Intervention und Datenerhebung in der normalen Lern- oder Verwendungssituation durchzuführen. Diese kann z. B. im regulären Klassenraum zu den regulären Unterrichtszeiten stattfinden (oder bei digitalen Lernumgebungen z. B. auch zu Hause). Allerdings soll hier besonders auf situative Unterschiede zwischen den Vergleichsgruppen geachtet werden, die die Validität wiederum gefährden können. 2.3.4 Querschnitt oder Längsschnitt? Der Untersuchungszeitraum hat eine Auswirkung auf mehrere wichtige Faktoren, u. a. die Durchführbarkeit der Studie, aber auch die Art der statistischen Verfahren, die man später zur Analyse der Daten heranzieht. 34 2 Planung einer empirischen Studie <?page no="35"?> 10 Bei gemischten Verfahren wird eine Kohortenstudie überlappend longitudinal angelegt, um Ände‐ rungen nachzugehen, ohne die Teilnehmer längere Zeit zu untersuchen. Das funktioniert dann so, dass der Zeitpunkt für die Enderhebung bei einer Gruppe immer nach dem Zeitpunkt für die Starterhebung der nächsten Gruppe liegt (Gruppe A wird in Lernmonaten 0-6 untersucht, Gruppe B in Lernmonaten 3-9, Gruppe C in Lernmonaten 6-12 etc.). Querschnittstudie Longitudi‐ nalstudie Fallstudie Ein Untersuchungsdesign kann als Querschnitt oder longitudinal ausgelegt sein. Eine Querschnittuntersuchung erhebt Daten zu einem einzigen Zeitpunkt. Dies ist z. B. bei der zentralen Abiturprüfung oder einer Sprachstandserhebung der Fall. Meistens (aber nicht immer) handelt es sich dabei um Erhebungen bei größeren Gruppen. Quer‐ schnittstudien sind vergleichsweise schnell und ökonomisch durchzuführen und zu‐ dem einfacher zu wiederholen. Allerdings können sie keine Aussagen zu Änderungen über die Zeit (z. B. Lerneffekte) oder zu Kausalitätsbeziehungen machen (also ob eine Variable einen Einfluss auf eine zweite Variable hat). In der Spracherwerbs- und Sprachlehrforschung werden deswegen oft Longitudi‐ nalstudien (Längsschnittstudien) eingesetzt. Sie erlauben, Änderungen im Laufe der Zeit zu verfolgen, da sie Daten - meistens von denselben Teilnehmern (panel study) - zu mehreren Zeitpunkten erheben. Dies ist besonders wichtig, wenn man Änderungen auf Grund von Älterwerden (z. B. zu welchen Zeiten bilinguale Kinder bestimmte Strukturen erwerben) oder Interventionen nachgehen will. Auch Longitudinalstudien haben Vor- und Nachteile, die sorgfältig abgewogen werden müssen. Sie dauern länger als Querschnittsuntersuchungen und sind somit für Abschlussarbeiten oft nicht reali‐ sierbar. Außerdem verliert man meist im Laufe der Untersuchung aus unterschiedli‐ chen Gründen Studienteilnehmer. Und schließlich treten Übungseffekte auf: Wer schon fünfmal eine Aufgabe gelöst hat, kennt sich schlichtweg besser damit aus als am An‐ fang. Varianten von Longitudinalstudien, die den Verlust von Studienteilnehmern an‐ gehen, sind Trendstudien (unterschiedliche Gruppen werden zu unterschiedlichen Zeiten untersucht, z. B. bei Meinungsumfragen) und Kohortenstudien, in denen zwar nicht genau dieselben Teilnehmer, jedoch dieselben Kohorten mehrfach untersucht werden (z. B. bei den PISA-Erhebungen; es werden nicht immer dieselben 15-Jährigen untersucht, dafür immer 15-Jährige). 10 2.3.5 Fallstudie oder Gruppenstudie? Seminar- und Abschlussarbeiten benutzen nicht selten sehr kleine Informandengrup‐ pen, die manchmal sogar aus nur einem einzigen Teilnehmer oder einer einzigen Gruppe (z. B. einer Klasse) bestehen und somit als Fallstudien bezeichnet werden. Fall‐ studien sind in quantitativen Paradigmen sehr selten und werden meist in einem von zwei Kontexten eingesetzt: Als Pilotstudie vor der eigentlichen Untersuchung oder gelegentlich in Studien zu seltenen Aphasieerscheinungen u.ä. Manchmal wird in einer Fallstudie mehr als nur eine Person untersucht, aber die Anzahl ist immer sehr klein und daraus gezogene Erkenntnisse haben den bedeutenden Nachteil, dass sie nicht 2.3 Verortung und Gestaltung der Studie 35 <?page no="36"?> Hypothe‐ senprüfende Forschung Allgemein‐ gültigkeit direktional generalisierbar sind, sie können also nicht als Erkenntnis für eine Gesamtpopulation verstanden werden. Meistens hat man es in Linguistik und Sprachlehrforschung jedoch mit mehr als nur einer Person zu tun. Solche Gruppenstudien stärken das Gütekrite‐ rium der externen Validität (s. u.) und erlauben, Schlussfolgerungen über eine be‐ stimmte Gesamtpopulation zu ziehen. 2.4 Formulierung einer Hypothese Hypothesenprüfende Forschung untersucht, ob eine bestimmte Annahme darüber, was eine Studie als Ergebnis haben wird, der Überprüfung in der Realsituation standhält. Nicht jede empirische Studie ist hypothesenprüfend, jedoch sind es die meisten Studien, die quantitative Daten im Rahmen von erklärenden Paradigmen erheben. Bei explorativen Fragestellungen werden keine Hypothesen aufgestellt, bei beschreibenden meist auch nicht. Die Art der Hypothese hat zudem eine Auswirkung auf spätere statistische Signifikanztestung. Wir gehen auf die wichtigsten Kriterien für eine empirische Hypothese am Beispiel unserer Fragestellung in Kap. 2.2 ein, wofür eine denkbare Hypothese lauten könnte: „Schüler, die mit der Sprachlernapp X üben, erzielen bessere Ergebnisse in einem Test zu den Tempusformen present perfect tense und simple past tense als Schüler, die nur mit dem Arbeitsbuch üben.“ 1. Eine Hypothese hat eine theoretische Begründung (d. h. sie soll nicht nur auf persönlicher Erfahrung beruhen). 2. Eine Hypothese strebt Allgemeingültigkeit an - das heißt, sie geht über den Ein‐ zelfall hinaus. In unserem Beispiel werden wir natürlich nicht sämtliche Schüler, die es gibt, untersuchen; trotzdem soll die Hypothese nicht nur für die Schüler gelten, die an der Untersuchung teilnehmen. 3. Eine Hypothese soll möglichst direktional sein, also eine bestimmte Richtung der Ergebnisse voraussagen. In unserem Beispiel sagen wir für eine der beiden Mög‐ lichkeiten des Übens (mit einer Sprachlernapp vs. mit dem Arbeitsbuch) voraus, dass sie zu besseren Ergebnissen führt. Die Richtung basiert auf der Theorie und auf bisherigen Forschungsergebnissen. Hypothesen können auch nicht-direktional sein; in diesem Falle besagen sie einfach, dass eine Beziehung zwischen Ereignissen zu finden sein wird - aber nicht, was für eine. Diese Variante wird aber seltener gewählt. Die Konstrukte werden (wenn auch meist implizit) durch einen logischen Operator in Form eines Konditionalsatzes verbunden. Für Zusammenhangshypothesen, also Hypothesen, die einer Beziehung zwischen Variablen nachgehen, ist der Operator „je-desto“ passend, z. B. „Je älter ein Kind, desto größer ist es“ (zumindest bis zu einem gewissen Alter). Wird ein Experiment durchgeführt, kann auch eine kausale Hypothese formuliert werden, die dann durch „wenn-dann“ ausgedrückt werden 36 2 Planung einer empirischen Studie <?page no="37"?> falsifizierbar probabilis‐ tisch kann. Also in unserem Fall, wenn ein Schüler mit der App übt, dann lernt er besser, als wenn er mit einem Buch übt. 4. Eine Hypothese ist falsifizierbar, d. h. es muss möglich sein, zu beweisen, dass die Hypothese nicht gilt. Es ist durchaus denkbar, dass unsere Untersuchung entweder keinen Vorteil für Schüler, die mit der App geübt haben, ergibt (also beide Gruppen im Test gleich gut sind) oder dass es einen Vorteil für die Buch-Gruppe gibt. In beiden Fällen wäre die Hypothese zu verwerfen. 5. Eine Hypothese ist probabilistisch, nicht deterministisch. Wir sagen Tendenzen voraus, so dass ein einziger Fall, der nicht so funktioniert, wie wir es erwarten, nicht dazu führt, dass die ganze Hypothese verworfen wird. Versuchen wir es jetzt mit einem weiteren Beispiel. Man könnte die Hypothese aufstel‐ len: „Katholische Deutschsprachige gebrauchen bei der Bezeichnung von Vergangenem das Perfekt, andere Deutschsprachige nicht.“ Die Hypothese versucht, eine Aussage über katholische Deutschsprachige im Allgemeinen zu machen - also nicht nur solche, die z. B. in Mainz leben, - sowie über alle weiteren Deutschsprachigen. In unserer Hypothese gilt aber implizit auch eine Universal-Aussage, d. h. ein einziger Katholik, der das Präteritum oder das Plusquamperfekt statt des Perfekts gebraucht, würde unsere Hypothese schon widerlegen. Ebenfalls wäre die Hypothese bereits mit dem Nachweis falsifiziert, dass eine einzige nicht-katholische Person einmal das Perfekt benutzt hat. Die Hypothese ist hier also deterministisch. Eine realistischere Hypothese wäre dagegen: „Katholische Deutschsprachige ge‐ brauchen das Perfekt häufiger als nicht-katholische.“ Die Hypothese besagt also, dass wenn ein Sprecher katholisch ist, dann gebraucht er das Perfekt bei der Bezeichnung von Vergangenem häufiger, als wenn er nicht katholisch ist. Die Hypothese könnte jetzt durch einen Befund bestätigt werden, nämlich durch den, dass man, wenn man eine hinreichend große Gruppe von katholischen und von nicht-katholischen Sprechern des Deutschen untersucht, bei den katholischen Sprechern, bezogen auf die Gesamtverteilung der Vergangenheitstempora, anteilig mehr Perfekt findet als bei den nicht-katholischen. Die Hypothese wäre falsifiziert bzw. widerlegt, wenn sich kein Unterschied in der Häufigkeit des Perfektgebrauchs aufzeigen lässt. Eine Falsifizierung der aufgestellten Hypothese heißt noch nicht, dass das Gegenteil bewiesen wäre (also dass Katholiken das Perfekt weniger gebrauchen als andere Sprecher des Deutschen), es heißt nur, dass unsere Daten keine Unterstützung für die Annahme liefern, Katholiken gebrauchten mehr Perfekt als Nicht-Katholiken. 2.4 Formulierung einer Hypothese 37 <?page no="38"?> 11 Für die qualitative Forschung gelten andere Gütekriterien, auf die wir hier nicht eingehen; wenn Sie sich weiter informieren möchten, verweisen wir auf Steinke (1999). 2.5 Prüfen der Gütekriterien Bei jeder empirischen Untersuchung entstehen einige naheliegende grundsätzliche Fragen, die bei der Planung beachtet werden müssen und die wir anhand von zwei Beispielen verdeutlichen wollen. 11 Angenommen, wir wollen die Übersetzungsfertigkeit von Studierenden messen und haben dazu einen Text von 200 Wörtern ausgesucht, der in die Fremdsprache übersetzt werden soll. Manche Studierenden haben eine gute Übersetzung geschrieben, manche eine mittelmäßige oder schlechte. Wissen wir auf Grund dieser Übersetzungen dann, ob diese Studierenden gut oder schlecht übersetzen können? Oder könnte es sein, dass wir ganz andere Resultate bekommen hätten, wenn wir einen anderen Text ausgesucht hätten, einen Text über ein anderes Thema, einen viel längeren Text oder einfach eine Liste von Wörtern? Und angenommen, wir hätten diesen Text von einer von drei Gruppen Erstsemester-Studierenden der Anglistik übersetzen lassen, können wir dann anhand der Ergebnisse dieser Übersetzungen etwas über die zu erwartende Übersetzungsfertigkeit der anderen beiden Gruppen aussagen? Oder über die Fähigkeiten von Erstsemestern allgemein im Übersetzen? Oder nehmen wir an, wir lassen eine Dozentin Essays beurteilen, die Studierende in einem Kurs „Schriftlicher Ausdruck“ geschrieben haben. Wie sicher können wir sein, dass die Kriterien, die die Dozentin benutzt, gut und konsistent sind? Würde eine andere Dozentin dieselben Noten vergeben? Und können wir, wenn ein Student eine gute Note für diesen Essay bekommen hat, annehmen, dass er sich gut schriftlich ausdrücken kann? Die oben gestellten Fragen beziehen sich unter anderem auf die Reliabilität, die Vali‐ dität und die Objektivität der jeweiligen Untersuchung. Diese Gütekriterien behandeln wir zwar wie üblich getrennt, sie greifen aber häufig ineinander. In der Linguistik und Sprachlehrforschung haben wir es übrigens mit sehr unter‐ schiedlichen Situationen und vor allem sehr vielen unterschiedlichen Faktoren (die individuellen Faktoren der Teilnehmer, unterschiedliche Lernkontexte u. a.) zu tun, die Einfluss auf die Gütekriterien haben können. Auch bei einem umsichtig angelegten Untersuchungsverfahren können Ergebnisse durch störende Einflüsse beeinträchtigt werden - diese sollten möglichst vermieden werden (s. u. zu den Störfaktoren). 2.5.1 Zuverlässigkeit (Verlässlichkeit, Reliabilität) Die Begriffe „Zuverlässigkeit“, „Verlässlichkeit“ und „Reliabilität“ werden synonym gebraucht; sie bezeichnen dasselbe, und zwar, ob das Messverfahren das, was gemessen werden soll, exakt erfasst und ob die Daten, die damit gewonnen wurden, zuverlässig ausgewertet sind. Als reliabel gilt eine Erhebung (und das bei dieser Erhebung benutzte Instrument) dann, wenn die Messung genau ist. 38 2 Planung einer empirischen Studie <?page no="39"?> 12 Wenn es sich um sehr viele Texte handelt, lassen wir meist nur einen Anteil der Texte doppelt bewerten. Wenn die Bewertungen größtenteils miteinander übereinstimmen, halten wir die Inter-Be‐ werterzuverlässigkeit für angemessen gegeben. Bewerterzu‐ verlässigkeit Interrater- Reliabilität Intrarater- Reliabilität Testzuver‐ lässigkeit Objektivität Gültigkeit / Validität In der Linguistik und Sprachlehrforschung sind v. a. zwei Arten von Zuverlässigkeit von Interesse: Bewerterzuverlässigkeit und Testzuverlässigkeit. In unserem Beispiel von oben zur Beurteilung des schriftlichen Ausdrucks in Essays kann es schwierig sein, die Bewerterzuverlässigkeit zu garantieren. Deswegen gehen wir meist so vor, dass wir mindestens zwei Dozentinnen - unabhängig voneinander - die geschriebenen Texte bewerten lassen. Dann vergleichen wir die Ergebnisse mit‐ einander, indem wir die sog. Interrater-Reliabilität (Zwischen-Bewerterzuverlässig‐ keit) berechnen. 12 Gleichzeitig ist es auch wichtig, zu bestimmen, ob die Dozentinnen selbst die Ergebnisse konsistent bewerten (dass sie z. B. nicht je nach Müdigkeit ähn‐ liche Texte sehr unterschiedlich bewerten); das ist dann Intrarater-Reliabilität. Bei Be‐ wertungsverfahren, bei denen das Messinstrument sehr wenig Spielraum lässt, also strikte Vorgaben macht oder nur ja/ nein-Antworten erlaubt, wird die Bewerterzuver‐ lässigkeit tendenziell höher sein. Bei Verfahren, die subjektive Entscheidungen zulas‐ sen (wenn z. B. bei der Beurteilung von einem Test zu „schriftlicher Ausdruck“ die Qualität eingeschätzt werden soll), wird die Bewerterzuverlässigkeit niedriger sein. Deswegen ist die Berechnung der Inter-Bewerterzuverlässigkeit sehr wichtig. Die Testzuverlässigkeit dagegen stellt sicher, dass das Testverfahren konsistent ist. Weil wir Tests in einem eigenen Kapitel umfassend besprechen, gehen wir dort auf die Verfahren zur Ermittlung der Testzuverlässigkeit ein. Wenn die Zuverlässigkeit überprüft wird, werden diese Ergebnisse meist in dem Kapitel, in dem man seine verwendete Methodik darstellt, anhand eines Zusammen‐ hangsmaßes präsentiert. Wie man dieses berechnet, behandeln wir in Kapitel 11 genauer. 2.5.2 Objektivität Die Objektivität bezieht sich darauf, ob die Erhebung, Auswertung und Interpretation der Ergebnisse durch die Forscherin beeinflusst wurden. Es soll möglichst gesichert werden, dass Daten, die von der Forscherin notiert und ausgewertet werden, auch richtig erhoben werden, ohne dass eine (subjektive) Interpretation einfließt. Je stärker die Auswertung nach einem fest vorgeschriebenen Schema verläuft, umso geringer ist die Gefahr von subjektiven Einflüssen. Das Messen der Anzahl korrekt geschriebener Vokabeln in einem C-Test durch eine Computersoftware ist z. B. objektiver als die Be‐ urteilung der Qualität von Schulaufsätzen durch Lehrpersonen. 2.5.3 Gültigkeit (Validität) Mit Gültigkeit oder Validität bezeichnet man, inwiefern das Messverfahren das misst, was es zu messen vorgibt. Wir kennen alle ironische Sprüche wie „Ich weiß zwar nicht 2.5 Prüfen der Gütekriterien 39 <?page no="40"?> interne Validität externe Validität genau, was ich messe, aber das messe ich ganz genau“. Man muss also wissen, was man misst. Die Validität einer Untersuchung ergibt sich daraus, ob tatsächlich das erhoben, erfragt oder beobachtet und gemessen wird, was untersucht werden soll. Nicht nur das Messinstrument selbst (also z. B. der genutzte Fragebogen oder der genutzte Test), sondern das gesamte Untersuchungsdesign muss bei einer Prüfung der Gültigkeit kon‐ trolliert werden, denn Fehler können auch in anderen Punkten liegen, etwa einer feh‐ lerhaften Auswahl der Befragten oder der Verwendung von Begriffen, die von ver‐ schiedenen Personenkreisen unterschiedlich gebraucht werden, u. a. m. Die Validität wird als das wichtigste der Gütekriterien angesehen, weswegen wir hier etwas mehr Zeit damit verbringen. Es gibt unterschiedliche Arten der Validität, wobei vor allem interne und externe Validität von Belang sind. Die interne Validität bezieht sich darauf, inwiefern die Er‐ gebnisse das abbilden, was sie abbilden sollen. Das betrifft mehrere Aspekte. So ist es z. B. wichtig zu wissen, dass die Untersuchungsteilnehmer zur anvisierten Gruppe ge‐ hören. Will man untersuchen, unter welchen Bedingungen Sätze wie Ich gehe gern ins Freibad, weil da sind die Leute so nett für Personen, die mit Deutsch als (einziger) Erst‐ sprache aufgewachsen sind, akzeptabel sind, dann ist es schlecht, wenn sich unter den befragten Personen auch DaF-Lerner oder Personen mit zwei Erstsprachen befinden. Ebenso kann bei wiederholten Erhebungen in Längsschnittstudien die interne Validität beeinträchtigt werden, wenn viele Teilnehmende bei den weiteren Messungen nicht mehr dabei sind - z. B., weil sie weggezogen sind, oder weil sie nicht mehr an der Studie teilnehmen wollen. Weitere Probleme können entstehen, wenn ein Testverfahren sehr lang ist (Ermüdung führt meist zu schlechteren Ergebnissen, ebenso Langeweile) oder wenn die Teilnehmer wissen, was die Forscherin von ihnen erwartet, und versuchen, sich entsprechend zu verhalten (das kann vor allem bei Befragungen problematisch werden). Schließlich kann interne Validität durch äußere Faktoren beeinträchtigt wer‐ den, z. B. durch Lärm im Versuchsraum, der die Konzentration der Teilnehmer schwächt. Mit externer Validität oder Geltungsbereich ist gemeint, unter welchen Gegeben‐ heiten die Ergebnisse einer Untersuchung für bestimmte Untersuchungsobjekte gelten - über die Studie hinaus. Der Geltungsbereich bei sprachwissenschaftlichen Untersu‐ chungen ist häufig einer der am ehesten angreifbaren Punkte. Sehr häufig wird recht naiv davon ausgegangen, dass Daten, die vor zwanzig Jahren oder vor noch längerer Zeit erhoben wurden, immer noch Aussagen über die heutige Sprache erlauben. Ebenso naiv wird oft angenommen, dass Daten, die in einer bestimmten Region erhoben wor‐ den sind, Aussagen über die Landessprache insgesamt erlauben. Und die erhobenen Konstrukte müssen auch das repräsentieren, was wir behaupten. Wir können z. B. das Konstrukt „Sprachkompetenz in der Fremdsprache“ nicht messen, in dem wir nur die Komplexität produzierter Sätze beurteilen lassen - denn syntaktische Komplexität ist nur ein (sehr) kleiner Teil der sprachlichen Kompetenz. Wir müssen also genau überlegen, wofür die erhobenen Daten überhaupt reprä‐ sentativ sein können. Dabei spielen nicht nur zeitliche und örtliche Gegebenheiten 40 2 Planung einer empirischen Studie <?page no="41"?> Design Triangula‐ tion eine Rolle, sondern natürlich auch die ausgewählten Teilnehmer. Das, was in der Psycholinguistik mangels anderer Möglichkeiten oft gemacht wird, nämlich aus Experimenten mit Psychologie- und Linguistikstudierenden Rückschlüsse zu ziehen auf die Sprecher einer Sprache allgemein, berücksichtigt nicht, dass diese Studierenden natürlich eine besondere soziale Gruppe sind, und zwar sowohl vom Alter als auch vom sozialen Status her, möglicherweise sogar auch durch bestimmte Wertvorstellungen und Einstellungen zur Sprache. Dies kann in Teilbereichen auch ein besonderes Sprachverhalten hervorrufen. Es gibt unterschiedliche Arten der Validität, die überprüft werden können. Weil diese insbesondere für Testungen wichtig sind, besprechen wir sie genauer im Kapitel-7. 2.6 Der Forschungsplan Nachdem man einen Forschungsgegenstand bestimmt, eine Fragestellung formuliert und eine sich darauf beziehende und durch die Literatur untermauerte Hypothese ver‐ fasst hat, ist der nächste Schritt die Überlegung, wie das zu Untersuchende erfasst werden soll. Damit ist die Wahl des Designs gemeint. Abhängig von der Art der Fra‐ gestellung muss die richtige Herangehensweise (und ggf. das richtige Instrument) zur Datenerhebung gewählt werden. Grundsätzlich können Daten über Beobachtung, Be‐ fragung oder Testung gewonnen werden; zudem kann Effekten von unterschiedlichen Situationen über Experimente (in der Sprachlehrforschung meist Interventionen) nach‐ gegangen werden. Man kann auch bereits durch diese Verfahren erhobene Daten ana‐ lysieren (dann führt man Sekundärdatenanalysen durch), das ändert aber nichts an den Anforderungen für die Datenerhebung. Untersucht man z. B. Fehlerkorrekturen im Fremdsprachenunterricht, so kann man die Frage, welche Arten von Fehlerkorrektur überhaupt vorkommen, kaum anders als durch Beobachtung klären, keine Lehrperson wird ihr Verhalten in einer Befragung so genau beschreiben können, dass man tatsächlich alle Arten der Fehlerkorrektur erfahren würde, die diese Lehrperson anwendet. Die Zufriedenheit der Schüler mit bestimmten Arten der Korrektur kann man über eine Befragung erheben. Eine Erfolgs‐ messung verschiedener Korrekturverfahren gelingt am besten in einem Experiment, mit dem man kontrollieren kann, welche Korrekturverhalten wann angewendet werden. Da die Methodik zentraler Bestandteil des Forschungsdesigns ist, behandeln wir die häufigsten Ansätze - Beobachtung und ihre besondere Ausprägung, die linguistische Korpusanalyse, Befragung, Testen und Experimente/ Interventionen - sowie gängige Erhebungsinstrumente ausführlich bei „Schritt 2“ in den Kapiteln 4 bis 8. Wie bereits im ersten Kapitel angesprochen, ist es oft hilfreich, eine Forschungsfrage aus unterschiedlichen Perspektiven zu beleuchten. Dies ist seltener in kleineren Ar‐ beiten wie Seminar- oder Abschlussarbeiten sinnvoll oder notwendig, aber in größeren Arbeiten kann eine sogenannte Triangulation zu erhöhter Zuverlässigkeit oder erhöh‐ ter Validität führen. Wir gehen hier kurz auf die unterschiedlichen Arten der Trian‐ 2.6 Der Forschungsplan 41 <?page no="42"?> 13 Es kann auch passieren, dass die unterschiedlichen Methoden zu Ergebnissen führen, die sich widersprechen. Manchmal kann man das durchaus interpretieren (für unser Beispiel könnten die Befragten sich falsch einschätzen), manchmal muss man sich aber fragen, ob man mit den unterschiedlichen Methoden tatsächlich dasselbe misst. Forschertri‐ angulation Datentrian‐ gulation Methodentriangula‐ tion Mixed Methods gulation ein, empfehlen aber eine grundlegendere Auseinandersetzung damit, wenn Sie sich für diese Möglichkeit entscheiden (gute Hinweise hierzu finden Sie u. a. in Flick 2011). Auf die Theorientriangulation verzichten wir in dieser Darstellung, da sie erstens insgesamt seltener, zweitens für studentische Arbeiten weniger relevant ist. Bei der Forschertriangulation handelt es sich um eine Möglichkeit, die Bewerterzu‐ verlässigkeit zu erhöhen. Hier geht es darum, dass mindestens zwei geschulte Personen die Daten erheben, vorbereiten und/ oder auswerten. Vorteilhaft ist dies immer bei For‐ schungsdesigns, in denen mehr als ein (objektives) Ergebnis denkbar ist, wenn Sie z. B. die Grammatikalität von bestimmten Lerneräußerungen überprüfen möchten. Bei der Datentriangulation handelt es sich dagegen um eine Möglichkeit, die Relia‐ bilität des Erhebungsinstruments sowie die Validität der Ergebnisse zu überprüfen. Daten können von denselben Teilnehmern zu unterschiedlichen Zeitpunkten (z. B. Montagmorgen vs. Mittwochnachmittag) erhoben werden, um zu kontrollieren, ob der ausgewählte Test verlässlich zu ähnlichen Ergebnissen führt. Oder sie können von un‐ terschiedlichen Teilnehmern in ähnlichen Situationen an unterschiedlichen Orten (z. B. Untersuchung von Grundschülern der 2. Klasse in Bayern, Bremen und Ba‐ den-Württemberg) erhoben werden, um zu vermeiden, dass Ergebnisse nur für eine bestimmte Gruppe gültig sind (Stärkung der externen Validität). Wenn heutzutage von „Triangulation“ gesprochen wird, handelt es sich allerdings meistens um die Methodentriangulation. Hier geht es darum, unterschiedliche For‐ schungsmethoden heranzuziehen, um die Gültigkeit der Messverfahren zu stärken. Wenn wir z. B. verschiedene Aspekte der Beherrschung des Dativs herausfinden wol‐ len, dann können wir sowohl ein Beobachtungsverfahren (wie Audioaufnahmen von spontanen Gesprächen) einsetzen als auch versuchen, durch Lückentests die Verwen‐ dung des Dativs zu elizitieren. Evtl. befragen wir die Lerner auch nach ihrer Sicherheit bei der Anwendung des Dativs. Möglicherweise kommen wir dann zu einem anderen Ergebnis, als wir es mit nur der einen oder anderen Methode erreicht hätten. 13 Viele größere Studien kombinieren quantitative und qualitative Verfahren als sog. Mixed Methods-Verfahren, um einen möglichst umfangreichen Blick auf einen Forschungs‐ gegenstand zu erhalten. Wie bereits in Kapitel 1 erwähnt, ist dies aber in Abschluss‐ arbeiten seltener der Fall. Bei all diesen Möglichkeiten ist es sehr wichtig, genau zu überlegen, inwiefern die unterschiedlichen Perspektiven zur Beantwortung der Forschungsfrage beitragen. Es hat nur Sinn, Forscher-, Daten- oder Methodentriangulation durchzuführen, wenn die Studie (und somit auch das weitere Forschungsfeld) davon profitieren wird. Wenn die Interpretation der Ergebnisse dadurch nicht gestärkt wird, ist die Triangulation auch nicht empfehlenswert. 42 2 Planung einer empirischen Studie <?page no="43"?> Konfundie‐ rende Variablen 2.7 Messbare Variablen bestimmen Daten, die man erheben und untersuchen will, sind Arten von Variablen und können unterschiedlich kategorisiert werden, u. a. nach ihrer Messbarkeit. Dies ist eine wich‐ tige Differenzierung, u. a. um Validität zu gewährleisten. Manifeste Variablen sind solche, die man objektiv messen kann, wie z. B. Augenbewegungen, Herzfrequenz, Anzahl von Partizipien in der gesprochenen Sprache oder Vorkommen eines bestimm‐ ten grammatischen Fehlers. Latente Variablen sind dagegen solche, die man inferieren oder nur indirekt messen kann, wie z. B. Lesevorgehen (über Augenbewegungen erschließbar), Aufgeregtheit (über Herzfrequenz, Hautleitungsfähigkeit, Schwitzen etc. erschließbar) oder grammatische Kompetenz (über Fehlerverhalten erschließbar). Man sollte sich vor der Untersuchung ganz genau überlegen, ob latente Variablen gemessen werden oder manifeste - ansonsten kann es sein, dass Schlussfolgerungen gezogen werden, die die Daten gar nicht erlauben. Es kann sich natürlich herausstellen, dass man Daten nicht selbst erheben muss oder kann. Für viele Forschungsfragen können schon vorhandene Datensätze genutzt werden. Dies ist meist die Vorgehensweise, wenn man Korpusanalysen durchführt, weil man sehr viele, schon aufbereitete Daten benötigt. Zu Korpusdaten kommen wir in Kapitel 5. Weitere (aufbereitete) Forschungsdaten, die oft aus recht großen Projekten aus den Bildungswissenschaften stammen, findet man in Online-Forschungsdatenzent‐ ren wie dem des IQB (https: / / www.iqb.hu-berlin.de/ fdz). Meist braucht man allerdings gute Kenntnisse von Datenbankstrukturen, um sie zu nutzen. Ebenfalls ist es häufig der Fall, dass man Daten aus einem Forschungsprojekt, in das man mit einem Teilprojekt eingebunden ist, neu analysiert. Die eigene Datenerhebung ist deutlich mehr Arbeit, hat dafür auch gewisse Vorteile: (Neuere) Daten können erhoben werden, die eine Antwort auf die Fragestellung ermöglichen, Probleme durch fehlende Informationen in anderen Datensätzen werden vermieden, und man übt selbst den Einsatz bestimmter Erhebungsmethoden, was schließlich zu verbesserten Forschungskompetenzen führt. Für welche Vorgehensweise man sich entscheidet, hängt maßgeblich vom Ziel, vom Forschungskontext und von den zeitlichen Ansprü‐ chen oder Möglichkeiten ab. 2.8 Worauf muss man sonst noch achten? 2.8.1 Konfundierende Variablen (Störfaktoren) Konfundierende Variablen sind Faktoren, die die Ergebnisse einer Studie verzerren können und daher möglichst zu vermeiden sind. Typischerweise entstammen Störun‐ gen der Situation oder individuellen Eigenschaften der Teilnehmer. Die meisten konfundierenden Variablen kann man gut kontrollieren: Ein lästiger Lärmpegel, ein Austausch unter den Teilnehmern über den Untersuchungsgegenstand, Erhebungen zu ungünstigen Tageszeiten (Mittagspause, spätabends), Stresssituatio‐ nen, die durch eine zu knappe Aufgabenbearbeitungszeit, Testangst oder Leistungs‐ 2.7 Messbare Variablen bestimmen 43 <?page no="44"?> 14 Der Effekt wurde schon 1968 für schulische Situationen von Rosenthal und Jacobson in einem einfachen (wenn auch ethisch grenzwertigen) Experiment nachgewiesen, in dem sie 20 % einer Gruppe von Schulkindern per Zufall auswählten und gegenüber ihren Lehrpersonen behaupteten, diese Kinder seien besonders intelligent - und diese Schüler verbesserten sich in der Tat im Laufe des Schuljahres deutlich stärker als ihre nicht-ausgewählten Schulkameraden. selbsterfül‐ lende Pro‐ phezeiung Doubleblind druck entstehen, oder Ermüdungseffekte durch zu lange Erhebungen sind Faktoren, die man bei sorgfältigem Einrichten der Studie relativ gut vermeiden kann oder die man für alle untersuchten Bedingungen gleich halten kann (z. B. wenn Zeitdruck doch notwendig ist, soll dieser für alle Teilnehmer und Bedingungen gleich sein). Manche Störfaktoren wie die selbsterfüllende Prophezeiung sind in bestimmten Si‐ tuationen wie Interviews oder Beobachtungen häufiger anzutreffen als in anderen. Dieses Phänomen kann dann auftreten, wenn den Teilnehmern bewusst oder unbe‐ wusst eine gewisse Erwartungshaltung der Versuchsleiterin (oder der Lehrerin) kom‐ muniziert wird, und die Teilnehmer sich dann so verhalten, wie es von ihnen erwartet wird. 14 Weil das Phänomen auch dann auftreten kann, wenn nur die Versuchsleiterin über die Studie Bescheid weiß, ist im Idealfall ein Double-blind-Verfahren vorzuziehen: Weder die Person, die die Daten erhebt, noch die Teilnehmer wissen, was das erwartete Ergebnis ist. Aber auch das reine Wissen um das Beobachtet-Werden kann das Verhalten von Menschen ändern (wenn Sie dies ganz einfach ausprobieren möchten, versuchen Sie, alles, was Sie morgen essen, in einer Liste auf dem Küchentisch aufzuschreiben - und schon nehmen Sie weniger zu sich). Diese Erscheinung nennt man den Hawthorne-Ef‐ fekt oder Beobachterparadoxon: Die reine Anwesenheit einer Beobachterin oder die reine Tätigkeit des Selbstbeobachtens kann dazu führen, dass die Situation nicht mehr authentisch wird, weil sich das Verhalten der Beobachteten ändert. Um hierfür ein Beispiel zu geben, kommen wir wieder auf die exemplarische Unter‐ suchung zurück, in der die Schüler entweder mit Lernapp oder mit Arbeitsblättern die unterschiedlichen Vergangenheitsformen üben. Die Lernapp-Gruppe weiß, dass sie nach einer neuen Methode lernen wird, und auch die Lehrperson weiß das. Das kann die Motivation der Gruppe und der Lehrperson so erhöhen, dass - zumindest vorerst - bessere Ergebnisse erzielt werden als bei der anderen Gruppe, ohne dass dies tatsächlich auf die exzellente Aufbereitung der App an sich zurückzuführen wäre. Jedes Sich-Einstellen der Teilnehmer auf ihre Situation im Experiment kann ihr Handeln beeinflussen. (Übrigens sind hier auch weitere Störfaktoren möglich, worauf wir auch im Kapitel 8 zurückkommen.) Störfaktoren, die durch individuelle Charakteristika der Teilnehmer verursacht werden, sind weniger gut zu vermeiden. In diesem Fall helfen eine geschickte Stich‐ probenauswahl sowie eine Bewusstheit über die Hintergründe der Teilnehmer. Im Forschungsbericht muss man, egal welches Forschungsparadigma man heranzieht, mögliche Störfaktoren erwähnen. 44 2 Planung einer empirischen Studie <?page no="45"?> 15 Die folgende Darstellung lehnt sich an Mackey & Gass (2005, S.-118f sowie S.-128) an. 2.8.2 Kontrollvariablen (Kontrollfaktoren) Um mögliche Gefahren für die Validität einer Untersuchung zu minimieren, sollte man bei der Planung und Durchführung einer Studie auf einige relativ einfache Dinge achten. Die wichtigsten davon sind: Um Gefahren für die Zuverlässigkeit zu reduzieren, kann man (z. B. in einem Vortest) die Erhebung (teilweise) mehrfach durchführen und die Kodierung der Daten durch zwei oder mehr unabhängige Personen durchführen lassen. Um Gefahren für die interne Validität 15 zu reduzieren, sollte man möglichst relevante biografische Daten der Teilnehmer erheben. Typischerweise werden bei Arbeiten zum Sprachenlernen Informationen dazu erhoben, welche Sprachen die Teilnehmer schon sprechen, wie lange und wo sie die Zielsprache schon gelernt haben, welches Sprachniveau sie derzeit erreicht haben usw. Bei länger andauernden Untersuchungen sollte man darüber hinaus wissen, wie lange die Teilnehmer zur Verfügung stehen werden: Wenn diese zu großen Teilen Austauschstudierende sind, dann bringen Erhebungen im Juli, August und Oktober wahrscheinlich wenig, da die meisten dieser Studierenden im Juli wieder in die Heimat reisen werden (im Oktober reisen gerade die neuen Austauschstudierenden an, es gibt noch keinen Kontakt zu ihnen). Weiter achtet man auf die (repräsentative) Zusammensetzung der Stichprobe (s. Kapitel 3). Man sollte gleichzeitig, soweit möglich, potentielle Störfaktoren vermeiden, indem man einen geeigneten Ort für die Datenerhebung und eine geeignete Erhebungszeit sucht und keinesfalls seine genaue Forschungsfrage und/ oder seine Hypothesen schon vor oder während der Untersuchung bekannt gibt. Die externe Validität ist im Rahmen einer kleineren (Abschluss-)Arbeit nicht einfach zu erreichen. Prinzipiell hilft eine überlegte Auswahl der Teilnehmer sowie eine sorgfältige Dokumentation ihrer zentralen Eigenschaften. Je nachdem, welches Design man wählt, gelten weitere Überlegungen, die wir erst in den nächsten Kapiteln bei den jeweiligen Forschungsparadigmen sowie Untersu‐ chungsinstrumenten besprechen. 2.9 Zusammenfassung Wir haben uns in diesem Kapitel mit den unterschiedlichen Überlegungen befasst, mit denen man sich bei der Planung einer empirischen Studie auseinandersetzen muss: Auswahl und Eingrenzung eines Untersuchungsgegenstandes, Formulierung einer Fragestellung und von dazu passenden, empirisch überprüfbaren Hypothesen, Gütekriterien für empirische Studien, Orientierung bei der Forschungsplanung sowie die Beachtung von möglichen Stör- und Kontrollfaktoren. Im Kapitel 3 werden nun grundlegende Überlegungen zur Wahl einer Stichprobe durchgeführt, bevor es im 2.9 Zusammenfassung 45 <?page no="46"?> nächsten Schritt um die Datenerhebung und die Auswahl eines passenden Forschungs‐ paradigmas sowie passender Untersuchungsinstrumente geht. Ein letzter Hinweis: Wenn man sich gründlich in sein Themengebiet eingelesen hat, kann es gut sein, dass man feststellt, dass eine enorme Anzahl von Faktoren eine Rolle spielen könnte. Diese alle zu untersuchen ist aber eventuell gar nicht in der zur Verfügung stehenden Zeit möglich. Dieses Problem ergibt sich sehr häufig bei Masterarbeiten. Man muss also seinen Forschungsplan so aufbauen, dass er immer noch eine sinnvolle Fragestellung beantwortet, aber doch in der Zeit zu bewältigen ist, die zur Verfügung steht. Als Forschungsanfängerin kann man häufig nicht genau einschätzen, was im Bereich des Möglichen oder des Sinnvollen liegt. Vieles kann man mit gesundem Menschenverstand sowie Austausch unter Kommilitoninnen oder Kolleginnen beur‐ teilen, zum Beispiel, ob man eine sinnvolle Fragestellung und eine passende Hypothese dazu gefunden hat, ob die benötigten Materialien (und entsprechenden Daten) zur Verfügung stehen, oder ob Störfaktoren (s. u.) einen Einfluss auf die Ergebnisse haben könnten. Wie viel Zeit man für die Erhebung und die Auswertung von Daten braucht, unterschätzt man am Anfang jedoch oft. Daher ist es sinnvoll, zuerst eine Skizze der Studie aufzustellen (mit Untersuchungsgegenstand, Forschungsfrage, passenden Hypothesen, Überlegungen zu den Gütekriterien, Methode, Teilnehmende und Daten, und Zeitrahmen) und dann mit einer erfahrenen Forscherin darüber zu sprechen. Aufgaben 1. Formulieren Sie zu jedem Thema in der Aufgabe von Kapitel 1 (s. S. 23) eine Fragestellung und eine Hypothese, die sich darauf bezieht und die falsifizierbar ist. 2. Wir nehmen uns noch einmal die Studie zum Gebrauch der Vergangenheits‐ tempora von Kapitel 2.4 vor, bei der wir die Hypothese: „Katholische Deutschspra‐ chige gebrauchen bei der Bezeichnung von Vergangenem das Perfekt, andere Deutschsprachige nicht.“ formuliert haben. a. Welche Konstrukte müssten Sie für Ihre Untersuchung operationalisieren? b. Operationalisieren Sie „Perfekt“! Welche Bedingungen müssen erfüllt sein, damit etwas als „Perfekt“ gezählt wird? Erstellen Sie eine eindeutige Zähl‐ anweisung, die „Zustandsformen“ weitgehend ausschließt. c. Welche Art der Datenerhebung würden Sie vorschlagen, wenn es darum geht, den Gebrauch der Vergangenheitstempora bei Sprechern unter‐ schiedlicher Konfession zu ermitteln (Beobachtung - Befragung - Experi‐ ment)? Legen Sie fest, wie Sie konkret bei der Form der Datenerhebung vorgehen könnten, die Sie gewählt haben. d. Angenommen, Sie sind folgendermaßen vorgegangen: Sie haben in der ländlichen Umgebung von Kiel, wo der größte Teil der Bevölkerung evan‐ gelisch ist, und in der ländlichen Umgebung von München, wo der größte Teil der Bevölkerung katholisch ist, jeweils 20 nach Schichtzugehörigkeit 46 2 Planung einer empirischen Studie <?page no="47"?> und Geschlecht sorgsam ausgewählten Dorfbewohnern die gleiche Aufgabe gestellt: „Erzählen Sie mir bitte detailliert, wie Ihr gestriger Tag verlaufen ist.“ Die Erzählungen haben Sie auf Band aufgenommen und die finiten Verbformen gezählt. Sie haben bei den Kielern 1356 finite Verbformen in Vergangenheitstempora erhalten, bei den Münchenern 1837. Davon waren bei den Kielern 1017 Präteritum, 258 Perfekt, der Rest andere Tempora oder unverständlich. Bei den Münchenern waren 1706 Perfekt und 93 Präteritum. Diskutieren Sie Validität und Geltungsbereich dieser Ergebnisse für eine Hypothesenprüfung: „Die Wahl der Vergangenheitstempora hängt ab von der Konfession der Sprecher, und zwar in der Art, dass Katholiken mehr Perfekt gebrauchen als Nicht-Katholiken.“ 3. Stellen Sie sich vor, jemand plant als Untersuchung die Beantwortung der For‐ schungsfrage, warum amerikanische Studenten mit 4 Jahren Sprachunterricht nur das A2-Niveau erreichen. Welche Probleme sehen Sie für die Durchführung der Studie? Aufgaben 47 <?page no="49"?> 16 Wir verwenden die Begriffe „Grundgesamtheit“ und „Population“, es muss sich aber nicht um Personen handeln. Stattdessen ist damit nur die Untersuchungseinheit gemeint. Das können Schüler sein, aber auch Texte oder Personen, die uns Informationen über die Personen von Interesse geben (z. B. Schulleiterinnen, Lehrkräfte). 17 Es gibt natürlich Untergrenzen, die man einhalten muss. Wenn man extrem kleine Gruppen unter‐ sucht, gibt es keine Chance mehr, dass Einzelfälle, die sich deutlich vom Durchschnitt unterscheiden, in der Masse untergehen. Stichprobe vs. Grund‐ gesamtheit 3 Stichproben und Sampling 3.1 Was ist eine Stichprobe? Wenn wir eine Studie durchführen, haben wir selten die Möglichkeit, alle Betroffenen oder sog. Beobachtungseinheiten, über die wir gern eine Aussage machen wollen, auch tatsächlich zu befragen oder zu testen. Wir wählen also nur einen Teil davon aus, eine sogenannte Stichprobe (alle Betroffenen wären die „Grundgesamtheit“). Die Erhebung an dieser Teilpopulation 16 soll es uns erlauben, Ergebnisse zu erhalten, die für die Ge‐ samtpopulation repräsentativ sind. Was wir erreichen wollen, ist immer eine Aussage, die generell oder zumindest für einen möglichst großen Anwendungsbereich gilt, nicht nur für die eingeschränkte Gruppe, die wir tatsächlich untersucht haben (wer interessiert sich für das Ergebnis „In der Klasse 5b des Herder-Gymnasiums in Immekeppel funktioniert der Englisch‐ unterricht mit der Grammatik-Übersetzungsmethode besser als der mit einem aufga‐ benorientierten Unterricht“? ). Wir können aber auch unmöglich sämtliche Schüler, die Englisch lernen, erheben. Also müssen wir unsere Aussage anhand der Untersuchung einer Stichprobe machen. Meinungsforschungsinstitute tun nichts Anderes: Sie fragen am Tag der Wahl 2000 Wahlberechtigte, wen sie gewählt haben, errechnen das Wahlergebnis, das sich bei diesen 2000 - allerdings sehr gut ausgewählten - Leuten ergeben hätte, und sagen vor der Auszählung schon, wie das Ergebnis der Wahl sein dürfte. Das Verblüffende ist: Sie irren sich selten in mehr als ein bis zwei Prozent, obwohl sie doch einen verschwindend kleinen Anteil von der gesamten Anzahl der Wähler befragt haben. Das Geheimnis des Erfolgs der Stichprobenwahl liegt nicht darin, dass man einen möglichst großen, sondern einen möglichst gut ausgewählten Teil der Grundgesamtheit untersucht. 17 In einem quantitativen Forschungsparadigma wird also fast immer mit einer Stich‐ probe gearbeitet. Man versucht, eine möglichst repräsentative Stichprobe zu finden, indem man überlegt, für welchen Bereich die Ergebnisse gelten sollten (externe Vali‐ dität), und aus dieser Population dann die Teilnehmer zieht. In der Sprachlehrforschung ist dies nicht immer ganz leicht. Wenn man dazu noch einen Vergleich zwischen zwei (oder mehreren) Gruppen herstellen will, sollen die Gruppen auch vergleichbar sein. Hierfür gibt es unterschiedliche Techniken, auf die wir im Folgenden eingehen. In einer Seminar- oder Abschlussarbeit ist die Wahl der Stichprobe meist durch pragmatische Überlegungen bestimmt: Einfach gesagt, man nimmt die Teilnehmer oder <?page no="50"?> anfallende Stichprobe Generalisierbarkeit Stichpro‐ bengröße Daten, die man bekommen kann (das nennt man eine anfallende Stichprobe). Man muss sich aber darüber im Klaren sein, dass man so keine generalisierbaren Ergebnisse er‐ zielen kann, und man muss in der Arbeit darauf hinweisen, dass man auch nicht von einer entsprechenden Generalisierbarkeit ausgeht. Wenn man die Möglichkeit hat, sollte man sich um eine Auswahl der Teilnehmer oder Daten bemühen, die eine mög‐ lichst gute Übereinstimmung mit der Gruppe aufweist, über die man seine Aussagen machen möchte. Egal wie man zu seiner Stichprobe kommt, man sollte sich bewusst werden, welchen Einfluss diese Auswahl auf die externe Validität der Ergebnisse haben könnte. Weil die Wahl der Stichprobe bei den verschiedenen Forschungsparadigmen unterschiedlich ausfällt, greifen wir das Thema in den nächsten Kapiteln immer wieder auf. Hier gehen wir auf grundlegende Überlegungen ein - mit Bezug auf die Größe der Stichprobe und, noch wichtiger, auf ihre Repräsentativität. 3.2 Größe der Stichprobe Da wir nur eine Auswahl aus der Gesamtzahl der uns interessierenden Personen er‐ heben können, muss zunächst bestimmt werden, wie viele wir insgesamt erheben müssen. Die Frage ist eine der ersten und häufigsten, die gestellt werden, wenn wir empirische Arbeiten betreuen: Wie viele Daten muss ich erheben? Die Frage ist gar nicht so leicht zu beantworten - und hängt, wie so vieles andere, von der Wahl der Stichprobe ab. Als Hilfestellung zur Ermittlung der benötigten Stichprobengröße bei Zufallsstich‐ proben (s. u.) kann man einen „Stichproben-Rechner“ benutzen. Man findet eine Reihe davon im Internet über die gängigen Suchmaschinen mit dem Suchbegriff sample size calculator (in der Sprachlehrforschung in Deutschland verwendet man oft z. B. die kostenlose App G*Power). Hierfür muss man aber eine Reihe weiterer Informationen kennen. So muss man z. B. wissen, wie viele Gruppen man vergleichen will (wenn man eine vergleichende Studie plant), wie viele weitere Variablen (auch Kontrollvariablen) man einbezieht, welche statistische Signifikanz man erreichen will und welche Effektstärke man erwartet. Dann erhält man die Stichprobengröße, die man benötigt, um diese Voraussetzungen zu erfüllen. (Auf Signifikanz und Effektstärke gehen wir in Kapitel 13 ein.) Die Stichprobengröße, die für eine repräsentative Untersuchung nötig ist, wird allerdings nur selten in unseren Fächern erreicht - das liegt an den Schwierigkeiten, ausreichend Informanden zu finden, und daran, dass spezifische (auch datenschutz‐ technische) Vorgaben die Erhebung bestimmter Personengruppen (Minderjährige, besonders zu schützende Populationen wie Migranten) erschweren. Deswegen werden wir uns im Weiteren insbesondere der Frage der Repräsentativität widmen. Übrigens wird eine nach den Kriterien dieser Stichprobenrechner ausreichend große Stichprobe in der Praxis bei Bachelor- und Masterarbeiten fast nie erreicht - das soll aber nicht davon abschrecken, sich überhaupt einer Fragestellung empirisch zu widmen! 50 3 Stichproben und Sampling <?page no="51"?> anfallende Stichprobe 3.3 Repräsentativität der Stichprobe Wir beginnen mit einem Beispiel. Stellen Sie sich vor, Sie interessieren sich dafür, wel‐ che Sprachen man in Deutschland besonders häufig lernt. Sie öffnen einen Webbrowser, geben „Welche Sprachen werden am häufigsten in Deutschland gelernt? “ in die Suchmaske ein, und erhalten direkt einen Link mit dem Titel „Die beliebtesten Sprachen in Deutschland“. Das Ergebnis ist dann ein Säulendiagramm, in dem ersichtlich wird: Die beliebteste Fremdsprache in Deutschland ist Norwegisch, gefolgt von Schwedisch, Niederländisch und Deutsch, in dieser Reihenfolge. Das mag überraschen - und wenn Sie Ihr eigenes Weltwissen, ihren common sense, einsetzen, werden Sie die Ergebnisse vermutlich etwas anzweifeln. Vielleicht wurden nur wenige Personen befragt? Tat‐ sächlich steht unter der Grafik, dass über eine Million Personen teilgenommen haben. Die Anzahl ist beträchtlich. Das Problem: Es handelt sich um die bearbeitete Anzahl von Lektionen in einer Sprachlernapp. Grund für die außergewöhnliche Auflistung ist also die sehr enge Auffassung von „in Deutschland“. Die berücksichtigten Daten stammen nur aus einer Stichprobe von Lernapp-Nutzenden, also z. B. von Personen, die zu sehr spezifischen Zwecken (wahrscheinlich Urlaubsreisen) für eine begrenzte Zeit eine Sprache und unter bestimmten Bedingungen (spontan in der Freizeit) lernen, oder von Personen, die zusätzliche Übung in einer für sie wichtigen Umgebungssprache (Deutsch) suchen. Es werden aber vermutlich wenige Schulkinder teilnehmen oder auch Personen, die höhere Lernniveaus anstreben. Das Beispiel zeigt besonders deutlich, was passieren kann, wenn anfallende Stich‐ proben (English: convenience sampling) für eine Studie gewählt werden, ohne auf re‐ levante Populationsmerkmale zu achten. Auch sehr große Stichproben bringen wenig, wenn sie nicht die relevanten Charakteristika der Gesamtpopulation abbilden. Hätte man auf eine repräsentative Stichprobe Wert gelegt, wäre wahrscheinlich die belieb‐ teste (Fremd-)Sprache in Deutschland Englisch gewesen. Das Ziel der Stichprobenziehung ist es also, Ergebnisse zu erhalten, die für die Grundgesamtheit repräsentativ sind. Eine repräsentative Stichprobe erlaubt es uns, die Population zu beschreiben (nicht nur die Stichprobe). Die Wahl einer Stichprobe (Sampling) hat aber auch andere Auswirkungen: Sie beeinflusst die Datenauswertung (z. B. ob man inferenzstatistische Verfahren durchführen kann) und u. U. die Wahl des Publikationsorts, wenn man seine Ergebnisse veröffentlichen will. Sie ist sogar wichtiger als die Größe der Stichprobe. Auch wenn man häufig in Abschlussarbeiten und Artikeln Aussagen wie: „Auf Grund der kleinen Stichprobe sind die Ergebnisse mit Vorsicht zu interpretieren.“ liest - eine gute Stichprobenziehung ist wichtiger als die bloße Anzahl der Teilnehmer, und eine kleine Stichprobe kann genauso valide Ergebnisse ermöglichen wie eine große. Es hängt von ihrer Repräsentativität ab. 3.3 Repräsentativität der Stichprobe 51 <?page no="52"?> Zufallsstich‐ probe 3.4 Kriterien für die Stichprobenziehung Wir stellen uns vor, wir wollen untersuchen, ob in Deutschland Schüler, die zu Hause eine (nicht-deutsche) Herkunftssprache verwenden, bessere Ergebnisse in der Fremdsprache Englisch erzielen als Schüler, die zu Hause nur Deutsch sprechen (z. B., weil sie bereits Erfahrungen mit unterschiedlichen Sprachen gesammelt haben und damit Sprache besser reflektieren können). Wir finden eine Schule, die mit uns kooperieren will, und auf die viele Schüler mit einer anderen Herkunftssprache gehen. Die Lehrerinnen unterstützen uns sogar, indem sie die Schüler in die Gruppen „mit“ und „ohne“ Herkunftssprache einteilen. Dabei stellt sich heraus, dass die meisten Schüler einen türkischen Migrationshintergrund haben. Vielleicht ahnen Sie schon, welche Probleme dabei entstehen können. Erstens kann es sehr gut sein, dass es Schüler gibt, die in die Gruppe „mit Herkunftssprache“ eingeteilt werden, obwohl sie nur Deutsch zu Hause sprechen. Das passiert sogar sehr häufig bei Schülern, die zur zweiten oder dritten Generation von Einwanderern gehören. Gleichzeitig kann es sein, dass Schüler der Gruppe „nur Deutsch als Famili‐ ensprache“ zugeteilt werden, weil die Lehrerin von der Verwendung einer anderen Sprache zu Hause nichts wusste, etwa weil die Schüler das nicht preisgeben wollen. Das verdeutlicht den ersten - sehr häufigen - Fehler bei der Stichprobenziehung: Es gibt Mitglieder der Stichprobe, die nicht zur intendierten Grundgesamtheit gehören. Das zweite Problem besteht darin, dass wir die Schule und Schüler als Stichprobe nehmen, auf die wir gerade Zugriff haben, in diesem Falle die kooperierende Schule. Die Schule und ihre Schüler sind aber möglicherweise nicht repräsentativ für die Population - vielleicht liegt die Schule in einem besonders gut betuchten Stadtteil, oder es ist eine Schule mit Fremdsprachenschwerpunkt, oder die Lehrerinnen sind besonders motiviert. Die Chance, dass wir damit ganz wichtige Informationen über die Population verpassen, steigt. Bei der Stichprobenziehung müssen wir zwei Kriterien erfüllen. Erstens muss jeder Teilnehmer, der in die Stichprobe einbezogen wird, auch zu der Grundgesamtheit gehören, die für uns interessant ist. Zweitens müssen wir zumindest wissen, welche Wahrscheinlichkeit der Teilnehmer hat, in die Stichprobe zu kommen. Um diese Kriterien so gut wie möglich zu erfüllen, gibt es zwei Strategien: Wir erheben eine Zufallsstichprobe, oder wir erheben eine kontrollierte, nicht-zufällige Stichprobe, bei der wir darauf achten, nicht willkürlich bestimmte Untergruppen übermäßig aufzunehmen. Wir gehen auf beide Verfahren ein. 3.4.1 Zufallsstichproben Der vermeintliche „Goldstandard“ der Stichprobenziehung ist die Zufallsstichprobe (Englisch: random sampling). Diese Art der Stichprobe ist so benannt, weil die Auf‐ nahme eines Elements (meist einer Person) der Auswahlgesamtheit (alle Fälle aus der Grundgesamtheit, die uns potentiell zur Verfügung stehen) in die Stichprobe vollstän‐ dig dem Zufall überlassen ist. Übrigens gehen die meisten inferenzstatistischen Tests 52 3 Stichproben und Sampling <?page no="53"?> von der Annahme aus, dass den Daten Zufallsstichproben zugrunde liegen (auch wenn dies in der Praxis nur selten zutrifft). In diesem Fall muss man mit geeigneten Verfahren sicherstellen, dass jedes Mitglied der Auswahlgesamtheit die gleiche Chance hat, in die Stichprobe zu kommen. Echte Zufallsstichproben lassen sich z. B. erzielen, wenn man eine Datenbank der infrage kommenden Personen hat, aus der man blind diejenigen wählen kann, die man in die Stichprobe aufnimmt. So etwas hat man aber meist nicht. Sehr häufig werden Zufallsstichproben (immer noch) aus Telefonbüchern genommen. Wenn man z. B. für eine Untersuchung zum Dialektgebrauch in Köln Interviewpartner sucht, dann nutzt man einen Zufallsrechner und zieht damit nach dem Zufallsverfahren aus dem Kölner Telefonbuch so viele Einträge, bis man die gewünschte Zahl an Personen hat. Man muss sich darüber im Klaren sein, dass man so genau genommen keine Aussagen über die Gesamtbevölkerung Kölns macht, sondern höchstens eine Aussage über diejenigen Kölner Telefonbesitzer, die im Telefonbuch verzeichnet sind. Aber selbst bei den etwa 70 % der Bevölkerung Deutschlands, die im Jahr 2023 ein Telefon im Haushalt hatten, hat nicht jeder die gleiche Chance, in die Stichprobe aufgenommen zu werden. Mehr als die Hälfte der Menschen zwischen 18 und 30 Jahren haben keinen Festnetzanschluss, sondern nur ein Handy; Singles haben ein Telefon für sich allein, Familienmitglieder im Normalfall nicht. Damit werden Singles in der Stichprobe überrepräsentiert sein, jüngere Erwachsene unterrepräsentiert. Zudem ist nicht jeder Telefonbesitzer im Telefonbuch eingetragen, vor allem alleinstehende Frauen und Akademikerinnen lassen sich oft nicht ins Telefonbuch eintragen. Ein weiteres Problem ergibt sich erst mit der Art der Kontaktaufnahme mit den betreffenden Mitgliedern der Stichprobe. Im Telefonbuch stehen nur Erwachsene, wenn man sich also schriftlich an die eingetragenen Personen wendet, sind sie überrepräsentiert. Ruft man aber an, sind diejenigen überrepräsentiert, die mit Begeisterung ans Telefon gehen, und das sind häufig die Kinder und Jugendlichen im Haushalt. Und diese besonderen Teilgruppen haben i. d. R. ein anderes Verhalten, wenn es sich um die Verwendung von Kölsch (dem Dialekt, nicht dem Bier) handelt. Da Telefonbücher die einzigen jedermann zugänglichen Listen von möglichen Befragten sind, werden trotz all dieser Mängel nach wie vor Zufallsstichproben aus Telefonbüchern gezogen. Eine echte Zufallsauswahl ist wegen der geschilderten Probleme häufig nicht möglich, dennoch ist die Telefonbuch-Methode immer noch besser als eine Auswahl aufs Geratewohl, wie z. B. eine Umfrage in der Einkaufszone am Samstagnachmittag. Wie auch immer die Zufallsstichprobenziehung durchgeführt wird: Sie hat den sehr wichtigen Vorteil, dass unbekannte Parameter mit erfasst werden: Seltene Mitglieder kommen selten vor, häufige Mitglieder kommen häufig vor. Wenn wir im obigen Beispiel z. B. versuchen, eine repräsentative Stichprobe zu bekommen, aber etwas nicht bedenken oder nicht wissen - zum Beispiel, vielleicht nutzen Fans von Taylor Swift besonders gerne Kölsch -, dann können wir mit einer Zufallsstichprobe einigermaßen sicher sein, dass es anteilig in etwa so viele Swifties in unserer Stichprobe gibt wie in der Gesamtpopulation auch. 3.4 Kriterien für die Stichprobenziehung 53 <?page no="54"?> 18 Es gibt auch weitere Arten der Stichprobenziehung, auf die wir hier nicht eingehen, weil sie komplexer sind und im Rahmen von Abschlussarbeiten normalerweise nicht vorkommen. theoreti‐ sches Sam‐ pling Quoten‐ sampling Zufallsstichproben haben aber auch Nachteile. In der Linguistik und Sprachlehrfor‐ schung kommt es häufig vor, dass wir Aussagen über heterogen zusammengesetzte Populationen machen wollen, deren Mitglieder zudem nicht häufig anzutreffen sind. Hier sind Zufallsstichproben aus pragmatischen Gründen meist nicht möglich, weil wir dann unmöglich eine Erhebung jemals abschließen könnten. Die Lösung des Problems ist aber nicht, auf eine anfallende Stichprobe zurückzugreifen, ohne auf wichtige Populationsmerkmale zu achten - denn so sind die erhobenen Daten u. U. nicht valide. Deswegen stehen weitere Verfahren der nicht-zufälligen Stichprobenauswahl zur Verfügung. 3.4.2 Nicht-zufällige Stichproben In vielen Forschungsstudien - insbesondere, wenn wir mit kleinen, heterogenen Gesamtpopulationen arbeiten - sind Zufallsstichproben gar nicht erreichbar. Es muss dann aber nicht auf anfallendes Sampling hinauslaufen. Stattdessen erfolgt der Einbe‐ zug eines Elements oder einer Person in die Stichprobe durch bewusste Überlegungen der Forscherin. Das ist sowohl durch theoretisches Sampling als auch durch Quoten‐ sampling möglich; in Abschlussarbeiten kommen zudem besonders häufig das gezielte Sampling und das sog. Schneeballsampling vor. 18 Beim theoretischen Sampling haben wir bereits eine theoretisch fundierte Erwar‐ tung an die Stichprobe (wir haben also ein induktives Vorgehen). Im Kern bedeutet das, dass Teilnehmer oder Daten ausgewählt werden, weil sie zur Weiterentwicklung un‐ seres Wissens beizutragen versprechen. Dabei wird die Größe der Stichprobe während der Erhebung und der Analyse bestimmt. Am ehesten ist dies in qualitativ ausgerich‐ teten Paradigmen wie der Grounded Theory Methodology (GTM) bekannt, wo eine Stichprobe Fall für Fall immer weiter vergrößert wird, bis keine neuen Informationen mehr zu erwarten sind (das nennt man theoretische Sättigung). Für die meisten For‐ schungsprojekte in der Linguistik und Sprachlehrforschung ist dieses Vorgehen aber ungeeignet, da es vor allem zur Theoriebildung bei kaum erforschten Fragestellungen oder Stichproben eingesetzt wird. Für Abschlussarbeiten ist es eher ungeeignet, da man in der kurzen Zeit, die für die Untersuchung zur Verfügung steht, ohnehin selten zu einer erwünschten Sättigung kommt, und in der Praxis wird das Verfahren zudem oft nicht so eingehalten, wie es eigentlich vorgesehen ist. Zielführender scheint für die meisten Projekte in unseren Fächern das Quotensamp‐ ling. Dabei informiert man sich im Vorfeld über Eigenschaften der Grundgesamtheit. Dann kann man entweder versuchen, alle möglichen Besonderheiten in der Stichprobe im selben Anteil wie in der Grundgesamtheit einzubeziehen, oder man kann sich auf bestimmte Eigenschaften fokussieren, die für die Fragestellung eventuell eine Rolle spielen könnten (außer natürlich den zu untersuchenden Variablen, die sowieso mit‐ 54 3 Stichproben und Sampling <?page no="55"?> Klumpenstichproben bedacht werden). Man überlegt sich dann Teilgruppen, die jeweils diese Charakteristika haben, und zieht (möglichst zufällig) Teilnehmer oder Daten aus diesen kleineren Gruppen in der Relation, wie sie in der Gesamtpopulation verteilt sind. Die Idee ist, dass dadurch die wichtigsten Populationseigenschaften in der Stichprobe repräsentiert werden. Professionelle Marktforschungsinstitute und die erwähnten Wahlforscher ar‐ beiten mit solchen nach dem Quotenverfahren zusammengestellten Stichproben. Für unser Beispiel zur Verwendung von Kölsch könnten z. B. folgende Merkmale relevant sein: Alter, Bildungsabschluss, Geschlecht, Stadt-/ Landbevölkerung, Migrati‐ onshintergrund. Wir würden erwarten, dass ältere Menschen vom Land ohne Migra‐ tionshintergrund eher Dialekt sprechen; Bildungsabschluss und Geschlecht könnten einen Einfluss haben, wenn wir uns nicht sicher sind, dann sollten auch diese Merkmale repräsentativ vertreten sein. Wir würden also darauf achten, dass z. B. Menschen im Alter von 70 Jahren oder älter mit Hochschulabschluss vom Land neben solchen aus der Großstadt erhoben werden usw. Wir müssten bei der Stichprobenziehung auch darauf achten, dass die Verteilung dieser Merkmale in etwa der Verteilung in der Grundgesamtheit der Bevölkerung von Köln und Umgebung entspricht. Diese Daten können wir gut anhand von öffentlich zugänglichen amtlichen Statistiken (z. B. im „Statistischen Jahrbuch“) mit dem Quotenverfahren an die Grundgesamtheit angleichen. Wenn man selbst so eine Stichprobe zusammenstellen will, sollte man sich genau überlegen, welche Merkmale wirklich relevant sind. Je mehr Merkmale man berück‐ sichtigen will, umso schwieriger wird es, die Personen so auszuwählen, dass sie die Grundgesamtheit abbilden, weil jede befragte Person mehrere Merkmale hat. Am Ende braucht man sonst, um die Anforderungen der Quote zu erfüllen, z. B. einen Mann aus dem ländlichen Umkreis von Köln, der 71 Jahre alt ist, eine Sonderschule besucht und selbst nach Deutschland zugewandert ist. Eine besondere Art des Quotensamplings sind Klumpenstichproben (English: cluster randomized samples), die im Kern versuchen, eine zufällige Stichprobenauswahl nach Zusammenstellung von Gruppen aus der Gesamtpopulation herzustellen. Das passiert sehr häufig im schulischen Kontext; man hat z. B. die Möglichkeit, in 20 Schulen Daten in der 6. Klasse zu erheben, und entscheidet sich nach dem Zufallsprinzip für je eine Schulklasse in fünf Schulen. Dann erhebt man Daten nur dort, also in diesen fünf 6. Klassen mit insgesamt 150 Schülern, anstatt in allen Schulen oder in allen Klassen von fünf Schulen. Das macht die Datenerhebung deutlich einfacher, und die Wahrschein‐ lichkeit, eine repräsentative Stichprobe zu erhalten, ist hoch. Zwei weitere Methoden der Stichprobenziehung sollten hier noch erwähnt werden, weil sie besonders häufig in studentischen Arbeiten vorkommen. Sie führen zwar nicht zu so repräsentativen Stichproben wie Zufallsverfahren oder Quotenverfahren, stärken dennoch die externe Validität deutlich mehr als das anfallende Sampling. Sie sind zudem insbesondere für kleine Gesamtpopulationen oft die einzige Möglichkeit, eine ausreichend große Stichprobe zu bekommen. 3.4 Kriterien für die Stichprobenziehung 55 <?page no="56"?> gezieltes Sampling Schneeball‐ sampling Beim gezielten Sampling (Englisch: purposive sampling) entscheidet sich die For‐ scherin vor der Durchführung der Studie, welche Eigenschaften die beteiligten Infor‐ manden haben sollen, um an der Studie teilzunehmen, und wählt dann Personen aus, die diese Eigenschaften aufweisen. Das ist eine Art anfallender Stichprobe, aber man vermeidet, dass Personen, die nicht zur Zielpopulation gehören, aus Versehen auch in die Stichprobe kommen. Wenn ich mich z. B. insbesondere für zugewanderte Kinder interessiere, die eine diagnostizierte Autismus-Spektrum-Störung haben, dann muss ich diese Kinder gezielt suchen, z. B., indem ich Ärzte und Ärztinnen oder Elterngrup‐ pen anspreche. Zum gezielten Sampling wird häufig das Schneeballsampling herangezogen. Der Begriff ist recht selbsterklärend: Wenn man Teilnehmer gefunden hat, die die gesuchten Kriterien erfüllen, bittet man sie darum, weitere Personen aus ihrer Gruppe auch an‐ zusprechen. Das ist für größere, vergleichende Untersuchungen nicht besonders ef‐ fektiv, aber für kleinere Arbeiten, für Arbeiten mit kleiner Grundgesamtheit, oder für Arbeiten zu Personengruppen, die ansonsten schwer zu erreichen sind, eine gern an‐ gewendete Lösung für das Finden von Teilnehmern. 3.5 Fazit In vielen Studien ist die Stichprobenziehung nicht ganz klar dargelegt. Das hat Konsequenzen für die externe Validität und somit auch für die Glaubwürdigkeit der Studie. Wenn Sie selbst Forschungsstudien lesen, achten Sie daher auf die Art und Weise, wie die untersuchte Stichprobe zustande gekommen ist. Ist die Stichprobenzie‐ hung sinnvoll, logisch und vor allem repräsentativ? Was haben die Forscherinnen durchgeführt, um eine repräsentative Stichprobe zu gewährleisten? Im Umkehrschluss muss man als Forscherin darauf achten, eine möglichst repräsen‐ tative Stichprobe zu bekommen, sofern man keine Zufallsstichprobe erzielt. Dabei soll der Prozess der Stichprobenziehung klar und transparent dargelegt werden, sodass dieser für andere auch nachvollziehbar ist. Aufgabe Für diese Aufgabe können wir keine Musterlösung anbieten, sie hilft aber, die Kon‐ zepte in diesem Kapitel zu reflektieren. Nehmen Sie zwei oder drei Studien, die Sie für interessant halten, und beschreiben Sie bei jeder Studie die Stichprobe. Welche Besonderheiten ergeben sich aus der Zusammensetzung der Stichprobe? Wie wurde auf externe Validität geachtet? Welche Sampling-Methode wurde herangezogen? Wie bewerten Sie diese Methode? Welche Verbesserungsvorschläge hätten Sie für die Forscherinnen? 56 3 Stichproben und Sampling <?page no="57"?> Schritt 2: Datenerhebung Wir beschreiben in den folgenden Kapiteln die einzelnen gebräuchlichen Arten der Da‐ tenerhebung in der Linguistik und Sprachlehrforschung. Das Forschungsdesign für eine spezielle Untersuchung kann durchaus erfordern, dass man mehrere verschiedene Erhebungsinstrumente einsetzt. Wenn man z. B. eine experimentelle Intervention im Unterricht durchführt, bei der Lernende nach zwei verschiedenen Verfahren vergleichbaren Stoff lernen, dann kann es sein, dass man zusätzlich zur Messung ihres Lernerfolgs durch einen Test (Erhebungsinstrument) auch eine Befragung (Methode) in Form eines Lernerfragebogens (Erhebungsinstrument) durchführen will, in der man die Motivation der Lernenden, auch nach Ende der Erhebung eines der Verfahren weiter anzuwenden, erfragt. Vielleicht will man sie auch beobachten, weil man z. B. wissen will, ob die Schüler aktiv und interessiert dem Unterricht gefolgt sind. In den Kapiteln 4 bis 8 gehen wir auf jede dieser Möglichkeiten ein. <?page no="59"?> Elizitation 4 Die Beobachtung Die Beobachtung ist ein besonders aufwändiges Verfahren der Datenerhebung, das meist das Ziel der Beschreibung (nicht jedoch der Erklärung) bestimmter Phänomene hat. Im Rahmen quantitativer Ansätze entscheidet man sich normalerweise nur dann für eine Beobachtung, wenn man anhand anderer Verfahren nicht das tatsächliche Verhalten, über das man Aufschluss erlangen will, erfahren kann oder wenn man sich zunächst ein Gesamtbild von einer Lernsituation machen möchte. Dies kann dann der Fall sein, wenn Personen, die man eigentlich befragen will, durch die Fragestellung zu sehr beeinflusst würden (z. B. wenn sprachliche oder gesellschaftliche Normen im Spiel sind - man denkt üblicherweise von sich selbst, dass man „richtig“ spricht bzw. sich als Lehrperson „richtig“ verhält) oder wenn es um ein Phänomen geht, das lediglich in gesprochener Sprache zu beobachten ist, oder wenn das zu untersuchende Sprechbzw. Kommunikationsverhalten nur im realen situativen Kontext vorkommt und nicht simulierbar ist. Die Beobachtung ist deshalb ein besonders zeitraubendes und aufwändiges Verfah‐ ren, weil sie in der realen (oder zumindest pseudorealen) Situation stattfindet und an‐ schließend dokumentiert werden muss. Das Verfahren der Beobachtung wird von Lin‐ guistinnen und Sprachlehrforscherinnen vor allem in der Spracherwerbsforschung mit Kleinkindern, in der Konversationsanalyse und in der Unterrichtsforschung als eine Methode zur Gewinnung von Informationen benutzt. Sie wird auch eingesetzt, um ein spezifisches sprachliches Verhalten zu elizitieren, z. B. weil man wissen will, welche Realisierung des Phonems / r/ bei bestimmten Personen oder in bestimmten sprachli‐ chen Umgebungen vorkommt, und dann besonders viele Situationen zu schaffen ver‐ sucht, in denen eine Reaktion mit einer Äußerung, die ein / r/ -Phonem enthält, zu er‐ warten ist. Bei der Beobachtung beobachtet man entweder „von außen“ und gibt sich der beob‐ achteten Gruppe gegenüber als Wissenschaftlerin zu erkennen, die für die Beobachtung Daten sammelt, oder man versucht, als ein Mitglied der beobachteten Gruppe zu agieren und von der beobachteten Gruppe auch so wahrgenommen und akzeptiert zu werden („teilnehmende Beobachtung“). Diese zweite Art von Beobachtung kommt in unseren Fächern selten vor, obwohl sie seit Neuerem im Rahmen von sog. partizipativer Forschung immer mehr diskutiert wird. 4.1 Offene und verdeckte Beobachtung Man unterscheidet bei der Beobachtung die offene und die verdeckte Beobachtung. Bei der verdeckten Beobachtung sind sich die Beobachteten während der Beobachtung nicht der Tatsache bewusst, dass sie beobachtet werden. Die verdeckte Beobachtung ist der offenen dadurch überlegen, dass die Beobachterin die Beobachteten nicht durch <?page no="60"?> Beobachter‐ paradoxon Beobachtereffekte offene Beob‐ achtung Hawthorne- Effekt die Beobachtung beeinflusst. Wenn man weiß, dass man beobachtet wird, verhält man sich üblicherweise anders als in der normalen Situation, über die man ja Daten gewin‐ nen will. Eine Schulklasse mit einem videofilmenden Team von Wissenschaftlerinnen im Hintergrund benimmt sich - zumindest bei den ersten Erhebungen - nun einmal normalerweise nicht so, wie sie sich ohne dieses Team und seine Kameras verhielte. Aber natürlich möchte man wissen, wie die Schulklasse sich ohne Beobachtung ver‐ hielte. Das bedeutet, die Beobachtung kann dazu führen, dass man nicht mehr das Verhalten vorfindet, das man beobachten will (Beobachterparadoxon, man will das Verhalten beobachten, wie es ohne Beobachtung stattfindet). Verdeckte Beobachtungen sind allerdings ethisch und oft auch gesetzlich problema‐ tisch; sie werden deswegen immer seltener durchgeführt. Eine Ausnahme ist das Ver‐ halten von Teilnehmern beim Nutzen von Web- oder Smartphone-Apps; meist lässt man davor abhaken, dass zu Untersuchungszwecken das eigene Verhalten aufgenom‐ men werden kann, und danach sind die Daten auch rechtlich nutzbar (ob das ethisch ist, ist eine andere Frage, weil die meisten Leute die Datenschutzbestimmungen nie lesen). Wird eine verdeckte Beobachtung trotzdem durchgeführt, weil ansonsten die Beobachtereffekte zu hoch wären, muss man mindestens im Anschluss die Zustim‐ mung aller Beteiligten (und bei Minderjährigen auch von ihren Erziehungsberechtig‐ ten) einholen. Zudem gilt: Sollen Aufnahmen aus Beobachtungen veröffentlicht oder öffentlich vorgeführt werden, ist das nur mit der vorherigen Einwilligung aller gefilm‐ ten Personen möglich, auch bei reinen Audio-Aufnahmen ist diese Einwilligung erfor‐ derlich. Der Normalfall bei der Beobachtung ist deshalb die offene Beobachtung. Sie ist zwar meist einfacher einzurichten (man muss sich oder die Aufnahmegeräte nicht verste‐ cken), jedoch anfälliger für Beobachtungseffekte. Diese störenden Effekte können vor allen Dingen durch möglichst unauffällige Aufnahmetechnik und die Gewöhnung der Beobachteten an die Beobachtungssituation reduziert werden. Beim dritten Auftau‐ chen des Video-Teams ist das Gefilmt-Werden erfahrungsgemäß schon nicht mehr so aufregend, dass man deswegen sein gesamtes Verhalten ändern würde. Trotzdem ist immer damit zu rechnen, dass Menschen, die plötzlich in die Situation geraten, Teil‐ nehmer an einer wissenschaftlichen Untersuchung zu sein, ihr Verhalten ändern, weil ihnen bewusst wird, dass sie beobachtet werden (Hawthorne-Effekt). Man wird also möglichst vermeiden wollen, dass solche Verhaltensänderungen auftreten. Wenn es um sprachliches Verhalten geht, ist es oft noch relativ einfach, die Beobachtungseffekte gering zu halten, indem man die Vermutung darüber, was untersucht wird, auf etwas anderes lenkt. So kann man z. B. bei einer Untersuchung zu linguistischen Transfer‐ scheinungen (cross-linguistic influence, CLI) zwischen zwei Sprachen einer bilingualen Person auch eine soziolinguistische Frage stellen („Wie fühlen Sie sich als Person, die regelmäßig zwei Sprachen benutzt? “) oder sogar etwas erfragen, das gar nichts mit dem Thema zu tun hat. Damit erzeugt man eine natürlichere Gesprächssituation für die Beobachtung. 60 4 Die Beobachtung <?page no="61"?> 4.2 Datenerhebung Hat man sich für ein Beobachtungsdesign entschieden, können Daten mit unterschied‐ lichen Instrumenten und Technologien erhoben werden. Die Entscheidung für ein spezifisches Vorgehen hängt vom Ziel der Erhebung ab, aber auch von den (finanziellen, personellen, technischen und zeitlichen) Möglichkeiten, die zur Verfügung stehen. Im Folgenden gehen wir auf die häufigsten Varianten ein. Übrigens hat sich in den letzten Jahren sehr viel in der wissenschaftlichen Be‐ obachtung geändert, insbesondere bei den Möglichkeiten der Datenerhebung. Wir gehen davon aus, dass diese auch in den nächsten Jahren eine starke Änderung und Entwicklung erfahren wird - es lohnt sich also, sich besonders zu den neuesten technischen Möglichkeiten zu informieren, bevor man sich fest für ein bestimmtes Verfahren entscheidet. 4.2.1 Beobachtungsraster Wenn man keine technischen Mittel einsetzen will oder kann, oder sie mit weiteren Beobachtungen ergänzen will, sind Beobachtungsraster ein beliebter Weg zur gezielten Notation wichtiger Informationen. In der einfachsten Form sind solche Raster Unter‐ stützungshilfen für Beobachtungsnotizen, die aber weiter spezifiziert werden können und auch sogar eine Unterstützung bei der Datenaufbereitung und Datenauswertung sein können. Im Übrigen kann man Beobachtungsraster auch mit Audio- oder Video‐ aufnahmen kombinieren, damit verringert sich die Gefahr, wichtige Informationen zu verpassen. Beobachtungsraster sind insbesondere hilfreich, wenn Personen mit einem besonde‐ ren Zugriff auf Teilnehmer - wie Eltern, Erzieherinnen oder Lehrkräfte, die aber selbst keine Expertinnen sind - Beobachtungen durchführen sollen, oder wenn über einen längeren Zeitraum hinweg besondere Informationen erhoben werden. Nehmen wir an, wir wollen der Entwicklung von Verlaufsformen bei Spanischlernenden nachgehen. Eine Aufnahme von produzierten Äußerungen in der natürlichen Situation hat wenig Sinn; ist aber die Lehrerin dafür vorbereitet, kann sie immer notieren, wann ein Lerner eine Form produziert, die eine Verlaufsform ist (oder sein sollte), z. B. ob der Lerner auf Fragen wie „Que haces ahora? “ mit Antworten wie „trabajo“, „soy trabajo“ oder „estoy trabajando“ antwortet. Eine kurze Notiz genügt, um die Erscheinung festzuhalten, und dies kann über mehrere Monate so „nebenbei“ im Unterricht laufen. Beobachtungsraster sind aber auch nützlich, wenn man eine spezifische Beobach‐ tungsfrage hat, aber nur zeitlich begrenzt Zugriff auf die Zielgruppe. Fragt man sich z. B., wie viel und welche Art des fremdsprachlichen Inputs eine Fremdsprachenlehr‐ kraft im Unterricht einsetzt, kann man auf ein Beobachtungsraster zurückgreifen, das auch nach einem einmaligen Besuch des Unterrichts ausgefüllt werden kann und 4.2 Datenerhebung 61 <?page no="62"?> 19 Ein interessantes und öffentlich zugängliches Beispiel hierfür ist der TIOS: Kersten, K.et al. (2018). Teacher Input Observation Scheme (TIOS) and manual. Universität Hildesheim. zudem einen klaren Plan für die Datenauswertung liefert. 19 Auch deswegen sind sie für studentische Arbeiten besonders empfehlenswert. 4.2.2 Beobachtung mit Audio- und Videografie Durch die Entwicklung vieler (kostengünstiger) Möglichkeiten in den letzten Jahren, sprachliche Daten aufzunehmen, zu kodieren und zu analysieren, läuft die Beobach‐ tung fast in allen größeren Studien mit Hilfe technischer Mittel. Sprechen keine ethischen, datenschutztechnischen oder durchführungsbezogenen Schwierigkeiten dagegen, ist die Videografie heute präferiert. Das liegt daran, dass eine genaue Aufnahme verbalen und nichtverbalen Verhaltens möglich wird. Zudem kann man das Geschehen - zumindest im gefilmten Ausschnitt - mehrmals betrachten und auch anderen Beobachterinnen zeigen. Audio- und insbesondere Videografien sind für die Untersuchung von sprachlicher Interaktion (bei jüngeren Kindern oft Spielsituationen, bei älteren Unterrichtssituationen) sinnvoll, aber auch für die Untersuchung der Produktion spezifischer sprachlicher und außersprachlicher Merkmale, die man am besten mit Hilfe genauer Sprachaufnahmen bestimmen kann (Aussprache, syntaktische oder auch morphologische Phänomene wie Kasusmarkierungen, oder Mimik und Gestik). Das setzt aber natürlich voraus, dass entsprechende Geräte vorhanden sind und eine Umgebung geschaffen wird, bei der das Phänomen von Interesse besonders gut aufzunehmen ist. Deswegen werden audio- und videografische Daten meist nur in spezifischen, kontrollierten Situationen erhoben wie z. B. in einem Untersuchungs‐ labor, wo Kinder miteinander oder mit Versuchsleitenden spielen, oder in einer Unterrichtssituation, die vorher mit ausreichend Geräten versorgt wird. Insbesondere bei Videoaufzeichnungen muss man im Vorfeld mehrere praktische Fragen bedenken. Dazu gehört z.B.: Welche Kamerastandpunkte werden gebraucht, denn man muss nicht nur alle Personen, die für die Studie aufgenommen werden sollen, tatsächlich aufnehmen können, sondern man braucht üblicherweise mindestens eine Kamera, die einen Gesamtüberblick über die Aktionen im Raum bietet (bei Unterrichtsbeobachtungen setzen wir i. d. R. fünf Kameras mit unterschiedlichen Blickwinkeln, davon eine hochgelegene für den gesamten Raum, ein). Ist es möglich, dass die beobachteten Personen am Platz bleiben (wenn nicht, müssen auch die Kameras entsprechend eingestellt werden)? Sind genug Geräte für die benötigten Aufnahmen für den benötigten Zeitraum zugänglich (und funktionieren die Geräte immer)? Wie werden die Daten aufbereitet? Wie werden die Videoaufnahmen nachher aufbewahrt und wer darf sie sehen oder sogar weiter analysieren? Soll eine Videoana‐ 62 4 Die Beobachtung <?page no="63"?> 20 Die Software kann bei der Beschreibung helfen, indem u. a. das Vorkommen und die Dauer von Ereignissen beim Betrachten der Videoaufnahme durch Tastendruck markiert werden. Außerdem kann Software sogar Gesprochenes z.T. automatisch transkribieren. Die Beobachtungskategorien und deren Kodierung muss man natürlich zunächst einmal selbst entwickeln, ebenfalls muss man automatisch Transkribiertes sorgfältig prüfen. 21 Mehl, M. R. (2017). The Electronically Activated Recorder (EAR): A method for the naturalistic observation of daily social behavior. Current Directions in Psychological Science, 26(2), 184-190. http s: / / doi.org/ 10.1177/ 0963721416680611. 22 Wie immer, wenn wir hier auf spezifische Möglichkeiten verweisen, verweisen wir gleichzeitig auf die schnellen Änderungen bei modernen Software-Tools und empfehlen, dass Sie sich bei Interesse selbst weiter informieren. lyse-Software 20 verwendet werden? Derartige Fragen sollte man rechtzeitig klären, wenn man sich für Videografie entscheidet. Wer nicht in einer kontrollierten Situation Aufnahmen machen kann oder will, weil er z. B. das sprachliche Verhalten von Teilnehmern untersuchen will, hat heutzutage immer mehr besondere technische Möglichkeiten. App-Softwares wie z. B. EAR 21 , die auf die Smartphones von Informanden installiert wird, ermöglichen es, zu rand‐ omisierten Zeiten kurze Folgen der mündlichen Interaktion einer Person (und ihrer Gesprächspartner) aufzunehmen. Audio- und Videoaufnahmen umgehen allerdings nicht das Problem, dass relevante Daten „ausgesiebt“, kategorisiert und kodiert werden müssen. Dadurch, dass so viele Daten zur Verfügung stehen, kann die Datenaufbereitung und Datenauswertung eher noch komplizierter werden als bei der direkten Beobachtung ohne technische Unterstützung, wenn die Möglichkeit des praktisch unbegrenzten nachträglichen Betrachtens der Videoaufnahmen dazu verführt, Beobachtungskategorien nicht von vornherein klar genug festzulegen. 4.2.3 Beobachtung durch Software Insbesondere dann, wenn man nicht nur sprachliche Produkte untersuchen will, sondern sich für den Verstehens- oder Produktionsprozess interessiert, kommt man um Beobachtungsdaten kaum herum. Auch hier unterstützen digitale Technologien die Datenerhebung. Bislang haben wir uns vor allem mit der Beobachtung mündlicher Sprachdaten be‐ fasst. Aber auch schriftliche Daten(produktionen) können beobachtet werden - durch Videografie, aber auch beim Schreiben am Computer, wenn spezifische Screen-Capture und Keystroke-Logging-Software eingesetzt wird. Programme wie InputLog 22 ermög‐ lichen es, alle Tastatur- und Mausbewegungen an einem Rechner nachzuzeichnen - auch wenn unterschiedliche Apps gleichzeitig verwendet werden. Interessiert man sich z. B. dafür, wie häufig und zu welchen Zwecken Übersetzungssoftware eingesetzt wird, wenn Sprachlerner Texte in einer Fremdsprache schreiben, kann man mit solchen Programmen recht leicht nachvollziehen, an welchen Stellen im Text die einzelnen Lerner unterschiedliche digitale Unterstützung (Nachschlagewerke, Übersetzungssoft‐ 4.2 Datenerhebung 63 <?page no="64"?> 23 Explorative Forschung, die häufig mit qualitativen Daten arbeitet, legt die Kategorien dagegen nicht von vornherein fest, sondern entwickelt sie z.T. iterativ aus den Daten. Insbesondere Studien im Rahmen der Grounded Theory, die wir hier nicht behandeln, entwickeln Kategorien erst aus den Daten heraus (Strübing 2004). Beobach‐ tungskate‐ gorien Wahl der Ka‐ tegorien ware oder sogar Large Language Models wie ChatGPT) heranziehen, und wie sie diese nutzen. Solche Programme machen eine vertiefte Analyse von Sprachverwendungsprozes‐ sen in (noch) schriftlichen Umgebungen möglich, auch hier gilt aber: Je mehr Daten erhoben werden, desto mehr muss ausgewählt und dann aufbereitet und ausgewertet werden - zumal die sich daraus ergebenden Daten oft ausgebessert werden müssen, weil sie genauso fehleranfällig sind wie andere Methoden auch. 4.3 Datenaufbereitung Ein praktisches Problem bei Beobachtungen ist das folgende: Bei der Beobachtung fallen erheblich mehr Informationen an, als in die Auswertung eingehen können. Daher müssen Überlegungen zur Datenaufbereitung schon vor der Datenerhebung durchgeführt werden. Dazu gehören sowohl die inhaltliche Datenaufbereitung (was soll in die Beobachtung aufgenommen werden? ) als auch die technische Aufbereitung (wie sollen die Daten festgehalten werden? ). Zur inhaltlichen Datenaufbereitung gehört insbesondere die Festlegung von Be‐ obachtungskategorien. 23 Eine systematische Auswahl von Beobachtungskategorien re‐ duziert die Vielfalt an Informationen, und zwar auf diejenigen, die für die Fragestellung am wichtigsten sind. Eine Herangehensweise der Art: „Wir sehen mal, was passiert, und analysieren es dann“ hat also wenig Sinn, weil man dann gar nicht weiß, was man genau beobachten und analysieren soll. Nur wenn man die Situation komplett aufge‐ zeichnet hat (z. B. mit einer aussagefähigen Videoaufnahme), kann man dann noch etwas retten, weil man im Nachhinein die Situation noch beliebig oft ansehen kann, nachdem man seine Beobachtungskategorien entwickelt hat. Bei einer Mitschrift im Unterricht sind die Ergebnisse nicht verwertbar, wenn die Beobachtungskategorien nicht vorher genau genug festgelegt waren. Allerdings bergen solche Kategorien na‐ türlich eine Gefahr, nämlich, dass man für potentiell interessante Informationen „blind“ wird, das heißt, man erzeugt eine selektive Wahrnehmung und kategorisiert nur das, was man von vornherein antizipiert hat. Auch hier ist es deswegen sehr wichtig, die Daten von mehreren Personen kodieren zu lassen und Raum für weitere Informationen zu lassen. Welche Beobachtungskategorien man auswählt, hängt von der Untersuchungsfra‐ gestellung ab. Angenommen, man möchte herausfinden, bei welcher Unterrichtsme‐ thode die Schüler besonders gut „bei der Sache“ sind, dann muss man sich Kriterien ausdenken, aus denen man schließt, ob die Schüler dem Unterricht folgen oder nicht. Man könnte dabei die Aktivitäten der Schüler während des Unterrichts beobachten 64 4 Die Beobachtung <?page no="65"?> Anzahl der Kategorien Transkrip‐ tion (schreiben sie mit, hören sie aufmerksam zu, tun sie Dinge, die nichts mit dem Unter‐ richt zu tun haben? ), man könnte aber auch z. B. alle am Ende der Stunde ein Protokoll mit den wichtigsten Ergebnissen der Stunde schreiben lassen und dann überprüfen, welche Inhalte fehlen. Im ersten Fall wären die Beobachtungskategorien also direkt beobachtete Verhaltensweisen, im zweiten Fall wären es Analysen der Arbeitsergeb‐ nisse der Schüler. Wie viele Beobachtungskategorien man benutzt, hängt nicht nur von der Fragestel‐ lung ab, sondern auch davon, wie viel Zeit für die Beobachtung zur Verfügung steht. Wenn die Beobachtung durch Videoaufnahmen dokumentiert ist, die man sich immer und immer wieder ansehen kann, hat man die Möglichkeit, sehr viele verschiedene Kategorien zu beobachten. Wenn man allerdings auf den Einsatz von Audio- oder Vi‐ deotechnik verzichtet und nur selbst einzelne Aspekte protokollierend beobachtet, muss man sich auf sehr wenige beschränken, wenn die Beobachtung für diese Merk‐ male noch genau sein soll. Die Auswahl der Kategorien hängt also von der Relevanz eines Phänomens für die Forschungsstudie ab. Um die Daten dann für die Analyse nützlich zu machen, muss die Forscherin alle für die Studie relevanten Aspekte, auch die nichtverbalen, in verbale Kategorien übertragen (z. B. nimmt sie wahr, dass Schüler A die linke Schulter ca. 3 cm, die rechte ca. 2 cm anhebt und anschließend beide wieder absenkt, wobei er die Kopfposition nach links hinten verschiebt, dann kann dies als z. B. „Schüler A zuckt mit den Schultern“ verbalisiert werden). Dabei werden Informationen verändert, teilweise gehen Informationen verloren, teilweise wird interpretiert. Da die Beobachterin mit diesem Schritt zunächst für sich selbst die Begründung ihrer Interpretation offenlegt, gibt sie sich selbst und später anderen die Möglichkeit, ihre Einschätzung zu verbessern. Hierfür ist die technische Datenaufbereitung wichtig. Welche Informationen sollen klassifiziert und analysiert werden, und in welcher Form? Denn eine Analyse hand‐ schriftlicher Notizen ist mühsam - eine genaue Annotation von mehreren Stunden Unterricht, mit Anmerkungen zu allen verbalen und nichtverbalen Äußerungen der Teilnehmer, ist schlichtweg unmöglich. Im Normalfall muss man daher auswählen, wie Rohdaten in eine Form gebracht werden, sodass sie klassifiziert und analysiert werden können. Je nach Forschungsfrage fällt die Aufbereitung aber ganz unterschiedlich aus. In‐ teressiert man sich für die Verwendung unterschiedlicher Sprachen im Fremdspra‐ chenunterricht durch die Lehrkraft, reicht sicherlich eine recht einfache Transkription der Lehrkraftäußerungen ohne nichtverbale Daten, Mimik und Gestik oder auch Ver‐ zögerungslaute wie hm, äh. Interessiert man sich jedoch für die Kommunikation zwi‐ schen Personen mit einer Hörbehinderung, wird man ein mehrzeiliges Annotations‐ system wie ELAN einsetzen müssen, um das (potenziell) gleichzeitige Vorkommen von Gebärdensprache, mündlicher Sprache, vereinzelten lautbegleitenden Gebärden, Mi‐ mik, Gesten, Zeiggesten, unterstützenden Artefakten wie Bildern u.v.m. zu notieren - potentiell von mehreren Personen gleichzeitig. Wichtig ist, dass man immer so viele - und wirklich nur so viele - Daten aufbereitet, wie man für die Beantwortung der For‐ 4.3 Datenaufbereitung 65 <?page no="66"?> Datenklassi‐ fikation Beispiel schungsfrage braucht. Ansonsten verwendet man so viel Zeit bei der Aufbereitung der Daten, dass man nie zu deren Auswertung gelangt. 4.4 Datenklassifikation Nach der Datenaufbereitung muss man die beobachteten Rohdaten klassifizieren, was keineswegs einfach ist. Es geht hierbei um die Einordnung von einzelnen Aspekten oder Sachverhalten in verschiedene Kategorien, die als ähnlich beobachtet wurden. Hierbei ist es wichtig, sinnvolle und für das zu untersuchende Phänomen relevante Klassen von Verhaltensweisen zu erstellen. Die Einteilung der Sachverhalte in die je‐ weiligen Klassen erfolgt durch Vergleichen der Sachverhalte untereinander. Für stu‐ dentische Arbeiten empfehlen wir, möglichst die eigene Entwicklung von Klassifika‐ tionskategorien zu vermeiden und stattdessen ein bereits bewährtes Verfahren (das man durch eingehende Literaturrecherche ausgewählt hat) einzusetzen. Es ist bei der Präsentation der Studie dann sehr wichtig, offenzulegen, welche der aufgenommenen Aspekte aus den beobachteten Verhaltensweisen zur Klassifizierung in einer spezifischen Kategorie geführt haben. Das oben angeführte Schulterzucken kann z. B. zur Kategorie „Schüler weiß die Antwort nicht“ hinzugefügt werden - neben auch verbalen Äußerungen eines Schülers wie „ich weiß es nicht“. Um diese sehr abstrakte Darstellung etwas zu veranschaulichen: Angenommen, wir vergleichen die Wirkung von zwei Unterrichtsmethoden, und eine der beobachteten Kategorien war „Schüler folgen der Lehrperson nicht (mehr)“. Gesehen haben wir Schüler, die unter dem Tisch Comic-Hefte lasen, Schüler, die mit Mitschülern sprachen oder Nachrichten über WhatsApp austauschten, Schüler, die aus dem Fenster guckten, Schüler, die sich ihrer Frisur oder ihrem Make-up widmeten, u. a. m. Genau genommen sind dies hier schon teilklassifizierte Daten, denn was wir genau gesehen haben, ist ja: „Erwin schneidet Grimassen zu Helga, die ihn amüsiert anguckt, Eva schreibt ein Briefchen, das Hans weiterreicht und an Erna gibt, die es liest und ein Briefchen zurückschreibt, Hugo faltet einen Papierflieger, Hans guckt aus dem Fenster, Susi hat einen Taschenspiegel hervorgeholt und verbessert ihren Lidstrich, Marion untersucht ihre Haarspitzen, Klaus flüstert dem neben ihm sitzenden Theo etwas ins Ohr, Mario stupst die vor ihm sitzende Elisabeth an, die sich umdreht, und er sagt etwas zu ihr“ usw. usf. Unsere endgültige Klassifikation könnte sich nun auf die Stimmung der Ab‐ gelenkten (fröhliche, missmutige Aktivitäten, „den Clown/ Miesepeter machen“) oder auf die Art der Aktivität (Sprechen, Lesen, Schreiben, Körperpflege usw.) beziehen oder sie könnte Personenanzahl und räumliche Kriterien zugrunde legen (Einzelaktivitäten eines Schülers, Aktivitäten mit Banknachbarn, Aktivitäten über größere Distanzen). Für die Unterrichtssituation ist aber wohl vor allem wichtig, wie groß der Grad der Störung ist, der durch die Aktivität hervorgerufen wird. Insofern werden wir die Anzahl der an der Störung Beteiligten wichtiger nehmen als die Stimmung der Beteiligten. Angenommen, unsere Klassifikation ginge einfach nach der Anzahl der Beteiligten, 66 4 Die Beobachtung <?page no="67"?> Falsifikati‐ onsversu‐ che Validität so wäre das Merkmal, das zur Klassenbildung führt, „1-2-3-4-5-usw. Beteiligte“. Das Zuerkennen dieses Merkmals ist sicher einfach, wenn zwei Personen miteinander ein Comic-Heft ansehen, aber es dürfte genauer Begründung bedürfen, wenn man dem durch die Klasse fliegenden Papierflieger eine Anzahl Beteiligter zuerkennt (genügt das bloße Hinsehen usw.? ). Es ist also nicht immer einfach, die eigene Datenklassifikation hieb- und stichfest zu begründen. Dieses Ziel wird aber vor allem durch die systematische Suche nach Si‐ gnalen verfolgt, die nicht zu der Interpretation passen, zu der man gelangt ist. Beim wissenschaftlichen Beobachten muss man sämtliche Interpretationen, die man vorge‐ nommen hat, zunächst als zu prüfende Hypothesen behandeln. Diese Hypothesen muss man zu falsifizieren versuchen, d. h. man muss versuchen, jede einzelne Interpretation als falsch zu erweisen. Dies erfolgt dadurch, dass man systematisch nach Gegenbei‐ spielen sucht, die der jeweiligen Interpretation widersprechen und sie damit infrage stellen. Kann das Gegenbeispiel mit der vorliegenden Interpretation noch plausibel erklärt werden, so ist dieser Falsifikationsversuch gescheitert und die Validität der In‐ terpretation hat sich erhöht. Kann das Gegenbeispiel beim besten Willen mit der vor‐ liegenden Interpretation nicht mehr erklärt werden, so kann sie nicht mehr als allge‐ meingültige wissenschaftliche „Erkenntnis“ angesehen werden und muss aufgegeben werden - sie ist falsifiziert. Bleiben wir bei unserem Papierflieger-Beispiel. Angenom‐ men, wir haben beobachtet, dass 15 Personen dem Papierflieger zugesehen haben. Da‐ mit wäre es eine sehr große Störung, 15 Personen sind selten an einer Störaktion im Unterricht beteiligt. Wenn unsere Hypothese war: „Je mehr Personen an einer Störung beteiligt sind, desto schädlicher ist sie für den Unterrichtsverlauf “, dann könnten wir beim Falsifizierungsversuch z. B. versuchen, herauszufinden, wie viele von den 15 Per‐ sonen dabei den Ausführungen der Lehrperson noch folgen. Angenommen, es wären 13 gewesen, dann zeigt sich, dass unsere Art der Klassifizierung ungünstig war. Einen Teil seiner Aufmerksamkeit der Störaktion zu widmen, wäre nicht ausreichend, um das Merkmal „Beteiligung an der Störaktion“ zuzuerkennen, es müsste schon ein so großer Teil der Aufmerksamkeit sein, dass man dem Unterrichtsgeschehen nicht mehr folgt. Insofern wäre unsere Zuerkennung von Beobachtungskategorien zu verbessern, für die Interpretation wäre dieser Falsifizierungsversuch nicht schädlich. 4.5 Gütekriterien für Beobachtungen Im Kapitel 2.5 haben wir uns mit den Gütekriterien für empirische Untersuchungen mit quantitativen Daten auseinandergesetzt. Diese gelten genauso für Beobachtungen, da aber jede Art von Design Besonderheiten mit sich bringt, ergänzen wir jeweils zusätzliche Bedenken. Die Validität sagt uns, dass eine Studie das misst, was sie messen soll. Bei Beobach‐ tungen ist die größte Gefahr, dass die Beobachtung durch Beobachtereffekte gestört wird - wenn Teilnehmer sich auf Grund der Beobachtungssituation anders verhalten 4.5 Gütekriterien für Beobachtungen 67 <?page no="68"?> Zuverlässig‐ keit Objektivität als sonst, kann man das untersuchte Phänomen nicht valide erheben. Aber auch andere Störfaktoren treten hier leicht ein. Die Beobachtungssituation ist nur schwer kontrol‐ lierbar, und mehrere Faktoren können dazu führen, dass Daten unbrauchbar werden. Eine beobachtende Person, die Notizen anfertigt oder ein Raster ausfüllt, kann leicht Äußerungen oder Verhalten verpassen (z. B. auf Grund von Unaufmerksamkeit oder weil die Teilnehmer nicht deutlich oder durcheinander sprechen). Auch technische Aufnahmehilfen können versagen (der Geräteakku ist leer und die Aufnahme hört auf, die Kameras sind schlecht aufgestellt, sodass nicht alle Personen gut zu beobachten oder zu hören sind usw.). Auch Datenschutzrichtlinien können einen Strich durch die Rechnung machen. Wenn man die verbale Interaktion von vier Kindern beobachtet und im Anschluss an die Untersuchung die Eltern eines Kindes die Einwilligung zurück‐ ziehen, dann sind die Daten nicht nur von diesem Kind, sondern von der ganzen In‐ teraktionssituation nicht brauchbar. Bei der Beobachtung ist auch die Zuverlässigkeit (Reliabilität, also die Genauigkeit der Messung) schwer zu erreichen. Es wäre zwar wünschenswert, dass, wenn zwei Wissenschaftlerinnen dieselbe Situation nach denselben Kategorien und derselben Klassifizierung untersuchen, sie auch dasselbe Ergebnis erzielen würden. Leider neh‐ men unterschiedliche Beobachterinnen unterschiedliche Aspekte wahr und halten diese auch unterschiedlich fest. Drei Techniken, die häufig eingesetzt werden, sollen die Zuverlässigkeit erhöhen. Erstens arbeitet man i. d. R. mit mindestens zwei beob‐ achtenden Personen, deren Ergebnisse dann verglichen werden oder einander ergän‐ zen sollen. Damit kann man auch später die sog. Interrater-Reliabilität berechnen (s. Kapitel 2.5.1). Zweitens versucht man, vor der Erhebung die Kategorien und Klassifi‐ kationen so genau wie möglich zu beschreiben. Und schließlich erhebt man die Daten mit wirklich aussagefähigen Ton- oder Videoaufnahmen, die jederzeit überprüft wer‐ den können. Schließlich müssen Daten objektiv erhoben und ausgewertet werden. Die größte Rolle hier spielen die eingesetzten Instrumente (Beobachtungs- und Auswertungspro‐ tokolle), die dafür sorgen, dass möglichst wenig subjektive Einflüsse die Ergebnisse verzerren können. Um die Objektivität zu erhöhen, muss man sämtliche Interpretatio‐ nen, die man vorgenommen hat, systematisch und vollständig offenlegen, auch dieje‐ nigen, die zu den Klassifizierungen geführt haben. Dadurch wird es möglich, dass durch andere Wissenschaftlerinnen ein vielleicht vorhandenes und die Interpretationen be‐ einflussendes Beurteilungsmuster - vorgefasste und als selbstverständlich erachtete Meinungen, ungeklärte Prämissen u. a. m. - aufgedeckt werden und der bisherigen eine alternative Interpretation entgegengesetzt wird. Wie immer ist die beste Möglichkeit, die Gütekriterien einzuhalten, eine gute Vorsorge - möglichst viele Störfaktoren vermeiden und möglichst Pilotierungen durchführen, um potentielle Probleme schon vor der Datenerhebung zu erkennen und zu umgehen. 68 4 Die Beobachtung <?page no="69"?> 4.6 Fazit Beobachtungen können umfangreiche Daten ergeben, die zudem eine hohe externe Validität aufweisen. Dafür müssen die Daten sehr sorgfältig erhoben, aufbereitet und analysiert werden - was sehr viel Zeit, Feingefühl und Kenntnisse der Gefahren für die Gütekriterien mit sich bringt. Vor dem Einsatz in Abschlussarbeiten soll man sich daher im Klaren sein, dass der Aufwand meist deutlich höher ist als zunächst vermutet, und man muss sich sehr gut mit Datenschutzbestimmungen auseinandersetzen, weil besonders bei dieser Methode die Anonymität der Teilnehmer schwer zu gewährleisten ist. Aufgaben 1. Sie wollen herausfinden, welche Arten von Korrekturen der Aussprache durch die Lehrperson im Fremdsprachenunterricht vorkommen und wie die Lernenden darauf reagieren. Sie haben sich für eine Beobachtung im fremdsprachlichen Englischunterricht entschieden. Überlegen Sie, wie Sie genau vorgehen wollen und welche Auswertungskategorien Sie benutzen wollen. Ihre Vorüberlegungen sind, dass Sie jede Äußerung der Lehrperson als „Korrektur der Aussprache“ auffassen, bei der mindestens ein Wort aus der Äußerung des Schülers mit einer anderen Aussprache durch die Lehrperson aufgegriffen wird. 2. Sie möchten herausfinden, mit welchen Mitteln erfolgreiche Gebrauchtwagen‐ händler zu Beginn eines Gesprächs mit Kunden dafür sorgen, dass eine gute Beziehung zum Kunden entsteht, also dass sie vom Kunden als vertrauenswürdig angesehen werden. Sie haben den Kontakt zu einem großen Gebrauchtwagenhänd‐ ler mit verschiedenen, unterschiedlich erfolgreichen, Angestellten hergestellt, der Ihnen die Beobachtung erlaubt hat, unter der Bedingung, dass Sie später die als erfolgreich erkannten Methoden seinen Mitarbeitern erläutern und dass sich keine Kunden während des Kaufs beobachtet fühlen. Der Chef hat seine Mitarbeiter darüber informiert, dass irgendwann in nächster Zeit Ihre Beobachtung stattfinden werde und dass sie der Fortbildung diene. Sie schwanken nun zwischen zwei verschiedenen Möglichkeiten, Ihre Beobachtung durchzuführen: a. Sie gewinnen in Ihrem Freundeskreis einige Personen, die sich bereit er‐ klären, „den Kunden zu spielen“, die also vorgeben, ein Auto kaufen zu wollen, und sich von den Verkäufern beraten lassen. Diese Freunde von Ihnen nehmen verdeckt gehaltene kleine Geräte mit, die das Gespräch aufzeichnen, und notieren unmittelbar nach dem Gespräch auf einem von Ihnen vorbereiteten Blatt mit vorgegebenen Kategorien ihre Beobachtungen zu einigen Phänomenen, die nicht per Band aufgenommen werden können, z. B. eingehaltener Körperabstand zum Kunden, Gesten, Lächeln u.ä. b. Sie nehmen an natürlichen Kundengesprächen teil und lassen sich den Kunden als neue Verkäuferin in der Ausbildung vorstellen, die erst einmal 4.6 Fazit 69 <?page no="70"?> durch Zuhören ihr Handwerk lernt. Auch in dieser Situation haben Sie ein kleines, nicht sichtbares Aufzeichnungsgerät mit, das die Gespräche aufzeichnet, und auch in diesem Fall soll nach jedem Gespräch ein Bogen ausgefüllt werden mit einigen vorgegebenen Kategorien zu nicht auditiv wahrnehmbaren Merkmalen des Gesprächs. Stellen Sie Überlegungen an zu den Vor- und Nachteilen der beiden Verfahren in Bezug auf Beobachtungseffekte und Validität der erhaltenen Ergebnisse. 70 4 Die Beobachtung <?page no="71"?> 24 Übrigens ist das Genus für ein (linguistisches) Korpus Neutrum, beim menschlichen Korpus, Möbel- oder Instrumentkorpus handelt es sich um ein Maskulinum. 5 Arbeiten mit Textkorpora Linguistische Textkorpora sind Sammlungen authentischer Sprachdaten. Oft handelt es sich um eine veröffentlichte Sammlung von Texten, aber auch eine Sammlung von Sätzen oder Texten, die eine Forscherin selbst für eine einzige Untersuchung (aus tatsächlich beobachtetem Sprachmaterial, nicht aus selbst erfundenen Beispielen) erstellt hat, ist ein Korpus 24 . Das Arbeiten mit Textkorpora ist eine Alternative zur introspektiven Sprachanalyse (bzw. der Befragung einiger weniger „kompetenter Sprecher“ einer Sprache). Korpora ermöglichen uns, echte (mündliche oder schriftliche) Sprachproduktion zu untersuchen und dabei etwas über die tatsächliche Verwendung von Sprache bei einer bestimmten Population auszusagen. Eigentlich sind Korpora Beobachtungsdaten, da es für Textsammlungen aber besondere Such-, Aufbereitungs- und Auswertungstechniken gibt, widmen wir diesem Thema ein separates Kapitel. Dabei gehen wir nur kurz darauf ein, wie man ein Korpus findet oder erstellt, und welche Besonderheiten schriftliche und mündliche Korpora haben. Zur Vertiefung in das Thema empfehlen wir die deutschsprachigen Einführungen von Bubenhofer (2006- 2024), Scherer (2014) und Lemnitzer & Zinsmeister (2015) (für eine englischsprachige Einführung, s. Hunston, 2022). In diesem Buch befassen wir uns insbesondere mit der Auswahl von Korpora und der Auswertung der Daten, die man mit ihrer Hilfe gefunden hat. Fokus dieses Kapitels ist die Auswertung von Korpusdaten für bestimmte Forschungsfragen. 5.1 Auswahl eines linguistischen Korpus Linguistische Korpora werden in unterschiedlichsten Studien, auch in studentischen Arbeiten, gerne herangezogen, weil sie es ermöglichen, auf sehr unterschiedliche Fragestellungen zu spezifischen Zielgruppen einzugehen. Dabei kann man selbst Daten erheben und zu einem Korpus aufbereiten, oder man kann ein bereits zusam‐ mengestelltes und veröffentlichtes Korpus benutzen. Beide Vorgehen sind möglich; was sinnvoll ist, hängt von einer Reihe an Faktoren ab, vor allem, ob bereits ein geeignetes Korpus existiert. Damit sind forschungsethische Bedenken verbunden: Wenn Sie eine Forschungsfrage stellen, die sich leicht durch die Analyse eines öffentlich zugänglichen Korpus beantworten lässt, dann wäre es unsinnig, eigene Daten zu erheben und ein eigenes Korpus zu erstellen. Das ist nicht nur für Sie sehr zeit- und arbeitsaufwändig - die Personen, von denen Sie Sprachdaten erheben, müssen auch Zeit investieren. Heutzutage ist es deswegen eher so, dass man Daten benutzt, die schon andere Personen erstellt und aufbereitet haben. Damit spart man sich nicht <?page no="72"?> 25 https: / / www.ids-mannheim.de/ digspra/ kl/ projekte/ korpora/ (30.11.2024) 26 https: / / hu-berlin.de/ falko (30.11.2024) repräsenta‐ tive Menge nur die Datenerhebung, sondern insbesondere die aufwändige Aufbereitung, z. B. durch das Transkribieren gesprochener Sprache oder die Überführung von Texten in Korpussoftware (wir gehen unten darauf ein). Bei den bereits bestehenden Korpora gibt es solche, die nicht für spezifische For‐ schungszwecke zusammengestellt wurden. Diese wurden von Anfang an für unter‐ schiedliche Benutzerinnen zusammengestellt, wobei es den Erstellerinnen darum ging, eine möglichst große und möglichst repräsentative Menge an Texten zu sammeln und deren Nutzung so einfach wie möglich zu machen. Dazu gehören z. B. größere schrift‐ liche Korpora wie das deutsche DeReKo 25 , das Deutsche Referenzkorpus vom Institut für Deutsche Sprache in Mannheim, das aus unterschiedlichen Quellen zusammenge‐ setzt wurde, vor allem aber Zeitungen. Durch Digitalisierungsmöglichkeiten der letzten Jahre sind sogar historische Texte, auf die man früher nur in Buchform zugreifen konnte, leicht für Forschungszwecke online zugänglich gemacht worden. Andere allgemein nutzbare Korpora sind von einzelnen Forscherinnen für ihre eigene Forschung zusammengestellt und dann veröffentlicht worden. Viele dieser Korpora wurden dann weiter ergänzt und annotiert. Hierzu gehören oft Korpora aus der Sprachproduktion spezifischer Gruppen wie das Falko 26 , ein fehlerannotiertes Lernerkorpus für Deutsch als Fremdsprache. Wenn man mit einem bestehenden Korpus arbeiten will, muss man sich natürlich überlegen, ob die in diesem Korpus als Stichprobe zusammengestellten Texte tatsäch‐ lich repräsentativ sind für die Grundgesamtheit, über die man in seiner eigenen Arbeit Aussagen machen möchte. Zum Beispiel kann man schlecht für eine Erscheinung, die in der gesprochenen Sprache erheblich häufiger vorkommt als in der geschriebenen, auf ein Korpus zur geschriebenen Sprache zurückgreifen. Viele elektronisch nutzbare Korpora enthalten auch Texte, die seit den 1960er Jahren veröffentlicht wurden, was problematisch ist, wenn man Aussagen über prozentuale Anteile des Gebrauchs einzel‐ ner Formen im heutigen Deutsch machen will. Gute Korpora ermöglichen es aber auch, innerhalb des Gesamtkorpus nach eigenen Kriterien (z. B. Jahr der Veröffentlichung eines Textes) eine Auswahl zu treffen, sodass man dieses Problem reduzieren kann. Gute linguistische Korpora sind immer häufiger in Korpussammlungen zu finden, die online leicht zugänglich und sogar auswertbar sind. Im Interesse von Open Science müssen sogar häufig Korpora, die in Forschungsstudien erhoben werden, aufbereitet und der Öffentlichkeit zugänglich gemacht werden. Oft sind damit besondere Bestim‐ mungen verbunden - man muss z. B. einen Datennutzungsvertrag ausfüllen, wenn man ein bereits existierendes Korpus nutzen will, manchmal (bei videografischen Daten) darf man die Rohdaten nur vor Ort anschauen. Manchmal liegen Korpora aber bereits elektronisch aufbereitet und sogar annotiert, d. h. nach bestimmten Kategorien kommentiert, vor. Solche Korpora sind meist sehr viel umfangreicher als eine selbst zusammengestellte Sammlung. Allerdings braucht man je nach Korpus und 72 5 Arbeiten mit Textkorpora <?page no="73"?> Fragestellung besondere Kenntnisse, um die Daten zu analysieren. Und auch große Korpora sind nicht unbedingt für alle Fragen repräsentativ. So ist nicht jede Textsorte ausreichend vertreten in Korpora, die für die allgemeine Nutzung zur Verfügung stehen, sodass man sich doch oft selbst ein Korpus zusammen‐ stellen muss. Deswegen stellen sich viele Forscherinnen für ihre Forschungsarbeit ein eigenes Korpus aus Texten oder Gesprächen zusammen. Entscheidet man sich für die‐ ses Vorgehen, muss man sehr sorgfältig überlegen, was genau das Erkenntnisinteresse ist, damit das erhoben wird, was man erheben will. Die sonstigen Überlegungen für Stichproben, Erhebungsinstrumente und -situation, Einhaltung der wissenschaftlichen Gütekriterien etc. gelten hier natürlich auch - man will ja, dass das Korpus repräsen‐ tativ für die Zielgruppe ist. Will man ein Korpus mit anderen Korpora vergleichen, muss man zudem darauf achten, dass das Korpus mit dem bereits existierenden gut vergleichbar ist. Das kann z. B. der Fall sein, wenn man sich für die Entwicklung des Tempusgebrauchs im Spanischen und im Deutschen von Deutsch-Spanisch bilingualen Kindern im Alter von 5-12 Jahren in Deutschland interessiert, und als Vergleichsgruppe mündliche Sprachproduktion von Kindern analysiert, die entweder Spanisch (z. B. in Argentinien) oder Deutsch (z. B. in Deutschland) monolingual erwerben. Dann muss man die Sprachproduktionserhebung an die aus den bereits existierenden Korpora an‐ gleichen und auch die Datenaufbereitung, also wie die Rohdaten in eine analysierbare Form gebracht werden. Übrigens werden durch die sich stark entwickelnde Digitalisierung und Datenver‐ arbeitungsmöglichkeiten sicher neue, noch unerprobte Anwendungen von sog. large language models (LLMs) für Korpusanalysen ausprobiert. 5.2 Aufbereitung von Korpusdaten Viele elektronisch verfügbare Korpora sind bereits aufbereitet - sie sind zumindest in eine bearbeitbare oder sogar analysierbare Form gebracht. Dazu gehört, dass die Texte, die Teil des Korpus sind, nie in einer einzigen Datei vorkommen, sondern jeder Text wird separat abgespeichert (zu jedem Text müssen auch die relevanten Metadaten vorhanden sein, wie zum Beispiel die genaue Quelle, sodass man mit weiteren Merkmalen der involvierten Personen und der Situation arbeiten kann). Die Texte müssen auch soweit strukturiert sein, dass Teile wie Titel, Datum (bei Zeitungskorpora besonders wichtig) oder Anfang und Ende des Textes ersichtlich sind. Und sie müssen in einem Dateiformat abgespeichert werden, das dann für eine Korpusanalysesoftware lesbar ist. Für viele Programme werden Text-Dateien (Dateiformate, die mit „.txt“ aufhören) benötigt. Wenn weitere Informationen wie Formatierungen (Unterstreichungen, Kursivdruck) wichtig sind, dann müssen die Texte als XML-Datei gespeichert werden. Für professionelle, öffentlich zugängliche Textkorpora wird XML meist verwendet, weil man dann viele weitere Informationen wie Titel, Betonungen oder (später) auch Annotationen, die nicht zur sprachlichen Produktion gehören, speichern kann. 5.2 Aufbereitung von Korpusdaten 73 <?page no="74"?> Früher wurden Korpora nach der Aufbereitung oft händisch ausgewertet oder in Programmen wie z. B. Excel zusammengetragen und quantitativ ausgewertet. Heutzutage ist dies weder sinnvoll noch notwendig, weil es eine Menge wirklich guter Korpusannotations- und -analysetools gibt, die das Annotieren und dann die Auswertung sehr vereinfachen. Wir nennen hier einige sehr typische Programme, die im deutschsprachigen Raum eingesetzt werden, und mit denen wir selbst gearbeitet haben: PRAAT (https: / / www.fon.hum.uva.nl/ praat/ ), MAXQDA (https: / / www.maxqda .com/ de/ ), EXMARaLDA (https: / / exmaralda.org/ de/ ) und ELAN (https: / / archive.mpi.n l/ tla/ elan). Jedes von diesen Programmen wurde für sehr spezifische Verwendungen entwickelt. PRAAT ist zum Beispiel für die Analyse phonetischer Einheiten bestimmt. MAXQDA wird gerne für schriftliche Textkorpora verwendet. EXMARaLDA ist dagegen ein sogenannter Partitureditor, bei dem jeder Sprecher und meist auch Nonverbales eine andere Zeile („Partitur“) für sich bekommt, was sehr nützlich für Korpora gesprochener Sprache ist. ELAN ist ein Softwareprogramm zur Annotation von Audio- und Video‐ daten, ist also nützlich, wenn man Videodateien mit der Transkription verlinken und diverse nichtsprachliche Daten analysieren will. Welches Programm - ob eines von diesen oder ein anderes - man letztendlich verwendet, hängt von diversen Fragen ab. Dabei sollten Sie bei der Auswahl nicht vergessen, dass Ihnen nicht unendlich viel Zeit zur Verfügung steht und Sie keine zwei Jahre für eine Masterarbeit verwenden wollen, nur weil Sie zuerst eine Software kennen lernen müssen, und dann sehr aufwändig sehr viele Informationen transkribieren und annotieren. Es gilt wie immer: Möglichst nur so viele Informationen aufnehmen und analysieren, wie Sie wirklich für die eigene Fragestellung brauchen. Bei schriftlichen Texten ist die Aufbereitung von Daten weniger aufwändig als bei der Aufbereitung von Gesprächen, aber man muss trotzdem einige Überlegungen anstellen. Liegen die Daten handschriftlich vor, werden sie meistens zuerst abgetippt. Für manche Fragestellungen muss man dann auch Änderungen an den Texten vorneh‐ men. Will man z. B. wissen, wie oft das Lexem „Schüler“ vorkommt, dann muss das Programm unter Umständen auch „Schuler“ und „schüler“ mitzählen. Dafür müssen zuerst alle Rechtschreibfehler „orthografisch normalisiert“ werden, d. h. man muss die Fehler ausbessern, so dass einzelne Items durch eine Software identifizierbar sind. (Das geht natürlich nur, wenn man keine Rechtschreibanalyse durchführen will - und man braucht ein System, nach dem man sich bei der Ausbesserung richten kann, sodass genau festgelegt und beschreibbar ist, in welchen Fällen Änderungen vorgenommen wurden.) Wenn es um gesprochene Sprache geht, dann ist die Aufbereitung von Daten noch aufwändiger - umso mehr, je mehr Modalitäten man einbezieht. Bei schriftlichen Texten hat man es nur mit geschriebener Sprache zu tun, bei Audiodaten mit mündli‐ cher und schriftlicher (das aufbereitete Korpus). Bezieht man auch noch Videodaten ein, weil etwa Gebärdensprache oder Mimik und Gestik relevant sind, dann wird es noch komplexer. Hier muss man sich überlegen, wie genau man die Besonderheiten 74 5 Arbeiten mit Textkorpora <?page no="75"?> Token Type der zu analysierenden Texte für den eigenen Forschungszweck dokumentieren muss, z. B. ob man ein Transkriptionssystem braucht, um das gleichzeitige Sprechen von mehreren Sprechern oder gleichzeitige Gesten in einer Partiturschreibweise wieder‐ zugeben, ob man phonetische Zeichen braucht oder ob man Abweichungen von der Normalaussprache auch mit der sogenannten „literarischen Umschrift“ wiedergeben kann usw. Will man nur Vorträge aufnehmen und analysieren, kommt man vielleicht gänzlich ohne eine Partiturschreibweise aus, sollen Gruppendiskussionen analysiert werden, müssen viel mehr Informationen einbezogen werden. Genauere Ausführungen zu Transkriptionsweisen finden sich bei den jeweiligen Softwareprogrammen oder in Einführungswerken zur Korpusanalyse, die wir in das Literaturverzeichnis aufgenom‐ men haben. 5.3 Analyse von Korpusdaten 5.3.1 Analyseeinheiten: Tokens und Types Ein linguistisches Korpus ist, wie gesagt, eine Sammlung von authentischen Sprach‐ daten. Ein Korpus kann ein paar Hundert oder viele Millionen von Wörtern beinhalten - der DeReKo umfasst zum Beispiel 57,6 Milliarden Wörter (Stand Januar 2024). Übli‐ cherweise wird die Größe von Korpora in Tokens angegeben, womit die Summe aller im Korpus vorkommenden Wörter gemeint ist. Davon zu unterscheiden ist das Konzept der Types. Types sind abstrakte Repräsentationen lexikalischer Einheiten (Wörter), das bedeutet, alle vorkommenden flektierten Formen eines Worts sind nur ein Type. Ein Type kann aber auch eine größere Einheit sein - eine Nominalphrase (egal, welchen Kopf sie hat oder wie groß sie ist) kann zum Beispiel ein Type sein, oder auch ein syntaktischer Satz, oder auch die Realisierung des Phonems / t/ . Für die Analyse eines Korpus können sowohl Tokens als auch Types von Interesse sein. Dabei kommt es nur selten vor, dass diese Zahlen übereinstimmen. Beispielsweise würde man die Tokenfrequenz vom Wort ist ermitteln, indem man jedes tatsächliche Vorkommen davon in einem Text zählt. Die Typefrequenz von ist hingegen ist im gesamten Korpus gleich eins, unabhängig davon, wie oft ist im Korpus vorkommt (vorausgesetzt, es kommt mindestens einmal vor). Bei der Analyse von Korpusdaten ist ein gebräuchliches Verfahren, die Relation zwischen Types und Tokens zu ermitteln. Wenn pro Type viele Tokens zu finden sind, spricht das für einen relativ undifferen‐ zierten Wortschatz, dieselben Wörter werden ständig wiederholt. 5.3.2 Anwendungsmöglichkeiten Wozu kann man denn Korpora nutzen? Das hängt natürlich von der Art des Korpus ab. Wenn nichts als der reine Text im Korpus gespeichert ist, kann man kaum mehr als Wörter suchen lassen. Die meisten aufbereiteten Korpora bieten allerdings zumindest die Möglichkeit, dass zu einer Grundform automatisch alle ihre flektierten Formen 5.3 Analyse von Korpusdaten 75 <?page no="76"?> annotierte Korpora Belege suchen KWIC - Key‐ word in Context mitberücksichtigt werden, ohne dass man diese einzeln eingeben müsste (außer sein noch ist, bin, gewesen, war etc.). Außer nach Einzelwörtern kann man auch nach Wortgruppen oder nach gebundenen Morphemen suchen. Wirklich interessant wird die Korpusanalyse mit annotierten Korpora. Sie enthalten weitere Klassifizierungen, am häufigsten syntaktische und morphologische Klassifizie‐ rungen. Damit kann man auch nach syntaktischen oder morphologischen Phänomenen suchen, also z. B. nach erweiterten Partizipien I (die geduldig lesende Studentin) oder z. B. nach Sätzen mit zwei Konstituenten im Vorfeld (Vor zwei Jahren in Heidelberg hast du genau das Gegenteil behauptet). Viele Korpora haben andere Annotationen, die für spezifische Forschungszwecke angelegt wurden. Arbeitet man selber mit einem Kor‐ pus, legt man meist auch für die eigenen Forschungszwecken eigene Annotationen an, die dann je nach Korpusanalysesoftware automatisch (numerisch und auch grafisch) ausgewertet werden können. Wenn das Korpus sehr groß ist oder Einheiten analysiert, die gut identifizierbar sind (z. B. syntaktische Phrasen) wird die Annotation nicht von einer menschlichen Bearbeiterin, sondern von einem Computerprogramm vorgenommen. Obwohl diese Programme oft erstaunlich gut funktionieren, können dabei Fehler entstehen, deshalb enthalten manche Korpora speziell ausgewiesene Teile, bei denen die automatisch erstellte Annotation noch einmal (meist von einer Linguistikstudentin als studen‐ tischer Hilfskraft) kontrolliert wurde. In diesem Fall läge also auch bereits eine Datenklassifikation nach syntaktischen Kriterien vor, in vielen anderen Fällen wird man aber als Benutzerin des vorliegenden Korpus selbst die Daten klassifizieren, wie es bei Beobachtungsdaten normalerweise nötig ist, bevor man mit einer Auswertung beginnen kann. Die bei weitem häufigste Verwendung von Korpora ist die, dass man für bestimmte sprachliche Phänomene das tatsächliche Vorkommen in Texten sucht. Man lässt also automatisch nach einzelnen Wörtern oder Wortverbindungen suchen und sich jeweils die Umgebung anzeigen, in der sie vorkommen. Man kann auch einfach suchen, wie häufig sie vorkommen, z. B. im Vergleich zu konkurrierenden Formen. Alle elektro‐ nisch nutzbaren Korpora bieten die Möglichkeit, zu einem Wort seine Textumgebung anzusehen (man nennt das auch „Keyword in Context“ oder „Schlüsselwort im Kon‐ text“), viele auch gleich eine statistische Analyse, welche anderen Wörter besonders häufig mit diesem Wort vorkommen. Diese Möglichkeiten sind sehr praktisch, wenn man ein Lexikon erstellen oder überarbeiten will, wenn man verschiedene Varianten bei einem Wort, z. B. die Vorkommenshäufigkeit einzelner Lesarten von Verben, fest‐ stellen will, für Lehrmaterial besonders typische Beispiele für die Verwendung eines Worts sucht, die unterschiedliche Verwendung vermeintlich synonymer Lexeme her‐ ausfinden will usw. Überhaupt können solche Frequenz-Analysen sehr gut für die Ent‐ wicklung von Lehrmaterial benutzt werden, begreiflicherweise sollte Lehrmaterial für eine Sprache die häufiger vorkommenden Erscheinungen vor den seltener vorkom‐ menden behandeln. 76 5 Arbeiten mit Textkorpora <?page no="77"?> Wir probieren das an einem kleinen Beispiel aus. Nehmen wir an, wir interessieren uns dafür, ob Deutschlernende in ihren schriftlichen Produktionen das Wort „Job“ verwenden (z. B. im Kontrast zu „Arbeit“), und ob sie es ähnlich verwenden wie Personen, die Deutsch als Erstsprache verwenden. Wir erforschen dann in unterschied‐ lichen Schritten die Verwendung von „Job“ und „Arbeit“. Wir wählen nach reichlicher Überlegung das Falko-Korpus aus, um Daten für unsere Analyse zu finden, und entscheiden uns, für die L2-Daten das Teilkorpus falkoEssayL2v2.4 zu verwenden (h ttps: / / korpling.german.hu-berlin.de/ falko-suche/ ). Wir geben das zu suchende Lexem „Job“ über die Suchmaske ein und stellen den Kontext, also wie viele Wörter links und rechts von „Job“ erscheinen sollen, auf links 10, rechts 5 Wörter. Wir erhalten folgende Ausgabe (Abbildung 1): Abb. 1: „Job“ im Satzkontext im Falko-Korpus (22.08.2024) In den 248 L2-Texten im Teilkorpus erscheint das Wort „Job“ 69-mal in insgesamt 41 Texten, es sind also 69 Tokens. Wir können dann den Kontext beliebig vergrößern, um zu analysieren, wie das Lexem verwendet wird - und die Verwendungsweisen mit den 30 Tokens aus 18 L1-Texten vergleichen. In der Abbildung haben wir die weiteren Informationen nicht ausgeklappt. Hier kann man sehr viele nützliche Informationen zu morphologischen und syntaktischen, aber auch argumentationslogischen Rollen der einzelnen Konstituenten finden. Interessiert man sich also z. B. für den Anteil an Adjektiven in den L1vs. L2-Texten, kann man dies auch durch das Korpus ausgeben lassen. Man kann ein Korpus auch nutzen, um Aussagen über syntaktische Phänomene zu verifizieren. Man könnte sich fragen, ob der englische Satz If I would have more money, I would buy a new computer zu korrigieren ist in If I had more money, I would buy a new computer, wie wir es in der Schule gelernt haben, oder ob L1-Sprechende des Englischen die Form if I would have… nicht auch gebrauchen. Ob dies so ist, kann man anhand eines Korpus von englischen Texten, vor allem aus der gesprochenen 5.3 Analyse von Korpusdaten 77 <?page no="78"?> Sprache, überprüfen. Das heißt, Vermutungen, die wir über den Gebrauch bestimmter sprachlicher Phänomene haben, können wir unter Benutzung eines geeigneten Korpus überprüfen, was weniger aufwändig als eine Befragung ist und weniger die Gefahr von Verzerrungen durch die Kenntnis grammatischer Regeln bei den Befragten mit sich bringt. 5.3.3 Auswertung von Korpusdaten Wie wir bei der Auswertung vorgehen, hängt begreiflicherweise von der Fragestellung ab. Im Beispiel oben wären wir vielleicht schon zufrieden, wenn wir feststellen, dass 15 % der if-Konditionalsätze, die wir gefunden haben, die Form mit would enthalten, und wir würden sagen, es gibt Anhaltspunkte dafür, dass die Normvorgabe etwas zu strikt ist. Wir können aber natürlich auch Hypothesen anhand der Auswertung von Korpora prüfen. Wir stellen die Hypothese auf, dass die Vorgaben der Rechtschreibreform die einzelnen Möglichkeiten für das Partizip II von staubsaugen, in neuer Rechtschreibung Staub saugen, beeinflusst haben, d. h. also wir sagen vorher, dass sich nach Einfüh‐ rung der neuen Schreibung Staub gesaugt gegenüber gestaubsaugt und staubgesaugt stärker verbreitet hat. Wir suchen in einem Korpus geschriebener Sprache, und zwar deshalb, weil bei Transkripten gesprochener Sprache eine Interpretation der Transkript-Erstellerinnen zur Wahl zwischen Staub gesaugt und staubgesaugt geführt hat, wir also nicht wissen, welche Version die Textproduzenten bevorzugt hätten. Wir suchen Belege aus der Zeit von 1986-1996 und 2006-2016 (die Zeit dazwischen werten wir als Übergangszeit, in der sich niemand sicher war über die Schreibung). Unser (hypothetisches) Ergebnis ist (Tabelle 1): - Staub gesaugt staubgesaugt gestaubsaugt 1986-1996 1 13 9 2006-2016 19 4 2 Tabelle 1: Beispiel für gefundene Tokens Es sieht auf dem ersten Blick so aus, als hätte die Rechtschreibreform tatsächlich zu einer Änderung im Gebrauch geführt. Um sicher zu gehen, werden die Daten mit sta‐ tistischen Verfahren weiter untersucht. Beispiele dafür finden sich in Kapitel 10 bei der beschreibenden Statistik und in Kapitel 11 bei der Darstellung des Chi-Quadrat-Tests. 78 5 Arbeiten mit Textkorpora <?page no="79"?> 27 Aus: Brons-Albert, R. (1995). Verkaufsgespräche und Verkaufstrainings (S.-179-180). Westdeutscher Verlag. Aufgaben 1. Versuchen Sie selbst, mit einem Korpus schriftlicher Texte zu arbeiten. Sie können für Deutsch als Fremdsprache z. B. das Falko-Korpus (https: / / korpling.german.h u-berlin.de/ falko-suche/ ) aufrufen, oder Sie finden ein anderes entsprechendes Korpus, wo schriftliche Texte (öffentlich zugänglich) zu finden sind. Untersuchen Sie, wie häufig das Lexem ich im Vergleich zu wir (bzw. je nach untersuchter Sprache I/ we, je/ nous etc.) in den L2-Lernertexten vorkommt. Was müssen Sie bei der Eingabe der Suchitems beachten? 2. Angenommen, Sie wollen mit Hilfe von Korpusanalysen Zählungen machen, die Aufschluss darüber geben, wie häufig ein bestimmtes Phänomen (oder auch nur ein bestimmtes Wort) in der gesprochenen und in der geschriebenen Sprache vorkommt. Sie wollen beim Worthäufigkeitsvergleich die Anzahl der Tokens in zwei Korpora, einem für gesprochene, einem für geschriebene Sprache, für Ihr Sie interessierendes Wort vergleichen, bei den Types wollen Sie dasselbe tun. Stellen Sie Überlegungen dazu an, welche Probleme der Abgleich von Types und Tokens machen könnte. Achten Sie u. a. auf Realisierungen der Wörter das und es! Zur Illustration ist ein Transkript 27 aus einem Korpus gesprochener Sprache beigefügt. Siglen V: Verkäuferin K: Kunde V: Guten Tag! - K: - / _Haben Sieʼn Wörterbuch? Deutsch. Franzö- - - langsam, zögernd 1 V: - wo alle beide drin sin? K: sisch, Deutsch-Spanisch? _/ Beides. beides, 2 V: - / _Ich wollt grad sagen, nämlich beides in - - lebhaft K: beides, bitte, ja. 3 Aufgaben 79 <?page no="80"?> V: einem Band, das gibt also / _/ K: - / _nee, nee, nee, nee, Entschuldijung! _/ Dat - - lebhaft 4 V: - Wolln Sie diese Größe oder. K: war jetz, e,. mein Irrtum! 5 V: größer oder kleiner? Für welchen Zweck soll’s denn sein? 6 V: - Fürʼn Urlaub? Dann brauchen K: Kleinere hätt ich gerne. ja 7 V: Se die Kleinen! / _Da - - ruhig K: - Nur für unterwegs. um / um. einigermaßen… 8 V: reichen die also vollkommen aus, Kleinere gibtʼs auch 9 - - ((Geräusche Kasse eintippen)) V: nich mehr! _/ ((16 s)) ((6 s)) 10 - - ((Geräusch V: - Dreizehn Mark sechzig! . Geht K: So! Was hätten Sie gerne? 11 80 5 Arbeiten mit Textkorpora <?page no="81"?> Kleingeld)) ((Geräusch Kleingeld, V: das so, oder ʼne Tüte? Ja? K: - Ja, ja, ja! 12 - Geräusch Kasse öffnen 16 s)) K: - Dat sin ja vierzehn! Hab 13 K: ich denn jetz, eins, zwei, drei. vier, fünf, sechs, 14 V: - (dreizehn, ne) Und zehn K: doch, dat stimmt! / _Dat is (richtig): _/ - - geflüstert 15 - - ((Geräusch Geld ein- V: Mark zurück! Hm, dankeschön! K: - Bitteschön (Hoffentlich nehm 16 - sortieren)) V: - / _Jaha_/ - - amüsiert K: Ich sie auch mit! ) sons nützet mir alles nix! 17 V: Richtig! ((3 s)) Wiedersehn! K: - Wiedersehn! 18 Aufgaben 81 <?page no="82"?> 28 Das Verfahren sowie den Schreibanlass finden Sie hier: Reich, H., Roth, H.-J. & Gantefort, C. (2008). Auswertungshinweise ‚Der Sturz ins Tulpenbeet‘ (Deutsch). In: T. Klinger (Hrsg.), FörMig Edition: Bd. 4. Evaluation im Modellprogramm FörMig: Planung und Realisierung eines Evaluationskonzepts (S. 209-237). Waxmann. Das Beispiel entstammt einer nicht veröffentlichten Texterhebung von Nicole Marx. K: / _Ihr seid ja so still, ihr zwei! Ihr seid ja so - - zu zwei Wellensittichen im Laden 19 K: still! Hm? _/ 20 3. Sie wollen etwas über die schriftlichen Fähigkeiten im Deutschen von neuzuge‐ wanderten Schülern in der 6. Klasse herausfinden und lassen narrative Texte von neuzugewanderten und nicht-neuzugewanderten Schülern erheben. Hierfür haben Sie sich für einen Schreibanlass 28 entschieden, der die schriftliche Erzählung einer Bildergeschichte mit dem Titel „Sturz ins Tulpenbeet“ einfordert. Die Bilder zeigen, wie ein Mann (vermutlich der Vater) zwei Kinder in einem Park fotografieren will, dabei über einen niedrigen Zaun stolpert und in Folge selbst zum Fokuspunkt eines von dem Mädchen geschossenen Bildes wird, bei dem er mitten in einem Tulpenbeet liegt. a. Überlegen Sie sich eine Forschungsfrage, die sich anhand einer Korpusana‐ lyse beantworten ließe. b. Welche besonderen Überlegungen müssten Sie anstellen, um diese Korpus‐ analyse durchzuführen? c. Welche Metadaten (Informationen zu den Schülern, zur Lernsituation etc.) müssten Sie bei den einzelnen Texten speichern? d. Welche Merkmale müssten Sie im Text annotieren, um die Daten analysieren zu können? e. Welches Korpusannotations- und -analysetool würden Sie für die (teilauto‐ matisierte) Analyse dieser Texte heranziehen wollen? f. Wie müssten Sie die Texte aufarbeiten, um sie zur Beantwortung der Fragestellung analysieren zu können? Zur Unterstützung Ihrer Überlegungen können Sie ein Textbeispiel heran‐ ziehen, das von einer Sechstklässlerin nach einem Jahr Deutschunterricht an einer Schule in Deutschland verfasst wurde: Der Man Mashte ein fotosvon din Kinda der Kinda sitz und in shal of die Bank und Mashte ein fotos der Kinda. Bush der man der Man das foto macht und der man Ligt in blmen und der Kinda gibt foto von der Mann 82 5 Arbeiten mit Textkorpora <?page no="83"?> Kovariate mündliche Befragung 6 Die Befragung Neben Beobachtungen und Korpusanalysen sind Befragungen ein beliebter Zugang zu Informationen in der Linguistik und insbesondere in der Sprachlehrforschung. Sie ist für die Informanden umständlicher, da sie entweder einen Fragebogen ausfüllen oder sich auf ein Interview (persönlich, über Videochat oder telefonisch) einlassen und dafür Zeit nehmen müssen. Auch für die Forscherin kann die Datenerhebung umständlicher sein, wenn z. B. mehrere Personen interviewt werden sollen. Dennoch bietet die Befragung viele Vorteile - allen voran, dass man detailliertere Informationen über individuelle Verhaltensweisen, Einstellungen oder Persönlichkeitsmerkmale erheben kann - also Informationen, die man als Externe kaum ausreichend beobachten oder testen kann. Man kann sie allerdings nur in Situationen anwenden, in denen man davon ausgehen kann, dass das Verhalten, über das man forscht, von den Befragten so wahrgenommen wird, wie es tatsächlich stattfindet. Deswegen eignen sich bestimmte Personengruppen (wie junge Kinder, die noch kein hohes Reflexionsvermögen ausge‐ bildet haben) eher nicht für Befragungen, oder nur in sehr besonderen Situationen. Befragungen kommen in Forschungsprojekten sehr häufig in Kombination mit an‐ deren Erhebungsarten vor. In diesem Fall erheben sie sogenannte Kovariate - also In‐ formationen wie Alter, Schulbildung, Interesse an einer Fremdsprache etc., die mit dem Phänomen von Interesse in Verbindung stehen oder es beeinflussen können. Sie werden dann bei der Datenauswertung kontrolliert oder als Erklärungsfaktoren herangezogen. Wir gehen in diesem Kapitel auf generelle Informationen zu Befragungen ein. 6.1 Mündliche vs. schriftliche Befragungen Wenn man die Einteilung nach der Situation, in der sich die Antwortenden befinden, vornimmt, gibt es zwei verschiedene Arten von Befragungen, nämlich einmal die persönliche Befragung, in der eine Person - die Interviewerin - mündlich Fragen stellt und mündlich geantwortet wird, und andererseits die schriftliche Befragung, in der die befragte Person beim schriftlichen Beantworten von schriftlich gestellten Fragen allein ist. Ein Sonderfall der mündlichen Befragung ist die telefonische Befragung, in der man seinen Gesprächspartner nicht sieht. Heute kommt das Videointerview (über einen synchronen Video-chat) als kostengünstige und zeitsparende Alternative (weil die Interviewerin nicht zum Interviewten reisen muss) zum Vor-Ort-Interview eher vor. Mündliche Befragungen werden i. d. R. als Interviews durchgeführt. Sie haben meh‐ rere Vorteile. So kann man die Interviewsituation besonders gut kontrollieren und dabei besonders auf neue Ideen oder Aussagen der Interviewten eingehen. Kommen unge‐ wöhnliche Antworten (oder gar keine), kann die Interviewerin nachfragen. Überhaupt ist man dann sicher, dass die antwortende Person tatsächlich diejenige ist, die befragt <?page no="84"?> schriftliche Befragung Selbstselektion werden soll - bei Fragebögen ist das nicht immer der Fall! Und schließlich können sie bei Personengruppen besser eingesetzt werden, die keinen oder nur erschwerten Zu‐ gang zu einer schriftlichen Befragung haben - weil sie z. B. Schwierigkeiten haben, den Fragebogen zu lesen. Mündliche Befragungen haben aber auch gewisse Nachteile. Sie nehmen viel Zeit in Anspruch, weil sie meist nur mit einer oder mit sehr wenigen Personen auf einmal durchgeführt werden, sie sind umständlicher in der Datenaufbe‐ reitung und Datenauswertung, und Interviewer-Effekte - auf die wir im nächsten Teil‐ kapitel näher eingehen - stellen eine Gefahr dar. Die schriftliche Befragung wird dagegen vollständig eigenständig durch den Be‐ fragten durchgeführt. Dabei kann es sich um eine analoge oder digitale Befragung handeln. Wenn die Befragung analog durchgeführt wird, nennt man das auch ein PAPI-Verfahren (paper assisted personal interview); die digitale Alternative wird als „computerbasierter Fragebogen“ (CAPI; computer assisted personal interview) oder - wenn es online erfolgt - CAWI (computer assisted web interview) bezeichnet. Diese Varianten haben den Vorteil, dass man in kurzer Zeit viele Personen befragen kann und somit leichter auf eine akzeptable Größe der Stichprobe kommt. Trotzdem gibt es einige Nachteile. Dazu gehört die Frage, wer überhaupt den Fragebogen ausfüllt. Bei posta‐ lisch oder per E-Mail verschickten Fragebögen können andere Personen die Antworten des Befragten beeinflussen, eventuell wird der Fragebogen gar nicht von der Person ausgefüllt, die für die Befragung ausgewählt wurde. Das ist bei Fragebögen, die sich an den Chef einer Firma richteten, oft der Fall: Sie werden meist von den Assistenzkräften ausgefüllt. Zudem werden sehr häufig schriftlich zugestellte Fragebögen überhaupt nicht beantwortet; der Rücklauf bleibt bei um die 20 %. Beantwortet werden sie am ehesten von Personen, die ein besonderes Interesse an der jeweiligen Fragestellung haben oder die aus irgendwelchen Gründen gerne Fragebögen ausfüllen, man spricht von einer „Selbstselektion der Stichprobe“. Das ist insofern problematisch, als sich die Personen, die den Fragebogen beantworten, von der Grundgesamtheit, über die man Aussagen machen will, in wesentlichen Merkmalen unterscheiden können. Denken Sie z. B. an Seminarevaluationen an der Universität. Diejenigen, die den (i. d. R. digitalen) Fragebogen (= Evaluation) beantworten, sind oft die ganz Begeister‐ ten und die stark Verärgerten oder die besonders Enttäuschten. Damit hat man aber nur Befragungsergebnisse zu den Extremgruppen. Was die breite Mehrheit denkt, erfährt man nicht. Schließlich ist ein weiterer Nachteil, dass offensichtliche Missverständnisse nicht durch eine Ansprechpartnerin zu klären sind. Die befragte Person hat keine Möglich‐ keit, Rückfragen zu stellen. Es gibt einige Verfahren, diese Probleme wenigstens teilweise in den Griff zu bekommen. Wenn man die Fragebögen nicht persönlich austeilt, sondern mit der Post oder per E-Mail verschickt, dann gibt es die Möglichkeit, bei ungenügendem Rücklauf telefonisch oder schriftlich (Erinnerungs-E-Mail) zu mahnen. Wenn Erhebungen in Schulen oder mit Personen in Unterrichtssituationen gemacht werden, so lässt man die Fragebögen in Anwesenheit der Verteilenden ausfüllen und sammelt sie danach 84 6 Die Befragung <?page no="85"?> 29 Surveyexperimente nutzen genau diese Situation aus: Sie stellen Fragen auf eine unterschiedliche Weise und prüfen, wie die Antworten davon beeinflusst werden. Interviewer- Effekt gleich wieder ein. So kommt man zu akzeptablen Rücklaufquoten - und die Befragten können immer nachfragen, wenn sie z. B. Fragen nicht verstehen. 6.2 Befragung als Dialog Eine Befragung ist kein reines Einholen von Informationen, sondern auch eine Kom‐ munikation zwischen zwei oder mehreren Personen. Sie geschieht - ob schriftlich oder mündlich - in einer Kommunikationssituation und wird geprägt durch gegenseitige Erwartungen und durch die Reflexionskompetenz der involvierten Personen. Die Versprachlichung von Meinungen, Erinnerungen oder Verhaltensweisen hängt von Faktoren wie den Sprachkompetenzen der interviewten Person ab, aber auch von gegenseitigen Erwartungen an das Gespräch. Die Kommunikationssituation kann einen starken Einfluss auf die Ergebnisse haben. Bei schriftlichen wie bei mündlichen Befragungen ist zum Beispiel mit sogenannten „Interviewer-Effekten“ zu rechnen. Die befragte Person wird mit einer Frage konfron‐ tiert und reagiert darauf. Sie nimmt nicht nur die wörtliche Bedeutung der Frage wahr, sondern auch allerhand Merkmale der Situation, sie analysiert und bewertet alle diese Informationen und überlegt sich eine Antwort oder reagiert mit einer Antwortverwei‐ gerung, z. B. wenn die Frage oder die Befragung insgesamt als Zumutung empfunden wird. Jeder dieser Schritte ist von Erwartungen und von sozialen Normen beeinflusst. Bei persönlichen Interviews ist dies für jeden offenkundig. Das Aussehen der Inter‐ viewerin, ihre Art zu fragen, ihre Formulierungen, ihre Reaktion auf die Antworten, all das beeinflusst das Verhalten der interviewten Person. Interviewereinflüsse gibt es aber nicht nur bei persönlichen Befragungen. Sie sind auch nicht auf eindeutig suggestive Fragen bei schriftlichen Befragungen beschränkt. Sehr viel weniger wird beachtet, dass Interviews häufig den Befragten durch die Situation suggerieren, sie müssten auf jeden Fall eine Antwort auf die gestellte Frage oder eine Meinung zu dem infrage stehenden Problem haben. Atteslander (1984) berichtet von einer Befragung, in der dieselbe Frage nach der Akzeptanz einer militärischen Vereinbarung zwischen Amerika und Russland einmal so gestellt wurde, dass die Befragten einfach ihre Meinung dazu äußern sollten, und einmal so, dass zunächst gefragt wurde, ob sie schon eine Meinung dazu hätten und, wenn ja, welche. Im ersten Fall gab es nur 15,2 % Unentschiedene bzw. nicht antwortende Befragte, im zweiten Fall erklärten 56,2 % der Befragten, sie hätten zu diesem Thema noch keine Meinung. Die Situation, die das Interview schafft, beeinflusst also ganz deutlich die Antworten. 29 Solche Effekte ergeben sich auch aus der Situation, dass die Befragende ein ganz anderes Interesse an den Ergebnissen des Interviews hat als der Befragte. Befragende, 6.2 Befragung als Dialog 85 <?page no="86"?> Interviewer‐ verhalten Fragebogen‐ länge die meist ein klares Ergebnis für ihre Untersuchung haben wollen, sind an „Weiß nicht“-Antworten im Normalfall nicht interessiert. Die übliche Methode, Interviewer-Effekte so gering wie möglich zu halten, ist eine möglichst starke Lenkung der Interviews oder Befragungen. Dadurch kann man sicherstellen, dass wenigstens alle Befragten dieselben Fragen erhalten haben, selbst wenn unterschiedliche Interviewerinnen die Fragen stellen. Meistens werden in quantitativen Untersuchungen sog. leitfadengestützte Interviews durchgeführt, das bedeutet, die Fragen werden anhand eines standardisierten Leitfadens in einer vorbestimmten Reihenfolge gestellt. Eine starke Festlegung von Fragen hat allerdings auch Nachteile. So kann es sein, dass in einem wenig strukturierten Interview die Befragten von selbst Aspekte ein‐ bringen, an die die Interviewerin nicht gedacht hätte. Deswegen wird empfohlen, bevor man mit stark gelenkten Interviews eine größere Menge von Personen befragt, zu‐ nächst einmal explorativ nicht so stark gelenkte Interviews mit am Thema interessier‐ ten Personen vorzunehmen, die eventuell von sich aus mögliche weitere Aspekte, nach denen man fragen könnte, einbringen. In qualitativen Forschungsprojekten kommen solche offenen Verfahren, die umfangreiche Antworten ermöglichen (narrative Inter‐ views, Legetechniken), häufiger vor. Für die Interviewerinnen gibt es Anweisungen, wie sie sich verhalten sollten. Dabei sind Hörersignale (z. B. hmhm, hm) wichtig, die nicht als Bewertung der Antwort - wohl aber als Interesse - aufzufassen sind. Inter‐ viewerinnen in persönlichen Interviews sollen freundlich-interessiert wirken, eine ei‐ gene Meinung darf man ihnen nicht anmerken. Am geeignetsten für die Befragung sind tatsächlich Personen, die keinerlei Interesse an einem bestimmten Ergebnis der Untersuchung haben, denen also die untersuchte Frage ziemlich egal ist. Dies gilt be‐ sonders für Fälle, in denen es um die Erhebung von Meinungen oder um Berichte über Verhalten geht. Eine gute Möglichkeit zur Reduktion von Interviewer-Effekten ist die schriftliche Befragung. Jeder Befragte bekommt dieselben Fragen und niemand wird beeinflusst durch eventuelle Reaktionen der Interviewerin. Allerdings müssen besondere Maß‐ nahmen zur Sicherung einer akzeptablen Rücklaufquote und der kontinuierlich hohen Aufmerksamkeit der Befragten getroffen werden. Insbesondere die Länge des Frage‐ bogens spielt eine Rolle, weil die Teilnehmer meist nicht viel Zeit investieren wollen. Fragebögen von mehr als vier Seiten werden deshalb seltener ausgefüllt, vor allem wenn sie auch noch offene Fragen enthalten, bei denen man selbst eine Antwort for‐ mulieren muss. Das wirkt sich umso stärker aus, je weniger interessant die Teilnehmer das Thema und die Gestaltung des Fragebogens finden. Bei Online-Befragungen soll zudem das Format beachtet werden; so soll nicht mehr als eine Frage pro Bildschirm‐ seite gestellt werden, und bei jeder Frage soll ein Hinweis erscheinen, wie viele Fragen noch zu beantworten sind, z. B. „Frage 4 von 21“. So vermeidet man Motivationsverlust, der durch ein falsches Einschätzen der Fragebogenlänge entstehen kann. 86 6 Die Befragung <?page no="87"?> Offene Befragung Antwortka‐ tegorien finden 6.3 Fragebogenentwicklung 6.3.1 Offene vs. geschlossene Konzepte Unter einer „offenen Befragung“ versteht man eine Befragung, bei der die Befragten frei antworten können und Gelegenheit haben, eigene Formulierungen und Gedanken einzubringen. Wer eine qualitative Studie durchführt, arbeitet meist (nur) mit offenen Befragungen. Aber die offene Befragung wird auch oft in einer explorativen Phase vor einer geschlossenen Befragung angewandt, um genauer zu erfahren, welche Fragen in der endgültigen Befragung bei einer größeren Gruppe angesprochen werden sollten, in welcher Reihenfolge, und wie die Fragen formuliert werden sollen. Angenommen, Sie führen eine Befragung zum Korrekturverhalten von Lehrperso‐ nen durch, wobei Sie wissen wollen, was die Schüler akzeptieren und was sie stört. Dann werden Ihnen einige offene Befragungen mit Schülern helfen, erst einmal das Spektrum von vorkommenden - beliebten und unbeliebten - Korrekturtechniken zu erfahren. Nach diesen Techniken können Sie dann später präziser fragen. Auch die günstigste Reihenfolge der Fragen kann in der explorativen Phase der Untersuchung durch offene Fragen ermittelt werden (welche Themen sprechen die befragten Perso‐ nen von sich aus in welcher Reihenfolge an? ). Sie können sogar mögliche Antwortka‐ tegorien aus den explorativen Ergebnissen ableiten oder diese einsetzen, um die Voll‐ ständigkeit und Klarheit der vorgesehenen Antwortkategorien zu prüfen und ggf. zu verbessern. Während der wenig strukturierten Interviews zu Beginn der Untersuchung kann man oft auch Informationen über mögliche Interviewpartner für die Hauptuntersu‐ chung bekommen. Bei Lehrpersonenbefragungen z. B. erfährt man meist, wer sich mit dem zu untersuchenden Thema besonders beschäftigt hat und Interesse an der Untersuchung hätte. Ebenfalls kann man Menschen vorab befragen, die Erfahrung im Umgang mit den Personen, die wir eigentlich untersuchen wollen, haben. In unserem Fall sind das häufig ihre Lehrpersonen. Neben diesen Planungshilfen bieten offene Befragungen diverse Vorteile. So können sprachliche Besonderheiten der untersuchten Gruppe festgestellt werden. Das trifft sowohl für Dialektsprecher als auch für Soziolekte von einzelnen Gruppen, z. B. Jugendlichen, zu. Es ist ungünstig, wenn man in den eigentlichen Interviews Dinge nicht kodieren kann, weil man die Antworten auf Grund ungewohnter Ausdrücke nicht versteht (z. B. Ist sus nun gut oder schlecht? ). Gleichzeitig kann man offene Formate zum Abbauen von Hemmschwellen nutzen. Es kann durchaus sein, dass Personen uns gegenüber behaupten, sie würden sich normgerecht verhalten. Das betrifft auch sprachliches Verhalten. Sprecher schämen sich oft für ihr sprachliches Verhalten, wenn sie gelernt haben, dass dieses Verhalten falsch sei (Ich bin die Kuh am Stall am Schwanz am raus am Ziehen sagen z. B. rheinische Grundschullehrpersonen ihren Schülern, um ihnen Wendungen wie Ich bin am Arbeiten abzugewöhnen. Folglich sagen befragte Rheinländer auch meist, dass sie diese Form 6.3 Fragebogenentwicklung 87 <?page no="88"?> Interview‐ leitfaden nie verwenden). In solchen Fällen kann man Hemmschwellen abbauen, indem nicht nach einem festgelegten Schema („inquisitorisch“), sondern locker gefragt wird. Zu den eher offenen Konzepten gehören auch Gruppendiskussionen. Hier ist die For‐ scherin eher als Beobachterin oder Mediatorin anwesend. Gruppendiskussionen haben aber nur Sinn, wenn die Gruppe in Gegenwart der Forscherin auch normal diskutiert. Gruppendiskussionen unterscheiden sich von Gruppenbefragungen dadurch, dass die Teilnehmer an der Gruppendiskussion nicht nur Fragen beantworten, sondern auch selbst Fragen stellen. Indem die Gruppenmitglieder auch untereinander diskutieren und eigene Themen einführen, können neue Aspekte aufkommen und somit zur Qualität der eigentlichen Befragung beitragen. Im Kontrast zu den eher offenen Konzepten sind die eher geschlossenen Konzepte zu verstehen. Hierzu gehören z. B. Meinungsbefragungen, die entweder mündlich durch ein Einzelinterview mit Hilfe eines stark strukturierten Interviewleitfadens als Einzelinterview oder (eher) schriftlich als Fragebogen vom Befragten ausgefüllt wer‐ den. Die Fragen werden dabei bereits genau vorformuliert und in einer vorher festge‐ legten Reihenfolge gestellt, eigene Ideen oder Exkurse der Befragten sind bei einem so schematischen Vorgehen allerdings kaum zu verwerten. In der Beurteilung der offenen vs. geschlossenen Frageform wird oft als grundsätzli‐ cher Unterschied angeführt, dass offene Fragen vom Befragten verlangen, sich an etwas zu erinnern, geschlossene Fragen dagegen, etwas (auch die eigene Meinung oder das Verhalten) wiederzuerkennen. Sich-Erinnern ist schwieriger als Wiedererkennen; auf offene Fragen erhält man daher in der Regel weniger Antworten als auf geschlossene Fragen. Andererseits besteht bei geschlossenen Fragen die Gefahr der Suggestivwir‐ kung, vor allem bei Meinungsfragen, über die der Befragte nie oder kaum nachgedacht hat oder zu denen er sich noch keine Meinung gebildet hat (wie im Beispiel von Atteslander, oben). Offene Fragen helfen daher eher, Unwissenheit, Missverständnisse und unerwartete Einordnungen der Frage zu entdecken. Offene Fragenformate können auch den Gesprächskontakt und das Interesse am Interview fördern, weil sie einer normalen Gesprächssituation nahekommen. Der Be‐ fragte fühlt sich als Gesprächspartner ernst genommen. Geschlossene Fragen erbringen dagegen eine größere Einheitlichkeit der Antworten und erleichtern dadurch die Vergleichbarkeit. Sie unterstützen die Interviewerin bei der Aufnahmearbeit und die Forscherin bei der Auswertung. Sie sind auch weniger anfällig für Interviewereffekte, es sei denn, es fehlen von den Befragten gewünschte Antwortmöglichkeiten. 6.3.2 Reihenfolge der Fragen Die Reihenfolge der Fragen in Interviews und Fragebögen ist nicht beliebig, auch nicht bei eher offenen Konzepten. Zu Beginn der Befragung braucht der Befragte meistens einige Fragen als Anlaufphase, um sich an die Forschungssituation zu gewöhnen. Auch bei einem Themenwechsel braucht der Interviewte eine gewisse Zeit, um sich auf das neue Thema einzustellen und sich an Details zu erinnern. 88 6 Die Befragung <?page no="89"?> 30 Heikle Fragen wären z. B. Fragen an die Lehrperson zu als unerwünscht geltendem Lehrerverhalten u.ä. vorgegebene Antwortkategorien nicht-stan‐ dardisiert standardi‐ siert Daher ist es ungünstig, die wichtigsten Fragen gleich zu Anfang zu stellen. Die Befragung sollte mit einigen leicht zu beantwortenden Fragen eingeleitet werden, die auch zum Aufbau der sozialen Beziehung zwischen Interviewerin und Interviewtem genutzt werden und zu einer allgemeinen Orientierung über den Kontext der Befra‐ gung dienen. Dazu gehören z. B. Fragen zur Altersgruppe, Dialektgebiet, in dem die Person aufgewachsen ist, Familiensprachen u.ä. Auch Fragen, von denen man erwartet, dass sie das Interesse des Befragten am ehesten zu wecken vermögen, werden zu Beginn gestellt. Wenn sein Interesse geweckt ist und er sich am Interview zu beteiligen beginnt, wird er eher bereit sein, auf Fragen, die ihn weniger interessieren oder die mehr Überlegungen und Anstrengungen verlangen, zu antworten. Sollen auch heikle Fragen gestellt werden, dann möglichst gegen Ende der Befra‐ gung, und zwar aus zwei Gründen. 30 Erstens kann es durchaus sein, dass durch den Ablauf des Interviews der Befragte Zutrauen zur Interviewerin gefasst hat und daher auch bereit ist, auf heikle Fragen einzugehen, und zweitens, wenn der Befragte bei solchen Fragen beginnt, das Interview zu verweigern oder in seinen Antworten höchst zurückhaltend wird, so hat die Interviewerin zumindest die Antworten auf die vorher gestellten unproblematischen Fragen erhalten. Im Beispiel zum Korrekturverhalten sollte den Interviewten bereits durch die ersten Fragen deutlich werden, dass es sich um eine wissenschaftliche Untersuchung zur Wirksamkeit verschiedener Arten von Korrekturverhalten handelt - und nicht etwa um eine Befragung zur Zufriedenheit mit bestimmten Lehrpersonen. Dieser übergeordnete Zusammenhang bildet den allgemeinen Kontext des Interviews. 6.3.3 Standardisierung von Antwortkategorien Befragungen können standardisiert oder nicht-standardisiert sein. Das bezieht sich auf die Art der vorgegebenen Antwortkategorien. Beim nicht-standardisierten Interview wird die Kategorisierung der Antworten von den Auswerterinnen später vollzogen. Das bedeutet, nicht der Befragte oder die Interviewerin klassifiziert die Antworten nach der Zugehörigkeit zu bestimmten Kategorien, sondern das geschieht nachträglich durch die auswertende Forscherin. Bei einer standardisierten Befragung sind die Ant‐ wortkategorien schon im Vorfeld angegeben und können von den Befragten nur aus‐ gewählt werden. Die Datenaufbereitung und Datenanalyse sind bei einer standardi‐ sierten Befragung deutlich einfacher, dafür können aber nicht erwartete Informationen nicht mehr einbezogen werden. In der einfachsten Form der standardisierten Befragung handelt es sich um eine Ja-Nein-Antwortmöglichkeit. Hier werden die Befragten zu einer klaren und eindeu‐ tigen Stellungnahme gezwungen. Das kann sinnvoll sein, hat aber auch Nachteile. Es könnte z. B. sein, dass die befragten Personen eigentlich „weiß nicht“ oder „mal 6.3 Fragebogenentwicklung 89 <?page no="90"?> 31 Falsch wäre also z. B. eine solche Beschriftung der Antwortkategorien: immer - wenn wir mitein‐ ander allein sind - gelegentlich - selten - fast nie. so, mal so“ antworten wollen und durch das alleinige Vorgeben von „Ja“ und „Nein“ zu einer Antwort gezwungen werden, die das Ergebnis verfälscht. Deswegen sind mehrere Kategorien oft besser geeignet, um verschiedene Meinungen oder Urteile wiederzugeben. Weil Missverständnisse nicht durch Nachfragen geklärt werden können, muss darauf geachtet werden, dass Frage sowie Antwortalternativen klar trennbar sind. Die Frage: „Bevorzugen Sie einsprachigen Unterricht oder ist es Ihnen lieber, wenn die Lehrperson gelegentlich muttersprachliche Erklärungen gibt? “ macht z. B. eine Ja-Nein-Antwort schwierig. Wenn man mehrere Antwort-Alternativen vorgibt, dürfen sie sich zudem inhaltlich nicht überschneiden. 31 Und bei mehreren Kategorien sollten Sie nie mehr als fünf Kategorien anbieten - mehr können wir Menschen kaum inhaltlich trennen. Ein Beispiel: Sprechen Sie mit Ihrer Frau Dialekt? ¦ immer ¦ häufig ¦ gelegentlich ¦ selten ¦ nie Entscheidet man sich für mehrere Antwortmöglichkeiten, müssen einige weitere Überlegungen angestellt werden. Dazu gehört, ob Antwortreihen nur in eine Richtung gehen oder zwei Gegensätze darstellen sollen, z. B. von „sehr schlecht“ zu „sehr gut“, wobei „neutral“ eine mittlere Kategorie bilden kann. Wenn es die Möglichkeit des Ausweichens auf eine mittlere Kategorie gibt, muss man sich im Klaren darüber sein, dass diese erfahrungsgemäß sehr häufig genutzt wird, wodurch man kein aussagefähiges Ergebnis bekommt. Das ist nicht wünschenswert, wenn die Befragten durchaus zu einer der Alternativen tendieren, ihnen jedoch in der Befragungssituation die mittlere Kategorie als der „sichere Weg“ erscheint. Das kann man auch mit der Verwendung einer geraden Zahl an Antwortmöglichkeiten lösen. Bei geraden Zahlen wird eine Meinungstendenz erzwungen; bei ungeraden dürfen Antwortende sich neutral positionieren. Bei mehreren Antwortkategorien kann man eine Frage auch so stellen, dass man eine Anzahl von Ziffern vorgibt. Dann ist eine direkte Verbalisierung nur für die Endkategorien notwendig. Das macht die Vergleichbarkeit deutlicher. Sprechen Sie mit Ihrer Frau Dialekt? immer 1 2 3 4 5 nie 90 6 Die Befragung <?page no="91"?> direkte vs. indirekte Frage Beide Formen werden bei Fragebögen häufig verwendet und werden als „Likert-Skala“ bezeichnet. Für die Datenauswertung werden die Kategorien immer in Zifferform berechnet. Wichtig bei Reihen von Aussagen dieser Art, die jeweils anzukreuzen oder zu umkreisen sind, ist, dass man die Befragten durch die Art der Fragestellung nicht dazu verleitet, immer dieselbe Zahl zu nennen oder die gesamten Reihen immer an derselben Stelle anzukreuzen. Das geht meist recht einfach, indem man gelegentlich auch verneinte oder anders zu wertende Aussagen einfügt. Es sollte mehr Fremdsprachenunterricht an Schulen geben sehr einverstanden 1 2 3 4 überhaupt nicht einverstanden Der jetzige Umfang des Fremdsprachenunterrichts reicht völlig aus sehr einverstanden 1 2 3 4 überhaupt nicht einverstanden Wie immer Sie die Antwortkategorien vorgeben, Sie sollten darüber nachdenken, was für die eigene Untersuchung die bessere Lösung ist, und diese Überlegungen auch im Forschungsbericht transparent darlegen. 6.3.4 Direkte und indirekte Fragen Die Technik der indirekten Befragung versucht, eine Gesprächssituation zu schaffen, in der der Befragte sich auch offen zu Themen äußert, bei denen Normvorstellungen eine Rolle spielen. Die indirekte Befragung eignet sich außerdem dazu, Informationen über Zusammenhänge, die dem Befragten selbst nicht bewusst sind, zu erhalten. Nun erheben wir als Sprachwissenschaftlerinnen oder Sprachlehrforscherinnen nur selten sehr sensible Daten, trotzdem haben wir auch manchmal mit Normvorstellungen zu tun, z. B. über den richtigen Unterricht oder über das richtige Sprachverhalten. In diesen Fällen kann es vorkommen, dass auch wir indirekte Fragetechniken gebrauchen sollten. Manchmal besteht die Möglichkeit, eine besonders raffinierte Methode der indirekten Fragetechnik anzuwenden und die Frage so zu stellen, dass eine „richtige“ Antwort gar nicht möglich ist. So etwas wird z. B. gemacht, um Einstellungen verschie‐ dener Personen zu unterschiedlichem Sprachverhalten zu ermitteln. Die Teilnehmer hören Aufnahmen von jeweils demselben Sprecher, z. B. einem geschulten Schauspie‐ ler. Ihnen wird aber gesagt, dass es sich um unterschiedliche Sprecher handele, und tatsächlich liest der Schauspieler inhaltlich gleiche Texte in unterschiedlichen Soziolek‐ ten vor. Aufgabe der Teilnehmer ist, z. B. den Beruf dieser angeblich unterschiedlichen Sprecher zu erraten. Entsprechend bestimmten sprachlichen Merkmalen ordnen die Teilnehmer ihm Berufe aus einem Spektrum mit z. B. „Arzt“ und „Hafenarbeiter“ zu. 6.3 Fragebogenentwicklung 91 <?page no="92"?> 32 Zum Beispiel können an verschiedenen Stellen im Fragebogen die folgenden Aussagen stehen, die mit einer Likert-Skale beurteilt werden sollen: Ich möchte nicht korrigiert werden, wenn ich die Fremdsprache spreche. Ich finde es wichtig, dass meine Fehler beim Sprechen korrigiert werden. Es stört, wenn die Lehrperson mit Korrekturen eingreift, wenn jemand gerade spricht. In einer direkten Befragung mit Fragen wie beispielsweise „Würden Sie die doppelte Verneinung als ein Kennzeichen der Sprache von Personen aus unteren sozialen Milieus ansehen? “ wären wahrscheinlich nicht dieselben Ergebnisse erzielt worden. 6.3.5 Heikle Fragen Schließlich kann es durchaus sein, dass heikle Fragen gestellt werden müssen, oder zumindest solche Fragen, die nach weniger sozial erwünschtem Verhalten fragen. Ein Trick bei solchen Fragen ist, dass man den eigentlichen Fragen einleitende Bemerkun‐ gen zum Abbau konventioneller Schranken voranstellt. Ein Beispiel dafür wäre „Viele Schüler benutzen ja Hilfsmittel während der Klassenarbeiten. Kannst du mir sagen, wann du zum letzten Mal in einer Klassenarbeit ein unerlaubtes Hilfsmittel benutzt hast? “ Bei einer solchen - im zweiten Teil sicherlich suggestiven - Frage bekommt man vermutlich mehr zutreffende Antworten, als wenn man direkt fragt „Wann hast du zuletzt gemogelt? “ (Selbstverständlich sollte man ohnehin negativ wertende Ausdrücke in derartigen Fragen vermeiden). In manchen Fragebögen sind auch Kontrollfragen eingebaut, die überprüfen sollen, ob die Studienteilnehmer übertrieben haben, unauf‐ richtig waren oder in ihren Urteilen schwanken. 32 Bei linguistischen Fragebögen zur Akzeptanz bestimmter sprachlicher Erscheinungen gibt es immer mehrere Beispiele für ein als gleich angesehenes Phänomen, einerseits wegen der erwähnten möglichen Schwankungen des Urteils, und andererseits, weil man nicht sicher sein kann, dass in einem einzelnen vorgelegten Satz oder einer einzelnen vorgelegten Textpassage nicht irgendetwas zur Wertung durch den Befragten führt, was mit der Untersuchungsfrage gar nichts zu tun hat (er mag oder kennt beispielsweise ein bestimmtes Wort nicht). 6.3.6 Aufbau Der Fragebogen oder Interviewleitfaden ist das wichtigste Instrument der Befragung; insofern kann man kaum genug Sorgfalt in seine Entwicklung stecken. Üblicherweise achtet man insbesondere auf die Reihenfolge der Fragen - v. a. wegen potentiell heikler oder umständlich zu beantwortender Fragen - und darauf, dass die Befragung nicht zu lang wird. Die Befragten sind selten bereit, über eine längere Zeitspanne konzentriert zu antworten. Bei allen Fragen, die man stellen will, muss man sich deshalb überlegen, ob man die möglichen Antworten überhaupt für die Untersuchung verwerten kann. Am besten geht man wie folgt vor, wenn man seinen Fragebogen oder Interview‐ leitfaden aufstellt: 92 6 Die Befragung <?page no="93"?> Artefakte Distraktoren 1. Analyse der Literatur zum Thema, Festlegen der zu erfragenden Inhalte 2. Entscheidung über die Art der Fragen 3. Festlegen von Formulierungen und Reihenfolge der Fragen 4. Erprobung an einer kleinen Gruppe 5. Kontrolle (Wurden alle Fragen verstanden? Ist die Reihenfolge ideal? Liefern alle Fragen ein für die Untersuchung interessantes Ergebnis? Sind die Ergebnisse aller Fragen auswertbar? ) 6. Überarbeitung des Fragebogens bzw. Leitfadens Ein ausführlicheres Beispiel für die Entwicklung eines Fragebogens findet sich im Internet-Material zum Buch im Zusammenhang mit Aufgabe 4. 6.4 Gefahr von Artefakten Es lässt sich niemals völlig vermeiden, dass die Befragung selbst die Ergebnisse der Befragung beeinflusst, und die bereits behandelten Interviewereffekte sind nur eine der Möglichkeiten hierfür. Man kann jedoch den Grad der Verfälschung in gewisser Weise unter Kontrolle halten. Einerseits muss man die Art der Befragung vollständig dokumentieren, sodass andere Wissenschaftlerinnen überprüfen können, in welcher Weise mögliche Beeinflussungen stattgefunden haben könnten. Andererseits muss man einen Fragebogen so sorgfältig zusammenstellen, dass aus dem Fragebogen nicht geschlossen werden kann, welches Ergebnis die Forscherin selbst bevorzugen würde. Dafür ein schlichtes Beispiel: In einer Untersuchung sollen Personen Sätze auf ihre Grammatikalität hin beurteilen. Sehr problematisch wäre, wenn die Beispielsätze schon im Fragebogen eine gewisse Ordnung hätten, z. B. zuerst kommen die Sätze, die man selbst für grammatisch korrekt hält, dann die, die zweifelhaft sind, dann die, die man für völlig ungrammatisch hält. Bei der Planung des Fragebogens ist diese Reihenfolge der Fragen sicher ein wichtiger Schritt (es sollten schließlich auch genügend akzeptable Sätze in der Befragung vorkommen, und die erwartete Verteilung von akzeptablen, zweifelhaften und ungrammatischen Sätzen lässt sich so gut abschät‐ zen). Der Fehler bei einem solchen Verfahren ist jedoch offensichtlich: Die Befragten können - bewusst oder unbewusst - eine Ordnung erkennen, nämlich die Wertung der Autorin des Fragebogens, werden davon beeinflusst und neigen dazu, sich diesen impliziten Wertungen des Fragebogens anzuschließen. Dass das Ergebnis einer solchen Umfrage dann weitgehend unbrauchbar ist, versteht sich von selbst: Man hat nicht empirisch die Urteile mehrerer sprachkompetenter Probanden eingeholt, sondern sich im Wesentlichen lediglich die Meinung einer Person bestätigen lassen. Um derartige Beeinflussungen der Probanden so weit wie möglich zu vermeiden, ist es daher wichtig, Aussagen möglichst gut gemischt und ohne erkennbares Ordnungsprinzip zu präsentieren. Insbesondere wenn es um Urteile geht, ist es wichtig, dass die Befragten möglichst nicht erkennen können, um welches Thema es in der Untersuchung geht. Denn wenn 6.4 Gefahr von Artefakten 93 <?page no="94"?> sie ein solches Wissen über die Ziele der Untersuchung haben oder meinen zu haben, antworten sie nicht mehr unmittelbar und intuitiv-unreflektiert. Da man mit der Untersuchung etwas über die Meinungen der Befragten herauszufinden beabsichtigt, lenkt man die Befragten durch sogenannte Distraktoren vom eigentlichen Thema ab. Hierfür eignen sich beispielsweise Ablenkersätze, d. h. zusätzliche Beispielsätze oder zu beurteilende Aussagen, die für das eigentliche Ziel der Untersuchung gänzlich irrelevant sind und in denen es um ein ganz anders gelagertes Phänomen geht. 6.5 Aufbereitung von Daten Wenn wir unsere Befragung auswerten, wollen wir normalerweise nicht nur wissen, wie viel Prozent der Befragten auf welche Frage wie geantwortet haben, wir möchten auch Beziehungen zwischen den befragten Personen und den Antworten auf die einzelnen Fragen herstellen. Wir möchten z. B. wissen, was die Frauen geantwortet haben im Vergleich zu den Männern oder die Personen, die schon mehr als zwei Fremdsprachen gelernt haben, im Vergleich zu denen, die ihre erste oder ihre zweite Fremdsprache lernen, oder wir wollen wissen, ob diejenigen, die Komparative mit wie (sie ist schneller wie er) ablehnen, auch das Doppelplusquamperfekt (als ich kam, hatte er den Mantel schon angezogen gehabt) ablehnen. Das geht bei größeren Mengen von Antworten nur, indem wir die Antworten kodieren, sodass wir mit einem Software-Programm die Rohdaten analysieren lassen können. Wie Sie die Daten dann auswerten, erfahren Sie in „Schritt 3“ in diesem Studienbuch. In der folgenden Tabelle ist ein einfaches Beispiel dafür aufgeführt, wie eine solche Kodierung aussehen kann. Die befragten Personen sind durchnummeriert und als „TN“ (Teilnehmer) bezeichnet. Männliche Personen sind mit „1“, weibliche mit „2“ kodiert. Beim Schulabschluss wurde „1“ für „Hauptschule oder weniger“, „2“ für „höherer Abschluss als Hauptschule bis Abitur inklusive“ und „3“ für „abgeschlossenes Studium“ vergeben. Die Anzahl der gelernten Sprachen außer der Erstsprache ist mit der Ziffer für ihre Anzahl kodiert, beim Alter wurde eine Kodierung für Altersgruppen vergeben „1 = bis 25, 2 = 26-40, 3 = 41-60, 4 = über 60“ und in den letzten Spalten findet sich die Kodierung der Antworten zu den Beispielsätzen, beginnend mit Satz 1 Fritz ist größer wie Paul (1 = völlig okay, 2 = gefällt mir nicht, aber man hört es oft, 3 = falsch). Wenn Sie Ihre Daten so aufbereitet haben, können Sie ganz schnell ermitteln, was denn junge Frauen mit Hauptschulabschluss zur Grammatikalität des Satzes sagen im Vergleich zu älteren Herren mit Studium usw. (Tabelle 1): 94 6 Die Befragung <?page no="95"?> TN Geschlecht Schulab‐ schluss Anzahl Sprachen Alter Beurtei‐ lung Satz 1 Beurtei‐ lung Satz 2 1 1 1 0 1 2 - 2 1 2 2 1 2 - … … … … … … - Tabelle 1: Hypothetische Klassifizierung von Befragungsdaten Aufgaben 1. Eine Aufgabe, zu der wir keine Musterlösung geben können, die sich aber sicher für Sie lohnen wird: Füllen Sie selbst einen Online-Fragebogen aus oder lassen Sie sich einmal von einer Interviewerin in einer Fußgängerzone ansprechen (ein Interviewer ist natürlich auch gut, aber Sie werden sehen, es sind meist junge Frauen). Welche Fehler finden Sie in der Befragung? Überlegen Sie, wie sich diese Fehler auf das Ergebnis der Befragung auswirken könnten. 2. Angenommen, Sie wollen wissen, welche Gruppen der Bevölkerung eine be‐ stimmte Meinung vertreten (z. B., dass an Schulen zu wenig Sprachunterricht erteilt wird). Sie haben dazu mit einem Fragebogen Informationen gesammelt. Im Folgenden sind die (hypothetischen) Daten für zwölf Befragte angegeben. Wie es leider häufig vorkommt, haben nicht alle Personen alle Fragen beantwortet. Sie müssen also mit fehlenden Werten umgehen. a. Erstellen Sie aus den Daten unten eine Kreuztabelle, in der Sie (in absoluten Zahlen) angeben, (a1) wie viele in den einzelnen Altersgruppen die Meinung vertreten (a2) welchen Schulabschluss die Männer und Frauen hatten (a3) wie Einkommensgruppen sich auf Altersgruppen verteilen. Hierbei gilt: Befragte/ r: weist jeder befragten Person eine Nummer zu Geschlecht: 1 = männlich, 2 = weiblich Schulabschluss: 1 = Abitur, 2 = Fachhochschule, 3 = Universität Einkommen: 1 £ € 50.000, 2 = € 50.001-80.000, 3 > € 80.001 jährlich Alter: 1 £ 18 Jahre, 2 = 19-30, 3 = 31-59, 4 > 60 Jahre Votum: 1 = „ja“, 2 = „nein“, 3 = „weiß nicht“ b. Erstellen Sie eine neue Kreuztabelle, in der Sie nicht die absoluten Zahlen, sondern Prozentwerte angeben. Aufgaben 95 <?page no="96"?> Befragte/ r Geschlecht Schulabschluss Einkommen Alter Votum 1 1 1 - 1 2 2 1 2 2 1 2 3 2 2 2 2 1 4 1 1 1 1 3 5 1 3 2 1 1 6 2 3 3 3 1 7 2 2 2 3 1 8 1 3 1 4 1 9 1 2 1 - 1 10 2 1 2 1 2 11 1 1 3 1 1 12 2 2 3 3 1 3. Der im Folgenden dargestellte Fragebogen soll für eine Befragung zur Akzeptanz der Vergangenheitstempora „Doppelperfekt“ (Es hat geregnet gehabt) und „Doppel‐ plusquamperfekt“ (Es hatte geregnet gehabt) bei Studenten der Philipps-Universität Marburg benutzt werden. Er soll an 300 Studenten am Eingang der Mensa verteilt werden und beim Herausgehen wieder eingesammelt werden. Kommentieren Sie dieses Vorgehen und die Qualität des Fragebogens! Philipps-Universität Marburg Fachbereich 09 „Germanistik und Kunstwissenschaften“ Prof. Dr. Erna Anfänger/ Eva Neumann Philipps-Universität Marburg, 35032 Marburg FB 09, Institut für Germanistische Sprachwissenschaft neumann@stud-mailer.uni-marburg.de Fragebogen zu Dialektmerkmalen bei Studentinnen und Studenten Liebe Mitstudentin, lieber Mitstudent! Schenkst du mir 3 Minuten deiner Zeit? Füll bitte diesen Fragebogen anonym aus und gib ihn beim Verlassen der Mensa wieder ab. Deine Angaben sind für meine Masterarbeit sehr wichtig. Ich bin männlich  weiblich  Alter: ………. Jahre Fachbereich meines Hauptfachs: Familiensprache: Deutsch  andere, nämlich:  Bitte beurteile die folgenden Sätze auf ihre sprachliche Richtigkeit. Vielen Dank! 96 6 Die Befragung <?page no="97"?> Wenn du die Ergebnisse meiner Befragung wissen willst, schreib unten deine E-Mail-Adresse auf! Dieser Streifen wird vor der Auswertung abgetrennt. E-Mail-Adresse: ……………………………………… - - korrekt höre ich schon mal, würde es aber nicht sagen - falsch 1. Kenns ka Ampel ni? - - - 2. Heute ist schönes Wetter. - - - 3. Gestern hat es den ganzen Tag geregnet ge‐ habt. - - - 4. Fritz ist größer wie Paul. - - - 5. Ich habe keine Lust zum Essen, weil es ist zu heiß. - - - 6. Heute Abend gehen Fritz und Hugo ins Kino. - - - 7. Als Fritz ihm den Schnaps wegnahm, hatte Paul schon 9 Gläser getrunken gehabt. - - - 8. Ostern ist nächste Woche. - - - 9. Wie ist der Weg nach dem Bahnhof ? - - - 10. Heute Morgen Fritz ist zu spät aufgestanden. - - - 11. Meine Mutter ihr Auto hat eine Panne. - - - 12. Als Fritz die Treppe runterfiel, war das Licht schon lange eingeschaltet gewesen. - - - 13. Claudia ist ganz sympathisch. - - - 14. Weil Egon ständig in einer Grammatik liest, er hat Probleme mit seiner Freundin. - - - 15. Als wir Egon und Paul abholen wollten, sind sie schon weggefahren gewesen. - - - 16. Badener sprechen besseres Deutsch als wie Schwaben. - - - 17. Als Egon ins Auto steigen wollte, hatte er 4 Flaschen Bier getrunken gehabt. - - - 18. Gestern ist Erna total beleidigt gewesen. - - - Aufgaben 97 <?page no="98"?> 4. Sie möchten herausfinden, welche Arten von Korrekturen erwachsene Teilnehmer von Volkshochschul-Sprachkursen bevorzugen. Entwickeln Sie eine Strategie für eine Befragung und den Fragebogen. Damit Sie es später mit den Lösungshin‐ weisen vergleichen können, empfiehlt es sich, dass Sie während Ihrer Planung möglichst alle Schritte aufschreiben. (Die Lösungshinweise für diese Aufgabe mussten wir wegen des großen Umfangs ins Internet-Begleitmaterial auslagern. Sie finden sie dort.) 98 6 Die Befragung <?page no="99"?> 7 Testen Tests sind im Grunde Erhebungsinstrumente - das Testen jedoch ist ein (weit verbrei‐ tetes) Forschungsdesign, das besondere Rahmenbedingungen mit sich bringt. Viele Ergebnisse aus der vergleichenden Bildungsforschung sind auf größere Testungen zurückzuführen (man denkt z. B. an die PISA-Studien). Aber auch viele Ergebnisse aus kleineren Studien sind Tests. Diese haben nur bedingt mit „Tests“ im Sinne von „Klassenarbeit“ oder „Prüfung“ zu tun. Deswegen widmen wir in der 4. Auflage des Buches nun dem Testen ein eigenes Kapitel. Will man einen Test einsetzen, sind mehrere Überlegungen nötig. So muss man genau wissen, was man testen will. Zudem soll man prüfen, ob es bereits einen Test gibt, der das Konstrukt, um das es gehen soll (s. Kapitel 2), bei den anvisierten Teilnehmern erfassen kann, ansonsten muss man vielleicht selbst einen entwickeln. Soll es bei der Forschungsfrage um Änderungen wie Lernentwicklungen gehen, dann muss man einen Test haben, den man mehrfach einsetzen kann. Und natürlich muss der Test den notwendigen Gütekriterien (s. Kapitel 2.5) genügen. Bei allen Testungen sollte man sich den Einsatz eines Tests und bei Bedarf die Entwicklung der Testitems (Aufgaben) sehr sorgfältig überlegen. Neben diesem Kapitel können unterschiedliche Schriften zur Testentwicklung, zum Beispiel das Standardwerk Lienert & Raatz (1998) oder Rost (2004), hilfreich sein. 7.1 Was ist ein Test? Ein Test ist „ein wissenschaftliches Datenerhebungsverfahren, das aus mehreren Testaufgaben (Testbogen/ Testmaterial) sowie festgelegten Regeln zu deren Anwendung und Auswertung (Testmanual) besteht. Ziel eines psychologischen Tests ist es, ein latentes psychologisches Merkmal (Konstrukt) […] zu erfassen.“ (Döring, 2023, S. 425). In anderen Worten: Ein Test • soll nutzbare empirische Daten erheben, die eine Antwort auf die Forschungsfrage ermöglichen, • besteht aus einer Sammlung von Items (= Fragen oder Aufgaben) zur Wissens- oder Kenntnisprüfung, die die Testteilnehmenden beantworten müssen, • ist standardisiert, das bedeutet, es gibt eine feste Abfolge der Fragen, die für alle Teilnehmer gilt, und es wird festgelegt, wie Antworten zu bewerten sind; hierfür gibt es eine Anleitung, um sicher zu stellen, dass dieses Vorgehen von allen Testleiterinnen eingehalten wird, • versucht, etwas zu messen, auf das nicht direkt zugreifbar ist, also ein Konstrukt (z. B. den Wortschatzumfang). <?page no="100"?> Normwerte geschlos‐ sene Items In der Linguistik und Sprachlehrforschung haben wir es mit sogenannten psychomet‐ rischen Tests zu tun, das sind Tests, die objektiv und nach bestimmten Kriterien entwickelt sind. Eine besondere Art von Tests, die häufig in der Bildungsforschung eingesetzt wer‐ den, sind Diagnostiktests. Dabei will man einschätzen, wie die Ergebnisse von einem Testteilnehmer im Vergleich zu Personen in einer ähnlichen Lage (Alter, Sprachniveau, Bildungsinstitution etc.) sind. Man nutzt die Diagnostik dann, um die individuelle Person besser zu unterrichten oder zu fördern, z. B., um sie in einen niveauentsprechenden Sprachlernkurs einzuteilen (GER-Niveau A1.2 oder A2.1? ), oder um ihnen bei spezifischen Lernproblemen einen gezielten Unterricht zu geben. Tests sind tatsächlich meist nur sinnvoll, wenn wir die Ergebnisse von einer Person oder Zielgruppe mit den Ergebnissen aller anderen Personen oder Zielgruppen in einer ähnlichen Lage vergleichen können. Damit lernen wir, was die Person oder die Ziel‐ gruppe „besonders“ macht (oder dass es eben keine Besonderheit in Bezug auf dieses eine Merkmal gibt). Dafür müssen wir allerdings wissen, was bei den meisten Lernern in einer ähnlichen Lage zu erwarten ist - wir brauchen sogenannte Normwerte, die auf größeren Stichproben basieren. Alle größeren Testungen haben schon viele Personen erhoben und können dann eine Einschätzung geben, welche Ergebnisse von einer ein‐ zelnen Person einer Zielgruppe (zum Beispiel, deutschlernende Medizinstudenten in Dänemark) zu erwarten sind. Bei Tests, die man selbst entwickelt oder für die keine Normwerte für die Zielgruppe bestehen, sind Vergleiche schwieriger. Hier kann man Gruppenergebnisse vergleichen, es ist aber nicht wirklich möglich, zu sagen, ob ein‐ zelne Personen die Ergebnisse erbringen, die man erwarten könnte - man kann testen, aber eine Diagnostik ist nicht möglich. 7.2 Testgestaltung und -auswertung Sprachtests können verschieden gestaltet sein. Wie bei Befragungen kann man sie nach der Form der gestellten Items (offen oder geschlossen) klassifizieren, nach der Modalität des Tests (mündlich, schriftlich oder gebärdet) und nach der Menge an Personen, die gleichzeitig mit dem Test erhoben werden (individuell oder kollektiv). Ebenfalls kann man unterscheiden zwischen normierten und nichtnormierten Tests, also zwischen solchen Tests, für die bereits viele Daten erhoben wurden und für die wir wissen, wie Personen bestimmter Zielgruppen (eines bestimmten Alters zum Beispiel) erwartungsgemäß abschneiden werden, und solchen, die eher ad hoc eingesetzt werden. Wir gehen hier auf die Form der Fragen ein und erinnern dabei an Kapitel 6.3.1, wo es um eine ähnliche Unterscheidung bei Befragungen ging. 7.2.1 Geschlossene Items Testfragen können offen, geschlossen oder gemischt sein. Geschlossene Items sind Aufgaben, die eine begrenzte Anzahl von möglichen Antworten haben. Meistens wer‐ 100 7 Testen <?page no="101"?> 33 In C-Tests werden nach einem vorgelegten Muster spezifische Wort- oder Textteile ausgelassen, die dann vom Testteilnehmer zu vervollständigen sind. Vgl. Baur, R. & Spettmann, M. (2009). Der C-Test als Instrument der Sprachdiagnose und Sprachförderung. In D. Lengyel, H. Reich, H.-J. Roth & M. Döll (Hrsg.), Von der Sprachdiagnose zur Sprachförderung (S.-115-127). Waxmann. den sogar die möglichen Antworten angegeben, aus denen man eine aussuchen kann - Multiple-Choice, zum Beispiel: Von wem/ was stammt der Begriff „Interlanguage“? a. S. Pit Corder b. dem Gemeinsamen Europäischen Referenzrahmen für Sprachen (GER) c. Cor Koster d. Larry Selinker Die angegebenen Möglichkeiten enthalten die korrekte Antwort und eine Reihe von Distraktoren, d. h. inkorrekten Antworten. Es ist nicht festgelegt, wie viele Distraktoren angegeben werden sollen, aber eher nicht sinnvoll sind weniger als drei (die Chance, dass die korrekte Antwort zufällig ausgewählt wird, ist dann sehr hoch) oder mehr als fünf (die Zeit, die man für das Aussuchen der korrekten Antwort verbringt, erhöht sich unnötig). Gerade in Wissenstests kann es auch vorkommen, dass mehrere (bis zu alle) der vorgegebenen Antworten als richtig anzukreuzen sind. Geschlossene Aufgaben können aber auch verlangen, eine Reihe von Wörtern mit einer anderen Reihe von Wörtern in Beziehung zu setzen oder das unpassende Wort in einer Reihe von Wörtern zu finden. Auch C-Tests 33 sind ein Beispiel geschlossener Items, denn sie werden nach einem festgelegten Verfahren ausgewertet, wie im folgenden Beispiel: Vervollständigen Sie die Lücken im folgenden Text! Heute war ein schöner Tag. Die Son___ schien, die Vög___ zwitscherten, und ic__ konnte meinen Kaf___ in aller Ru___ austrinken. Tests mit geschlossenen Items haben den großen Vorteil, dass sie mit relativ geringem Zeitaufwand zu korrigieren sind. Mit den vielen digitalen Möglichkeiten muss man sie meistens sogar gar nicht händisch korrigieren, sondern lässt die Teilnehmer den Test bereits in einer Software durchführen, und diese Software gibt direkt ein Ergebnis aus. Allerdings verlangen geschlossene Testfragen deutlich mehr Planung als offene, weswegen sie bei kleineren Untersuchungen oder Untersuchungsgruppen oft nicht angewendet werden. Auch in der Sprachlehrpraxis werden geschlossene Tests wegen ihres hohen Planungsaufwands und der Tatsache, dass die Sprachproduktion damit schwer zu überprüfen ist, seltener eingesetzt. 7.2 Testgestaltung und -auswertung 101 <?page no="102"?> offene Items Rating Ankerbeispiel 7.2.2 Offene Items Im Gegensatz zu geschlossenen Items sind offene Aufgaben solche, bei denen die Test‐ teilnehmer ihre Antworten selbst formulieren müssen. Mündliche Tests und schriftli‐ che Textproduktionen sind dafür sehr typisch. Sie erlauben uns insbesondere, der Ver‐ wendung von Sprache in einem kommunikativen Kontext nachzugehen; im Bildungskontext sind das oft mündliche Prüfungen, bei denen ein Gespräch geführt wird. Hier steuert der Test nicht genau, welche Antworten vorkommen können. Jeder Test stellt ein einzigartiges Gespräch mit einer individuellen Interaktion zwischen Prü‐ ferin und Prüfling oder eine einzigartige Textproduktion dar. Bei der Auswertung die‐ ser Tests leidet deswegen oft die Objektivität (s. u.), denn die Auswertung von offenen Fragen ist viel weniger eindeutig als die Entscheidung, ob die korrekte Antwortvariante ausgewählt wurde. Bei Tests mit offenen Items gibt es deswegen fast immer Auswertungsraster, bei denen die Prüferin Entscheidungen trifft, ob eine spezifische Leistung erbracht wurde. Sie können Beobachtungsrastern ähneln, was insbesondere bei der Erhebung sprachlicher Produktion von jüngeren Kindern der Fall ist. Es werden spezifische Merkmale festgelegt, die dann beobachtet oder ggf. bewertet werden. Bei Schreibaufgaben, in denen es um schriftlichen Ausdruck oder Textproduktion geht, werden meistens Rating-Verfahren eingesetzt, um die Qualität eines Textes ein‐ zuschätzen. Manche Verfahren sind textsorten- oder sprachenunabhängig, andere wer‐ den für eine einzige Studie entwickelt. Sie können sehr offen sein und Bewertende nur um eine allgemeine Einschätzung bitten (das nennt man ein naives Rating, obwohl die Bewertenden natürlich selbst Expertinnen sein sollten, zumindest Lehrkräfte, die sich damit auskennen). Sie können aber auch sehr spezifisch sein und auf bestimmte Kri‐ terien eingehen (kriteriales Rating). Wir machen das an einem kleinen Beispiel fest. Stellen Sie sich vor, es soll im Rahmen eines DaF-Kurses auf dem Niveau A1 ein beschreibender Text geschrieben werden. Die Aufgabe lautet: Wie sieht dein Schreibtisch aus und was liegt/ steht darauf ? Beschreibe ihn! Jemand aus der Parallelklasse soll danach deine Beschreibung lesen und den Tisch nachzeichnen. Es gibt mehrere Aspekte, die zu einer guten Beschreibung gehören, wie z. B., dass alles, was passend ist, genannt wird, dass nichts vorkommt, was nicht zur Aufgabe gehört, oder dass auch einzelne Gegenstände oder Funktionen benannt werden. Für jeden die‐ ser Aspekte werden einzelne Kriterien und ihre „Wertigkeit“ (erreichbare Punkte) be‐ stimmt. Am besten wird auch ein sogenanntes Ankerbeispiel angegeben, an das sich Raterinnen anlehnen können. Für das Kriterium „Räumliche Perspektive“ könnte das z. B. sein: 102 7 Testen <?page no="103"?> gemischte Items Kriterium: Räumliche Perspektive (max. 2 Punkte) 0 Punkte: Schreiber nennt Gegenstände ohne erkennbare logische Anreihung (z. B. „Es gibt einen Kuli, ein Buch, eine Lampe…“) 1 Punkt: Schreiber führt Gegenstände mit räumlicher Orientierung ein, Beschrei‐ bung hat eine logische Abfolge (z. B. „Ganz links ist ein Kuli, dann eine Lampe…“) 2 Punkte: Schreiber hält Perspektive durchgehend ein, die durch Standpunkt eingeführt wird (z. B. „Wenn man vor dem Schreibtisch steht, sieht man auf der linken Seite…“) Sie merken: Die Entwicklung solcher Kriterien ist sehr umständlich und dauert meist deutlich länger als die Entwicklung des Tests an sich. Daher lohnt es sich bei Seminar- und Abschlussarbeiten auch bei offenen Tests meist nicht, eigene Tests zu entwickeln - man sollte sich am besten für ein bereits entwickeltes und geprüftes Testinstrument entscheiden. 7.2.3 Gemischte Items Schließlich können Items gemischt sein. Ein Beispiel ist ein Grammatiktest, in dem Schüler Sätze vervollständigen. Nehmen wir an, ein Item ist: Gestern _________________________ [essen] Ziel des Tests ist, herauszufinden, ob der Schüler die Verbalklammer korrekt produziert. Die folgenden Ergebnisse wären dann alle als korrekt zu beurteilen: Gestern habe ich Döner gegessen. Gestern haben wir in das Restaurant gegessen. Gestern habe ich viel leckeres Gemüse gegesst. Dass es ansonsten einige Fehler (*in das Restaurant, *gegesst) gibt, wäre hier irrelevant, weil es um die angemessene Produktion der Verbalklammer geht. Bei Sprachtests ist es nicht ungewöhnlich, Testreihen zu benutzen, die aus mehreren Aufgabentypen bestehen. Die TestDaF-Prüfung zum Beispiel, die für den Hochschul‐ zugang an vielen Universitäten eingesetzt wird, besteht je nach Fertigkeitsteil sowohl aus geschlossenen (Zuordnungs-, Multiple-Choice-Aufgaben beim Leseverstehensteil und richtig/ falsch-Aufgaben beim Hörverstehensteil) als auch aus offenen Testitems (Kurzantwortaufgaben, frei zu schreibende Texte oder mündliche Antworten auf Fragen). Die Endnote eines solchen Tests kann der Mittelwert aus allen Testteilen sein, dargestellt in Prozentwerten, oder sie kann das Ergebnis einer anderen Art von Berechnung sein, je nachdem, was der Forscherin wichtig erscheint. Wenn man 7.2 Testgestaltung und -auswertung 103 <?page no="104"?> Itemanalyse gemischte Testaufgaben benutzt, muss man sorgfältig abwägen, wie man das endgül‐ tige Testergebnis ermittelt, als Mittelwert aller Einzeltests oder mit unterschiedlicher Gewichtung verschiedener Testteile. 7.2.4 Wann sind Testitems „gut“? Die Gestaltung von Items und ihre Auswertung ist ein grundlegender Bestandteil von Testung. Was man dabei natürlich nicht vergessen darf, ist, ob eine Frage überhaupt sinnvoll ist. Man kann alle möglichen Items entwickeln, aber jedes Item muss zwingend zur Abbildung des getesteten Konstrukts beitragen. Es bringt z. B. nichts, wenn man Fragen für einen Vokabeltest entwickelt, die aber vielmehr grammatisches oder kulturelles Wissen testen. Ein Item wie: Rotkäppchen hatte Angst vor dem ____________. testet ja nicht, ob ein Lerner das Wort „Wolf “ kennt, sondern, ob er das Grimm’sche Märchen „Rotkäppchen“ kennt. Und ebenfalls ist eine Frage zur Prüfung von Adjek‐ tivflexion wie Das ist ein ________ Buch. wenig geeignet, weil der Teilnehmer nicht nur die Flexion korrekt produzieren muss, sondern überhaupt erkennen muss, dass er ein passendes Adjektiv finden soll und dieses zudem flektieren soll (ansonsten wäre eine Antwort wie „lila“ oder „Oberstufen-“ genauso als korrekt zu bewerten, was uns aber für unsere Fragestellung nicht weiter‐ bringt). Um solche Probleme zu umgehen, muss man die Gütekriterien beachten. Diese werden durch die jeweilige Testtheorie festgelegt. Deswegen gehen wir im Kapitel 7.3 auf Testtheorie und anschließend in Kapitel 7.4 auf die Testgütekriterien ein. Will man selbst Testfragen entwickeln, muss man bedenken, dass die einzelnen Items möglichst von 50 bis 75 % der Testteilnehmer korrekt beantwortet werden sollten. Mit genügend Testfragen wird man dadurch erreichen, dass die guten Lerner mehr Fragen korrekt beantworten als die mittelmäßigen Lerner, die wiederum mehr Fragen korrekt beantworten als die eher schlechten Lerner. Das bedeutet auch, dass bei Multiple-Choice-Fragen die Distraktoren sehr umsichtig auszuwählen sind, sodass sie weder zu nah am korrekten Ergebnis liegen noch so unrealistisch sind, dass sie nie ausgewählt werden. Im Übrigen führt man bei Tests meistens eine Itemanalyse durch. Ziel ist zu über‐ prüfen, welche Testitems sinnvoll zur Beantwortung der Forschungsfrage beitragen, 104 7 Testen <?page no="105"?> 34 Weil die klassische Testtheorie erheblich verbreiteter ist als die probabilistische (Item-Response-The‐ ory, Rasch-Modell) Testtheorie, behandeln wir hier nur die klassische Testtheorie. Testtheorie klassische Testtheorie Messfehler und welche nicht. Wenn etwa eine Frage ganz andere Erfolgsquoten hat als alle anderen Fragen, dann sollte man diese Frage bei der Auswertung kritisch hinterfragen oder sogar ausschließen. Problematisch ist auch, wenn ein Item überdurchschnittlich häufig von Teilnehmern mit einem insgesamt schwachen Abschneiden richtig beantwortet wird, während leistungsstärkere Teilnehmer dabei auffallend häufig scheitern. Da die genaue Vorgehensweise bei einer Itemanalyse recht komplex ist, gehen wir hier nicht weiter darauf ein, sondern verweisen lediglich auf ihre Bedeutung. 7.3 Annahmen der Testtheorie Bei der Gestaltung und Durchführung von Tests liegt eine Testtheorie zu Grunde. Da‐ mit ist gemeint, dass es eine Grundlage gibt, die uns den Zusammenhang zwischen einem Testergebnis und einem gemessenen Testwert nachweist, also erklärt, was wich‐ tig ist. Die meisten Tests, die zugänglich sind, oder die man selbst entwickelt, sind in der klassischen Testtheorie zu verorten. 34 Diese geht davon aus, dass ein Testergebnis direkt dem echten Ausprägungsgrad eines Merkmals entspricht. Wollen wir Wortschatz‐ kenntnisse messen, nehmen wir also an, dass das Ergebnis der Testteilnehmer tatsäch‐ lich weitgehend dem Wortschatzumfang und/ oder der Wortschatztiefe entspricht (auch wenn es trotzdem einen sog. Messfehler geben wird). Ein Messfehler ist an sich erwartbar, weil Menschen nie immer genau gleich reagieren (wir sind ja keine Messbecher oder Küchenwaagen). Wichtig ist, dass der Messfehler nicht mit etwas Spezifischem zusammenhängt, also z. B. bei älteren Menschen besonders groß ist. Im Idealfall gleicht sich der Messfehler aus, wenn wir einen Test ganz oft durchführen. Wenn ein Teilnehmer dreimal mit unterschiedlichen Versionen desselben Wortschatztests getestet wird, sollte der Durchschnittswert aller Testergebnisse näher am „echten“ getesteten Merkmal (z. B. Wortschatzbreite) liegen, als wenn er nur einmalig am Test teilnimmt. Es gibt allerdings kaum eine Möglichkeit, zu prüfen, dass diese Grundsätze einge‐ halten werden. Deswegen müssen wir - wie bei anderen Erhebungsdesigns auch - auf die Erfüllung der Gütekriterien besonders achten. Die klassische Testtheorie stellt Gütekriterien für das Testen bereit. Darauf gehen wir nun ein. 7.4 Gütekriterien für Tests Im Kapitel 2.5 sind wir schon auf die Hauptgütekriterien der Objektivität, die Reliabili‐ tät und Validität eingegangen. Diese betrachten wir nun besonders für die Anwendung von Tests und gehen jeweils kurz darauf ein, wie man sie prüft. 7.3 Annahmen der Testtheorie 105 <?page no="106"?> Durchführungsleitfaden 7.4.1 Objektivität Die Objektivität besagt, dass der Test von der Anwenderin unabhängig ist. Sie ist auch bei selbst entwickelten Tests gut zu realisieren, wenn eine Standardisierung der Durchführung, Auswertung und Interpretation der Daten vorhanden ist. So muss z. B. eine Antwort, die von einer Bewerterin als „falsch“ markiert wird, von anderen Bewerterinnen ebenfalls als falsch markiert werden. Allerdings ist dieses Gütekriterium nicht immer ganz einfach zu gewährleisten, wie jede Lehrperson aus der eigenen Praxis weiß. Daher soll man vor der Auswertung von Testitems genau festlegen, wie sie auszuwerten sind. Weil viele Antworten nicht nur als „richtig“ oder „falsch“, sondern z. B. auch als „richtig, aber falsche Rechtschreibung“ oder „inhaltlich richtig, aber im falschen Kasus“ bewertet werden können, sollte das Verfahren für die Punktevergabe so detailliert beschrieben werden, dass dieselbe Anzahl an Punkten für ähnliche Leistungen vergeben wird. Sehr wichtig für die Gewährleistung der Objektivitität sind Durchführungsleitfäden, die genau das vorgeben, was die testende Person sagen und machen darf, und die die Durchführung der Testung genau festlegen, und Auswertungsleitfäden, die erklären, wie einzelne Items bewertet werden müssen. 7.4.2 Reliabilität Ein Test ist reliabel (zuverlässig), wenn er bei Wiederholungen unter denselben Bedingungen konsistente Ergebnisse liefert - vorausgesetzt, alle Störfaktoren sind ausgeschlossen. Das bedeutet: Ein Testteilnehmer sollte im Idealfall bei wiederholter Durchführung des Tests stets ein vergleichbares Ergebnis erzielen. Die Reliabilität eines Tests wird von einigen Faktoren beeinflusst: • Testlänge: Je länger ein Test ist, desto verlässlicher ist er. (Wenn z. B. getestet werden soll, ob ein Lerner die Bildung des Konjunktiv I beherrscht, und es wird nur ein Item vorgegeben, dessen Konjunktiv I gebildet werden soll, dann kann es sein, dass er den Konjunktiv I genau dieses Verbs in Erinnerung hat, aber die Regel zur Bildung nicht beherrscht. Wenn der Test jedoch 20 entsprechende Items enthält, steigt die Wahrscheinlichkeit, dass sich das tatsächliche Können des Lerners zeigt.) • Zusammensetzung der Testteilnehmer: Wenn alle Teilnehmer praktisch dieselbe Wissensbasis haben, gleich klug sind und ungefähr dasselbe Ergebnis erzielen, ist die Verlässlichkeit niedrig. (Wenn alle Ergebnisse ganz dicht beieinander liegen, kann es gut sein, dass bei einer Wiederholung diejenigen schlechter abschneiden, die vorher besser abgeschnitten haben.) • Bearbeitungszeit: Unter Zeitdruck entstehen häufiger Zufallsfehler oder unvoll‐ ständige Antworten, was die Reliabilität verringert. • Homogenität der Testitems: Je stärker die Testaufgaben dasselbe Konstrukt er‐ fassen (die Testitems gehören also inhaltlich zusammen), desto höher ist die 106 7 Testen <?page no="107"?> 35 Zwischen der ersten und der zweiten Hälfte zu unterscheiden, ist insbesondere dann sinnvoll, wenn der Test etwas länger ist: Wenn die Antworten der zweiten Hälfte schlechter ausfallen als bei der ersten, haben wir es wahrscheinlich mit einem Ermüdungseffekt zu tun, das bedeutet, dass wir uns nicht auf die Ergebnisse verlassen können, weil die Teilnehmer sich nicht mehr ganz auf die Aufgaben konzentrieren konnten. Reliabilität. Eine hohe inhaltliche Übereinstimmung der Items erhöht die Wahr‐ scheinlichkeit, dass der Test konsistent misst, was er messen soll. • Differenzierungsstärke der Testitems: Je besser die einzelnen Items zwischen leis‐ tungsstarken und leistungsschwächeren Testteilnehmern unterscheiden können, desto höher ist die Reliabilität des Tests. Die meisten veröffentlichten und standardisierten Tests geben sog. Reliabilitätsmaße an. Damit kann man prüfen, wie zuverlässig der Test ist. Generell findet man immer ein Maß zur Retestreliabilität, also das Ergebnis einer Testwiederholung. Man geht davon aus, dass unter gleichen Bedingungen dieselben Ergebnisse erzielt werden. Bei einfachen Messverfahren ist dies einfach: Die Länge meines Tisches sollte dieselbe sein, wenn ich sie zweimal nacheinander mit demselben oder einem anderen Zollstock messe. Bei Untersuchungen in der Linguistik und Sprachlehrforschung ist es nicht mehr so einfach. So kann man - nach einer gewissen Zeit, damit sich die Teilnehmer nicht mehr daran erinnern - einfach denselben Test mit denselben Personen noch einmal durchführen. Dabei sieht man, ob das Ergebnis der zweiten Durchführung des Tests mit der ersten einigermaßen übereinstimmt. Dieses Verfahren kann man bei Grammatikalitätsurteilen durchaus anwenden, bei den meisten Instrumenten (u. a. Sprachtests, Lese- oder Schreibaufgaben etc.) funktioniert es aber nicht, weil die Lerner in der Zwischenzeit - oder durch den ersten Test selbst - Lernfortschritte gemacht haben können, weil sie sich an den Test erinnern, oder weil sie wenig motiviert sind, denselben Test noch einmal durchzuführen. Stattdessen kann man einen Paralleltest einsetzen: Man untersucht dieselben Teil‐ nehmenden ohne nennenswerten zeitlichen Abstand mit einer zweiten Version des Tests, den man eingesetzt hat. Das erfordert allerdings, dass die beiden eingesetzten Tests wirklich äquivalent sind. Zudem lässt sich das Verfahren nicht anwenden, wenn ein Lerneffekt durch das Bearbeiten des ersten Tests eintritt. Man kann aber auch die Konsistenz innerhalb eines Tests überprüfen. Das Einfachste ist, man macht eine Testhalbierung (engl. split-half). Man unterteilt dazu die Ergebnisse des Tests in zwei Hälften - zum Beispiel alle gerade und ungerade nummerierten Fragen oder 1. Hälfte/ 2. Hälfte 35 - und überprüft mit statistischen Verfahren (durch eine Berechnung des Zusammenhangs zwischen beiden Hälften), ob diese zwei Hälften wesentlich unterschiedliche Ergebnisse haben. Wenn das so ist, gilt der Test als inkonsistent und damit wenig verlässlich. Das statistische Maß, das bei all diesen Möglichkeiten berechnet wird, ist immer ein Zusammenhangsmaß, das den Zusam‐ menhang zwischen den Messergebnissen beschreibt. Die Reliabilität gilt in der Regel als akzeptabel, wenn der Wert zwischen 0.8 und 1.0 liegt (mehr zu Zusammenhangsmaßen lesen Sie in Kapitel 11). 7.4 Gütekriterien für Tests 107 <?page no="108"?> Augen‐ schein- Validität Inhaltsvalidität Kriteriums‐ validität 7.4.3 Validität Das wichtigste Testgütekriterium ist die Validität. Wir wollen sicherstellen, dass der Test das misst, was er zu messen angibt. Dies ist gar kein einfacher Anspruch. Nehmen wir an, man möchte das Konstrukt „individueller Wortschatz“ messen. Aber um welchen Wortschatz handelt es sich: Um den bereits im Lehrwerk behandelten? Um den Gesamtwortschatz in einer Sprache? Nur um bestimmte Wortarten wie Substantive oder Verben? Auch um konjugierte oder deklinierte Formen? Und soll der rezeptive oder produktive Wortschatz erhoben werden? Zur Erinnerung: In der Testung handelt es sich immer um die Prüfung von Merk‐ malsausprägungen - z. B. gelernte Lehrwerkvokabeln -, die dann latente Merkmale - z. B. Wortschatzumfang oder Wortschatzzuwachs - darstellen sollen. Dies erscheint auf den ersten Blick trivial, aber es ist häufig sehr schwierig, wirklich sicherzustellen, dass ein Test tatsächlich das testet, was man mit ihm testen möchte. Ein Beispiel: Ein wenig sorgfältig angelegter Leseverstehenstest (z. B. mit einem aktuellen Zeitungsartikel als Basistext) könnte in Wirklichkeit womöglich vor allem Vokabelkenntnisse oder Weltwissen testen, zudem die Fähigkeit der Lerner, richtige Schlussfolgerungen zu ziehen. Der tatsächliche Erfolg in diesem Lesetest kann also sehr stark von anderen Faktoren abhängen. Um die Validität eines Tests zu überprüfen, ist eine Reihe von unterschiedlichen Vorgehensweisen möglich; die beste Methode ist nach wie vor, möglichen Gefahren für die Gültigkeit vorzubeugen. 1. Augenschein-Validität bezieht sich ganz einfach darauf, ob Testerin und Getesteter meinen, dass der Test „richtig“ aussieht. Er könnte z. B. nicht richtig aussehen, wenn er zu kurz ist. Zwar können sich Lehrpersonen sehr schnell eine gute Ein‐ schätzung davon verschaffen, wie die Aussprache eines Schülers ist, nachdem sie eine Minute mit ihm geredet haben, und diese Einschätzung würde sich auch nicht nach einem 20 Minuten dauernden Aussprachetest ändern. Es gäbe also keinen Grund, einen 20-Minuten-Test durchzuführen; eine Minute würde reichen. Aller‐ dings kann es gut sein, dass der Schüler nicht glauben würde, dass die Lehrkraft ein gut begründetes Urteil auf Grund einer einminütigen Prüfung fällen kann, und daher würde ein so kurzer Aussprachetest für ihn keine Augenschein-Validität aufweisen. 2. Inhaltsvalidität bezieht sich darauf, ob die Inhalte eines Tests das zu untersuchende Phänomen vollständig und angemessen abbilden. Will man wissen, ob Englisch lernende deutsche Schüler die Formen des present perfect beherrschen, muss man sowohl Testitems aufnehmen, die regelmäßig (wie [have] talked, studied, traveled) als auch solche, die unregelmäßig (wie [have] swum, run, gone) gebildet werden. Die Inhaltsvalidität wird i. d. R. durch die Einschätzung von Expertinnen (z. B. Lehrkräften) bestätigt. 3. Die Kriteriumsvalidität besagt, dass das Testergebnis mit Messungen eines korre‐ spondierenden Kriteriums übereinstimmt. Diese Art von Validität ist empirisch 108 7 Testen <?page no="109"?> 36 Das hört sich zwar einfach an und es ist auch recht einfach - wird aber oft, gerade bei Diagnostiktests, nicht geprüft. Konstrukt‐ validität konvergente Validität überprüfbar, man kann das Ergebnis des eigenen Tests statistisch mit dem eines anderen Tests oder einem späteren Ergebnis vergleichen. Ein häufig genanntes Beispiel ist die Berufseignung, die (wenn auch erst später) mit beruflichem Erfolg übereinstimmen soll. Auch Sprachprüfungen wie der TOEFL (Test of English as a Foreign Language) und der TestDaF, die den Zugang ausländischer Studenten zu einer Universität mitbestimmen, sollten möglichst mit dem späteren Studienerfolg zusammenhängen. 4. Die Konstruktvalidität zeigt auf, dass das Erhebungsinstrument tatsächlich eine angemessene Operationalisierung des zu untersuchenden Merkmals darstellt. Auch diese Art der Validität ist empirisch überprüfbar. Eine beliebte Möglichkeit, die Konstruktvalidität zu messen, ist die Berechnung der konvergenten Validität. Dabei vergleicht man die in der Untersuchung gewonnenen Daten mit Daten aus einem anderen Test, der das gleiche Merkmal zu messen angibt. Sind die Ergebnisse beider Tests ähnlich, nimmt man an, dass der eigene Test valide ist. 36 7.5 Methodische und ethische Bedenken Sie haben vielleicht schon gemerkt: Bei der Gestaltung von Tests und der Sicherung der Gütekriterien kann schon Einiges schief gehen. Auch bei der Durchführung von Tests ist es nicht ganz einfach, Störfaktoren auszuschließen. Das trifft insbesondere dann zu, wenn Lerner sich nicht so viel Mühe geben, wie man es sich wünschen würde - weil z. B. das Ergebnis der Testung keine Bedeutung für sie hat. Das heißt nicht, dass Testungen, die nur für wissenschaftliche Zwecke durchgeführt werden, für reguläre Kursnoten benutzt werden dürfen (stellen Sie sich vor, was für Probleme sich ergeben würden, wenn jedes Schulkind, das an der PISA-Testung teilnimmt, das Testergebnis als Teil der Schulnote erhalten sollte). Ein größeres Problem ist, dass viele kommerziell erhältliche Tests für bestimmte Teilnehmer nicht angemessen sind, die Tests sind also nicht „fair“. Ein Spracherhe‐ bungsverfahren, das an monolingualen Gymnasiasten normiert wurde, soll nicht ohne Weiteres mit Grundschülern, mit bilingualen Schülern oder mit Schülern mit diversen Förderbedarfen angewendet werden. Gibt es für eine Zielgruppe noch keinen passen‐ den Test, muss die Forscherin sehr sorgfältig abwägen, ob ein Testeinsatz überhaupt sinnvoll ist. Insbesondere in Fremdsprachenlernkontexten können kontextuelle und kulturelle Faktoren zu besseren oder schlechteren Testergebnissen führen. In solchen Fällen ist es ratsam, sich mit Personen auszutauschen, die die Zielgruppe gut kennen und die einschätzen können, ob ein Test passend ist. 7.5 Methodische und ethische Bedenken 109 <?page no="110"?> Aufgaben 1. Sie haben aus pädagogischen Gründen einen Sprachstandstest so konzipiert, dass am Anfang leichte und erst später schwierigere Fragen gestellt werden, damit die Schüler Erfolgserlebnisse haben. Was bedeutet das für die Anwendung von Reliabilitätstests? 2. In einem Test zur Überprüfung des grammatischen Wissens von Erstsemestern kommt folgende Aufgabe vor: Das Subjekt im Deutschen  steht immer an erster Stelle im Satz  löst die Verbkongruenz aus  wird als Substantiv immer dekliniert  steht im Nominativ  bezeichnet den, der die Verbalhandlung ausführt Was halten Sie von den Distraktoren? 3. Eine Alternative von Ratings für offene Tests ist es, mehreren Expertinnen (Lehrerinnen, Dozentinnen, L1-Sprecherinnen etc.) die Testergebnisse zu geben und sie darum zu bitten, die Tests in einer Reihenfolge von „bestem Test“ bis „schlechtestem Test“ zu bringen. (Eine Variante davon ist, dass eine Expertin immer zwei Tests miteinander vergleicht und entscheidet, welcher Test besser ist.) Mit vielen Wiederholungen durch unterschiedliche Expertinnen hat man dann eine Anreihung von sehr gut bis sehr schlecht. Welche Vor- und Nachteile solcher Verfahren können Sie sich vorstellen? 4. Bei vielen Sprachtests wird auch die (freie) schriftliche Produktion durch Compu‐ tersoftware ausgewertet (das nennt man automated essay scoring). Wie können automatisierte Ratings durch Computersoftware potentiell die Erfüllung der Gü‐ tekriterien unterstützen? Welche Probleme sehen Sie dabei? 110 7 Testen <?page no="111"?> kausale Beziehung Wirksam‐ keitsstudien 8 Experimentelle Forschung 8.1 Warum ein Experiment durchführen? Bislang haben wir uns in diesem Buch mit Ansätzen, Gütekriterien, Forschungsdesigns, Methoden und Instrumenten befasst, die bei der Grundlagengenauso wie bei der an‐ gewandten Evaluationsforschung Geltung haben. Experimentelle Forschung hat einen eindeutigen Vorteil gegenüber anderen Designs. Denn nur durch Experimente kann man der Frage nachgehen, ob eine kausale Beziehung zwischen zwei (oder mehreren) Umständen oder Phänomenen besteht. Ein nicht unbedeutsamer Unterschied besteht zwischen den Aussagen: „Die Verwendung einer nichtdeutschen Familiensprache führt zu schlechteren Ergebnissen in Lesekompetenzmessungen der PISA-Erhebungen“ und „Die Verwendung einer nichtdeutschen Familiensprache hängt mit schlechteren Er‐ gebnissen in Lesekompetenzmessungen der PISA-Erhebungen zusammen“. In der ers‐ ten Aussage wird behauptet, dass die Verwendung einer nichtdeutschen Familienspra‐ che eine Auswirkung auf die PISA-Ergebnisse hat; es bestehe also eine kausale Beziehung. In der zweiten Aussage wird dagegen behauptet, dass Jugendliche, die zu Hause eine andere Sprache als Deutsch sprechen, dazu tendieren, schlechtere Leseer‐ gebnisse bei der PISA-Testung zu erreichen. Das kann aber an vielen Faktoren liegen, die Aussage nennt zwar einen Zusammenhang zwischen Familiensprache und Tester‐ gebnis, aber keine Kausalität. Der Unterschied wird leider allzu oft nicht ernst genom‐ men, so dass Kausalität behauptet wird, wo nur ein Zusammenhang nachgewiesen wird. Kausalität kann man am besten anhand einer experimentellen Vorgehensweise nachweisen. In der Linguistik sind Experimente angebracht, wenn Befragungen nicht Erfolg ver‐ sprechend sind (z. B. weil sprachliche Normen im Spiel sind oder das Untersuchte nicht bewusst wahrgenommen wird, etwa bei der Sprachverarbeitung) und Beobachtungen zu aufwändig oder nicht zielführend sind (z. B. weil es in der realen Kommunikati‐ onssituation zu viele störende Einflüsse gibt, die die Untersuchung der relevanten Erscheinung erschweren). In der Sprachlehrforschung sind experimentelle Designs besonders gut geeignet für Fragen, die der Effektivität von spezifischen Lehr-/ Lernmethoden oder Lehr-/ Lernma‐ terialien nachgehen. Diese werden deswegen auch Wirksamkeitsstudien genannt. Sie bedienen sich ähnlicher Erhebungsinstrumente und -methoden wie die Linguistik, ha‐ ben aber andere Ziele. Denn im Kontrast zur Grundlagenforschung, die darauf abzielt, Wissen über (theoretische) Zusammenhänge aufzubauen, verfolgen Experimente in der Sprachlehrforschung praktische Ziele. Mit ihnen will man überprüfen, ob ergriffene Maßnahmen eine (hoffentlich positive) Wirkung zeigen, oder kontrollieren, ob eine Maßnahme das Erzielte erreicht hat. In manchen Fällen will man sogar eine Entschei‐ dung zwischen verschiedenen Maßnahmen treffen, oder eine bereits eingeführte Maß‐ <?page no="112"?> Interventi‐ onsstudien Evaluations‐ studien nahme legitimieren. Für das Erreichen dieser Ziele ist die experimentelle Forschung der sicherste Weg. Zwei Formen des Experimentierens sind in der Wirksamkeitsforschung besonders verbreitet: Interventionsstudien, bei denen das Forscherteam eine Maßnahme auf Basis eines beobachteten Problems entwickelt und überprüft, und Evaluationsstudien, bei denen das Forscherteam - oft im Auftrag von anderen (zum Beispiel Lehrwerkverlagen) - eine bereits entwickelte Maßnahme in der Praxis bewertet. Diese Formen greifen oft ineinander über. Da Evaluationsstudien im Rahmen von studentischen Arbeiten nur sehr selten vorkommen, und weil die Grenzen eher unscharf sind, werden wir sie hier nicht weiter behandeln. Auch wenn Experimente viele Vorteile mit sich bringen, können gute Gründe vor‐ liegen, experimentelle Designs nicht einzusetzen. Allen voran steht die Passung zum Erkenntnisinteresse, das sich auf Faktoren wie Forschungsstand und Datenerhebungs‐ möglichkeiten (s. Kapitel 2) oder Stichprobenzugang (s. Kapitel 3) stützt. Ebenfalls sind sie nicht geeignet, wenn eine Manipulation von Variablen durch die Forscherin unmöglich, kaum durchführbar oder gar unethisch ist. Im obigen Beispiel zur Frage der Familiensprache wäre es weder praktikabel noch ethisch vertretbar, Kinder nach dem Zufallsprinzip in zwei Gruppen zu teilen und deren Familien aufzuerlegen, ausschließlich Deutsch oder ausschließlich eine andere Sprache zu Hause zu sprechen, um dann die späteren Ergebnisse bei der PISA-Studie zu vergleichen. Welche Daten letztendlich in experimentellen bzw. Wirksamkeitsstudien erhoben werden, ist nicht festgelegt. Es gibt zwar eine starke Tendenz zu quantitativen Daten, gleichzeitig ist es durchaus möglich, qualitative Daten zu erheben und auszuwerten. Da wir uns in diesem Buch insbesondere für quantitative Ansätze interessieren, beziehen sich die Beispiele in diesem Kapitel auf Designs, bei denen quantitative Daten erhoben werden. Ebenfalls verzichten wir hier - im Kontrast zu den ersten drei Auflagen dieses Buches - auf eine umfangreichere Darstellung linguistischer und psycholinguistischer Erhebungsmethoden. Die Prinzipien für diese Experimente sind die gleichen wie für alle Experimente, auch Interventionen, wir fokussieren aber aus Platzgründen in dieser Auflage insbesondere Fragen der Interventionsforschung und geben hier nur ein Beispiel für eine Experimentart. Eine Darstellung von einigen gebräuchlichen experimentellen Methoden in der Psycholinguistik finden Sie in der Webergänzung zur vierten Auflage. 8.2 Kausale Inferenz als Grundlage Experimentelle Studien führt man vor allem deswegen durch, weil man gerne etwas über das Verhältnis von Ursächlichkeit und Wirkung herausfinden will. Genauso wichtig ist, dass man damit nachweisen kann, dass andere potentielle Ursachen keinen Einfluss auf etwas haben. Der Nachweis der Kausalität beinhaltet somit, dass man eine (oder einige) Variable(n) isolieren kann und mit einiger Sicherheit sagen kann, dass 112 8 Experimentelle Forschung <?page no="113"?> 37 Selbstverständlich wissen diese Intonationsbeurteilerinnen nicht, welche Texte von nüchternen und welche von betrunkenen Vorlesern stammen. Es gelten hier also die gleichen Vorschriften wie bei allen empirischen Arbeiten. unabhän‐ gige Varia‐ ble abhängige Variable Rating diese - und nur diese - Variable(n) die beobachtete Auswirkung hat (oder haben). Das beinhaltet logischerweise auch eine Aussage wie: Hätte es diese Ursache nicht gegeben, wäre die beobachtete Wirkung nicht entstanden. Wie kann man also nachweisen, dass etwas eine Auswirkung auf etwas Anderes ausübt? In der einfachsten Form manipuliert man eine Variable und betrachtet, ob eine Änderung bei dieser unabhängigen Variable (UV) eine Auswirkung auf eine andere, die abhängige Variable (AV), zeigt. Als ein erstes, einfaches Beispiel können wir uns die folgende Frage stellen: „Beeinträchtigt Alkohol die Intonation in der Fremdsprache Englisch? “ Das Beispiel ist in seinen Grundsätzen recht repräsentativ für die meisten Arten der experimentellen Forschung. In der experimentellen Forschung würde man normaler‐ weise die Intonation nüchterner Menschen mit der solcher Menschen vergleichen, die etwas (oder eine bestimmte Menge) Alkohol getrunken haben. Man könnte zwei Grup‐ pen von Personen mit ähnlich guter Aussprache bilden, eine Gruppe mit nüchternen Probanden und eine Gruppe von Menschen, die jeweils fünf Gläser Sherry getrunken haben. Dann bittet man sie, einen englischsprachigen Text vorzulesen, und misst dabei, ob die Intonation der nüchternen Gruppe besser ist. Die Unterscheidung zwischen nüchtern/ alkoholisiert ist hierbei die unabhängige Variable, die von der Forscherin manipuliert wird (die Forscherin entscheidet, wer keinen Sherry trinkt und wer fünf Gläser trinkt), und die Intonation ist die abhängige Variable, denn sie zeigt den Effekt des Sherrys, den man getrunken hat. Wir müssten natürlich die darin enthaltenen Konstrukte operationalisieren, d. h. genau bestimmen, wie die Variablen gemessen werden. Wir könnten die unabhängige Variable in unserem Fall bestimmen, indem wir eine genaue Menge des zu konsumierenden Sherrys in einer bestimmten Zeit festlegen. Zur Operationalisierung der abhängigen Variable könnten wir von einer Anzahl er‐ fahrener Sprachtester (wir nennen dieses Verfahren ein Rating, die Sprachtester nen‐ nen wir daher Rater) eine Note für die Intonation vergeben lassen. 37 In diesem Fall nehmen wir an, dass die Sprecher nach fünf Gläsern Sherry eine schlechtere Intonation aufweisen als Sprecher, die (noch) keinen Sherry zu sich genommen haben (wobei die Forscherin natürlich sicherstellen muss, dass die Versuchsteilnehmer wirklich nüch‐ tern sind). Dass es sich um ein Experiment handelt, sehen wir, weil wir Frage, Hypothese, UV und AV benennen können (Tabelle 1): Forschungsfrage Beeinträchtigt Alkohol die Intonation in der Fremdsprache Eng‐ lisch? Hypothese Personen, die unter Alkoholeinfluss stehen, haben eine schlech‐ tere fremdsprachliche Intonation im Englischen als Personen, die keinen Alkohol konsumiert haben. 8.2 Kausale Inferenz als Grundlage 113 <?page no="114"?> 38 Diesen Punkt kann man nicht oft genug betonen. Denn insbesondere in der populistischen Rhetorik werden Zusammenhänge sehr gerne als Kausalitäten berichtet, um bestimmte Bevölkerungsgruppen für gesellschaftliche Problemlagen verantwortlich zu machen. Es gibt übrigens andere Möglichkei‐ ten, indirekt Kausalität nachzugehen. Da diese aber fortgeschrittene Statistikkenntnisse erforderlich machen, werden sie hier nicht behandelt. Unabhängige Variable Konsum von Alkohol Operationalisierung UV Konsum von 250-ml Sherry binnen 2 Stunden vs. kein Alkohol Abhängige Variable Intonation in der Fremdsprache Englisch Operationalisierung AV Rating für die Intonation eines vorgelesenen Textes Tabelle 1: Grundlageninformationen experimenteller Studien Manchmal ist es schwierig, eindeutig zu bestimmen, wann von einem Experiment gesprochen werden kann. Es lohnt sich deswegen, zu überlegen, ob es sich wirklich um eine Studie handelt, in der eine Variable manipuliert wird, um eine Auswirkung auf eine andere zu prüfen. 38 8.3 Entwurf des Forschungsvorhabens 8.3.1 Erste Schritte: Alles wie gehabt! Für die Planung eines experimentellen Forschungsvorhabens gelten die gleichen Kri‐ terien und Schritte wie für sonstige hypothesenprüfende Untersuchungen (s. Kapitel 2). Gleichzeitig ist zu überlegen, wo die Studie stattfinden soll (Labor- oder Feldstudie), wer daran teilnimmt (Stichprobe), welche Daten erhoben werden sollen und mit welchen Erhebungsmethoden (z. B. Beobachtung, Befragung, Korpora/ Dokumente, Testen), und mit welchen Instrumenten die Daten erhoben werden (z. B. normiertes Testver‐ fahren oder Klassenarbeiten). Nicht nur unabhängige und abhängige Variablen werden festgelegt, sondern auch Kontrollvariablen, und es wird reflektiert, welche weiteren Faktoren womöglich trotzdem konfundieren (stören) könnten. Zudem soll gesichert werden, dass man auch unter Anbetracht dieser vielen Faktoren die Ergebnisse des Experiments verallgemeinern kann (d. h., dass eine Intervention ähnliche Ergebnisse in anderen Situationen und mit anderen Lernern hätte). Wie bei allen Designs muss sich die Begründung für ein Experiment aus vorherge‐ hender Forschung logisch ergeben. Wenn nicht ausreichend Grund zur Änderung einer Situation besteht, dann hat es keinen Sinn, eine Interventionsstudie mit dem entsprechenden Aufwand (für die Forscherin, aber vor allem für die Teilnehmer) durchzuführen. Es gilt daher auch hier: Eine konsequente Literaturrecherche ist unverzichtbar für ein gutes Experiment. 114 8 Experimentelle Forschung <?page no="115"?> Randomisie‐ rung 8.3.2 Besonderheiten von Experimenten Man findet in der didaktischen Literatur häufig Berichte von Lehrpersonen, die mit einer neuen Lehrmethode bei ihren Schülern hervorragende Lernerfolge erzielt haben. In solchen Fällen ist wissenschaftlich nicht überprüfbar, ob tatsächlich besondere Lernerfolge erreicht werden und ob diese tatsächlich auf die neue Methode und nicht etwa auf die Begeisterung der Lehrperson oder auf eine bessere Motivation durch einen Methodenwechsel oder gar durch einen Wechsel der Räumlichkeiten o.ä. zurückzuführen sind. Es ist ja außerdem keineswegs so, dass nur mit dieser Lehrmethode irgendwelche Erfolge erzielt werden oder dass Schüler, die nach anderen Lehrmethoden unterrichtet werden, niemals so gut den entsprechenden Lernstoff lernen wie die mit dieser speziellen Methode unterrichteten. Um solche Aussagen (Hypothesen) empirisch zu prüfen, erfordern experimentelle Studien über die sonstigen Gütekriterien hinaus noch weitere Maßnahmen. Werden diese nicht erfüllt, erhöht sich die Gefahr, verfälschte Ergebnisse zu erhalten. Wir schauen uns hier drei Aspekte näher an, bevor wir uns möglichen Designs und der Praxis zuwenden. Einteilung der Stichprobe in Vergleichsgruppen: In Experimenten muss so gut es möglich ist die gesamte Stichprobe repräsentativ für die Grundgesamtheit sein - hier gelten die gleichen Überlegungen und Maßnahmen wie in Kapitel 3 dargelegt. Eine Interventionsstudie scheitert schon vor dem Beginn, wenn man sich z. B. für alle Schüler der 7. Klasse interessiert, aber dann nur Gymnasiasten aus Bayern erhebt. In Experimenten interessiert man sich für Änderungen bei einer abhängigen Variable. Deswegen werden oft unterschiedliche Personen miteinander verglichen (in 8.3.3 geht es um Möglichkeiten des Gruppenvergleichs). Wenn man zwei oder mehrere Gruppen vergleicht, die aus unterschiedlichen Personen bestehen, muss man vor allem für eins sorgen: Dass es keine systematischen, personenbezogenen Unter‐ schiede zwischen den Gruppen gibt, die die interne Validität schwächen und damit die Ergebnisse der Studie verzerren (verfälschen) können. Diese Personenmerkmale sind in unterschiedlichen Untersuchungen unterschiedlich wichtig. Die Anzahl der Geschwister mag für bestimmte Forschungsfragen von Relevanz sein (z. B. welche argumentativen Strategien ein Kind in der mündlichen Interaktion einsetzt), für andere jedoch nicht (z. B. welchen Effekt ein Wortschatztraining hat). Man muss sich also vor der Untersuchung Gedanken über möglicherweise relevante Variablen machen. Auch hier ist eine intensive Literaturrecherche notwendig, um Erkenntnisse aus früheren Studien einbeziehen zu können. Experimentelle Studien werden i. d. R. in „experimentelle“ und „quasi-experimen‐ telle“ eingeteilt. Die Unterscheidung wird auf Basis der Stichprobenaufteilung gemacht. Experimentelle Studien teilen Studienteilnehmer randomisiert in Gruppen ein, sofern zwei oder mehrere Gruppen verglichen werden. Das bedeutet, dass jeder Teilnehmer die gleiche Chance hat, in Gruppe A oder Gruppe B zu kommen. Damit sollen perso‐ nenbezogene Unterschiede, über die das Forscherteam vielleicht nicht einmal etwas 8.3 Entwurf des Forschungsvorhabens 115 <?page no="116"?> 39 Wie groß die Stichprobe bei einer randomisierten Gruppenaufteilung sein muss, hängt von vielen Faktoren ab, u. a. der Anzahl der zu vergleichenden Gruppen und der vermuteten Anzahl wichtiger potentiell beeinflussender Faktoren. Deswegen geben wir hier, wie auch sonstige Lehrbücher, keine Empfehlungen dazu. quasi-expe‐ rimentelles Forschungs‐ design Balancie‐ rung Blockrando‐ misierung Kovariaten weiß, möglichst gleich aufgeteilt sein. Das stärkt die interne Validität; wir können ei‐ nigermaßen sicher sein, dass Änderungen in der abhängigen Variable auf die Manipu‐ lation der unabhängigen Variable zurückzuführen sind. Die zweite Option ist der Aufbau eines quasi-experimentellen Forschungsdesigns. Meist wird dies als ein Forschungsdesign in „natürlichen“ Gruppen, also Gruppen, die schon bestehen (Klassen, Schulen usw.), definiert. Im Bildungsbereich ist es z. B. oft so, dass eine Klasse eine Intervention erhält, eine andere Klasse keine (Kontrollgruppe, s. u.), oder eine Schule setzt eine spezifische Maßnahme ein, eine andere nicht. Aller‐ dings unterscheiden sich Schulen oder sogar Klassen oft in wichtigen Merkmalen - die natürliche Aufteilung stellt daher eine Gefahr für die interne Validität dar. Theoretisch ist das experimentelle Design die validere Variante. Allerdings: Randomisierung hat nur Sinn bei ausreichend großen Gruppen. 39 Sie ist wenig nützlich bei den Gruppengrößen, mit denen wir es meist zu tun haben. Versucht man, eine Schulklasse randomisiert in zwei Gruppen aufzuteilen, ist die Chance, dass z. B. acht mehrsprachige Personen in einer Gruppe und zwei in der anderen Gruppe landen, erhöht. Auch deswegen werden v. a. quasi-experimentelle Designs in der Sprachlehrfor‐ schung eingesetzt. Um deren interne Validität zu stärken, gibt es sehr sinnvolle Maß‐ nahmen, die man treffen kann (und soll). Eine Möglichkeit ist die Balancierung: Man teilt die Teilnehmer so ein, dass relevante Merkmale gleich oft in jeder Gruppe vor‐ kommen. So sollte es in jeder Gruppe gleich viele starke wie schwache Lerner geben (zumindest in Bezug auf die abhängige Variable, die uns interessiert), und wenn es relevant ist, gleich viele ältere wie jüngere, gleich viele mit unterschiedlichen Famili‐ ensprachen usw. Eine weitere Möglichkeit ist die Blockrandomisierung. Hier werden Pools („Blöcke“) von Teilnehmern gebildet, bei denen relevante individuelle Merkmale ungefähr gleich oft vorkommen. Aus diesen Pools werden dann randomisiert Teilneh‐ mer den Untersuchungsbedingungen zugeteilt. In beiden Fällen ist ein Prätest hilfreich, bei dem man die Fähigkeiten in dem zu untersuchenden Konstrukt vor der Intervention prüft. Manchmal ist eine Kontrolle solcher personenbezogener Unterschiede nicht prakti‐ kabel. Daher ist es wichtig, bei der Auswertung von Daten mögliche Störvariablen zu beachten, die man nicht kontrollieren konnte (z. B., weil man mit natürlichen Gruppen arbeitet). Diese nennt man Kovariaten. Es gibt auch Möglichkeiten, Kovariaten nach der Untersuchung in der statistischen Auswertung zu berücksichtigen. Wer eine In‐ tervention durchführt, sollte sich über diese technischen Möglichkeiten beraten lassen. Übrigens ist ein quasi-experimentelles Design nicht an sich besser oder schlechter als ein experimentelles. Wäre dies der Fall, hätten wir in der Sprachlehrforschung 116 8 Experimentelle Forschung <?page no="117"?> Beispiel kaum einen Grund, Interventionen durchzuführen. Wichtig ist, dass man potentielle Gefahren für die Validität identifiziert und diese möglichst kontrolliert. Kontrollfaktoren: Die Bedingungen während des Experiments sollen möglichst kontrolliert sein. Nur so ist ein gutes Experiment wiederholbar (replizierbar), es ist also zuverlässig (s. Kapitel 2). Das Beispiel der neuen Lehrmethode oben zeigt dieses Problem: Wer begeistert eine neue Methode einsetzt, wird tendenziell auch bessere Lernergebnisse bei den eigenen Schülern erzielen. Deswegen ist die Kontrolle möglicher Störvariablen wie der Begeisterung so wichtig. Das hat natürlich auch Nachteile. Wenn man möglichst alles kontrolliert, was nicht zu den uns interessierenden Variablen passt, geht dies auf Kosten der ökologischen Validität. Das bedeutet, dass wir in der echten Welt selten so gute Bedingungen haben wie in einer kontrollierten Studie - Schüler sind nicht immer motiviert, der Unterricht ist manchmal auch am Freitagnachmittag kurz vor den Weihnachtsferien, Lehrkräfte setzen spezifische Unterrichtsreihen nicht so um, wie wir uns das wünschen, usw. Wichtig ist, dass Situationen, die zu vergleichen sind, auch vergleichbar sind; es herrschen möglichst ähnliche Bedingungen vor der Intervention wie während der Intervention, oder bei der Interventionsgruppe wie bei einer Vergleichsgruppe, die keine Intervention erhält. Wir illustrieren diese Überlegungen anhand eines einfachen Beispiels. In unserem Experiment geht es um die Frage, was die beste Methode für das Lernen unbekannter Vokabeln ist. Die Wirksamkeit einer Lehrmethode kann aber durch Störfaktoren be‐ einflusst werden, wie z. B. durch den Schwierigkeitsgrad der zu lernenden Vokabeln und die Intelligenz der Lerner, oder selbst Dinge wie die Tageszeit der entsprechenden Schulstunde (liegt die Stunde so spät, dass die Schüler kaum noch aufnahmefähig sind? ). Diese Störvariablen müssen dann im Experiment kontrolliert werden. Wir stel‐ len die Hypothese auf, dass es eine Kausalbeziehung zwischen der Lehrmethode und dem Lernerfolg bei den Schülern gibt. Diese Hypothese kann z. B. so aussehen, dass wir sagen, Vokabeln werden am besten in Wortfeldern gelernt und erheblich schlechter in alphabetischen Listen. Unsere beiden betrachteten Variablen sind dann also Lehr‐ methode (unabhängige Variable) und Lernerfolg (abhängige Variable). Alle anderen möglichen unabhängigen Variablen halten wir konstant: Man lässt dieselbe Schüler‐ gruppe unter Anleitung derselben Versuchsleiterin zur selben Tageszeit jeweils mit den beiden Lehrmethoden die einzelnen Vokabeln lernen. Man sorgt dafür, dass die Voka‐ beln gleich schwer sind, indem man als „Vokabeln“ sinnlose Buchstabenfolgen jeweils gleicher Länge und ähnlicher Form präsentiert (z. B. soka = Klavier, tifu = Zelt). Die unabhängige Variable ist die eingesetzte Lehrmethode. Die Vermittlung geschieht nicht im normalen Unterricht, sondern die Schüler üben in Einzelarbeit anhand von schrift‐ lichem Lernmaterial jeweils gleich lang dieselbe Anzahl ihrer „Vokabeln“. Die Wieder‐ holbarkeit ist in diesem Fall gegeben: Man kann dasselbe problemlos mit anderen Schülergruppen noch einmal durchführen. Den Lernerfolg operationalisieren wir als die Anzahl der nach drei Tagen noch wiedererkannten „Vokabeln“ in einem Überset‐ zungstest. Der Lernerfolg wird nicht einfach nur anwesend oder abwesend sein, son‐ 8.3 Entwurf des Forschungsvorhabens 117 <?page no="118"?> dern wir nehmen an, dass je nach verwendeter Lehrmethode ein gewisser Anteil der gelernten Vokabeln behalten wird, wobei wir vorhergesagt haben, dass die in Wortfel‐ dern gelernten Vokabeln den höchsten Anteil erreichen werden. Unsere Hypothese ist also widerlegt, wenn beim Lernen mit alphabetischen Listen mehr „Vokabeln“ behalten werden, aber auch, wenn es keine signifikanten Unterschiede in der Erfolgsrate zwi‐ schen den beiden Methoden gibt. Pilotstudie: Jede gut konzipierte Studie hat eine (oder mehrere) Pilotphase(n), in denen Intervention, Datenerhebungsinstrumente und Datenauswertungsverfahren zuerst erprobt werden, um sicherzustellen, dass das Experiment in der „heißen Phase“ nicht auf unerwartete Probleme stößt. Manchmal bezeichnen Forscherinnen fälschli‐ cherweise ihre Studie als Pilotstudie, wenn methodische Mindestanforderungen - etwa eine ausreichend große Stichprobe - nicht erfüllt sind. Wenn Sie im Rahmen einer Abschlussarbeit erste Erkenntnisse über eine Fragestellung gewinnen wollen und dabei die Gütekriterien empirischer Forschung so weit wie möglich berücksichtigen, können Sie durchaus von einer Pilotierung sprechen. Größer angelegte Projekte verfolgen jedoch i. d. R. den Anspruch, über eine bloße Pilotphase hinauszugehen. 8.4 Designs der Interventionsforschung In Interventionen wollen wir den Effekt einer unabhängigen Variable (z. B. die Vo‐ kabellehrmethode) auf eine abhängige Variable (Ergebnis bei einem Vokabeltest) einschätzen. Hierfür gibt es unterschiedliche Designs mit unterschiedlichen Vor- und Nachteilen. Wir gehen hier auf schwächere sowie stärkere Designs ein, um Unterschiede deutlicher hervorzuheben. Untersuchungsdesigns, bei denen keine Ma‐ nipulation einer unabhängigen Variable durch das Forschungsteam durchgeführt wird, werden als „natürliche Experimente“ bezeichnet und beinhalten besondere Probleme, werden daher hier nur am Rande besprochen. 8.4.1 Schwache Untersuchungsdesigns Schwache Untersuchungsdesigns liefern Ergebnisse, die nicht im Sinne eines kausalen Zusammenhangs interpretierbar sind, weil die interne Validität zu schwach ist. Den‐ noch kommen sie häufiger vor, als man vermuten würde. Das liegt vermutlich daran, dass sie meist einfacher durchzuführen und statistisch einfacher auszuwerten sind (s. Kapitel 12). Wir gehen hier kurz auf die drei häufigsten Varianten ein und erklären, warum sie problematisch sind. One-Shot Case Study: In diesem Design erhebt man die abhängige Variable einmalig („one-shot“) nach der Intervention. Dass dies wenig sinnvoll ist, dürfte recht eindeutig sein: Man weiß nicht genau, wie gut oder schlecht die Gruppe vor der Intervention war. Wird dieses Design eingesetzt, handelt es sich im besten Fall um ein „natürliches“ Experiment (das Forscherteam hat selbst nichts geändert, etwas ist einfach in der 118 8 Experimentelle Forschung <?page no="119"?> Unabhän‐ gige- Gruppen- Design Interventi‐ onsbzw. Experimen‐ talgruppe Kontrollbzw. Vergleichs‐ gruppe regulären Umgebung passiert), und die Ergebnisse werden mit anderen Probanden verglichen, die z. B. die gleiche Testung im Vorjahr gemacht haben. Kohorteneffekte genauso wie individuelle Variablen werden nicht beachtet, die interne Validität ist schwach. Das Design sieht wie folgt aus: Gruppe A Teilnahme an Treatment X → Test 1 Posttest-Design: Bei einem reinen Posttest-Design werden zwei Gruppen von Teil‐ nehmern zwei unterschiedlichen Treatments (z. B. Lehrmethoden) ausgesetzt. Am Ende der Untersuchung werden die Ergebnisse der beiden Gruppen verglichen, z. B. mit einem Vokabeltest. In diesem „Unabhängige-Gruppen-Design“ handelt es sich um unterschiedliche Personengruppen in den beiden Bedingungen. Das Design ist schwach, weil man auch hier nicht weiß, ob sich die zwei Gruppen bereits vor der Intervention unterschieden haben und z. B. eine Gruppe aus Vokabelprofis und eine Gruppe aus vergesslichen Lernern bestand. Entscheidet man sich trotzdem für dieses Design, müssen ganz bestimmte Voraussetzungen erfüllt werden, so dass die Gruppen möglichst vergleichbar sind. Insbesondere sollten die Gruppen balanciert sein, um in‐ dividuelle Störfaktoren auszuschließen. Auch die Lernbedingungen müssen gleich sein - Lerner müssen für eine möglichst gleiche Zeitspanne mit vergleichbaren Lehrper‐ sonen einen vergleichbaren Stoff lernen. Eine Variante davon ist, wenn man eine Intervention nur in einer Gruppe durchführt, und ihre Ergebnisse mit denen einer anderen Gruppe vergleicht, die an keiner Inter‐ vention teilgenommen hat. Hier handelt es sich um eine Studie mit einer Interventionsbzw. Experimentalgruppe und einer Kontrollbzw. Vergleichsgruppe. Dieses Design wird eingesetzt, wenn man nicht zwei Interventionen vergleichen will, sondern erfor‐ schen will, ob eine Intervention überhaupt eine Wirkung hat. Die Hypothese wird durch das Experiment gestützt (d. h. die neue Methode ist besser), wenn die Ergebnisse der Experimentalgruppe erheblich besser sind als die der Kontrollgruppe. In einer reinen Posttest-Studie sieht das Design wie folgt aus: Gruppe A Treatment X → Test 1 Gruppe B Treatment Y oder Kontrolle → Test 1 Die Mittelwerte der Daten dieser unabhängigen Stichproben aus Test 1 werden verglichen und grafisch als Boxplot oder Balkendiagramm dargestellt, in denen nur zwei Balken oder Boxen - die Ergebnisse in Test 1 für Gruppe A und die Ergebnisse in Test 1 für Gruppe B - vorkommen. 8.4 Designs der Interventionsforschung 119 <?page no="120"?> Ein-Grup‐ pen-Prä-/ Posttest-De‐ sign Prätest abhängige- Gruppen- Design Messwieder‐ holung Lateinisches Quadrat Ein-Gruppen-Prä-/ Posttest-Design: Es kann natürlich sein, dass man zwei Gruppen nicht vergleichen kann oder will, z. B. weil die Teilnehmer alle im selben Kurs sind und man sie nicht getrennt unterrichten kann, oder weil man Bedenken hat, dass indivi‐ duelle Störfaktoren eine zu große Rolle spielen, wenn man unterschiedliche Gruppen vergleicht. In diesem Fall würden wir nur eine Gruppe nehmen und deren Daten vor der Intervention in einem Prätest erheben. Dann nehmen sie an der Intervention teil (d. h., die unabhängige Variable wird manipuliert) und werden zu einem bestimmten Zeitpunkt danach wieder getestet (allerdings nicht mit genau demselben Test, denn auch das kann ein Störfaktor sein). Wir nennen dies ein abhängige-Gruppen-Design, denn wir haben für jeden Teilnehmer zwei Messwerte („Test 1“ und „Test 2“). Dieses Design beinhaltet eine Messwiederholung, denn ein vergleichbarer Vokabeltest wird von denselben Probanden zweimal geschrieben. Auch dieses Design hat deutliche Schwächen - u. a., weil die Gruppe nach der Intervention auch schon Übungsmög‐ lichkeiten durch den ersten Test hatte. Das Design kann wie folgt dargestellt werden: Gruppe A Test 1 → Treatment X → Test 2 In diesem Fall vergleichen wir die Daten aus Test 1 mit denen aus Test 2 bei sog. „abhängigen Stichproben“ (s. Kapitel 12). Grafisch können wir die Ergebnisse in einem Liniendiagramm mit einer einzigen Linie präsentieren, weil eine Änderung über die Zeit von Prätest (t1, d. h. Zeitpunkt 1) bis Posttest (t2, d. h. Zeitpunkt 2) angezeigt werden kann. 8.4.2 Stärkere Designs Die interne Validität der Studie ist in den obigen Formen von Untersuchungsdesigns gefährdet, weil individuelle Merkmale starken Einfluss auf die Ergebnisse ausüben können. Diese kann man allerdings durch ein gutes Design kontrollieren. Im Folgenden werden einige (aber längst nicht alle! ) Möglichkeiten aufgeführt, die besonders häufig angewandt werden. Lateinisches-Quadrat-Design mit abhängigen Gruppen: Dieses Design ermög‐ licht einen Vergleich von zwei Treatments bei denselben Teilnehmern und kann dadurch unterschiedliche Merkmale der Teilnehmer beider Gruppen sowie Übungs- oder Ermüdungseffekte ausgleichen. Dafür teilt man eine Gruppe in zwei Untergrup‐ pen auf und lässt sie an beiden Situationen der unabhängigen Variable (z. B. sowohl an Lehrmethode X als auch an Lehrmethode Y) teilnehmen, allerdings in umgekehrter Reihenfolge. Nach jedem Treatment testet man sie nach dem Lernerfolg. Das Design sieht wie folgt aus: 120 8 Experimentelle Forschung <?page no="121"?> Zwei-Gruppen-Prä-/ Posttestdesign Messwieder‐ holung Weitere Messwieder‐ holungsde‐ signs Gruppe A Treatment X → Test 1 → Treatment Y → Test 2 Gruppe B Treatment Y → Test 1 → Treatment X → Test 2 Bei der Auswertung wird darauf geachtet, dass die Ergebnisse getrennt nach Lehrme‐ thode (nicht nach der Teilgruppe) verglichen werden. Die Daten werden mit einem Vergleich bei „abhängigen Stichproben“ (s. Kapitel 12) berechnet und grafisch als Boxplot oder Balkendiagramm dargestellt, in denen nur zwei Balken oder Boxen - die Ergebnisse für Treatment X und die Ergebnisse für Treatment Y - vorkommen. Zwei-Gruppen-Prä-/ Posttestdesign: Manchmal gibt es triftige Gründe, ein Lateini‐ sches-Quadratdesign nicht zu verwenden - z. B., weil man nicht zwei Interventions‐ phasen durchführen kann. In diesem Fall empfiehlt sich ein Prä-/ Posttestdesign mit zwei Gruppen. Dies hilft, mehrere Störfaktoren zu umgehen. In diesem Fall lässt man alle Teilnehmer vor der Intervention einen Prätest (Test 1) schreiben. Nach Durchfüh‐ rung der Intervention nehmen sie an einem Posttest (Test 2) teil. Dieses Design bein‐ haltet daher eine Messwiederholung: Gruppe A Test 1 → Treatment X → Test 2 Gruppe B Test 1 → Treatment Y oder Kontrolle → Test 2 In diesem Fall vergleichen wir die Daten aus Test 1 mit denen aus Test 2 für Gruppe A und Gruppe B. Man braucht aber spezifische statistische Verfahren, um die Daten richtig auszuwerten (s. Varianzanalysen, Kapitel 12). Grafisch können wir die Ergebnisse in einem Liniendiagramm mit zwei Linien präsentieren, die eine Änderung über die Zeit von Prätest (t1) bis Posttest (t2) bei beiden Gruppen anzeigt. Die Grafik, die daraus resultiert, besteht aus zwei Linien, wobei eine die Prätester‐ gebnisse sowie die Posttestergebnisse für Gruppe A zeigt, die andere diejenigen für Gruppe B. Weitere Messwiederholungsdesigns: In allen bisherigen Fällen vergleichen wir nur zwei Zustände derselben Variable, z. B. „Zufluss von Alkohol“ oder „Lehrmethode“. Sicherer für die Gewährung interner Validität ist es, wenn wir nicht nur zweimal eine Messung durchführen, sondern mehrfach. Besonders in Interventionen kommt dies häufig vor, weil wir nicht nur vor und nach einem Treatment Daten erheben, sondern auch währenddessen, oder wir wollen wissen, wie lange der Effekt einer Lehrmethode anhält, auch wenn sie nicht mehr durchgeführt wird. Ein weiterer Vorteil: Mit mehreren Messungen können wir auch so genannte nicht-lineare Effekte besser aufdecken, z. B. wenn nach der ersten Sitzung große Verbesserungen eintreten, nach der zweiten weniger große und nach der dritten Sitzung kaum noch welche. Greifen wir wieder das Beispiel der englischen Intonation auf. Man könnte behaup‐ ten, dass mit ein bisschen Alkohol Menschen ihre Hemmungen verlieren, sich trauen, 8.4 Designs der Interventionsforschung 121 <?page no="122"?> 40 Natürlich gibt es ein Kontinuum zwischen Konkreta und Abstrakta. Um die Darstellung hier nicht komplizierter als nötig zu machen, gehen wir von eindeutigen Konkreta und Abstrakta aus, die für die Untersuchung verwendet werden. Mehrfaktori‐ elle Designs freier zu sprechen, und deshalb eine bessere Intonation haben. Wenn man jedoch zu viele Gläser getrunken hat, neigt die Aussprache dazu, undeutlich zu werden. Ein Einfluss der unabhängigen Variable auf die abhängige muss folglich nicht linear sein, muss nicht die Form von „je mehr X, desto mehr/ weniger Y“ haben. Um unsere Hypothese zu überprüfen, führen wir das Experiment durch, in dem die unabhängige Variable (mit 6 Ebenen, d. h. die unabhängige Variable ist operationalisiert als eine variierende Anzahl von Gläsern Sherry, nämlich 0 - 1 - 2 - 3 - 4 - 5) „Alkoholmenge“ ist. Die abhängige Variable ist wieder „Intonation“. Unsere Teilnehmer bitten wir, einen Text vorzulesen, und nehmen sie beim Vorlesen auf. Dann geben wir ihnen ein Glas Sherry und lassen sie wieder einen Text vorlesen, den wir aufnehmen. Und so fahren wir fort, bis wir sie nach dem fünften Glas Sherry und dem sechsten Vorlesen nach Hause gehen lassen (oder sie vielleicht besser nach Hause bringen). Das Design sieht dann in etwa so aus: Prätest → Treatment 1 → Test 1 → Treatment 2 … → Posttest Am Schluss plotten wir die Mittelwerte in einer Grafik, die nur eine Linie hat. Auch hier ist die statistische Auswertung etwas komplizierter, weil man sechsmal Ergebnisse erhoben hat (z. B. ANOVA mit Messwiederholung, s. Kapitel 12). Mehrfaktorielle Designs: Bis jetzt haben wir uns vor allem nur mit einer unabhän‐ gigen und einer abhängigen Variable beschäftigt. Aber es kann auch vorkommen, dass wir ein Forschungsprojekt haben, in dem wir zwei oder mehr unabhängige oder abhängige Variablen haben, jede mit einer oder mehreren Ebenen. Nehmen wir als Beispiel wieder die Frage, wie man Wortschatz lehren sollte. Soll man eine Übersetzung angeben, oder soll man eine Definition in der Fremdsprache benutzen? Wenn man nun ein Forschungsprojekt zur Beantwortung dieser Frage durchführen möchte, wäre die unabhängige Variable „Vokabellehrmethode“, die als „eine Übersetzung geben“ oder als „eine Beschreibung in der Fremdsprache geben“ operationalisiert werden könnte. Allerdings kann das Ergebnis vielleicht auch davon abhängen, ob es sich z. B. um konkrete oder abstrakte Wörter handelt. Eine Beschreibung in der Fremdsprache könnte bei abstrakten Wörtern weniger effektiv sein als bei konkreten. Die zweite unabhängige Variable ist daher „Konkretheit“, die dann als „Konkreta“ und „Abstrakta“ operationalisiert wird. 40 Designs mit mehr als einer unabhängigen oder abhängigen Variable nennt man mehrfaktorielle Designs. Wir hätten zwar ein ähnliches Design wie beim Zwei-Gruppen-Prä-/ Posttestdesign: 122 8 Experimentelle Forschung <?page no="123"?> Reliabilität und Testwie‐ derholung Paralleltests selbsterfül‐ lende Pro‐ phezeiung Gruppe A Test 1 → Treatment „Übersetzung“ → Test 2 Gruppe B Test 1 → Treatment „Beschreibung“ → Test 2 Tests 1 und 2 würden aber immer auch die zweite unabhängige Variable erheben, d. h. sie würden sowohl Konkreta als auch Abstrakta testen. Die statistische Analyse müsste dann die Wechselwirkung zwischen Treatment und Konkretheit berücksichtigen. Na‐ türlich kann man auch bei einem lateinischen Quadrat-Design eine zweite unabhängige Variable berücksichtigen. Diese Art von Design kommt in der experimentellen Forschung recht häufig vor. Allerdings benötigt man wieder besondere Auswertungsverfahren, die die Möglich‐ keiten mancher Statistikprogramme (und Forscherinnen) übersteigen. Wir gehen in diesem Buch nicht weiter auf Auswertungsmöglichkeiten ein, falls Sie sich aber für dieses Design entscheiden, erhalten Sie eine erste Einleitung dazu im Webkapitel „Mehrfaktorielle Designs“. 8.5 Weitere zu beachtende Faktoren Bei Interventionsstudien müssen mehrere Faktoren beachtet werden, die die Ergeb‐ nisse beeinflussen oder zu weniger validen Ergebnissen führen könnten. Wir gehen hier auf weitere, noch nicht aufgegriffene Faktoren ein, die bei der Planung einer Intervention bedacht werden müssen. Reliabilität und Testwiederholung: Wie bei allen Erhebungen müssen Messbzw. Erhebungsinstrumente möglichst genau die abhängige Variable messen, damit die Da‐ tenerhebung möglichst reliabel ist. Eine Besonderheit bei Interventionen ist, dass Mes‐ sungen oft zwei- oder mehrfach wiederholt werden. Ist dies der Fall, muss man Instru‐ mente (z. B. Tests) einsetzen, die zwar gleichwertig, aber keinesfalls gleich sind. Der Grund dafür ist die Testübung: Je häufiger ein Test eingesetzt wird, desto höher ist die Wahrscheinlichkeit eines besseren Abschneidens, auch wenn dazwischen nichts ge‐ lernt wurde. Die einfachste Lösung hierzu ist mit Testinstrumenten zu arbeiten, die bereits normiert sind und als sog. Paralleltests erhältlich sind. Diese Tests wurden nach strengen psychometrischen Vorgaben entwickelt und an größeren Stichproben nor‐ miert. Eine andere Lösung bei produktiven Daten wie z. B. Lernertexten ist, ähnlich komplexe Aufgaben zu stellen und die Produkte von Expertinnen beurteilen (raten) zu lassen (die aber natürlich nicht wissen, welche Texte zuerst geschrieben wurden). Wel‐ che Lösung eingesetzt wird, ergibt sich aus der konkreten Untersuchungssituation. Vermeidung selbsterfüllender Prophezeiung: Besonders bei Feldexperimenten können Effekte der selbsterfüllenden Prophezeiung (vgl. dazu Kapitel 2.6.2) die Erhebungssituation beeinflussen. Wenn sowohl die Experimentalgruppe als auch die Lehrperson vom Einsatz einer neuen Unterrichtsmethode wissen, kann dies die Motivation der Gruppe und der Lehrperson beeinflussen - unabhängig vom Effekt der 8.5 Weitere zu beachtende Faktoren 123 <?page no="124"?> Anzahl der Messungen Verteilung von Messun‐ gen Drop-out experimen‐ telle Mortali‐ tät Methode. Jedes Sich-Einstellen der Teilnehmer auf ihre Situation im Experiment kann zu geändertem Handeln führen. Anzahl der Messungen: Wir haben in diesem Kapitel Messwiederholungsdesigns eingeführt und einige Gründe hierfür angegeben (z. B., weil man nicht-lineare Effekte erwartet). Insgesamt gilt: Wiederholte Messungen können die Reliabilität der Erhe‐ bungen stark verbessern, insbesondere, wenn anstatt nur zwei Testungen mehrere stattfinden. Das liegt am Wesen von Messinstrumenten (ist ein Messinstrument fehlerhaft, kann eine mehrfache Messung diese Probleme oft ausgleichen) und an der Gefahr von Messfehlern. Verteilung von Messungen: Wenn man mehrfach Datenerhebungen durchführt, um den Effekt einer Intervention zu messen, muss man sich Gedanken zu der Häufigkeit und zu der Verteilung von Messungen machen. Ein Prätest soll z. B. möglich zeitnah vor Beginn der Intervention stattfinden; evtl. führt man sogar zwei Prätests durch, weil sich Teilnehmer nicht immer gleich verhalten (es gibt also immer einen Messfehler). Es hat sich aus guten Gründen eingebürgert, dass man insbesondere zu Beginn und zum Ende einer Intervention Erhebungen durchführt, aber auch während der Interventionsphase. Auch hier gilt, dass die Verteilung von der jeweiligen Fragestellung und der Untersuchungssituation abhängt. Drop-out: Wenn man ein einziges Mal Untersuchungsteilnehmer gewinnt, und sie nur zu einem Messzeitpunkt die Intervention und Datenerhebungen durchführen müssen, sind die Chancen, dass man „auf dem Weg“ keine Teilnehmer verliert, recht gut. In der Regel sind aber manche Personen nur bei Teilen der Studie anwesend. Bei manchen Messzeitpunkten oder sogar manchen Interventionsteilen fehlen sie aus unterschied‐ lichsten Gründen (es ist Grippesaison, die Untersuchung findet während offener Ganz‐ tagsstunden statt, die Fußball-Weltmeisterschaft läuft parallel usw.). Wenn Ausfälle unsystematisch sind, d. h. die Gründe und der Anteil der Ausfälle in den unterschied‐ lichen Untersuchungsgruppen gehen nicht auf einen spezifischen Auslöser zurück (z. B. Gruppe A findet die Lehrerin furchtbar), dann stellt dies kein größeres Problem dar. Schwieriger ist es, wenn die experimentelle Mortalität (so heißt es wirklich, das bedeutet aber nicht, dass die Teilnehmer sterben müssen) systematisch ist. Gehen wir davon aus, dass die experimentelle Mortalität oder auch das Fehlen von bestimmten Daten (z. B. einige Personen nehmen an einem Messzeitpunkt nicht teil) nicht systematisch ist. Dann muss ein Plan erstellt werden, wie man in der Auswertung damit umgeht. Das Einfachste ist, dass wir Teilnehmer, für die wir nicht für jede der Bedingungen Ergebnisse haben, einfach aus der Auswertung herausnehmen. Das kann aber dann ein Problem sein, wenn viele Teilnehmer an jeweils nur einem Zeitpunkt gefehlt haben - denn auf einmal haben wir eine zu kleine Stichprobe. Es ist auch problematisch, wenn nur bestimmte Teilnehmer gefehlt haben (z. B., nur die Fußballfans), die eher zu den besseren oder zu den schlechteren Lernenden gehören. Glücklicherweise gibt es aber auch Möglichkeiten, mit solchen fehlenden Werten umzugehen, z. B. indem man eine so genannte Datenimputation durchführt. Das 124 8 Experimentelle Forschung <?page no="125"?> schaffen die meisten Statistikprogramme. Wie genau Sie hier vorgehen, erfragen Sie beim eintretenden Fall am besten bei einer Statistikexpertin. 8.6 Experimente in der Linguistik Wie bereits erwähnt, finden Sie im Online-Material zu diesem Buch eine längere Liste mit Experimentformen, die in der Linguistik und Psycholinguistik verbreitet sind, darunter auch einige, für die man kein Computerprogramm braucht. Als unabhängige Variable wird bei diesen Experimenten sprachliches Material in verschiedenen Aus‐ prägungen benutzt, die abhängige Variable wird normalerweise als Reaktionszeit oder Fehleranzahl operationalisiert. Ein Beispiel für derartige Experimente wäre das folgende. Bekannt ist, dass im Deutschen das Partizip II kein ge-Präfix hat, wenn ein Verb ohne Präfix nicht auf der ersten Silbe betont wird (gearbeitet vs. krakeelt). Im Niederländischen existiert diese Regel nicht, es heißt gestudeerd, gerepareerd usw. Nun möchte man wissen, ob bei Deutsch-Niederländisch Zweisprachigen das übersetzungsäquivalente und formähnliche Verb mit aktiviert wird, wenn sie eine Aufgabe in der jeweils anderen Sprache erledigen. Ein Experiment dazu war so konzipiert: Die zweisprachigen Ver‐ suchsteilnehmer sitzen vor einem Computerbildschirm, auf dem deutsche Verben im Infinitiv auftauchen und sie sollen nach einer nicht auszuwertenden Übungsphase so schnell wie möglich dazu das Partizip II nennen. Was sie nicht wissen: Es wird dabei so kurz, dass sie es nicht bewusst wahrnehmen können, das entsprechende niederländische Verb, auch im Infinitiv, eingeblendet. Die unabhängige Variable wird so manipuliert, dass einerseits formähnliche Verben auftauchen, bei denen die Partizipien II gleich gebildet werden (zu wohnen/ gewohnt also wonen, Partizip II ist gewoont), andererseits Verben mit ge-Prafix im Niederländischen, wo das Deutsche kein ge-Präfix hat (studieren - studiert, studeren - gestudeerd). Die abhängige Variable ist die Störung durch die Aktivierung des „falschen“ Partizips aus dem Niederländischen, gemessen als Verlängerung der Reaktionszeit bis zur Aussprache des deutschen Partizips (man muss den Versuchsteilnehmern einschärfen, nicht mit äh oder ähnlichem zu beginnen, der Computer misst nur, wie lange es dauert, bis eine Lautreaktion kommt, also z. B. 751 Millisekunden bei gleichem Aufbau des Partizips II, 843 ms bei geim Niederländischen). Im durchgeführten Experiment wurden sehr selten Fehler wie gerepariert gemacht, sodass sich deren Auswertung nicht lohnte, außerdem wurden alle fehlerhaften Antworten aus der Auswertung der Reaktionszeiten herausgenommen, denn die vorgegebene Aufgabe wurde nicht erfüllt. 8.7 Fazit Dieses Kapitel sollte einen ersten Überblick zu Designs der experimentellen Forschung, insbesondere der Interventionsforschung, geben. Experimentelle Studien erfordern 8.6 Experimente in der Linguistik 125 <?page no="126"?> eine äußerst sorgfältige Planungsphase, in der sehr viele unterschiedliche Faktoren betrachtet und (z. T. gegeneinander) abgewogen werden. Zudem muss man meist sehr viel über den Untersuchungsgegenstand wissen, um ein Experiment durchzuführen. Bei Forschungsgebieten, in denen man wenig über eine Population oder über ein potentielles Treatment weiß, kann es daher schwierig sein, eine Interventionsstudie durchzuführen. Die beste Absicherung für ein gutes Design ist auch hier, sich vermehrt mit Personen zusammenzusetzen, die bereits viel Erfahrung mit experimentellen Designs haben, um über das eigene Design zu sprechen. Aufgaben 1. Wir wollen (schon wieder) die Effektivität von Vokabellehrmethoden testen. Um nur die Methode als beeinflussenden Faktor zu isolieren, lassen wir bezahlte Teilnehmer nach unterschiedlichen Methoden jeweils 20 Kunstwörter lernen. Es kommt dabei heraus, dass eine bestimmte Art des Vokabellernens die besten Lernerfolge erzielen kann, nämlich die Schlüsselwort-Methode. Bei dieser Methode assoziieren die Teilnehmer zu jedem zu lernenden Wort ein Bild, das einen Zu‐ sammenhang zu einer ähnlichen Lautform in einer ihnen bekannten Sprache hat. Deutsch lernende Englischkenner konnten z. B. das Wort Ei lernen, indem sie sich ein Ei vorstellten, auf das ein Auge (eye) gemalt war. Überraschenderweise ist aber der Effekt der Schlüsselwortmethode im normalen Unterricht nicht nachzuweisen. Woran kann das liegen? 2. In vielen Sprachen, z. B. Italienisch und Spanisch, ist das Genus meist an der Wort‐ form erkennbar, z. B. im Italienischen sind Substantive auf -o fast immer Maskulina und Substantive auf -a fast immer Feminina. Es gibt aber auch Substantive auf -e, die Maskulina oder Feminina sein können (il sole, la stazione). Umstritten ist, wie man in der Sprachproduktion auf das Genus eines Substantivs zugreift, ob man das Genus bereits weiß, bevor man die Wortform aktiviert hat, wie sich in einigen Experimenten gezeigt hat, bei denen Versuchsteilnehmer nicht auf die Wortform kamen, aber wohl das Genus nennen konnten. In diesem Zusammenhang gab es verschiedene Reaktionszeitexperimente, die zeigten, dass italienische Mutter‐ sprachler zu einem auf einem Computerbildschirm dargestellten Wort schneller den richtigen Artikel aussprechen konnten, wenn das Substantiv auf -o oder -a endete, als wenn das Substantiv auf -e endete (Wörter mit abweichendem Genus wie la mano, il giornalista wurden nicht aufgenommen in das Testmaterial). Das wurde so interpretiert, dass zumindest in Sprachen, in denen das Genus aus der Wortform erschlossen werden kann, die Genusinformation erst mit der Wortform aktiviert wird, ansonsten hätten die Reaktionszeiten gleich sein müssen mit denen für Wörter auf -e. Überlegen Sie: 1. Was ist die manipulierte Variable, was die abhängige Variable? 2. Wie groß ist die Aussagefähigkeit des Experiments in Bezug auf die Frage, wann die Genusinformation aktiviert wird? 126 8 Experimentelle Forschung <?page no="127"?> 3. Sie wollen wissen, ob eine Lernergruppe Angst vor dem Sprechen in der Fremd‐ sprache abbaut, wenn man vor Beginn jeder Unterrichtsstunde fünf Minuten Entspannungsübungen macht. Füllen Sie hierfür eine Tabelle wie Tabelle 1 aus. Erstellen Sie dann einen Untersuchungsplan für (1) ein Ein-Gruppen-Prä-/ Post‐ test-Design und (2) ein Zwei-Gruppen-Prä-/ Posttest-Design. Notieren Sie für beide Designs Besonderheiten der Gruppenzusammensetzung, Kontrollvariablen und mögliche Störvariablen. Mit welcher grafischen Form würden Sie die Ergebnisse darstellen? 4. Sie wollen wissen, ob Lerner des Deutschen als Fremdsprache bessere Ergebnisse beim Markieren des Unterschieds zwischen Nominativ und Akkusativ erreichen, wenn ihr Grammatikunterricht auf der traditionellen Grammatik beruht, die Sub‐ jekte und Akkusativobjekte unterscheidet, als wenn ihr Grammatikunterricht auf dem Valenz-Dependenzmodell beruht, die Nominativ- und Akkusativergänzungen unterscheidet. Entwickeln Sie eine Fragestellung, die experimentell bearbeitbar ist, und dann auch einen Plan für das Experiment! 5. Schauen Sie sich eine experimentelle Studie aus Ihrem Fach an. Skizzieren Sie das Design. Inwiefern erfüllt es die Gütekriterien und versucht, insbesondere auf mögliche Gefährdungen für die Validität einzugehen? Aufgaben 127 <?page no="129"?> Schritt 3: Datenauswertung und Datenanalyse In diesem Teil besprechen wir die in Abschlussarbeiten der Sprachwissenschaft und Sprachlehrforschung am häufigsten verwendeten statistischen Tests und die daraus zu berechnenden Werte. Ein kleiner Hinweis zu den folgenden Kapiteln: Es gibt natürlich mehr statistische Tests als die, die wir hier behandeln. Wir haben eine Auswahl aus den in unseren Fächern am häufigsten verwendeten getroffen, um Ihnen ein Minimalhandwerkszeug bereitzustellen. Weil es nicht immer einfach ist, zu entscheiden, welchen Test man verwenden soll, ist es empfehlenswert, vor der Datenerhebung das Design mit jemandem, die oder der sowohl über Statistikkenntnisse als auch über Inhalte und Verfahren in unseren Disziplinen verfügt, zu besprechen. Somit wird die Datenerhebung so gut wie möglich auf die spätere Auswertung abgestimmt. Es passiert nur allzu häufig, dass Daten gesammelt werden, bevor man weiß, wie man sie später auswerten möchte - und sie dann gar nicht mehr auswerten kann, weil bestimmte Voraussetzungen nicht erfüllt sind. In vielen Fällen hilft es zur Auswahl des richtigen Testverfahrens, sich von einer Skizze wie der auf der nächsten Seite aufgeführten unterstützen zu lassen. Wir haben hier nur die in den nächsten Kapiteln aufgenommenen Verfahren einbezogen. <?page no="130"?> 130 Schritt 3: Datenauswertung und Datenanalyse <?page no="131"?> Messskalen Rohwert 9 Skalenniveaus Bevor wir anfangen können, Daten zu analysieren, müssen wir zunächst einmal unsere Variablen messen. Die Messbarkeit der Variable bestimmt die Art der Kodierung und somit die statistischen Analysen, die wir später ausführen. Es gibt in der Linguistik und Sprachlehrforschung allgemein drei gängige Messskalen, denen Variablen zugeordnet werden können. Dies möchten wir in diesem Kapitel anhand von Beispielen erklären. Wenn man annimmt, dass man einer kleinen Gruppe von Schülern einen Vokabeltest von 10 Wörtern gegeben hat, die ins Englische übersetzt werden sollten, kann man davon ausgehen, dass einige Schüler alle oder die meisten Wörter richtig übersetzt haben, andere werden schlechter abschneiden. Es gibt nun verschiedene Arten, das Resultat des Tests zu beschreiben. Die folgende Tabelle zeigt einige der Möglichkeiten. Name richtige Vokabeln korrekt (%) Rang bestanden? Note John 10 100 1 ja 1 Peter 9 90 2 ja 2+ Ellis 8 80 4 ja 3 Sara 8 80 4 ja 3 Martin 8 80 4 ja 3 Matty 6 60 6.5 ja 4 Eve 6 60 6.5 ja 4 Nancy 5 50 8 nein 5 Adam 4 40 9 nein 5 Mike 2 20 10 nein 6 Tabelle 1: Darstellung von Testergebnissen Die erste Spalte enthält die Namen der zehn Schüler, die den Vokabeltest geschrieben haben. Die zweite Spalte enthält das Resultat, das jede Person erzielt hat, also die Anzahl der Wörter, die sie korrekt übersetzt hat. Das nennen wir auch den Rohwert. In der dritten Spalte finden wir die Ergebnisse als Prozentzahl. Spalte 4 teilt die Schüler in eine Rangliste ein: John, der beste, erhält Platz eins. Peter ist der zweitbeste und erreicht so Platz zwei usw. In der fünften Spalte steht die Information, ob der Schüler bestanden hat oder nicht. Ob jemand bestanden hat oder durchgefallen ist, liegt an einer willkür‐ lich festgelegten Grenze, in unserem Fall bei sechs korrekt übersetzten Wörtern von zehn. Schüler müssen also mehr als 50 % richtig übersetzen, um den Test zu bestehen. <?page no="132"?> 41 Bei Matty und Eve haben wir den Fall, dass sie beide dasselbe Ergebnis erreicht haben. Um bei zehn Ergebnissen die Ränge eins bis zehn verteilen zu können und die beiden Schülerinnen trotzdem auf dem gleichen Platz zu halten, nehmen wir den Mittelwert der Ranglistenplätze sechs und sieben und geben beiden Schülerinnen den Rang 6.5. Metrische Skala Ordinalskala Man hätte natürlich auch eine größere Anzahl von korrekt übersetzten Wörtern ver‐ langen können, beispielsweise 70-%, dann hätten in unserem Fall nur fünf Schüler be‐ standen. Für die richtige Anwendung statistischer Verfahren ist es ausgesprochen wichtig zu wissen, dass die verschiedenen Spalten unterschiedliche Messskalen verwenden: metrische (Verhältnis- und Intervall-), Ordinal- und Nominalskala. Diese basieren zunächst auf einer Differenzierung in den Variablenarten. Die Spalten zwei und drei in Tabelle 1 präsentieren die Ergebnisse auf einer metri‐ schen Skala. Hier sehen wir nicht nur die Information, wer am besten und wer am schlechtesten abgeschnitten hat, sondern auch die genaue Distanz (Intervall) zwischen den einzelnen Ergebnissen der Schüler und können somit sagen, wie weit ihre Leis‐ tungen voneinander entfernt sind. So liegen die Ergebnisse von Peter und Ellis genauso weit auseinander wie die Ergebnisse von Eve und Nancy; ebenso können wir sagen, dass John doppelt so viele Vokabeln richtig übersetzt hat wie Nancy. Die meisten Tests benutzen metrische Skalen, wie beispielsweise Wörter pro Minute in einem Lesetest, die Anzahl der Fehler in einem Grammatiktest usw. Andere Beispiele von Daten, die üblicherweise auf einer metrischen Skala dargestellt werden, sind der Zeitumfang, in dem man eine Fremdsprache gelernt hat, das Alter der Informanden oder die Reakti‐ onszeit, bis ein am Bildschirm präsentiertes Wort erkannt ist. Eine metrische Skala nimmt also an, dass die Messeinheiten in gleiche Intervalle unterteilt sind. Diese Skala basiert auf kontinuierlichen Variablen, die Ergebnisse in einem Kontinuum repräsen‐ tieren. Ist eine Skala metrisch, können die erhobenen Daten in Punktzahlen, wie in Spalte zwei, oder in Prozent, wie in Spalte drei, dargestellt werden. Metrische Skalen können übrigens in zwei weitere Skalenarten unterteilt werden: Intervallskalen und Verhältnisskalen. Verhältnisskalen haben einen absoluten Nullpunkt (z. B. Alter - man kann nicht jünger als 0 Jahre sein); Intervallskalen nicht (z. B. Temperaturmessung in Celsius). Da sie in der statistischen Berechnung gleich behandelt werden, werden beide meist einfach als metrische Skalen bezeichnet. In der Ranglistenspalte in Tabelle 1 haben wir dagegen eine Ordinalskala. John ist besser als Peter, der wiederum besser ist als Ellis - aber wir können anhand dieser Spalte nicht sagen, um wie viel genau John besser ist, und es wäre auch unsinnig, einen Durchschnittsplatz zu berechnen. Der Abstand zwischen den Plätzen auf der Skala ist nicht gleich, sie geben nur einen Rang an. 41 Wir haben bei Ordinalskalen also nur eine Rangliste von „am besten“ bis „am schlechtesten“ oder „am meisten“ bis „am wenigsten“ ohne eine klar gegliederte Einteilung zwischen den einzelnen Maßeinheiten. Ordinalskalen gibt es häufig in der Sprachlehrforschung und in Unterrichtskontex‐ ten; typische Beispiele sind Schulnoten oder Klassenstufen. Schulnoten sind ordinals‐ 132 9 Skalenniveaus <?page no="133"?> 42 Wenn man statistische Verfahren korrekt anwendet, muss man darauf Rücksicht nehmen, dass Schulnoten keine metrisch skalierten Daten sind. Üblicherweise wird jedoch mit Schulnoten so umgegangen, als wären es metrisch skalierte Daten, weil so erheblich mehr Möglichkeiten der statistischen Aufbereitung bestehen. Wenn Sie so etwas für Ihre eigene Arbeit vorhaben, weisen Sie zumindest darauf hin, dass es nicht ganz korrekt ist. Nominal‐ skala Kodierung kaliert, weil der Abstand zwischen einer Zwei und einer Drei nicht derselbe sein muss wie der zwischen z. B. einer Eins und einer Zwei, 42 und Klassenstufen sind ordinalskaliert, weil man z. B. vermutlich leichter vom 1. ins 2. Schuljahr als von der 11. in die 12. Klasse kommt. Das Gleiche gilt für Ratings, bei denen Expertinnen spezifische Aspekte wie z. B. Textqualität auf einer Skala beurteilen sollen. Bei Befragungen, z. B. zu Meinungen, Empfindungen oder Wünschen, werden auch oft Daten erhoben, die ordinalskaliert sind; meist werden hierfür bereits vorgefertigte Antwortreihen wie „sehr oft - oft - manchmal - selten - nie“ vorgegeben, die dann in einer Rangfolge ausgewertet werden („1 - 2 - 3 - 4 - 5“). Solche Likert-Skalen sind nicht - wie häufig fälschlich angenommen - metrisch skaliert. Das liegt daran, dass nicht sicher ist, dass die Abstände zwischen den einzelnen Antwortmöglichkeiten von den Befragten als gleich groß empfunden werden. Im Übrigen kann man metrische Daten immer in ordinalskalierte Daten konvertieren, niemals aber umgekehrt. (Überlegen Sie sich an dieser Stelle ruhig einmal, warum das so ist.) Die „bestanden/ durchgefallen“-Spalte - sie zeigt eine dichotome Variable an - prä‐ sentiert die Daten auf einer Nominalskala. Jedes Resultat fällt in eine, aber auch nur eine Kategorie (Klassifikation), entweder gut genug - „bestanden“ - oder nicht gut genug - „durchgefallen“. Nominalskalierte Daten werden deutlich seltener in der Lin‐ guistik und Sprachlehrforschung ausgewertet. Sie kommen aber bei Häufigkeitsdaten (wie in Korpusanalysen) oder als Kovariate öfter vor. Besonders häufig auftauchende Beispiele von nominalskalierten Kovariaten sind Geschlecht (je nach Richtlinien meist mit zwei - männlich/ weiblich - oder mehreren - z. B. männlich/ weiblich/ divers - Ka‐ tegorien), sowie Erstsprache oder besuchte Schulform (beide polytome Variablen). Es ist übrigens durchaus üblich, bei der Kodierung der Daten auch dichotome oder polytome Variablen wie Geschlecht, Schulform und Erstsprache mit Zahlen zu verse‐ hen, also z. B. 1 für weiblich und 2 für männlich, aber ein Durchschnittsgeschlecht, eine Durchschnittserstsprache oder eine Durchschnittsschulform zu errechnen ist unmög‐ lich, während ein Durchschnittsergebnis bei einem Sprachtest uns meist ein auf‐ schlussreiches Ergebnis liefert. Man kann mit nominalskalierten Daten nur Häufig‐ keiten darstellen. Manchmal stellen wir Daten gleichzeitig auf zwei Skalenniveaus dar. Ein Beispiel ist Abbildung 1, die zeigt, wie hoch jeweils der Prozentsatz der Schüler im Sekundar‐ bereich I unterschiedlicher EU-Länder ist, die mindestens zwei Fremdsprachen lernen. Die Prozentzahlen sind metrisch skaliert, die Ordnung der Säulen von links nach rechts gibt den Rangplatz an (Ordinalskala) und zeigt, dass in Finnland die meisten Schüler mindestens zwei Fremdsprachen lernen, in Irland die wenigsten: Datenquelle: Eurostat (online Datencode: educ_uoe_lang02) (05.06.2023) 9 Skalenniveaus 133 <?page no="134"?> Abb. 1: Beispiel eines Histogramms Eine metrische Skala gibt die präziseste Information und lässt uns gleichzeitig die Möglichkeit, die in ihr enthaltenen Daten jederzeit in Daten einer Ordinal- oder No‐ minalskala zu konvertieren. Eine solche Konvertierung ist allerdings nur in bestimmten Situationen sinnvoll, da schließlich viele Informationen verloren gehen. Angenommen, wir hätten die Daten über das Alter einer Gruppe von Kindern und Jugendlichen exakt erhoben, dann könnten wir z. B. einen Mittelwert berechnen und dabei herausfinden, dass sie im Durchschnitt zwölf Jahre alt sind. Aber vielleicht ist es interessanter zu wissen, wie viele Befragte jeweils in die einzelnen Altersgruppen (unter 5 Jahre, 6-7 Jahre, 8-9 Jahre etc.) fallen, weil wir wissen wollen, in welcher Altersklasse sie in der örtlichen Fußballliga spielen würden. In diesem Fall würden wir die Altersangaben auf metrischem Skalenniveau in eine Gruppierung mit Kategorien auf Ordinalska‐ lenniveau umsetzen. Umgekehrt können wir natürlich keine Rückschlüsse auf das durchschnittliche Alter machen: Wenn wir nur Informationen zu der Zugehörigkeit zu Altersklassen haben, können wir kaum sagen, dass unter den 15 Spielern in der Altersklasse „Bambini“ jeweils fünf Drei-, Vier- und Fünfjährige sind. 134 9 Skalenniveaus <?page no="135"?> Aufgaben 1. Welche Art von Skala (1: metrische Skala, 2: Ordinalskala, 3: Nominalskala) würden Sie für folgende Daten annehmen? a. Schulbildung der Befragten b. Akzeptabilität von 20 unterschiedlichen (mehr oder weniger grammatisch korrekten) Sätzen; diese sollen von Versuchsteilnehmern innerhalb einer Liste von „ganz korrekt“ bis zu „ganz falsch“ sortiert werden. c. Dialekt der Befragten d. Benotung von Aufsätzen durch verschiedene Dozentinnen e. Reaktionszeit bei der Erkennung von existenten Wörtern in einer gemischten Liste mit existenten und nicht-existenten Wörtern f. Verschiedene Arten von Relativsätzen im Englischen (wobei in zwei ver‐ schiedenen Korpora die Anzahl der restriktiven im Vergleich zu den apposi‐ tiven erhoben werden soll) g. Beurteilung der didaktischen Fähigkeiten von Dozentinnen durch Studie‐ rende auf einer Likert-Skala h. Länge der Schlagzeilen über den Artikeln in der Frankfurter Allgemeinen Zeitung und in der Bild-Zeitung 2. Sie sehen im Folgenden einen Teil aus einem Fragebogen, in dem Daten zur Einschätzung von Sprachkenntnissen des Deutschen in verschiedenen europäi‐ schen Ländern erhoben werden. Geben Sie an, wie Sie die erhaltenen Antworten kategorisieren würden und was für ein Skalenniveau Sie damit erhalten! 1. Nationalität 2. Erstsprache 3. Alter 4. Ausbildung 5. Beruf 6. Bedeutung des Deutschen in Europa jetzt: sehr wichtig 1 2 3 4 5 sehr unwichtig 7. Bedeutung des Deutschen in Europa in 20 Jahren: sehr wichtig 1 2 3 4 5 sehr unwichtig 8. Einschätzung der persönlichen Lesefertigkeit im Deutschen (GER-Niveau). Aufgaben 135 <?page no="137"?> Deskriptive Statistik inferentielle Statistik Häufigkeits‐ verteilung 10 Beschreibung von Daten Nachdem Daten erhoben wurden, müssen sie so dargestellt werden, dass man sie in‐ terpretieren kann. Es bringt z. B. wenig, wenn ich weiß, welche Note Peter in einem Test erhalten hat, es ist aber durchaus interessant, wie Peter im Vergleich zu allen anderen Schülern abgeschnitten hat, und vielleicht auch, wie gut seine Schulklasse im Vergleich zu anderen Schulklassen ist. Für solche Informationen brauchen wir die Sta‐ tistik. Statistik ist die Lehre vom Umgang mit quantitativen Daten und wird norma‐ lerweise in beschreibende (deskriptive) und prüfende (inferentielle) Statistik eingeteilt. Deskriptive Statistik gibt nur eine Zusammenfassung der Ergebnisse, die man bei einer Stichprobe erhoben hat, während inferentielle Statistik versucht, auf die Gesamtpopu‐ lation zu schließen, über die etwas ausgesagt werden soll, ohne Daten für jede einzelne Person in der Population zu haben. In diesem Kapitel beginnen wir mit der beschrei‐ benden Statistik, d. h. die Art von Statistik, die man benutzt, um die erhobenen Daten einfach und übersichtlich zu beschreiben. Die beschreibende Statistik ist eine hervor‐ ragende Möglichkeit, sich einen ersten Überblick über Ergebnisse zu verschaffen, und sie kann sowohl numerisch, also durch Zahlen wie Mittelwerte, als auch grafisch dar‐ gestellt werden. Mit der beschreibenden Statistik versuchen wir Fragen zu beantworten wie: Wie häufig kommt ein bestimmtes Ergebnis in einem Datensatz vor? Was ist der mittlere Wert in einer Reihe von Daten? Wie unterschiedlich sind die Prüfungsergebnisse innerhalb einer Gruppe? Wer gehört zu den obersten 25 % einer Gruppe, wer zu den untersten? Wie hat Peter bei den letzten Tests durchschnittlich abgeschnitten? Und wie weit liegt das Prüfungsergebnis von Peter vom Mittelwert entfernt? 10.1 Häufigkeit Wenn wir die Testergebnisse einer Gruppe von Lernern haben, sehen wir häufig, dass mehrere Lerner dasselbe Ergebnis haben. Dies gibt uns die Möglichkeit, eine Häufig‐ keitsverteilung für die Testergebnisse zu erstellen. Die Häufigkeit ist die einfachste Art und Weise, die Verteilung von Daten zu beschreiben, und wird meist verwendet, wenn man darstellen will, wie oft ein bestimmtes Phänomen oder ein bestimmtes Verhalten vorkommt. Gehen wir zurück zu unserem Beispiel des Vokabeltests aus dem letzten Kapitel. Nehmen wir an, wir hätten nicht nur die zehn genannten Lerner getestet, sondern insgesamt 50. Tabelle 1 zeigt uns in der ersten Spalte, wie viele Punkte erreicht werden konnten, und in der zweiten Spalte eine Häufigkeitsverteilung der 50 Ergebnisse. Diese Tabelle zeigt, dass von den 50 Teilnehmern niemand ein Ergebnis von 0, 2 oder 3 hatte; eine Person hatte ein Ergebnis von 1, zwei Personen 4, usw. <?page no="138"?> 43 Wie im Vorwort erklärt, nutzen wir hier die Notation nach APA 7. Hier wird nun auch in deutschsprachigen Publikationen kein Komma für Dezimalzahlen verwendet, sondern ein Punkt. Wir halten uns entsprechend daran. relative Häufigkeit Häufigkeits‐ berechnun‐ gen Die dritte Spalte zeigt die relative Häufigkeit jedes Ergebnisses. Diese relative Häu‐ figkeit erhalten wir, indem wir die Häufigkeit dieses speziellen Ergebnisses durch die Gesamtanzahl der Ergebnisse (hier: 50) teilen. Das Ergebnis 10 wurde von 6 der 50 Lerner erreicht, die relative Häufigkeit dieses Ergebnisses ist also 6 : 50 = 0.12 43 - anders ausgedrückt, 12 % aller Lerner hatten 10 Punkte. (Wenn sämtliche Lerner es geschafft hätten, alle Fragen richtig zu beantworten, dann hätte das Ergebnis 10 eine relative Häufigkeit von 50 : 50 = 1.0 - anders ausgedrückt, 100 % hätten alle Fragen richtig beantwortet.) Punkte Häufigkeit relative Häufigkeit 0 0 0.00 1 1 0.02 2 0 0.00 3 0 0.00 4 2 0.04 5 9 0.18 6 8 0.16 7 9 0.18 8 10 0.20 9 5 0.10 10 6 0.12 - n = 50 - Tabelle 1: Verteilung der erreichten Punkte Häufigkeitsberechnungen sind hilfreich, wenn man eine knappe und gut verständliche Präsentation der Daten braucht. Es ist manchmal sogar wichtig, die relative Häufigkeit der Ergebnisse zu kennen. Es kann z. B. sein, dass in einer Prüfung Schüler einen Durchschnittswert von 50 % erreichen; wenn aber die Hälfte davon 100 % und die andere Hälfte 0-% erreicht, sagt die Prüfung wenig über die Kompetenzen der Schüler aus. Wir müssten dann die Gründe für diese sehr eigenartige Verteilung anderswo suchen. Ein weiterer Vorteil von Häufigkeitsberechnungen ist, dass sie für alle Arten von numerischen Daten - nominal-, ordinal- und metrisch skaliert - berechnet werden können. 138 10 Beschreibung von Daten <?page no="139"?> Um Häufigkeitsdaten darzustellen, hat man unterschiedliche Möglichkeiten. Die am häufigsten benutzte Darstellungsweise ist immer noch die numerische Darstellung in Tabellenform wie in Tabelle 1. Grafisch werden Häufigkeiten oft als Histogramme dargestellt. Wenn wir zum Beispiel die Ergebnisse aus Tabelle 1 verbildlichen wollen, könnten wir die Grafik in Abbildung 1 erstellen: Abb. 1: Histogramm (Häufigkeitsverteilung) Daten, die Häufigkeiten darstellen, können als Kuchen- oder Balkenbzw. Säulendiagr‐ amme dargestellt werden. Ein Beispiel eines Säulendiagramms sehen Sie in Abbildung 1; Balkendiagramme sind im Prinzip Säulendiagramme mit horizontaler Darstellung. Kuchendiagramme stellen die Ergebnisse als relative Häufigkeiten dar, im Beispiel von oben würde der Wert „10“ 12 % des Kuchens einnehmen (es ist 6-mal vorgekommen bei insgesamt 50 Ergebnissen). Aber auch wenn es viele Möglichkeiten der grafischen Darstellung gibt: Man sollte nicht der Versuchung erliegen, die Ergebnisse eines Forschungsprojekts in jeder Menge spezieller Grafiken untergehen zu lassen - das sieht am Ende eher unseriös aus. 10.2 Maße der zentralen Tendenz: Modalwert, Median, Mittelwert Obwohl Häufigkeitsberechnungen für einen Überblick sorgen können, ist es meist notwendig, nähere Informationen über die Daten zu erhalten. Hierzu errechnet man mindestens eins von drei Maßen der zentralen Tendenz: Den Modalwert (auch Modus genannt, Mo.), der einfach der am häufigsten vorkommende Wert ist und den man für Nominal-, Ordinal- und metrische Daten berechnen kann, den Median (Zentralwert, Md.), der den mittleren Wert darstellt (wenn man alle Werte vom kleinsten bis zum größten aneinanderreiht und den in die Mitte fallenden nimmt), und den man für 10.2 Maße der zentralen Tendenz: Modalwert, Median, Mittelwert 139 <?page no="140"?> 44 Häufig nutzen Linguistinnen andere Programme, um ihre Ergebnisse darzustellen - z. B. SPSS oder R; manche Wissenschaftlerinnen greifen auch zu Software wie Stata oder Python. Weil Excel aber wenig Einarbeitung benötigt und oft schon in der Schule verwendet wurde und außerdem für die meisten Abschlussarbeiten ausreicht, gehen wir hier nur darauf ein. Mittelwert, Ordinal- und metrische Daten berechnen darf, und den Mittelwert ( , ausgesprochen: x quer, oft auch als M angegeben), der das bekannteste Maß der zentralen Tendenz ist, den man aber nur für metrische Daten berechnen kann. Wir kommen wieder einmal zu den Vokabeltestergebnissen von oben zurück. Sie finden relativ schnell den häufigsten Wert (Modalwert), hier 8. Für den Median muss man die Werte geordnet aufreihen, z. B. vom kleinsten bis zum größten Wert, und dann den mittleren Wert bestimmen (weil wir es hier mit einer geraden Anzahl an Ergeb‐ nissen zu tun haben, nehmen wir den Durchschnitt des 25. und des 26. Ergebnisses, also 7). Der Mittelwert ist die Summe aller Ergebnisse (350), geteilt durch die Anzahl der Ergebnisse (50), also 7.0. Wenn wir das als Formel aufschreiben, sieht es wie folgt aus: X = ∑ 𝑥𝑥 𝑛𝑛 wobei „Σ“ für „Summe“ steht, „x“ für die Ergebnisse und „n“ für die Anzahl der Ergebnisse. Der Mittelwert ist also die Summe aller Ergebnisse, geteilt durch die Anzahl der Ergebnisse. Wir sehen: In diesem Datensatz von 50 Ergebnissen liegen alle drei Werte - Modalwert, Median und Mittelwert - recht nah beieinander (7 bzw. 8 bzw. 7). Das spricht dafür, dass die Werte relativ normal um den Mittelwert verteilt sind. Das ist eine wichtige Erkenntnis - wir kommen gleich dazu, warum. Alle drei Werte kann man sehr bequem von einem Tabellenkalkulationsprogramm berechnen lassen, zum Beispiel Excel. 44 Solche Programme kann man für fast alle statistischen Berechnungen verwenden, die man im Studium durchführen muss. Wenn Sie nähere Informationen dazu brauchen, finden Sie diese in der Hilfsfunktion des Programms oder in zahlreichen YouTube-Tutorials (und in allen möglichen Sprachen). Hierfür brauchen Sie nur die Daten in Excel und die entsprechende „Funktion“. Wir gehen davon aus, dass alle Ergebnisse in der Spalte „A“ eingetragen sind, und zwar in den Reihen 1-50, es gibt also ein Ergebnis in der Zelle A1, ein anderes Ergebnis in der Zelle A2 etc. Um den Modalwert zu berechnen, klicken Sie auf eine leere Zelle und geben die Formel: =MODALWERT(A1: A50) ein (also: von der Zelle A1 bis zur Zelle A50 werden alle A-Werte in die Berechnung einbezogen). Für den Median lautet die Formel: =MEDIAN(A1: A50). Für den Mittelwert - logischer kann es kaum sein - dann: =MITTELWERT(A1: A50). Und schon sind Sie fertig. (Überprüfen Sie dies gerne selbst! ) Auch Mittelwerte kann man grafisch darstellen. Oft verwendet man dafür Säulen‐ diagramme wie in Abbildung 1, wobei jede Säule den Mittelwert einer Gruppe darstellt (z. B. Mittelwert von Klasse A als erste Säule, Mittelwert von Klasse B als zweite Säule 140 10 Beschreibung von Daten <?page no="141"?> 45 Wenn wir Ergebnisse präsentieren, die nicht punktuell erhoben wurden, sondern einen Verlauf darstellen (wie es z. B. der Fall ist, wenn wir jede Woche eine Gruppe testen und deren Mittelwerte darstellen wollen), dann können wir die Daten in einem Polygon (Liniendiagramm) verbildlichen. Dabei ist der Erhebungszeitpunkt immer auf der x-Achse zu finden, das Ergebnis (bzw. der Mittelwert) auf der y-Achse. Ausreißer Standardab‐ weichung etc.). Man verliert aber viele Informationen, wenn man nur den Mittelwert grafisch darstellt. Eine bessere Variante (Boxplots) sehen wir in Kap.-10.3. 45 Noch ein Hinweis: Normalerweise berichten wir über den Mittelwert, seltener über den Median. Allerdings hat der Median den Vorteil, dass er gut zu verwenden ist, wenn einige sehr untypische Ergebnisse (Ausreißer) vorkommen - so zum Beispiel ein Er‐ gebnissatz wie der folgende: 2 - 50 - 50 - 51 - 51. Der Mittelwert wäre hier = 40.8; repräsentativer für die Ergebnisse wäre allerdings der Median 50. Der Mittelwert ist anfällig für sogenannte Ausreißer, der Median nicht. 10.3 Maße der Variabilität: Standardabweichung und Quartile Messungen der zentralen Tendenz sind hilfreich, wenn unsere Daten das typische Verhalten einer Gruppe von Menschen zeigen sollen. Allerdings erfahren wir dabei wenig darüber, wie sich die Personen individuell verhalten, oder welche Unterschiede innerhalb der Gruppe bestehen. Um uns davon ein Bild zu machen, können wir weitere nützliche Informationen errechnen, vor allem zur Variabilität. Hierbei werden am häufigsten die Standardabweichung sowie der Interquartilbereich benutzt. Der nach dem Mittelwert wichtigste Wert der beschreibenden Statistik ist die Stan‐ dardabweichung (s, SD oder σ, ausgesprochen: Sigma). Man kann sie als Maß der durchschnittlichen Abweichung vom Mittelwert definieren. Aus diesem Wert können wir ablesen, wie sich die Ergebnisse um den Mittelwert herum verteilen. An der Stan‐ dardabweichung können wir ersehen, ob die einzelnen Messwerte relativ eng beim Mittelwert liegen oder recht weit streuen. Werte, die nur wenig unterhalb oder oberhalb vom Mittelwert liegen, z. B. bis zu einer Standardabweichung, beurteilen wir eher als „normal“, Werte, die sehr weit über oder unter dem Mittelwert liegen, beurteilen wir eher als ungewöhnlich (wie genau das Urteil ausfällt, hängt von den Daten ab, die wir haben, und was dabei zu erwarten ist). In früheren Versionen dieses Studienbuchs haben wir den Lesern die Formel zur Berechnung der Standardabweichung gezeigt. Da man solche Berechnungen aber meist von Kalkulationsprogrammen ausführen lässt, erklären wir es hier nun für Excel. Um die Standardabweichung zu berechnen, braucht man wieder die Auflistung aller Daten wie für die Berechnung des Mittelwerts. Im Beispiel der Vokabelergebnisse von 50 Teilnehmern lautet die Formel mit Benennung der Datenreihe: =STABW(A1: A50). Wir erhalten dann ganz einfach den Wert σ = 1.92724822, den wir der Lesbarkeit halber zu σ = 1.93 aufrunden. Die Standardabweichung sagt uns also etwas über die Verteilung der Ergebnisse um den Mittelwert herum. Ein hoher Wert für die Standardabweichung bedeutet, dass die 10.3 Maße der Variabilität: Standardabweichung und Quartile 141 <?page no="142"?> Normalver‐ teilungen einzelnen Ergebnisse weit voneinander entfernt liegen, ein kleiner Wert für σ, dass alle Ergebnisse dicht am Mittelwert sind. Wenn z. B. alle Ergebnisse zwischen 0 und 10 liegen, der Mittelwert der Ergebnisse 6.6 ist und σ = 4, dann liegen die einzelnen Ergebnisse recht weit voneinander entfernt. Warum dies eine wichtige Information ist, sehen wir an einem Beispiel. Stellen wir uns vor, wir wollen herausfinden, wie viele Rechtschreibfehler pro 100 geschriebener Wörter in den Texten von vier kleinen Fördergruppen von jeweils sechs Schülern vorkommen. In Tabelle 2 sehen wir die Ergebnisse mit Mittelwert und Standardabwei‐ chung für jede Zahlenreihe. - Gruppe A Gruppe B Gruppe C Gruppe D 3 2 5 1 4 3 5 1 5 5 5 1 5 5 5 9 6 7 5 9 7 8 5 9 5 5 5 5 σ 1.41 2.28 0.00 4.38 Tabelle 2: Rechtschreibfehler pro 100 Wörter Wenn wir nur den Mittelwert berechnen, sehen wir lediglich, dass alle Gruppen im Durchschnitt gleich viele Fehler machen. Bei einer Berechnung der Standardabwei‐ chung wird aber deutlich, dass die Schüler sich deutlich unterschiedlich verhalten: Während die Ergebnisse der Gruppe A sehr dicht beieinander liegen und die der Gruppe C sogar vollständig überlappen, haben die Teilnehmer in Gruppe D sehr unterschiedliche Ergebnisse erzielt. Die Standardabweichung ist also nützlich, weil sie einen gewissen Überblick über die Reichweite gibt, in die die Ergebnisse fallen. Bei normalverteilten Merkmalen, zum Beispiel der Körpergröße einer Bevölkerungsgruppe, liegt die Hälfte der Ergebnisse über dem Mittelwert und die Hälfte darunter. Der Anteil der Ergebnisse, die innerhalb einer Standardabweichung liegen, bleibt bei solchen Normalverteilungen immer gleich: 34.1 % aller Ergebnisse liegen zwischen dem Mittelwert und einer Standardabweichung über dem Mittelwert, 34.1 % liegen dann zwischen dem Mittelwert und einer Stan‐ dardabweichung darunter. Wir können auch sagen, dass 68.2 % aller Ergebnisse zwi‐ schen „Mittelwert ± eine Standardabweichung“ liegen. Nehmen wir Gruppe B als Beispiel: Ein Mittelwert von 5 und eine Standard‐ abweichung von 2.28 zeigen uns, dass die Mehrzahl aller Ergebnisse (68.2 %) zwischen 142 10 Beschreibung von Daten <?page no="143"?> ungewöhnli‐ che Vertei‐ lung (5 - 2.28 =) 2.72 und (5 + 2.28 =) 7.28 liegt. Die Werte 3, 5 und 7 liegen entsprechend alle innerhalb einer Standardabweichung vom Mittelwert. Wir wollen das anhand eines Diagramms veranschaulichen (Abbildung 2): Abb. 2: Die Gaußsche Normalverteilung Wenn wir also irgendwo lesen, dass bei einer Untersuchung der Mittelwert der Ergebnisse 60 ist und die Standardabweichung 15, können wir erwarten, dass 68.2 % aller Ergebnisse zwischen 45 und 75 fallen. Wir können dann weiter berechnen, dass, wenn 95 % aller Ergebnisse zwischen „Mittelwert ± doppelte Standardabweichung“ fallen, fast alle Ergebnisse in diesem Beispiel zwischen 30 und 90 liegen. Man muss jedoch mit der Standardabweichung ein wenig aufpassen. Es gibt Situa‐ tionen, in denen eine Berechnung der Standardabweichung wenig hilfreich ist, z. B. bei Gruppengrößen unter 30. Ebenso ist dieser Wert nicht gerade hilfreich, wenn die Er‐ gebnisse nicht normalverteilt sind, also wenn sie nicht symmetrisch um den Mittelwert verteilt liegen, oder wenn sie keine „glockenförmige“ Verteilung aufzeigen. Wenn es z. B. viele sehr niedrige und viele sehr hohe Werte gibt, wenn die Werte alle genau dem Mittelwert entsprechen, oder wenn viele Werte kurz über dem Mittelwert liegen und wenige weit unter dem Mittelwert, ergibt die Berechnung wenig Information über das tatsächliche Verhalten unserer Teilnehmer. Bei den o. g. Gruppen C und D zum Beispiel hilft es uns wenig, zu wissen, dass in beiden Fällen 100 % der Teilnehmer innerhalb einer Standardabweichung vom Mittelwert liegen. Wir können wenig darüber sagen, wer deutlich besser oder deutlich schlechter ist als die anderen Teilnehmer. Bei Gruppe C ergibt sich das daraus, dass die Werte dicht beieinander liegen bzw. identisch sind, bei Gruppe D haben wir durch die bimodale Verteilung und große Streuung einen hohen Wert der Standardabweichung. Ganz wichtig ist zudem, dass wir - um die Standardabweichung zu berechnen - den Mittelwert benötigen. Da ein Mittelwert nur für metrisch skalierte Daten berechnet 10.3 Maße der Variabilität: Standardabweichung und Quartile 143 <?page no="144"?> Interquartilsabstand Boxplot werden kann, zeigt die Standardabweichung nur die Variabilität dieser Art von Daten an. Häufig haben wir es aber mit ordinalskalierten Daten zu tun. Für ordinalskalierte Daten oder für nicht normalverteilte, metrische Daten können wir einen sogenannten Interquartilsabstand (IQA bzw. IQR, inter = zwischen; Quartil = ¼) berechnen. Er gibt an, welche Ergebnisse zwischen dem oberen Viertel der Daten und dem unteren Viertel der Daten liegen, also zu den mittleren 50 % aller Werte ge‐ hören. Was innerhalb dieses Bereichs liegt, ist eher „normal“ , und was außerhalb liegt, eher „nicht normal“. Der Interquartilsabstand hat außerdem den Vorteil, dass er für Ausreißer wenig anfällig ist. Er ist auch leicht zu berechnen. Hierfür muss man alle Daten in zwei Gruppen aufteilen, und zwar (1) alle Daten, die unter dem Median (nicht-Mittelwert! ) der Ergebnisse liegen und (2) alle Daten, die über dem Median liegen. Dann berechnet man den Median von beiden Gruppen. Der IQA ist dann der Bereich zwischen oberem und unterem Median. Wir probieren dies wieder an dem Beispiel der Vokabeltestergebnisse. Was ist der Interquartilsabstand, also in welchem Bereich liegen 50 % aller Ergebnisse? Man berechnet den Median von allen Werten, die über dem Median (7) liegen (in unserem Beispiel von oben in Excel mit der Formel: =MEDIAN(A26: A50)), und den Median von allen Werten, die unter dem Median liegen: =MEDIAN(A1: A25). Wir sehen, dass 50 % aller Ergebnisse zwischen 6 und 8 liegen, unser IQA somit 2 Punkte beträgt. Die Quartile kann man auch grafisch darstellen, und zwar als sogenannten Boxplot, allerdings leider nicht ohne Weiteres mit Hilfe von Excel. Einfacher lassen sich Boxplots mit anderen Programmen gestalten (auch online). Da dies unterschiedliche Schritte benötigt, erklären wir an dieser Stelle nur, wie Sie eine solche Grafik verstehen. Die Ergebnisse vom Vokabeltest finden Sie in Abbildung 3: Abb. 3: Boxplot zur Darstellung des Interquartilsabstands 144 10 Beschreibung von Daten <?page no="145"?> z-Wert Hier sehen wir einen dunkleren Bereich (die „Box“), in der die mittleren 50 % aller Ergebnisse fallen (die Box reicht von 6 bis 8 Punkten, wie wir soeben berechnet haben). Der mittlere Strich ist der Median aller Ergebnisse (hier: 7). Die jeweils oberen und unteren Striche außerhalb der Box zeigen die jeweils 25 % der Ergebnisse, die entweder über der Box (die Werte 9 und 10) oder unter der Box (die Werte 4 und 5) liegen. Ganz unten sehen wir noch etwas Besonderes: einen Kreis mit der Ziffer „1“. Dabei handelt es sich um einen Ausreißer, nämlich den ersten Fall (also Ergebnis Nummer 1 in unserer Datenreihe), der weit außerhalb unseres erwartbaren Bereichs liegt. Wir beschäftigen uns hiermit nicht weiter; wichtig ist nur, dass Sie diesen als Ausreißer identifizieren können. Zusammenfassend kann man sagen: Sowohl die Standardabweichung als auch der Interquartilsabstand können uns wichtige Informationen über Ergebnisse in einem Datensatz liefern. Allerdings können wir die Standardabweichung nur in bestimmten Fällen berechnen. Auch deswegen ist der Interquartilsabstand ein hilfreicher Wert, um Aussagen über die Variabilität von Ergebnissen zu ermöglichen, und Boxplots sind eine gute Möglichkeit, um diesen Bereich grafisch darzustellen. 10.4 Transformierte Messwerte Bisher haben wir nur Werte besprochen, die einen ganzen Datensatz beschreiben, also wie sich eine gesamte Gruppe verhält. Manchmal will man aber herausfinden, wie sich der Testwert einer Person zu den restlichen Testwerten verhält. Im Alltag sprechen wir hier von „überdurchschnittlich“ und „unterdurchschnittlich“. Nun können wir einen Testwert auch transformieren, um herauszufinden, wie genau über- oder unterdurchschnittlich ein bestimmtes Ergebnis ist. Wenn wir bei einzelnen (metrisch skalierten) Daten wissen wollen, ob sie über oder unter dem Mittelwert liegen und auch, wie weit sie davon entfernt sind, berechnen wir einen sogenannten z-Wert. Diesen Wert (standard score) können wir auch später dafür verwenden, Werte mit einer unterschiedlichen Skalierung zu vergleichen (zum Bei‐ spiel, wenn zwei Sprachtests geschrieben wurden, wobei bei dem einen insgesamt 100 Punkte erreicht werden konnten und bei dem anderen insgesamt 70). Der z-Wert sagt uns, um wie viele Standardabweichungen genau ein Ergebnis vom Mittel der Stich‐ probe entfernt liegt. Die Formel hierfür ist recht einfach, und im Vokabeltestbeispiel z. B. wäre der z-Wert vom Ergebnis „4 Punkte“ dieser: z = x − x σ 4 − 7 1 . 93 − 1.56 Wir erinnern uns, der Mittelwert war 7.0 und die Standardabweichung 1.93. Wir interpretieren den Wert -1.56 wie folgt: Das Ergebnis „4“ liegt 1.56 Standardab‐ weichungen unter dem Mittelwert für die getestete Gruppe. Dass das Ergebnis unter dem Mittelwert liegt, sehen wir an dem Negativzeichen vor dem individuellen z-Wert. 10.4 Transformierte Messwerte 145 <?page no="146"?> Auch wenn transformierte Messwerte etwas eigenartig erscheinen - fast alle Infor‐ mationen, die aus Bildungsstudien vorgelegt werden, sind transformiert. Hierfür wer‐ den Standardabweichungen zu Grunde gelegt, um individuelle und Gruppenergebnisse miteinander zu vergleichen. Ein gutes Beispiel hierfür ist die PISA-Studie - die einfach die Testungen so aufbereitet, dass die (internationale) Standardabweichung immer 100 ist. Durch transformierte Werte lassen sich zudem Ergebnisse aus unterschiedlichen Studien gut miteinander vergleichen - sie können für einen Gesamtüberblick über das Forschungsfeld daher sehr nützlich sein. Aufgaben 1. Sehen Sie sich die folgenden Ergebnisse einer Gruppe von Lernern bei einem Aussprachetest an. Berechnen Sie den Median, den Mittelwert und die Standard‐ abweichung. Berechnen Sie auch die Standardabweichung, die vorläge, wenn William nicht am Test teilgenommen hätte, und anschließend den jeweiligen z-Wert für jeden Schüler ohne William. Adrian 6 Nan 6 Jay 6 Margaret 8 Judith 5 Frank 7 Lydia 7 David 9 Nancy 7 William 1 2. Erstellen Sie eine Häufigkeitstabelle der Ergebnisse in Aufgabe 1. 146 10 Beschreibung von Daten <?page no="147"?> 46 Mehr Informationen hierzu finden Sie u. a. bei Bachmann (2004) und Döring (2023). Zusammen‐ hang zwi‐ schen Daten 11 Beziehungen zwischen Daten Im letzten Kapitel zu deskriptiver (beschreibender) Statistik hatten wir das Ziel, Ver‐ haltenstendenzen von einer Stichprobe oder von einzelnen Daten aus dieser einzelnen Stichprobe zu beschreiben - wie z. B. wie alt die Studierenden im Masterstudiengang Deutsch als Fremdsprache im Durchschnitt sind oder ob eine Person, die im Studium bereits 41 Jahre alt ist, besonders weit vom Altersdurchschnitt entfernt ist. Oft möchte man aber wissen, ob zwei Charakteristika aus einer Stichprobe zusammenhängen. Ist es z. B. im Allgemeinen so, dass man mehr liest, wenn man weniger fernsieht? Oder dass das Alter von Erwachsenen im Allgemeinen mit der durchschnittlichen Anzahl an Stunden, die man mit TikTok verbringt, in negativem Zusammenhang steht, man also mit steigendem Alter immer weniger Zeit mit der App verbringt? Das sind Fragen, die wir mit einem weiteren Bereich der deskriptiven Statistik behandeln: Wie verhalten sich einzelne Merkmale in einer Stichprobe zueinander? In diesem Kapitel sehen wir uns die Ergebnisse von mehreren Tests und/ oder meh‐ reren Teilnehmergruppen und/ oder mehreren Korpora an und fragen uns, ob es einen Zusammenhang zwischen den Daten gibt (Achtung: wir können hier keine kausale Beziehung nachweisen! ). Dieser Zusammenhang wird von einer Zahl (einem statisti‐ schen Kennwert) repräsentiert. Der Wert wird, abhängig von den Skalenniveaus der Daten (s. Kapitel 9) und dem statistischen Test, meist mit r („Pearsons Korrelationsko‐ effizient“), mit ρ bzw. r s (Spearmans Rho) oder χ2 (Chi Quadrat), angegeben. 46 Manche Zusammenhänge sind offensichtlich und stimmen mit der intuitiven Auf‐ fassung überein, die die meisten Menschen über die Beziehung zwischen Dingen haben (z. B. wir gehen davon aus, dass Schüler, die mehr Zeit in Hausaufgaben investieren, auch bessere Noten bekommen). Gleichzeitig wissen wir natürlich, dass diese Beziehungen zwar „im Allgemeinen“ stimmen, dass es aber Ausnahmen geben könnte. Es gibt Schüler, die keine Hausaufgaben machen und trotzdem sehr gute Noten haben, und es gibt Leute, die viel fernsehen und viel lesen. Manchmal existiert eine Beziehung, die absolut ist - in dem Sinne, dass eine Eigenschaft sich genau abhängig von einer anderen verändert. Zum Beispiel geht umso mehr Benzin in den Tank, je größer dieser ist. Und es kann auch zwischen zwei Dingen überhaupt keinen Zusammenhang geben. Es gibt beispielsweise wahrscheinlich keine Beziehung zwischen der Schuhgröße eines Menschen und seinen Ergebnissen in einem Sprachtest (wenn doch eine gefunden wird, dann handelt es sich wohl um eine Scheinkorrelation - mehr dazu später). <?page no="148"?> Streudia‐ gramm Regressi‐ onslinie 11.1 Erste Darstellung von Zusammenhängen Um Zusammenhänge zwischen Daten, die entweder metrisch oder ordinalskaliert sind, am besten sichtbar zu machen, stellt man zunächst die Ergebnisse in einem Streudia‐ gramm dar. Der Vorteil ist, dass wir dies für beide Skalen anwenden können, es ist also unwesentlich, ob wir mit metrisch skalierten Daten, mit ordinalskalierten oder mit einer Kombination von beiden arbeiten. Nehmen wir an, wir untersuchen die Ergebnisse von sechs Studierenden in zwei Tests, einem Vokabeltest und einem Grammatiktest, beide mit zehn Aufgaben (siehe Tabelle 1). - Vokabeln Grammatik John 1 3 Peter 2 4 Eva 3 5 Thomas 4 6 Moritz 5 7 Clara 6 8 Tabelle 1: Vergleich der Benotungen in zwei Tests Wenn wir die Ergebnisse in einem Streudiagramm abbilden (Abbildung 1), sehen wir, dass alle Punkte auf einer geraden Linie liegen. Die gestrichelten Linien zeigen, wo die Punkte für Eva und Clara liegen. Abb. 1: Streudiagramm der Benotungen aus Tabelle 1 Alle Punkte liegen auf einer geraden Linie (diese ist übrigens ein Beispiel für eine Regressionslinie), weil es in diesem erfundenen Beispiel einen perfekten linearen 148 11 Beziehungen zwischen Daten <?page no="149"?> Koeffizient positiver Zu‐ sammen‐ hang negativer Zusammen‐ hang Zusammenhang zwischen den Benotungen für Vokabeln und Grammatik gibt, der uns zeigt, dass gute Noten im Vokabeltest mit guten Noten in der Grammatik zusammen‐ hängen, und zwar so, dass die Ergebnisse von beiden Tests immer den gleichen Abstand zu einander haben. Ein perfekter Zusammenhang mit positiver Steigung wie in Abbil‐ dung 1 wird mit dem Koeffizienten „+1“ bezeichnet. Achtung: Das Vorzeichen „+“ ist wichtig! Denn ein positiver Zusammenhang bedeutet, dass wir sagen können: je mehr x, desto mehr y, also hier: je besser die Ergebnisse im Vokabeltest, desto besser die Ergebnisse im Grammatiktest. Eine solche Linie kann auch eine negative Steigung ha‐ ben, die dann einen negativen Zusammenhang zeigt. In unserem Beispiel vom Kapi‐ telanfang zum Leseverhalten und Fernsehkonsum kann man sagen: Je weniger man fernsieht, desto mehr liest man. Die Beziehung ist dann eine von je weniger x, desto mehr y (natürlich auch umgekehrt: je mehr x, desto weniger y). In diesem Fall verläuft die Regressionslinie in umgekehrter Richtung, vgl. Abbildung 2 (der Einfachheit halber gehen wir auch hier von einem perfekten negativen Zusammenhang aus und berech‐ nen den Koeffizienten „-1“): Abb. 2: Streudiagramm eines perfekten negativen Zusammenhangs Normalerweise ist ein Zusammenhang natürlich nicht perfekt. Schauen wir uns Tabelle 2 an. Dort finden wir die Ergebnisse zweier Vokabeltests, die zehn Studierende geschrieben haben. Die Tests bestanden aus jeweils zehn Fragen. (Weil wir in diesem Kapitel über metrische und über ordinalskalierte Daten sprechen, beziehen wir hier auch die Rangwerte mit ein.) 11.1 Erste Darstellung von Zusammenhängen 149 <?page no="150"?> 47 Wie wir bereits gesehen haben, werden die Rangplätze für gleiche Ergebnisse als Mittelwert der Plätze berechnet. Weil z. B. der Wert „5“ im Test 1 zweimal vorkommt, erhalten beide Studenten den Rang 7.5 als Mittelwert von Rang 7 und Rang 8. Student Ergebnis Test A Ergebnis Test B Rangplatz Test A 47 Rangplatz Test B 1 6 7 6 5.5 2 5 7 7.5 5.5 3 3 4 10 10 4 5 5 7.5 8.5 5 8 9 2.5 1 6 8 8 2.5 2.5 7 4 5 9 8.5 8 7 7 4.5 5.5 9 9 7 1 5.5 10 7 8 4.5 2.5 Tabelle 2: Beispieldaten für eine Korrelationsberechnung Abbildung 3 stellt die Noten in einem Streudiagramm dar, das einem viel realistischeren Streudiagramm entspricht als Abbildungen 1 und 2: Abb. 3: Streudiagramm der Daten aus Tabelle 2 Dass der Zusammenhang nicht perfekt ist, sieht man am Diagramm. Das Diagramm zeigt aber auch, dass die meisten Punkte dicht an einer (fiktiven) aufsteigenden Linie (der Regressionslinie) liegen, dass also „im Allgemeinen“ die Testergebnisse zusammenhängen. 150 11 Beziehungen zwischen Daten <?page no="151"?> 48 Weil der Zusammenhang immer maximal 1 sein kann, wird der Zusammenhangskoeffizient in APA7 ohne Null vor dem Dezimalpunkt angegeben. 49 Dasselbe gilt natürlich für negative Korrelationen, also ein Wert zwischen -.90 und -1 bezeichnet einen sehr hohen negativen Zusammenhang usw. Koeffizient 11.2 Stärke der Beziehung Die genaue Stärke der Beziehung kann man nicht in einem Diagramm sehen. Hierfür braucht man den Zusammenhangs-Koeffizienten. Der Koeffizient ist immer eine Zahl zwischen -1 (perfekter negativer Zusammenhang) und +1 (perfekter positiver Zusam‐ menhang). Wenn der Zusammenhang sich um Null bewegt, dann gibt es entweder überhaupt keine Beziehung zwischen den Ergebnissen (wie z. B. zwischen Schuhgröße und IQ eines Erwachsenen), oder es gibt keine lineare Beziehung (wie z. B. wenn die Sprechflüssigkeit bis zu einer bestimmten Menge an konsumiertem Schnaps ansteigt, dann aber bei vermehrtem Alkoholkonsum wieder absinkt). Der Koeffizient beant‐ wortet also nur die Frage, ob es eine lineare Beziehung zwischen zwei Variablen gibt oder nicht gibt, dahingehend, dass eine Variable dazu neigt, sich in einer zur anderen Variablen ähnlichen Art zu erhöhen oder zu verringern (das sagt aber nichts über die Ursache aus! ). In unserem Beispiel wollten wir also herausfinden, ob ein Student, der bei Test A ein gutes Testergebnis erzielt, bei Test B auch ein gutes Testergebnis erzielt, und ob dies auch bei den mittelmäßigen und schlechten Ergebnissen der Fall ist. Aber wann ist der Zusammenhang hoch genug, um sagen zu können, dass es einen Zusammenhang zwischen zwei Variablen gibt? Ab welchem Punkt können wir z. B. behaupten, dass es eine bedeutende Beziehung zwischen zwei Ergebnissätzen gibt - ab einem Koeffizienten von .60? 48 Oder erst ab .90? Oder bereits ab .30? Inhaltlich will man normalerweise wissen, ob ein Zusammenhang als hoch, mittel oder niedrig anzusehen ist. Ganz einfach ist es nicht zu entscheiden, weil in einigen Forschungsfeldern ein wesentlich höherer Zusammenhang erwartet wird als in ande‐ ren. Ein Beispiel: Die Übereinstimmung zwischen den Ergebnissen derselben Person in zwei Tests zum selben Thema mit kurzem zeitlichem Abstand wird typischerweise bei mindestens .80 erwartet. Zusammenhänge zwischen Testergebnissen für Englisch am Ende der Grundschule und nach dem ersten Jahr der Oberstufe wären wahrscheinlich wesentlich niedriger. Und beim Zusammenhang zwischen dem PISA-Ergebnis für Mathematik und sozialer Angepasstheit (angenommen, es wäre möglich, soziale Angepasstheit ordentlich zu testen), wäre .30 ein überaus interessantes Ergebnis. Eine allgemeine Faustregel für die Interpretation des Koeffizienten im Hinblick auf die Stärke der Beziehung zwischen zwei Variablen ist folgende: 49 11.2 Stärke der Beziehung 151 <?page no="152"?> 50 Bei Korrelationen hat es sich eingebürgert, zwei Dezimalstellen anzugeben. Korrelation Pearsons r Ausreißer Wert Interpretation .90 bis 1 sehr hoher Zusammenhang, sehr starke Beziehung .70 bis .89 hoher Zusammenhang, ausgeprägte Beziehung .40 bis .69 mittlerer Zusammenhang, substantielle Beziehung .20 bis .39 schwacher Zusammenhang, geringe Beziehung 0 bis .19 kein Zusammenhang Der (statistische) Kennwert ist dann entweder eine Korrelation (bei zwei metrischen Variablen) oder eine Assoziation (bei mindestens einer ordinalen Variable). Auf die Berechnung dieser Werte gehen wir im Folgenden ein. 11.3 Metrische Daten: Korrelationen (r) Metrisch skalierte (kontinuierliche) Daten werden in der Praxis am häufigsten mitein‐ ander verglichen, weswegen wir damit beginnen. Hierfür werden Korrelationen be‐ rechnet. Der statistische Kennwert dieser Analyse ist der „Pearsons Produkt-Moment-Korrelationskoeffizient“ (oder einfach r). Wir probieren das nun anhand der Daten aus Tabelle 2. Die einfachste Möglichkeit, den Korrelationskoeffizienten (die Zahl zwischen -1 und +1) für diese Ergebnisse zu berechnen, ist, ein Kalkulationsprogramm wie Excel zu benutzen. Man kann zwar die Korrelation auch per Hand berechnen, dies ist aber aufwändiger und eigentlich nicht nötig. In einer Excel-Arbeitsmappe geben Sie die Daten aus Tabelle 2 ein. Spalte A enthält dann die Ergebnisse von Test A, Spalte B von Test B. In einer leeren Zelle geben Sie dann die Formel für die Berechnung von Korrelationen ein, =KORREL(Matrix1; Matrix2) (Eine Matrix ist der gesamte Satz von Ergebnissen eines Tests, also: „A1: A10“ bedeutet „alle Zellen von A1 bis A10“). Hier wäre das: =KORREL(A1: A10; B1: B10) Sie erhalten dann in derselben Tabellenzelle das Ergebnis: r = .82935919, das wir für die Präsentation der Ergebnisse im Normalfall aufrunden zu: r = .83. 50 Diese Korrelation ist in dieser Art von Vergleich (Vergleich zweier Testsätze) recht hoch, man kann davon ausgehen, dass beide Tests das Konstrukt - Vokabelkenntnisse - ähnlich messen). Eine kleine Warnung: r ist für Ausreißer extrem anfällig: Ein Wert, der deutlich außerhalb der sonstigen Tendenz liegt, kann zu verzerrten Ergebnissen führen. Das gilt insbesondere für kleine Stichproben. Daher ist es immer sinnvoll, ein Streudiagramm zu erstellen und eventuell die Berechnung ohne die sehr weit entfernten Ergebnisse noch einmal durchzuführen. Das wäre im obigen Beispiel der Fall, wenn z. B. ein Stu‐ 152 11 Beziehungen zwischen Daten <?page no="153"?> 51 Das soll nicht bedeuten, dass das Phänomen nicht vorkommt. Z. B. kann der Unterricht mit einer neuen Methode zunächst gute Lernergebnisse liefern, nach einer gewissen Zeit kann die Methode aber den Lernern auf die Nerven gehen und die Ergebnisse werden deutlich schlechter. 52 Weil ρ, also Rho, von uneingeweihten Lesern schnell als p, also Signifikanzwert, missverstanden werden kann, empfiehlt es sich, entweder „r s “ oder „Rho“ zu schreiben. 53 Quelle: Wessa, P. (2024), Free Statistics Software, Office for Research Development and Education, version 1.2.1, https: / / www.wessa.net/ rwasp_spearman.wasp (30.11.2024). Spearman Rho, r s Assoziatio‐ nen dent in Test A das Ergebnis „9“ und im Test B das Ergebnis „1“ hätte. Für solche Kor‐ rekturen gibt es unterschiedliche Richtlinien, auf die wir hier nicht weiter eingehen können. Ebenfalls kann der Test mit Beziehungen, in denen ein Wendepunkt in der Korrelation existiert (kurvilineare Beziehungen) 51 schlecht umgehen - hierfür emp‐ fehlen sich andere Prüfmöglichkeiten, auf die wir in diesem Band ebenfalls nicht weiter eingehen können. Für die Präsentation der Ergebnisse einer Korrelationsanalyse gibt es einige Leitli‐ nien. Im Folgenden geben wir ein Beispiel, wie man die Ergebnisse der Korrelations‐ analyse mit den Daten in Tabelle 2 präsentieren kann. Wir nehmen an, dass es sich bei dem zu präsentierenden Ergebnis um einen Teil eines größeren Forschungsvorhabens handelt, in dem wir die Reliabilität des Verfahrens, das zwei Paralleltests beinhaltet, überprüfen. Um die Reliabilität des Testverfahrens für die untersuchte Zielgruppe zu überprüfen, haben wir zunächst beide Paralleltests bei zehn Probanden durchgeführt. Die Ergebnisse für Test A (M = 6.2) und Test B (M = 6.7) korrelierten stark miteinander (r = .83), weisen also eine hohe Paralleltestreliabilität auf. 11.4 Ordinalskalierte Daten: Assoziationen (Spearman Rho, r s ) Manchmal liegen einem keine metrisch skalierten Daten vor, z. B., wenn man die Rangplätze bei unterschiedlichen Testverfahren hat, jedoch keine exakten Werte für mindestens eine der Variablen. In diesem Fall kann man den Rangkorrelationskoeffi‐ zienten (Spearman Rho, als ρ oder r s abgekürzt 52 ) berechnen. Die Beziehung wird auch nicht mehr „Korrelation“ genannt, sondern man spricht bei ordinalskalierten Daten von Assoziationen. Zur Berechnung von Rho bietet Excel keine einfache Formel. Man muss also - wenn man kein anderes Statistikprogramm wie z. B. SPSS oder R verwendet - den Kennwert mit einem (kostenlosen) Online-Programm berechnen. Wir versuchen eine Berechnung des Spearman Rho für die Rangwerte der Tests A und B in Tabelle 2 mit einem Online-Statistikprogramm 53 . Hierfür müssen wir nur alle Werte aus der Spalte „Ergebnis Test A“ in den Kasten „Data X“ hineinkopieren und alle Werte aus der Spalte „Ergebnis Test B“ in den Kasten „Data Y“. Danach klicken wir auf „compute“. Wir erhalten das Ergebnis: r s = .79, das wir genau so interpretieren wie Pearsons r. Das ist zwar nicht genau das Ergebnis, das wir durch eine Korrelationsberechnung 11.4 Ordinalskalierte Daten: Assoziationen (Spearman Rho, r s ) 153 <?page no="154"?> Häufigkeits‐ daten Kontingen‐ zen Kreuztabelle (r = .83) hatten - aber sehr ähnlich. Wir sehen, dass ein Student, der bei Test A einen höheren Rangplatz hat, tendenziell auch bei Test B einen höheren Rangplatz hat. Auch bei metrisch skalierten Daten kann es sinnvoll sein, Assoziationen zu berech‐ nen. So ist der Spearman Rho deutlich weniger anfällig für Ausreißer, denn ob ein Wert 2 Punkte oder 6 Punkte über dem nächsthöheren Wert liegt, ist unwesentlich - in beiden Fällen ist er nur einen Rangplatz höher. Die Präsentation des Ergebnisses ist ähnlich wie die für metrische Daten. Für unsere Ergebnisse aus Tabelle 3 wäre eine Möglichkeit: Um die Reliabilität des Testverfahrens für die untersuchte Zielgruppe zu überprüfen, haben wir zunächst beide Paralleltests bei zehn Probanden durchgeführt. Die Ergebnisse für Test A (M = 6.2) und Test B (M = 6.7) zeigten eine starke Assoziation (r s = .79), weisen also eine hohe Paralleltestreliabilität auf. 11.5 Nominalskalierte Daten: Kontingenzen (χ 2 ) Wenn wir es mit nominalskalierten Daten zu tun haben, z. B. wenn wir gezählt haben, wie oft etwas vorkommt oder wie viele Personen eine bestimmte Ansicht vertreten, wollen wir meistens wissen, ob Kategorien wie erwartet besetzt sind oder nicht. Hierfür wird meistens der Chi-Quadrat-Test (χ 2 ) herangezogen, die daraus errechneten Bezie‐ hungen nennen wir Kontingenzen. Kontingenzen werden oft berechnet, wenn wir Verteilungen von bestimmten Perso‐ nengruppen auf bestimmte Bereiche untersuchen wollen. Besonders häufig werden sie bei Korpusanalysen verwendet, wenn es darum gehen soll, zu untersuchen, wie häufig bestimmte Phänomene bei bestimmten Gruppen von Sprechern oder in bestimmten Textsorten oder sprachlichen Umgebungen vorkommen. Versuchen wir uns zunächst an einem Beispiel. Sie vermuten, dass in Ihrem Deutschunterricht Lerner aus Fernost mehr Vokabellernstrategien verwenden, die auf Memorieren zurückgreifen, als Lerner aus europäischen Ländern. Sie kündigen einen Vokabeltest für die nächste Woche an, lassen ihn schreiben und verteilen danach einen Fragebogen an die Lerner. Diese sollen alle Strategien ankreuzen, die sie verwendet haben, als sie für die Prüfung gelernt haben. In jeder Herkunftsgruppe gibt es 20 Lerner. Sie zählen dann die angekreuzten Arten von Strategien zusammen und erhalten folgende Häufigkeitstabelle (Kreuztabelle) (Tabelle 3): Strategie Fernost Europa Gesamt Memorieren 53 35 88 Sonstige 31 37 68 Gesamt 84 72 156 Tabelle 3: Kreuztabelle für Beispiel „Vokabellernstrategien“ 154 11 Beziehungen zwischen Daten <?page no="155"?> 54 Für eine Berechnung mit zwei Reihen und zwei Spalten: https: / / www.socscistatistics.com/ tests/ chisqu are/ default.aspx (30.11.2024). Übrigens wird es immer einfacher, solche Berechnungen in einem Large Language Model (LLM) wie ChatGPT durchführen und auch für den Projektbericht ausgeben zu lassen. Da LLMs trotzdem noch fehleranfällig sind, empfehlen wir nach wie vor, Kalkulationsprogramme zu verwenden. Wir wollen eigentlich wissen, ob die beobachtete Häufigkeit in jeder Zelle sich von der erwarteten Häufigkeit unterscheidet, oder für dieses Beispiel anders formuliert: Inwiefern hängt der Einsatz einer Lernstrategie mit der Gruppe, die sie anwendet, zusammen? Wenn die Herkunft überhaupt keinen Einfluss auf die Art der Strategie hat, würden Sie erwarten, dass die Werte für jede Zelle in der Tabelle den Häufigkeiten entsprechen, die sich aus einer gleichmäßigen Verteilung der Werte seiner Zeile und Spalte ergeben (berechnet nach „Zeilensumme x Spaltensumme : Ecksumme“) berechnen. Damit käme dann folgendes Ergebnis heraus (Tabelle 4): Strategie Fernost Europa Gesamt Memorieren 47.4 40.6 88 Sonstige 36.6 31.4 68 Gesamt 84 72 156 Tabelle 4: Erwartete Zellenwerte, wenn die Herkunft keinen Einfluss auf die Lernstrategie hat Die Tabellen stimmen aber nicht genau miteinander überein. Woher wissen wir dann, ob die beobachtete Häufigkeit der unterschiedlichen Strategien bei den unterschiedlichen Gruppen sich von der zu erwartenden Häufigkeit in den Zellen wirklich unterscheidet? Man kann den Test von Hand berechnen, im Kontrast zu früheren Versionen dieses Buches machen wir dies aber nicht, sondern greifen direkt auf ein Online-Statistikpro‐ gramm zurück. Wir verwenden hier ein Beispiel, das uns erlaubt, bis zu zehn Reihen und zehn Spalten aufzunehmen. 54 Sie müssen lediglich die beobachteten Häufigkeiten aus der obigen Tabelle eingeben, den Rest macht das Programm (die folgende Tabelle 5 haben wir von der Ausgabe auf der Webseite abgeschrieben; die Zahlen in runden Klammern entsprechen den erwarteten Summen wie in Tabelle 4 berechnet): - Fernost Europa Reihensumme Memorieren 53--(47.38) 35--(40.62) 88 Sonstige 31--(36.62) 37--(31.38) 68 Spaltensumme 84 72 156 (Gesamt) Die Chi-Quadrat-Statistik ist 3.3077. Der p-Wert ist .068955. Nicht signifikant bei p < .05. Tabelle 5: Ergebnisse des Chi-Quadrat-Tests 11.5 Nominalskalierte Daten: Kontingenzen (χ 2 ) 155 <?page no="156"?> 55 Sie merken langsam: Man kann sich das Leben immer komplizierter machen. Wir haben uns entschieden, nicht mehr auf degrees of freedom (df) einzugehen. Es ist zwar nicht besonders schwer, aber eher ein Relikt aus Zeiten, in denen man mit dessen Hilfe den p-Wert in großen Tabellen nachschlagen musste. Statistikprogramme machen dies nicht mehr notwendig, man muss df trotzdem immer noch angeben. Letztendlich sagt df etwas über die Anzahl der getesteten Gruppen und/ oder beobachteten Fälle aus, wird aber für unterschiedliche statistische Tests unterschiedlich bestimmt. Bei einer 2x2-Kontingenztabelle wie oben ist df immer 1. Interpreta‐ tion von χ 2 Korpusana‐ lyse Das Ergebnis ist dann: χ 2 = 3.31. Es ist allerdings leider nicht so einfach wie bei einer Korrelation, dieses Ergebnis zu interpretieren. Wir müssen ein weiteres statistisches Verfahren heranziehen, um es zu verstehen. Das erhalten wir mit dem sog. p-Wert, der die statistische Signifikanz angibt, den wir aber erst im Kapitel 13 behandeln. Wir grei‐ fen jetzt nur kurz vor: Wir wünschen uns in diesem Fall einen p-Wert von unter .050. Das ist hier nicht der Fall, die Unterschiede zwischen den gefundenen und den erwar‐ teten Werten sind in dieser Stichprobe also nicht statistisch signifikant. Wenn wir diese Ergebnisse präsentieren wollen, können wir auch die Häufigkeiten (als Rohwerte oder als Prozentwerte) darstellen. Bei der Darstellung geben wir zudem sowohl den p-Wert als auch den degrees of freedom (df) an und auch die Anzahl der Beobachtungen „N“): 55 60 % der Vokabellernstrategien, die DaF-Lerner aus Fernost verwendeten, basierten auf dem Memorieren, während Lernende aus Europa nur zu 46 % solche Strategien einsetzen. Dennoch war der Einsatz der unterschiedlichen Strategien nicht signifikant unterschied‐ lich, wie ein Chi-Quadrat-Test ergab (χ 2 (1, N = 156) = 3.31, p = .069). Um das Ganze etwas weiter auszubauen, schauen wir uns ein zweites Beispiel aus einer Korpusanalyse an. Der Chi-Quadrat-Test wird eingesetzt, um die Häufigkeit des Vor‐ kommens von Erscheinungen zu vergleichen. In unserem Beispiel interessieren wir uns für die Häufigkeit von unterschiedlichen Bedeutungen des Adjektivs pretty im Englischen, nämlich wo es als adjektivisches Attribut zu Substantiven gebraucht wer‐ den kann (a pretty flower), als intensivierender Modifikator in Nominalgruppen (pretty horrible weather) oder als intensivierender Modifikator von Adverbien (pretty clearly seen). Um Daten zu erhalten, können wir unterschiedliche Korpora heranziehen, wobei die Häufigkeiten in den unterschiedlichen Korpora eventuell auch unterschiedlich sind. Unsere Forschungsfrage ist entsprechend: Kommt das Wort pretty in allen Funktionen in den untersuchten Korpora gleich häufig vor oder gibt es eine Beziehung zwischen dem Gebrauch von pretty und der Art des Korpus, das wir für unsere Studie heranzie‐ hen? Wir entscheiden uns für die Untersuchung von zwei Korpora, dem LL (Lon‐ don-Lund-Korpus) und dem LOB (Lancaster, Oslo, Bergen Korpus von Texten). Wir lassen uns die Daten ausgeben und fügen sie in eine Kreuztabelle ein (Tabelle 6): 156 11 Beziehungen zwischen Daten <?page no="157"?> 56 Da es sich hier um ein Einführungswerk handelt, nehmen wir zur Bestimmung der Interrater-Reli‐ abilität nur Korrelationen auf. Wenn man mit Ratingskalen arbeitet, wird normalerweise ein anderer Wert berechnet, Cohens Kappa. adjektivisch als Intensivierer in Nominalgruppen als Intensivierer vor Adverbien LL 5 95 20 LOB 45 37 21 Tabelle 6: Kontingenztabelle für das pretty-Beispiel Wir erhalten das Ergebnis: χ 2 (2, N = 223) = 56.5, p < .001. Da der p-Wert klein genug ist (s. Kapitel 13), können wir sagen, dass es eine Beziehung zwischen der Art des Korpus und dem Gebrauch des Worts pretty gibt. Bevor wir das Teilkapitel abschließen, wollen wir auf einige sehr wichtige Informa‐ tionen für die Anwendung des Chi-Quadrat-Tests besonders eingehen. Erstens ist es wichtig, dass beim Chi-Quadrat-Test die tatsächlich beobachteten Häufigkeiten verwendet werden müssen, nicht etwa Prozentzahlen. Sie können es ausprobieren: Wenn Sie das Ganze in Prozentzahlen umsetzen und dann den Test mit Prozentzah‐ len rechnen, bekommen Sie einen anderen Wert für Chi-Quadrat. Zweitens: Die Häufigkeiten müssen unabhängig sein, d. h., „Erscheinungen“ oder „Personen“ oder „Antworten“ müssen genau einer Zelle entsprechen (und nicht mehreren). Drittens: Die Größe der erwarteten Häufigkeit (nicht der beobachteten Häufigkeit) für jede Zelle darf nicht kleiner als fünf sein. Und viertens: Der Test sagt nur aus, ob die Daten zusammenhängen, aber wenn ein Zusammenhang festgestellt wurde, wissen wir immer noch nicht, worauf genau das beruht. 11.6 Wofür sind Zusammenhänge sonst noch nützlich? Zusammenhangsmaße zeigen, ob und wie stark zwei Variablen miteinander zusam‐ menhängen, also ob sie sich ähnlich oder unterschiedlich verändern. Insofern sind sie nützlich, um die Zuverlässigkeit (Reliabilität) von Ergebnissen zu überprüfen (Kapitel 2.5.1). Mit Korrelationen können wir sowohl die Reliabilität der Ergebnisse der Prüferinnen oder Raterinnen als auch des Tests im Vergleich mit anderen Tests überprüfen. In allen Fällen ist wünschenswert, dass der berechnete Koeffizient bei mindestens .80 liegt. Hier einige Beispiele: • Im Allgemeinen erwarten wir eine hohe Übereinstimmung zwischen Prüfungser‐ gebnissen, wenn eine Prüfung von zwei unabhängigen, erfahrenen Lehrerinnen korrigiert wird. Wenn Lehrerin A eine gute Note vergibt, sollte Lehrerin B ebenso eine gute Note geben und umgekehrt (Bestimmung der Interrater-Reliabilität 56 ). Wenn es keinen Zusammenhang oder gar einen negativen Zusammenhang zwi‐ 11.6 Wofür sind Zusammenhänge sonst noch nützlich? 157 <?page no="158"?> lineare Re‐ gressions‐ analyse schen den Ergebnissen gibt, könnte man daraus schließen, dass die Lehrerinnen ihre Arbeit nicht richtig erledigt haben. • Im Allgemeinen erwartet man vergleichbare Ergebnisse, wenn man eine Studie‐ rendengruppe einen bestimmten Test zweimal mit einer einwöchigen Pause dazwi‐ schen schreiben lässt (Testwiederholung zur Bestimmung der Testzuverlässigkeit, die Test-Retest-Reliabilität). • Beim Einsatz zweier paralleler Tests sollte die Paralleltest-Reliabilität berechnet werden. Beispielsweise kann man zwei Versionen eines Tests einsetzen und die Ergebnisse miteinander vergleichen. Bei käuflich zu erwerbenden, normierten Diagnostiktests mit unterschiedlichen Versionen wird die Paralleltest-Reliabilität übrigens immer angegeben. • Will man dagegen die Validität von Erhebungsinstrumenten prüfen, z. B. um zu se‐ hen, ob sie beide dasselbe oder ein ähnliches Konstrukt messen (wie „Sprachkennt‐ nisse des Deutschen“), dann kann man die Übereinstimmungsvalidität (Kap. 2) messen. Die Ergebnisse beider Tests werden verglichen, der resultierende Wert ist dann die sogenannte konvergente Validität. Das ist besonders interessant, wenn man sich z. B. für den Einsatz eines Diagnostiktests bei einer bestimmten Lernergruppe entscheiden will. Hat man unterschiedliche Testverfahren zur Wahl, kann man dieselben Lerner die Tests durchführen lassen (natürlich nicht mehrere hintereinander, das wäre ziemlich anstrengend für die Testteilnehmer), und dann die Ergebnisse miteinander vergleichen. Ist der Zusammenhang hoch, ist die Chance, dass die Tests ein ähnliches Merkmal erheben, auch gut. Gibt es aber keinen oder kaum einen Zusammenhang, dann muss man sich fragen, ob die Tests überhaupt das messen, was sie angeben zu messen. Interessant ist eine weitere Anwendung: Will man anhand der Ergebnisse Vorhersagen treffen, ist auch dies mit Hilfe des Korrelationskoeffizienten möglich. Wenn man zum Beispiel Informationen über eine Variable, aber nicht über die andere hat, kann man mit Hilfe einer bereits berechneten Regressionsfunktion, die man durch eine lineare Regressionsanalyse erhält, unbekannte Werte vorhersagen. Die Regression zeigt uns, inwiefern zwei Variablen linear, also geradlinig, verbunden sind. Das kann man sich so vorstellen, als würde man die Regressionslinie im Streudiagramm, wie z. B. bei Ab‐ bildung 3, über den Bereich der vorhandenen Werte hinaus „ausdehnen“. Man würde dann davon ausgehen, dass neue Ergebnisse von Test A irgendwo auf der Regressi‐ onslinie platziert werden könnten und dass die Regressionslinie auch für weitere Er‐ gebnisse gilt, sodass ein neues Ergebnis von Test A geeignet ist, das Ergebnis von Test B vorherzusagen. Natürlich ist eine solche Vorhersage immer zu einem gewissen Grade ungenau, denn die Ergebnisse werden sich nie genau auf der Regressionslinie wiederfinden - es sei denn, es besteht eine perfekte (+1 oder -1) lineare Korrelation zwischen zwei Variablen. Hierfür gibt es unterschiedliche Vorgehensweisen (z. B., je nachdem, ob man nur eine unabhängige Variable oder mehrere hat). Das leichteste ist die einfache lineare Regression, die man anwenden kann, wenn nur zwei Variablen miteinander in Bezie‐ 158 11 Beziehungen zwischen Daten <?page no="159"?> 57 www.alcula.com/ calculators/ statistics/ linear-regression/ (30.11.2024). Hierfür müssen Sie einfach die Spalten gemeinsam kopieren und in das dafür vorgesehene Eingabefeld einfügen. 58 Da nur ganze Zahlen als Testergebnis möglich sind, sind diese Ergebnisse natürlich so genau nicht möglich - die Berechnung erlaubt uns aber eine gute Schätzgrundlage. Außerdem ist das Ergebnis für Test B so nicht sinnvoll - denn Test B besteht nur aus maximal 10 Punkten. Auch deswegen soll man immer prüfen, was Ergebnisse in der Realität bedeuten könnten. (In diesem Fall würden wir vermuten, dass der Schüler auf Test B ebenfalls 10 von 10 Punkten erreichen würde.) hung gesetzt werden. Häufiger in der Sprachlehrforschung ist die multiple Regression, die die zusammengezogene Beziehung mehrerer Variablen (wie Alter, Geschlecht, sozioökonomischer Status) mit einer anderen Variable (wie z. B. dem Ergebnis in einem Kompetenztest) zeigen kann. Da dies etwas komplexer ist, gehen wir hier lediglich auf die einfache Regressionsanalyse ein. Wir probieren das am Beispiel der Testwerte aus Tabelle 2, oben. Wenn man später Schüler testet, die z. B. nur Test A durchführen, kann man anhand der Re‐ gressionsfunktion die Ergebnisse von Test B vorhersagen. Wir bedienen uns einer Online-Statistik-Software, 57 die folgende Berechnung herstellt: unbekannter Wert y = 0.673x + 2.527 was wir dann übersetzen als: Ergebnis Test B = (0.673)(Ergebnis Test A) + 2.527 Damit können wir auch fehlende Werte schätzen, wenn wir mindestens ein Testergeb‐ nis (also entweder für Test A oder für Test B) haben. Wenn also ein Schüler bei Test A das Ergebnis 2 erzielt, sagen wir für Test B das Ergebnis (0.673)(2) + 2.527 = 3.87 vorher. Wenn das Ergebnis für Test B (sagen wir mal, 10 Punkte) gegeben ist, kann man das Ergebnis von Test A mit folgender Umformung berechnen: ((10 - 2.527) / 0.673) = 11.10. 58 Die Regressionsanalyse liefert die besten Vorhersagen, wenn zwischen den Variablen eine starke lineare Korrelation besteht. Weniger hilfreich ist dies jedoch, wenn es eine sehr hohe Streuung gibt (dann sind die Werte zu weit von der Regressionslinie entfernt - in diesem Fall ist der Mittelwert meist der bessere Prädiktor), oder wenn die Regressionslinie nicht linear ist. Deshalb ist es wichtig, das Streudiagramm vor einer Regressionsanalyse zu überprüfen, um sicherzustellen, dass eine lineare Beziehung vorliegt. 11.7 Zusammenhang bedeutet nicht Kausalität Trotz der vorherigen Warnung kann es verlockend sein, eine kausale Beziehung zwischen zwei Variablen anzunehmen, wenn man einen interessanten Zusammenhang zwischen ihnen entdeckt. Wir sehen uns noch einmal einige der Beispiele vom Anfang dieses Kapitels an. Im Allgemeinen ist es so: Wer viel liest, schaut weniger Fernsehen. 11.7 Zusammenhang bedeutet nicht Kausalität 159 <?page no="160"?> 59 Für diese und weitere witzige Scheinkorrelationen s. u. a. https: / / www.tylervigen.com/ spurious-co rrelations (30.11.2024). Scheinkorre‐ lation Zusammen‐ hang über dritte bzw. moderie‐ rende Variablen Es gibt tatsächlich eine hohe negative Korrelation zwischen den zwei Variablen „Zeit, die man mit Lesen verbringt“ und „Zeit, die man mit Fernsehen verbringt“. Es ist verführerisch zu glauben, dass die eine Variable (Lesen) eine direkte Auswirkung auf die andere (Fernsehen) hat, also dass mehr Lesen weniger Fernsehen zur Folge hat. Gleichermaßen ist es verlockend, in der folgenden Aussage eine kausale Beziehung zu sehen: Im Allgemeinen ist es so: Wenn alle anderen Bedingungen gleich sind, schneidet man umso besser bei den Klassenarbeiten ab, je mehr Zeit man mit Hausaufgaben für die Schule verbringt. Obwohl eine scheinbare Kausalbeziehung vorliegt, ist es nicht erlaubt, auf der Basis einer Zusammenhangsanalyse zu behaupten, dass eine Variable durch die andere kau‐ sal bedingt ist. Um Kausalität zu testen, müssen andere Methoden wie die Pfadanalyse verwendet werden, auf die wir hier nicht weiter eingehen, oder noch besser: ein experimentelles Design, wie in Kapitel 8 beschrieben. Das liegt daran, dass Zusammenhänge aus unterschiedlichen Gründen entstehen können. Eine besonders problematische, aber oft lustige Erscheinung sind die sog. Scheinkorrelationen, also statistische Zusammenhänge, die rein zufällig sind. Ein Bei‐ spiel: Von 2000-2012 hat es eine sehr hohe positive Korrelation zwischen der Schei‐ dungsrate im Vereinigten Königreich und der Anzahl an Disney-Filmen, die in diesem Zeitraum veröffentlicht wurden. Natürlich bedeutet das nicht, dass Disney-Filme Scheidungen verursachen - oder umgekehrt. Es gäbe also keinen Grund für einen Ge‐ setzesentwurf, der die Firma Disney verbietet, um Partnerschaften zu schützen. 59 Ein zweiter Grund ist, dass eine dritte oder moderierende Variable Änderungen in beiden getesteten Variablen verursacht. Es gibt zum Beispiel einen positiven Zusam‐ menhang zwischen der Anzahl von Feuerwehrleuten bei einem Feuer und dem Schaden an dem brennenden Gebäude. Das bedeutet jedoch nicht (oder nicht notwendiger‐ weise), dass Feuerwehrleute Schaden anrichten. Tatsächlich gibt es nämlich einen wei‐ teren verborgenen Faktor, nämlich die Größe des Feuers. Je größer das Feuer ist, desto mehr Feuerwehrleute sind notwendig. Ebenso gilt, dass je größer das Feuer ist, desto größer ist der Schaden, den es anrichtet. Daher: Je mehr Feuerwehrleute, desto mehr Schaden. Wenn die Größe des Feuers eine Konstante ist, d. h., wenn wir uns nur mit kleinen Feuern oder nur mit großen Feuern beschäftigen, dann gibt es keine Korrelation zwischen der Anzahl der Feuerwehrleute beim Feuer und dem Schaden am in Brand geratenen Gebäude. Die Korrelation ist dann nicht echt, sondern hängt von einem dritten, verborgenen Faktor ab. 160 11 Beziehungen zwischen Daten <?page no="161"?> Aufgaben 1. Es gibt eine positive Korrelation zwischen dem Taillenumfang von Menschen und ihrem Einkommen. Erklären Sie dieses Phänomen, ausgehend davon, dass es sich wohl um eine irreführende Korrelation handelt. 2. Ist ein Korrelationskoeffizient von r = -.65 größer oder kleiner als einer von r = +.45 im Sinne einer „Stärke“ der Korrelation? 3. Sehen Sie sich die folgenden Ergebnisreihen in Tabelle 5 an, die sich auf die Übersetzung in die und aus der Erstsprache beziehen. Die Bewertungen liegen zwischen 1 und 10 mit 10 als der besten Note. - aus der Erstsprache in die Erstsprache John 7 7 Peter 4 7 Ellis 7 8 Sara 6 7 Martin 8 8 Matty 10 3 Eve 5 7 Nancy 5 9 Adam 8 8 Mike 7 8 Tabelle 5: Ergebnisse eines hypothetischen Übersetzungstests a. Berechnen Sie den Korrelationskoeffizienten für die Ergebnisse. b. Ist die Korrelation positiv? Ist sie hoch? c. Berechnen Sie die Korrelation wieder, aber dieses Mal ohne das Ergebnis von Matty, das hier als „Ausreißer“ erscheint. Haben Sie eine Erklärung für die merkwürdigen Resultate von Matty? d. Zeichnen Sie ein Streudiagramm der Daten. Fassen Sie die Ergebnisse in einem Text zusammen. 4. Berechnen Sie nun die Ergebnisse aus Aufgabe 3 als Spearmans Rho. Stimmt dieses Ergebnis mit dem Korrelationskoeffizienten überein? 5. Wir nehmen an einem Abendessen bei einem Familientreffen teil und der erste Gang besteht aus Suppe mit Fleischklößchen. Die Mutter schöpft die Suppe aus, und ihre drei Söhne vergleichen wie jedes Mal die Anzahl von Fleischklößchen, die sie in ihrer Suppe finden. Im Laufe der letzten fünf Fleischklößchenmahlzeiten hat der älteste Sohn 10, der mittlere 5 und der jüngste 30 erhalten. Die zwei Aufgaben 161 <?page no="162"?> älteren Söhne beschweren sich über diese Ungerechtigkeit. Die ungleiche Anzahl der Klößchen legt nahe, dass die Mutter sie mit Absicht so verteilt hat, z. B., wie der älteste Sohn behauptet, weil sie den jüngsten Sohn schon immer am liebsten mochte. Die Mutter sagt natürlich, dass die Kinder ungefähr die gleiche Anzahl von Klößchen bekommen sollten und dass die Ungleichheit ein Unfall ist. Sie behauptet, dass sie all ihre Söhne gleich lieb hat. Ihr könne also keine Schuld zugewiesen werden, der Unterschied sei zufällig entstanden. Kann die Mutter recht haben? 162 11 Beziehungen zwischen Daten <?page no="163"?> 60 Ein weiterer Grund ist, dass wir ansonsten versucht sein könnten, durch ein unangemessenes statistisches Testverfahren „bessere“ Ergebnisse zu erzielen. Wir stellen durch die frühe Auswahl eines Verfahrens sicher, dass auch in diesem Schritt die Daten objektiv ausgewertet werden. inferentielle Statistik (Prüfstatis‐ tik) 12 Prüfen von Unterschieden und Veränderungen In den letzten Kapiteln haben wir uns mit Verfahren befasst, die versuchen, Daten aus ausgewählten Stichproben zu beschreiben. Jedoch kommt es häufig vor, dass wir nicht nur das Verhalten einer bestimmten Gruppe beschreiben wollen, sondern über die in einer einzigen Studie erhobenen Daten hinausgehen und auf andere Situationen ge‐ neralisieren wollen. Man möchte nämlich inferieren, also aus einer bestimmten Stich‐ probe Schlüsse auf die Gesamtpopulation ziehen. Dafür stellt man eine Hypothese dar‐ über auf, wie sich die Population verhält, und prüft sie an einer Stichprobe. Aus diesem Grund wird die inferentielle Statistik manchmal auch Prüfstatistik genannt. Inferentielle Statistik wird für die Auswertung von Daten aus bestimmten Designs wie Experimenten fast immer eingesetzt. Nötig ist dazu die Auswahl einer repräsen‐ tativen Stichprobe, eines angemessenen Designs und eines passenden statistischen Prüfverfahrens. Dabei ist es extrem wichtig, schon vor der Datenerhebung zu wissen, mit welchem statistischen Verfahren man die Daten später auswertet. Ansonsten kann es sein, dass man Daten erhebt, sie aber gar nicht auswerten kann. 60 Deswegen behandeln wir in diesem Kapitel die Tests, die in Hausarbeiten und Abschlussarbeiten der Linguistik und Sprachlehrforschung am häufigsten verwendet werden. Wenn wir Unterschiede und Veränderungen prüfen, vergleichen wir die Daten verschiedener Zustände oder verschiedener Ausprägungen einer Variablen (z. B. ein Testergebnis vor und nach einer didaktischen Intervention). Bei experimentellen Verfahren ist das eine (oder mehrere) abhängige(n) Variable(n). Tabelle 1 ist ein Beispiel für Daten von Lernern, die aus einem Experiment mit zwei Zuständen der unabhängigen Variablen stammen. Ergebnis nach Zustand X Ergebnis nach Zustand Y 4 5 4 8 2 7 2 6 7 8 5 8 4 - M = 4 M = 7 σ = 1.73 σ = 1.26 Tabelle 1: Beispiel für das Ergebnis nach einem Experiment <?page no="164"?> 61 Zwei weitere Fragen, die häufig gestellt werden, sind: Sind die Gruppen ausreichend groß für das Testverfahren? und Sind die Ergebnisse normalverteilt? Eine Normalverteilung bedeutet, dass die Ergebnisse um den Mittelwert verteilt sind, wie Sie es von der Gaußschen Glocke kennen (Kap. 10, Abb. 2). Allerdings finden Sie in neueren Statistikbüchern oft den Hinweis, dass eine Normalverteilung für den t-Test sowie für die Varianzanalyse gar nicht notwendig ist; beide Tests sind robust genug, auch mit nicht normalverteilten Daten - wie sie oft bei kleinen Gruppengrößen vorkommen - umzugehen. einseitige Hypothesen zweiseitige Hypothesen Leider sagt uns eine einfache Berechnung des Mittelwerts und der Standardabwei‐ chung jeder Datenreihe wenig darüber, ob in der Tat bedeutsame Unterschiede zwischen den Zuständen bestehen. Auch das Erstellen einer Grafik mit den erhobenen Ergebnissen hilft uns wenig dabei, zu entscheiden, ob wirklich Unterschiede zwischen den Mittelwerten der Gruppen bestehen. Wenn wir hierzu etwas wissen wollen (und das wollen wir natürlich), führen wir ein inferenzstatistisches Testverfahren durch. Welches wir verwenden, hängt von unterschiedlichen Faktoren ab: 61 • Geht es um eine Gruppe, die zwei- oder mehrmals in unterschiedlichen Zuständen untersucht wird (Abhängige-Gruppen-Design), oder um zwei oder mehr unter‐ schiedliche Gruppen, die miteinander verglichen werden (Unabhängige-Grup‐ pen-Design)? • Erheben wir nominal-, ordinal- oder metrisch skalierte Daten? • Ist unsere Hypothese ein- oder zweiseitig? Wenn die Daten aus Tabelle 1 im Rahmen eines Messwiederholungsdesigns entstanden sind (die letzte Testperson ist im Laufe der Studie offenbar „verlorengegangen“), haben wir es mit einer Gruppe von 6 Personen zu tun, die jeweils zweimal getestet wurden, wir haben also ein Abhängige-Gruppen-Design. Haben wir dagegen zwei Gruppen von 6 bzw. 7 Personen, also 13 Personen, unabhängig voneinander die Aufgaben lösen lassen (also 7 Personen haben nach Lehrmethode X und 6 Personen nach Methode Y gelernt und dann einen Test absolviert), dann haben wir ein Unabhängige-Gruppen-Design. Wenn wir uns die Durchschnittswerte für die zwei Zustände (X = 4 und Y = 7) ansehen, stellen wir einen Unterschied fest. Aber können wir sagen, dass dieses Ergebnis wahrscheinlich auch für die Grundgesamtheit gelten wird? Denn wir finden natürlich immer Unterschiede, wenn wir die Ergebnisse von zwei Gruppen oder zwei Tests vergleichen: Ergebnisse sind praktisch nie exakt numerisch gleich. Neben Informationen zum Design und zu den Skalenvieaus können wir noch fest‐ legen, ob wir es mit einer einseitigen oder zweiseitigen Hypothese zu tun haben. Hy‐ pothesen, die eine bestimmte Ergebnisrichtung voraussagen, sind einseitige Hypothe‐ sen. Diese behaupten also, dass der Unterschied nur in eine bestimmte Richtung gehen kann, z. B. „Vokabellernen nach Methode X ist erfolgreicher als nach Methode Y“. Zweiseitige Hypothesen sagen dagegen nur einen Unterschied vorher, aber nicht eine bestimmte Richtung, z. B. „Es wird einen Unterschied geben zwischen der Gruppe, die nach Methode X unterrichtet wird, und der Gruppe, die nach Methode Y unterrichtet wird.“ Weil es sich eingebürgert hat, nur Prüfverfahren für zweiseitige Hypothesen 164 12 Prüfen von Unterschieden und Veränderungen <?page no="165"?> 62 Hierfür gibt es Für- und Gegenargumente. Wenn wir zweiseitige Prüfverfahren verwenden, laufen wir weniger Gefahr, sogenannte „α-Fehler“ zu machen. Dies passiert, wenn eine Hypothese fälschlich für wahr gehalten wird, wenn man z. B. glaubt, dass eine Beziehung zwischen zwei Elementen besteht, die aber gar nicht vorhanden ist. Gleichzeitig ist das Risiko eines „β-Fehlers“ erhöht. Das passiert, wenn man eine vorhandene Beziehung nicht findet. Beide Fehler sind gravierend; die Forschungscommunity fokussiert (leider) tendenziell eher den α-Fehler - aus Gründen, auf die wir hier nicht eingehen können. 63 Der t-Test wird manchmal auch „Student’s t-test“ genannt nach dem Pseudonym des Mathematikers William Gosset, der ihn entwickelt hat. Gosset hat seinen t-Test für gute Zwecke eingesetzt: Der Test entstand, weil Gosset, der bei der Guiness-Brauerei angestellt war, besseres Bier brauen wollte. Später entwickelte Roland Fischer den t-Test weiter. t-Test einzusetzen, verwenden wir in diesem Buch nur diese - auch wenn Hypothesen fast immer gerichtet (einseitig) sind. 62 Wie wir im letzten Kapitel gesehen haben, gibt uns die inferentielle Statistik die Möglichkeit, zu schätzen, ob Unterschiede wahrscheinlich bestehen und bedeutend sind. Den Test wählen wir je nach Art der Daten und Anzahl der Datenreihen aus. Wir beschreiben in diesem Kapitel die Vorgehensweisen jeweils für metrisch-, ordinal- und nominalskalierte Daten, für die nur zwei Datenreihen bestehen. Eine Unterstützung zur Wahl eines Verfahrens finden Sie bei Schritt 3 (direkt vor Kapitel 9) in diesem Buch. Wichtig: Wir können mit den hier besprochenen Tests wirklich nur zwei Daten‐ reihen vergleichen! Wenn Sie z. B. eine Experimental- und eine Kontrollgruppe (2 Gruppen) jeweils in einem Prä- und einem Posttest erheben (2 Messzeitpunkte), dann haben Sie ein 2x2-Design und entsprechend vier Datenreihen. Wir dürfen aber nicht so vorgehen, dass wir die Ergebnisse der Experimentalgruppe im Prätest mit denen der Kontrollgruppe im Prätest vergleichen, und dann die Ergebnisse der Experimentalgruppe im Posttest mit denen der Kontrollgruppe im Postest, und dann die Ergebnisse der Experimentalgruppe im Prätest mit denen im Posttest und so weiter. Stattdessen brauchen wir komplexere Auswertungsverfahren. Weil dies seltener bei Abschlussarbeiten nötig ist, gehen wir nur beispielhaft auf eine Variante für metrisch skalierte Daten ein, die Varianzanalyse (ANOVA, analysis of variance) mit Messwiederholung (s. Teilkapitel zu metrisch skalierten Daten). Weitere Informationen zu ANOVAs gibt es außerdem in den Sonderkapiteln auf der Webseite (s. Webkapitel 12). 12.1 Tests für metrisch skalierte Daten 12.1.1 Voraussetzungen von Tests für metrisch skalierte Daten Mit Tests für metrisch skalierte Daten können wir Unterschiede zwischen Datensätzen nachweisen, aber nur, wenn die Ergebnisse tatsächlich metrisch skaliert sind. Es gibt zwei Tests, die normalerweise für metrisch skalierte Daten verwendet wer‐ den. Mit zwei Varianten des t-Tests 63 vergleicht man zwei Datenreihen; für mehr Da‐ tenreihen gehen wir im Anschluss kurz auf die Varianzanalyse ein. 12.1 Tests für metrisch skalierte Daten 165 <?page no="166"?> 64 Bei Excel brauchen Sie für komplexere statistische Berechnungen das Excel Add-In „Analyse Funktionen“, das Sie aber kostenlos bei den regulären Add-Ins unter „Optionen“ finden. Es gibt leichte Differenzen in den Versionen, hier haben wir Excel aus Office 11 verwendet. 65 Es handelt sich um die Frage des statistischen Signifikanzniveaus, das wir aber erst im nächsten Kapitel besprechen. Für dieses Kapitel merken Sie sich, dass dies am Ende als „p-Wert“ angegeben wird, und alle Werte, die unter p = .05 liegen, sind statistisch signifikant. Zur Darstellung des p-Werts schreiben wir mehr in Kapitel 13. abhängige Stichproben t-Test für ab‐ hängige Stichproben in Excel durchführen 12.1.2 t-Test für abhängige Gruppen Der am häufigsten gebrauchte Test zur Überprüfung der Unterschiede zwischen zwei Datensätzen ist der t-Test. Davon gibt es zwei Varianten. Nehmen wir als Beispiel die Forschungsfrage: „Kann man im Schlaf Vokabeln ler‐ nen? “ Die Teilnehmer lassen einen Monat lang nachts eine Audio-Datei laufen, auf die zu lernende Vokabeln gesprochen sind. Wir haben im Prätest überprüft, wie viele sie übersetzen können, und prüfen nach einem Monat wieder, wie viele sie übersetzen können, haben es also mit einem Abhängige-Gruppen-Design (mit Prä-/ Post‐ test-Design) zu tun. Die erhobenen Daten sind metrisch skaliert, das Ergebnis ist die Anzahl der richtig übersetzten Wörter. Die Ergebnisse haben wir in Tabelle 1 aufbe‐ reitet. In diesem Fall führen wir den t-Test für abhängige Stichproben durch. Dieser Test ergibt einen sogenannten t-Wert als Teststatistik. Den t-Wert ermitteln wir mithilfe eines Statistikprogramms 64 . Wenn Sie dies mit Excel vollziehen, müssen Sie zuerst die Daten in zwei Spalten aufbereiten; in einer Spalte, z. B. Spalte A, sind die Prätestergebnisse und in einer Spalte, z. B. Spalte B, die Posttestergebnisse - in jeder Reihe sind natürlich nur die Ergebnisse von jeweils einer Person. In Excel wählen Sie dann bei Daten/ Datenanalyse den Test Zweistichproben t-Test bei abhängigen Stichproben aus. Sie sehen dann ein Dialogfeld, in das Sie einfügen sollen, was der „Bereich Variable A“ ist (das ist die Spalte mit den Prätestergebnissen; hier geben Sie die Zellen mit allen Prätestergebnissen ein, in unserem Beispiel also: A1: A6) und was der „Bereich Variable B“ ist (das ist die Spalte mit den Posttestergeb‐ nissen, hier geben Sie z. B. ein: B1: B6). Achten Sie darauf, dass bei Excel wirklich nur die gepaarten Ergebnisse in Tests für abhängige Stichproben einbezogen werden (die letzte Person können Sie also gar nicht berücksichtigen, weil Sie für diese Person keine Ergebnisse im Posttest haben). Sie belassen den Alpha-Wert beim bereits angegebenen 0.05. 65 Das sieht dann in etwa so aus (Abbildung 1): 166 12 Prüfen von Unterschieden und Veränderungen <?page no="167"?> 66 Das „-“-Zeichen bedeutet lediglich, dass der Mittelwert der ersten Gruppe unter dem der zweiten Gruppe liegt. Das Vorzeichen wird, im Kontrast zu Korrelationen und Assoziationen, nicht in den Bericht aufgenommen. Abb. 1: Screenshot der Durchführung der Datenanalyse bei Excel (Office 11) Sie bekommen dann einen Bildschirm wie in Abbildung 2 (wir haben hier die drei für uns wichtigsten Werte der Einfachheit halber hervorgehoben): Abb. 2: Ausgabe des t-Werts bei abhängigen Stichproben bei Excel (Office 11) Wir erhalten somit einen t-Wert (t-Statistik) von t = -4.39 66 . Nun sagt uns der einfache t-Wert wenig darüber, ob es tatsächlich Unterschiede zwischen den Gruppen gibt. Wir hatten einen notwendigen p-Wert von 0,05 voraus‐ bestimmt. Um herauszufinden, ob dieses Signifikanzniveau erreicht wurde, schauen 12.1 Tests für metrisch skalierte Daten 167 <?page no="168"?> 67 Im Kontrast zu Tests mit abhängigen Gruppen muss man hier alle Daten einbeziehen, auch wenn die Gruppen nicht gleich groß sind. 68 Wir nehmen den Test für unterschiedliche Varianzen, da wir vorher nicht überprüft haben, ob die Varianzen gleich sind. Bei so kleinen Gruppen sollte man prinzipiell immer den Test „unter der Annahme unterschiedlicher Varianzen“ ausführen. unabhän‐ gige Grup‐ pen t-Test für ab‐ hängige Stichproben in Excel durchführen Formulie‐ rung im For‐ schungsbe‐ richt wir in die Zeile „P(T<=t) zweiseitig“. Dieser Wert ist 0.0070776. Da dieser Wert kleiner als .05 ist, können wir sagen, die Ergebnisse sind statistisch signifikant. Wir sehen in diesem hypothetischen Beispiel: Offenbar kann man Vokabeln beim Schlafen lernen. In der Ergebnisdarstellung schreiben wir dann: t(5) = 4.39, p = .007, wobei „(5)“ die Freiheitsgrade (df) angibt (wie man dies als Text für den Forschungsbericht zusammenfasst, sehen Sie am Beispiel des t-Tests für unabhängige Gruppen unten). 12.1.3 t-Test für unabhängige Gruppen Wenn wir zwei unterschiedliche Gruppen vergleichen wollen - also ein Unabhängige-Gruppen-Design vorliegt -, kann der t-Test ebenfalls verwendet werden, hat dann aber eine andere Form. Nehmen wir an, die Daten in Tabelle 1 am Anfang dieses Kapitels seien mit zwei (zufällig ausgewählten) Gruppen von Schülern entstanden. Gruppe X hat Vokabeln nach Methode X gelernt, Gruppe Y nach Methode Y, und am Ende haben wir sie einen Vokabeltest schreiben lassen. Obwohl wir mit jeweils zehn Schülern pro Gruppe anfingen, gehören den beiden Gruppen eine unterschiedliche Anzahl von Schülern an, da drei Schüler aus Gruppe X und vier Schüler aus Gruppe Y im Laufe des Experiments absprangen. Das ist ärgerlich, hindert uns aber nicht daran, statistische Berechnungen mit allen Ergebnissen durch‐ zuführen. 67 Um herauszufinden, ob die ermittelten Differenzen statistisch signifikant sind, führen wir einen t-Test für unabhängige Gruppen durch. Um diesen t-Wert zu ermitteln, geben Sie die Daten in ein Excel-Tabellenblatt ein und berechnen den t-Wert wie folgt: Klicken Sie bei Daten/ Datenanalyse auf Zweistichproben t-Test unter der Annahme unterschiedlicher Varianzen  68 . Sie führen dann die gleichen Schritte wie für abhängige Gruppen durch, mit der Ausnahme, dass Sie alle Werte in den Spalten aufnehmen - also auch die letzte Zeile. Wir verzichten auf einen Screenshot der Ergebnisse wie in Abbildung 3 und geben diese einfach hier an: Wir erhalten einen (auf zwei Dezimalstellen aufgerundeten) t-Wert von t = 3.60. Um die Signifikanz zu bestimmen, schauen wir wieder in die Excel-Ausgabe („P(T<=t) zweiseitig“). Dieser Wert ist 0.004185. Er ist also wieder signifikant. Wir können dieses Ergebnis nun wie folgt im Teil „Ergebnisse“ unseres Artikels oder unserer Arbeit präsentieren. Achten Sie darauf, dass sich die Freiheitsgrade vom t-Test für abhängige Gruppen unterscheiden: Die Ergebnisse für die zwei experimentellen Bedingungen wiesen signifikante Unterschiede auf. Schüler, die nach Methode X unterrichtet wurden, erreichten mit einem Mittelwert von 168 12 Prüfen von Unterschieden und Veränderungen <?page no="169"?> 4.0 wesentlich niedrigere Ergebnisse als die nach Methode Y (Mittelwert: 7.0) unterrichteten (t (11) = 3.60, p = .004). Dies legt nahe, dass Methode Y für diese Fremdsprachenlerner bevorzugt werden sollte. Alternativ kann man die Ergebnisse des t-Tests auch so aufschreiben: (t = 3.60, df = 11, p = .004). Sie haben gesehen: Die Auswahl eines t-Tests für abhängige oder für unabhängige Gruppen führt zu unterschiedlichen statistischen Ergebnissen. Deswegen ist es sehr wichtig, dass Sie vor der Datenanalyse schon genau wissen, welchen Test Sie anwen‐ den sollen. 12.1.4 Varianzanalyse für Prä-/ Posttestdesigns mit zwei Gruppen Was passiert nun, wenn ich nicht nur eine Gruppe zweimal teste (z. B. in einem Prä-/ Posttestdesign) oder zwei Gruppen in unterschiedlichen Situationen teste, sondern z. B. Daten von zwei Gruppen jeweils zweimal erhebe? Dieser Fall kommt sehr häufig in Experimenten und Interventionsstudien vor. Das liegt daran, dass es auf Grund der individuellen Variablen der Versuchsteilnehmer und der Situation viele Störfaktoren gibt, die die Ergebnisse beeinflussen (und somit das Experiment nutzlos machen können). Deswegen wählt man oft ein Design, in dem zwei Gruppen vor dem Experiment getestet werden, danach daran teilnehmen (bzw. nicht teilnehmen), wobei am Ende die abhängige Variable, z. B. Lernzuwachs, (wieder) erhoben wird. Wenn wir die Studie so durchführen, ist die Gefahr, dass Unterschiede zwischen den Gruppen an der Besonderheit einer Gruppe oder an den Anfangskenntnissen der Gruppenmitglieder liegen, deutlich geringer. Das Design sieht etwa wie folgt aus: Gruppe A Test 1 → Treatment X → Test 2 Gruppe B Test 1 → Treatment Y oder Kontrolle → Test 2 Nun erhalten wir aber vier Datenreihen: (1) die Ergebnisse von Test 1 (dem Prätest) für Gruppe A, (2) die Ergebnisse desselben Prätests für Gruppe B, (3) die Ergebnisse von Test 2 (dem Posttest) für Gruppe A, und (4) die Ergebnisse desselben Posttests für Gruppe B. Wie geht man damit sinnvoll um? Manche Leute meinen, man könnte einfach die Posttestergebnisse der beiden Gruppen vergleichen, oder nur den Unterschied zwischen den Testergebnissen für jeden Teilnehmer berechnen (indem man z. B. das Ergebnis von Test 2 nimmt und davon das Ergebnis von Test 1 abzieht). Danach erhält man wieder zwei Datenreihen (Differenzwerte), nämlich eine für Gruppe A und eine für Gruppe B, und vergleicht diese dann. Leider funktionieren beide Verfahren nicht, weil die Posttestergebnisse natürlich von den Prätestergebnissen abhängig sind (und von anderen Faktoren). Deswegen gibt es ein besonderes Verfahren zur Berechnung von Unterschieden: die Varianzanalyse, in 12.1 Tests für metrisch skalierte Daten 169 <?page no="170"?> der Form einer Kovarianzanalyse (ANCOVA, analysis of covariance). Dieses Verfahren erlaubt es uns, Störfaktoren gewissermaßen „auszublenden“, so dass wir uns auf den Effekt der unabhängigen Variable fokussieren können. Wir erklären, warum sich eine Varianzanalyse lohnt, anhand eines Beispiels. Wir stellen die Forschungsfrage zu den zwei Vokabellernmethoden auf, wollen aber ein Unabhängige-Gruppen-Design mit Prä-/ Posttest durchführen. Wir finden hierfür eine Kursgruppe und teilen sie in zwei (möglichst ähnliche) Gruppen auf und führen bei allen einen Prätest durch. Nun lernt eine Gruppe von 5 Schülern („Interventions‐ gruppe“) nach Methode X, die andere Gruppe von 5 Schülern („Kontrollgruppe“ bzw. „Vergleichsgruppe“) nach Methode Y. Nach einiger Zeit wird ein zweiter Test (Posttest) unter allen Teilnehmern durchgeführt, um zu sehen, wer wie viel gelernt hat. Wir erhalten folgende Daten (Tabelle 2): Gruppe Prätest (/ 10) Posttest (/ 10) Differenz Intervention 4 7 3 Intervention 3 5 2 Intervention 5 6 1 Intervention 4 6 2 Intervention 4 5 1 Vergleich 4 4 0 Vergleich 2 4 2 Vergleich 2 3 1 Vergleich 3 3 0 Vergleich 3 3 0 Tabelle 2: Ergebnisse eines Prä-/ Posttestdesigns mit zwei Gruppen Wir versuchen keinesfalls, nur mit den Posttestergebnissen zu arbeiten, weil wir damit wichtige Informationen (wie stand es um das Vorwissen der Schüler? ) ignorieren wür‐ den. Stattdessen versuchen wir zunächst, beim Posttest nur mit den Differenzwerten (also: Ergebnis des Posttests minus Ergebnis des Prätests) zu arbeiten. Wir führen einen t-Test für unabhängige Gruppen durch und erhalten das Ergebnis t(8) = 2.19, p = .60. Es sieht somit nicht so aus, als hätte die Intervention zu deutlichen Unterschieden geführt, die Ergebnisse zeigen einen p-Wert von über .05 auf. Aber das kann auch daran liegen, dass hier der t-Test nicht das beste Prüfverfahren ist. 170 12 Prüfen von Unterschieden und Veränderungen <?page no="171"?> 69 Z.B. mit http: / / vassarstats.net/ ancova2.html [30.11.2024]. Alternativ können Sie, wie immer, gute Statistikprogramme einsetzen, die Sie aber zuerst lernen müssen - momentan wird v. a. R eingesetzt (https: / / www.r-project.org/ ) [30.11.2024]. nichtpara‐ metische Tests Wir versuchen es ein zweites Mal, und zwar mit einer ANCOVA. Dies können Sie sehr umständlich in Excel berechnen, dafür aber bequem online. 69 Dabei ist zu beachten, dass Sie für „Sample A“ und „Sample B“ die jeweiligen Prätestergebnisse in die Spalte „CV“ (concomitant variable) einfügen und die Posttestergebnisse in die Spalte „DV“ (dependent variable). Sie erhalten das Ergebnis F(1,7)= 11.70; p = .011. Die Teststatistik ist nun F (dies gilt übrigens für alle Varianten von Varianzanalysen). Die Freiheitsgrade geben wir auch an, das sieht etwas anders aus, weil wir hier zwei Werte haben: (1,7). Ganz wichtig: Wir sehen, dass die Ergebnisse statistisch signifikant sind. Es gibt also doch einen Unterschied zwischen der Interventionsgruppe und der Kontrollgruppe. Es hat sich also gelohnt, die Intervention durchzuführen - und ein angemessenes statistisches Prüfverfahren (ANCOVA) durchzuführen. 12.2 Tests für ordinalskalierte Daten Die oben beschriebenen Tests (t-Tests und Varianzanalysen) werden für metrisch skalierte Daten verwendet. Haben wir es aber mit ordinalskalierten Daten zu tun, also mit Daten, die nicht in gleichen Abständen voneinander verteilt sind, verwenden wir häufig entweder den Mann-Whitney-U-Test (bei unabhängigen Gruppen) oder den Wilcoxon-Test (bei abhängigen Gruppen). Zwei weitere Tests für ordinalskalierte Daten behandeln wir hier nicht, weil sie für Berechnungen mit mehr als zwei Daten‐ reihen eingesetzt werden: den Friedman-Test (er wird gebraucht, wenn man eine Gruppe mindestens dreimal testet, also ein Abhängige-Gruppen-Design hat) und den Kruskal-Wallis-H-Test (er wird gebraucht, wenn man drei oder mehr unterschiedliche, also unabhängige, Gruppen vergleicht). In allen Fällen handelt es sich um sogenannte nichtparametische („verteilungsfreie“) Tests. Dies bedeutet lediglich, dass man sie auch anwenden kann, wenn man nicht davon ausgehen kann, dass die Daten normalverteilt sind. Das ist auch ein Grund dafür, dass bei kleinen Gruppengrößen oft anstatt des t-Tests ein nichtparametischer Text verwendet wird - also auch bei metrisch skalierten Daten. Da wir aber bereits erklärt haben, dass auch der t-Test recht stark ist, können wir den t-Test ruhig weiterhin auch für kleinere Gruppen mit metrisch skalierten Daten einsetzen. Leider kann Excel keinen dieser Tests durchführen. Wir empfehlen einen kostenlos verfügbaren Online-Test und zeigen hier zwei Beispiele, wann man welchen Test einsetzen sollte. 12.2 Tests für ordinalskalierte Daten 171 <?page no="172"?> 70 Z.B. http: / / www.socscistatistics.com/ tests/ mannwhitney/ [30.11.2024] 12.2.1 Mann-Whitney-U-Test für Unabhängige-Gruppen-Designs Wir führen eine Befragung bei unseren zwei Gruppen durch, die entweder nach Vokabellernmethode X oder Vokabellernmethode Y gelernt haben. Wir wollen sehen, welche Gruppe mit dem Kurs zufriedener ist. Dafür bitten wir die Kursteilnehmer, ihre Vokabellerneinheiten zu beurteilen, und zwar auf einer Likert-Skala von 1 (fand ich ganz schrecklich) bis 5 (fand ich ganz toll). Daten, die mit Likert-Skalen erhoben werden, sind ordinalskaliert, weswegen wir hier keinen t-Test durchführen können. Die Bewertungen der Kursteilnehmer ergeben folgende Daten (Tabelle 3): Methode X Methode Y 4 3 4 4 3 3 5 2 3 3 5 3 4 1 4 - Tabelle 3: Ergebnisse der Likert-Skala-Umfrage Wenn Sie den U-Test online durchführen lassen, 70 können Sie die Daten direkt unter „Population 1“ (also alle Ergebnisse der Gruppe X) bzw. „Population 2“ (alle Ergebnisse der Gruppe Y) eingeben. Dann bestimmen Sie das benötigte Signifikanzniveau (wir nehmen hier wieder 0.05) und ob unsere resultierende Teststatistik U ein- oder zweiseitig berechnet werden soll (wir bleiben bei zweiseitig) und klicken auf „Calculate U“. Wir erhalten das Ergebnis: „U-value: The U-value is 8. The critical value of U at p ≤ 0.05 is 10. Therefore, the result is significant at p ≤ 0.05.“ Der genaue p-Wert wird als .02382 angegeben. Unser U-Wert war somit signifikant nach dem vorbestimmten notwendigen Signifikanzniveau. Bei der Ergebnispräsentation müssen wir beim U-Test übrigens die jeweiligen Gruppengrößen dort angeben, wo wir ansonsten immer die Freiheitsgrade aufführen. Wir berichten über die Ergebnisse unserer Erhebung wie folgt: Ein Mann-Whitney-U-Test ergab signifikante Unterschiede in der Zufriedenheit, gemessen mit einer Likert-Skala von 1 (fand ich ganz schrecklich) bis 5 (fand ich ganz toll). Dabei 172 12 Prüfen von Unterschieden und Veränderungen <?page no="173"?> 71 Z.B. https: / / www.socscistatistics.com/ tests/ signedranks/ [30.11.2024] zeigte sich die Gruppe, die nach Methode X (Median = 4.0) lernte, zufriedener als die Gruppe, die nach Methode Y lernte (Median = 3.0) (U (n1 = 8, n2 = 7) = 8.00, p = .024). 12.2.2 Wilcoxon-Test für Abhängige-Gruppen-Designs Sie möchten untersuchen, ob der Einsatz von Lehrmethode X auch einen Einfluss auf die Schulnoten hat. Sie lassen sich die Noten aus dem Sprachenfach von der Lehrkraft geben, und zwar von direkt vor sowie von direkt nach der (nun längerfristig eingesetzten) Wortschatzlernreihe. Sie erhalten für 14 Schüler Ergebnisse, die Sie auswerten können, die wir hier aus formattechnischen Gründen in einer fortgesetzten Tabelle angeben (Tabelle 4): Anfang Ende - Anfang (Forts.) Ende (Forts.) 2,3 1,7 - 4,3 4,7 3,0 2,7 - 2,0 1,7 4,0 2,7 - 3,3 3,0 3,7 3,7 - 4,0 3,3 3,0 3,0 - 3,0 2,7 5,3 5,0 - 2,0 2,0 2,7 2,3 - 3,3 3,7 Tabelle 4: Sprachfachnoten vor und nach der Lernmethode X Weil wir es mit einem Abhängige-Gruppen-Design zu tun haben, führen wir einen Wilcoxon-Vorzeichen-Rang-Test (auch Wilcoxon-Test genannt) durch. 71 Wenn wir das Programm diesen Test berechnen lassen, erhalten wir als Teststatistik einen sog. z-Wert, hier: z = 1.33 (p = .184), was nicht signifikant ist. Das bedeutet, dass die Wortschatzreihe - zumindest für unsere 14 Teilnehmer - die Noten nicht signifikant verbessert hat. (Das muss aber nicht das Aus für unsere Hypothese bedeuten - eventuell wird das Ergebnis mit mehr Teilnehmern signifikant, wie wir auch im Kapitel 13 sehen werden.) Wir berichten über die Ergebnisse unserer Erhebung wie folgt: Ein Wilcoxon-Vorzeichen-Rang-Test wurde durchgeführt, um die Veränderung in der Schulnote zwischen den Messzeitpunkten „Anfang“ (Median = 3.15) und „Ende“ (Median = 2.85) zu untersuchen. Die Analyse zeigte keine signifikante Veränderung in den Schulnoten (N = 17, z = 1.33, p = .184). Die Lehrmethode X hat entsprechend zu keiner Verbesserung der Schulnote geführt. 12.2 Tests für ordinalskalierte Daten 173 <?page no="174"?> Chi-Qua‐ drat-Test 12.2.3 Test für nominalskalierte Daten: Chi-Quadrat-Test Bislang haben wir Tests behandelt, die für metrisch skalierte (t-Tests sowie Varianzanalysen) oder für ordinalskalierte (Mann-Whitney-U-Tests und Wilcoxon-Tests) Da‐ ten verwendet werden. Bei nominalskalierten Daten (wie Geschlecht, Erstsprache, Haarfarbe usw.) verwenden wir häufig den Chi-Quadrat-Test. Da wir diesen Test schon ausführlich in Kapitel 11 behandelt haben, werden wir uns hier auf die Anwendung des Tests zum Prüfen auf Unterschiede beschränken. Nehmen wir als Beispiel Fehlerkorrekturverhalten. Lehrpersonen korrigieren Auf‐ sätze häufig so, dass sie Kommentare an den Rand schreiben, wenn der Schüler einen Fehler gemacht hat. Diese Rückmeldung kann kurz oder ausführlich sein. Nehmen wir an, ein Schüler schreibt: Beide Maler produzierten Selbstportraits, aber es sah gar nicht nach ihm selbst aus. Ein kurzer Kommentar wäre: „Falsch; ‚es‘ ist unklar.“ Ein ausführlicher Kommentar könnte ungefähr so lauten: „Referenz unklar: Im ersten Teil des Satzes beziehst du dich auf zwei Maler; auf was beziehen sich also ‚es‘ und ‚ihm selbst‘? “Wir könnten die Aufsätze auch ohne jeden geschriebenen Kommentar zurückgeben und den Schülern sagen, dass in ihren Aufsätzen sehr viele Fehler sind und sie sie neu schreiben müssen. Die Frage ist nun, welcher der drei Ansätze der effektivste ist, unsere Forschungs‐ frage ist also, ob man ausführliche Kommentare über die Fehler in Schulaufsätzen schreiben sollte, lieber sehr kurze, oder lieber gar keine. Nachdem die Schüler ihre Aufsätze ohne Kommentare oder mit kurzen oder mit ausführlichen Kommentaren zurückerhalten haben, schreiben sie sie neu und geben sie wieder ab. Einige der überarbeiteten Sätze sind nun korrekt, andere nicht. Wir wollen nun herausfinden, ob „kein Kommentar“, „kurzer Kommentar“ oder „ausführlicher Kommentar“ zu mehr korrekten Sätzen geführt hat, d. h. wir wollen wissen, ob es eine Beziehung zwischen der Art der Rückmeldung und der Verbesserung gibt. Wir untersuchen alle Sätze in der überarbeiteten Version, die in der Originalfassung einen Fehler enthielten, stellen fest, wie viele jetzt korrekt und wie viele immer noch inkorrekt sind, und erhalten (bei ungefähr 80 Aufsätzen) die Verteilung in Tabelle 5. neugeschriebener Satz kein Kommentar kurzer Kommentar ausführlicher Kommentar inkorrekt 18 13 29 korrekt 2 67 55 Tabelle 5: Beobachtete Häufigkeiten Tabelle 5 entnehmen wir, dass kurze Kommentare zu mehr korrekten Sätzen führen als ausführlichere Kommentare und dass die Methode, Aufsätze ohne Kommentar zurückzugeben, nicht sehr erfolgreich ist. Wir möchten aber feststellen, ob dies wirklich 174 12 Prüfen von Unterschieden und Veränderungen <?page no="175"?> Ergebnispräsenta‐ tion stimmt, d. h., ob es tatsächlich eine Beziehung zwischen der Art der Rückmeldung und den Ergebnissen der Schulaufsätze gibt. Wir erhalten das Ergebnis: χ 2 = 39.86 bei 2 Freiheitsgraden (df) und p < .001 Es gibt also eine Beziehung zwischen der Art der Rückmeldung und der erzielten Verbesserung bei den Aufsätzen der Schüler. Wollen wir die Ergebnisse für die oben erwähnte Studie präsentieren (mit der For‐ schungsfrage, ob man lange Kommentare über die Fehler in Schulaufsätzen schreiben sollte oder lieber sehr kurze), können wir sie etwa wie folgt beschreiben: Ein bei den Daten in Tabelle [X] angewandter Chi-Quadrat-Test zeigte, dass kurze Kommentare zu signifikant besseren Ergebnissen führten als ausführliche Kommentare und keine Kommentare (χ2 = 39.86, df = 2, p < .001). 12.2.4 Zusammenfassung: Wann man welchen Test benutzt Wir fassen in Tabelle 6 die verschiedenen statistischen Tests für experimentelle Verfahren, die wir hier angesprochen haben, zusammen, und erinnern dabei wieder an die Grafik bei der Einleitung zu Schritt 3: Anzahl Datensätze Gruppen Skalenniveau Verfahren 2 abhängig metrisch t-Test für abhängige Gruppen unabhängig metrisch t-Test für unabhängige Gruppen abhängig ordinal Wilcoxon-Test unabhängig ordinal Mann-Whitney-U-Test 3+ unabhängig metrisch ANOVA oder MANOVA abhängig metrisch ANOVA mit Messwiederholung unabhängig ordinal Kruskal-Wallis-Test abhängig ordinal Friedman-Test 4 2 abhängige metrisch ANCOVA (Prä-/ Posttestdesign) unterschiedlich nominal Chi-Quadrat-Test Tabelle 6: Auswahl des richtigen Tests für experimentelle Verfahren 12.2 Tests für ordinalskalierte Daten 175 <?page no="176"?> Aufgaben 1. Sehen Sie sich die Daten in der untenstehenden Tabelle an (aus Platzgründen stellen wir die Tabelle in zwei Spalten nebeneinander). Die Daten beziehen sich auf die Ergebnisse von zwei zufällig ausgewählten Schülergruppen bei einem Sprachtest. Eine Gruppe (Gruppe A) wurde von einer jungen, enthusiastischen, aber unerfahrenen Lehrerin unterrichtet, die andere Gruppe (Gruppe B) wurde von einer seit 1990 an der Schule beschäftigten Lehrerin unterrichtet. Finden Sie heraus, ob die alte Lehrerin vielleicht darüber nachdenken sollte, in den Ruhestand zu gehen. Gruppe A Gruppe B - A (Forts.) B (Forts.) 8 7 - 7 5 10 4 - 4 5 8 6 - 7 3 6 8 - 8 7 7 6 - 5 6 6 7 - 3 2 6 6 - 9 7 8 6 - 10 6 4 5 - 8 2 3 3 - 5 6 2. Die zwei Schülergruppen aus Aufgabe 1 haben einen Fragebogen erhalten. Eine der Fragen war: „Glauben Sie, dass Lehrerinnen, die älter als 50 Jahre sind, über den Vorruhestand nachdenken sollten? “ Es ergab sich, dass alle Schüler in Gruppe A, die fünf oder mehr Punkte erreicht hatten, diese Frage bejahten, wohingegen dies in Gruppe B nur bei den Schülern der Fall war, die sechs oder mehr Punkte hatten. Finden Sie heraus, ob es eine Beziehung zwischen der Einstellung der Schüler und dem Alter der Lehrerin, die sie unterrichtete, gibt. 3. Sie entscheiden sich, ein Forschungsprojekt zu beginnen, um herauszufinden, ob es einen Unterschied in der Satzlänge bei Artikeln über Politik in Boulevard-Zeitun‐ gen und seriösen Zeitungen gibt. Sie berechnen dazu den Mittelwert der Anzahl der Wörter pro Satz in den Artikeln von sechs Boulevardzeitungen und sieben seriösen Zeitungen und erhalten die folgenden Resultate: 176 12 Prüfen von Unterschieden und Veränderungen <?page no="177"?> Boulevard-Zeitungen seriöse Zeitungen 9 22 14 30 17 28 20 27 10 40 14 16 - 21 Führen Sie einen geeigneten statistischen Test durch, um herauszufinden, ob die Unterschiede wahrscheinlich vom Zufall abhängen oder signifikant sind, und schreiben Sie einen kurzen Forschungsbericht, in dem Sie auch Ihre Schlussfolge‐ rungen ziehen. Aufgaben 177 <?page no="179"?> Power 13 Statistische Signifikanz und Aussagekraft 13.1 Wie interpretiere ich meine Ergebnisse? Wir beginnen mit einem einfachen Beispiel. Wir haben einen normierten und standar‐ disierten Leseverständnistest in einem (sehr kleinen) Masterseminar der Germanistik durchgeführt, weil wir wissen wollten, ob unsere Hypothese stimmt, dass Frauen bes‐ sere Leser als Männer sind. Unsere Ergebnisse haben wir wie folgt zusammengefasst: In einer Untersuchung des Leseverstehens im Deutschen von Studentinnen (n = 5) und Stu‐ denten (n = 4) in einem Masterseminar konnte gezeigt werden, dass Frauen durchschnittlich bessere Ergebnisse (M = 50.8) als Männer (M = 41.8) erzielten, dass dieser Unterschied zwar recht groß, aber nicht statistisch signifikant war (t(7) = 1.10; p = .300; d = 0.74). Was bedeutet dies aber? Wir haben zwar einen t-Wert, nun erscheinen aber noch zwei andere Testwerte (p und d), die uns offenbar weitere, grundlegende Informationen zu den Ergebnissen liefern. Diese Werte gehen darauf zurück, dass uns reine Teststatistiken wie die Pearsons Korrelation r, Chi-Quadrat χ 2 , Mann-Whitneys U oder der Students t nicht ausreichend Informationen liefern, um die Ergebnisse zu interpretieren. Um eine Interpretation zu ermöglichen, müssen wir uns drei weitere Fragen stellen: 1. Wie hoch ist die Wahrscheinlichkeit, dass wir die Nullhypothese („es gibt keine Unterschiede in der Grundgesamtheit“) versehentlich verwerfen - dass wir also glauben, es gibt Unterschiede zwischen zwei Variablen, wenn es in Wirklichkeit keine gibt? 2. Wie hoch ist die Wahrscheinlichkeit, dass wir unsere Unterschiedshypothese („es gibt Unterschiede zwischen den Gruppen“) verwerfen, obwohl sie richtig ist? 3. Ist der Unterschied bedeutsam, d. h. groß genug, um für uns interessant zu sein? Bei den ersten beiden Fragen handelt es sich um potentielle Fehler. Verwerfen wir fälschlicherweise die Nullhypothese, handelt es sich um einen sogenannten α-Fehler (Alpha-, Typ-I-Fehler). Verwerfen wir fälschlicherweise unsere Hypothese, handelt es sich um einen β-Fehler (Beta-, Typ-II-Fehler). Und die dritte Frage beantworten wir, indem wir die Effektstärke oder Aussagekraft der Ergebnisse berechnen. Die Frage nach einem möglichen Typ-II-Fehler beantworten wir mit der statischen Power (Teststärke). Diese wird in der Regel vor der Durchführung einer Studie be‐ rechnet und ist für Fragen wie: „Wie groß soll meine Stichprobe sein? “ grundlegend. Zur Berechnung kann man verschiedene Werkzeuge (z. B. Power-Rechner) nutzen. Dafür müssen jedoch erwartbare Effektstärken bekannt sein - ein Problem, das schwer zu lösen ist, wenn es kaum vergleichbare Studien mit ähnlichen Daten gibt. Da die Power nach wie vor selten berichtet wird und in studentischen Arbeiten oft keine aus‐ reichend großen Stichproben erzielt werden, um eine angemessene Teststärke zu er‐ <?page no="180"?> 72 Um es noch genauer auszudrücken: Die Signifikanz bezeichnet die Wahrscheinlichkeit, das gefun‐ dene Ergebnis oder ein noch größeres Ergebnis zu erhalten, wenn die Nullhypothese zutrifft und somit z. B. eigentlich kein Unterschied zwischen den Gruppen besteht. Für eine interessante Diskussion der Probleme um die Interpretation des p-Werts s. Gigerenzer, G. (2018). Statistical rituals: The replication delusion and how we got there. Advances in Methods and Practices in Psychological Science, 1(2), 198-218. https: / / doi.org/ 10.1177/ 2515245918771329 73 Dass dies nicht unbedingt sinnvoll ist, ist recht deutlich, aber Moden sind manchmal schwer zu bekämpfen. Für eine wirklich sehr lesenswerte Diskussion über die Probleme, die mit statistischer Signifikanz einhergehen, s. Ziliak, S. T. & McCloskey, D. N. (2008). The cult of statistical significance: How the standard error costs us jobs, justice, and lives. Univ. of Michigan Press. 74 Kleiner, aber feiner Notationsunterschied: Weil p nie größer als 1.0 sein kann, gilt nach APA7-Richt‐ linien, dass keine Null vor dem Komma (und auch kein Komma, sondern ein Punkt als Dezimalpunkt) angegeben wird. 75 Das liegt daran, dass Statistikprogramme p-Werte nun exakt berechnen können, während man früher händisch in Tabellen die ungefähren p-Werte von < .05, < .01 usw. nachschlagen musste. reichen, gehen wir an dieser Stelle nicht näher darauf ein. Stattdessen konzentrieren wir uns auf die Kennwerte, denen man (fast) immer in Forschungsstudien begegnet. 13.2 Was ist statistische Signifikanz? Statistische Signifikanz, die mit dem Kennwert p angegeben wird, ist die Wahrschein‐ lichkeit, einen nicht vorhandenen Effekt als überzufällig wahrscheinlich anzunehmen. Das hört sich kompliziert an und ist tatsächlich nicht so ganz einfach zu interpretieren. 72 Dieser Wert muss (fast) immer zu den Teststatistiken angegeben werden und ist - ganz wichtig! - nicht mit der Bedeutung der Ergebnisse zu verwechseln. Der p-Wert kann maximal 1.0 betragen. Das liegt daran, dass es sich um eine Wahrscheinlichkeit handelt - und Ereignisse können von 0 % (0.0) bis 100 % (1.0) wahrscheinlich sein (wenn die Regenwahrscheinlichkeit 1.0 oder 100 % ist, dann sollten Sie unbedingt einen Regenschirm einpacken). p-Werte müssen sich unter einem bestimmten Niveau halten, sodass wir die Ergeb‐ nisse als „statistisch signifikant“ bewerten. Was dieses Niveau ist, hängt eigentlich von der jeweiligen Forschungsfrage und den Begebenheiten der Untersuchungssituation ab. Es hat sich allerdings etabliert, nur bestimmte p-Werte zu akzeptieren, und zwar i. d. R. solche, die unter dem Wert 0.050 liegen. 73 Was bedeutet aber ein p-Wert von p < .05? 74 Gehen wir zurück zur Definition, dort heißt es: Die Wahrscheinlichkeit, dass wir einen nicht vorhandenen Effekt als überzufällig wahrscheinlich annehmen (d. h. das Ergebnis ist nicht signifikant), ist kleiner als 1 zu 20 oder 5-%. Man merkt: p wird oft als unter einem spezifischen Wert angegeben. Häufig liest man in Fachartikeln Werte wie p < .05, p < .001 oder p < .001. In neueren Artikeln liest man immer öfter genaue p-Werte: p = .045 oder p = .002. 75 Egal, ob ein p-Wert als „kleiner als“ oder als genauer Wert angegeben wird, wird i. d. R. ein p-Wert von höchstens p = .049 als „signifikant“ interpretiert. Die Signifikanz‐ 180 13 Statistische Signifikanz und Aussagekraft <?page no="181"?> 76 Eigentlich ist es der Standardfehler des Mittelwerts (standard error), der anfällig ist, aber das ist für die Darstellung in dieser Einführung Haarspalterei. 77 Das ist u. a. ein Grund, warum manche Zeitschriften und Verbände (z. B. die American Statistical Association) inzwischen empfehlen, komplett auf die Angabe der p-Werte zu verzichten. (Wasser‐ stein, R. L., Schirm, A. L., & Lazar, N. A. (2019). Moving to a world beyond „p<0.05“. The American Statistician, 73 (sup1), 1-19). significance fallacy prüfung kann somit zeigen, dass wir Ergebnissen vielleicht doch nicht trauen dürfen, weil die Gefahr eines α-Fehlers zu groß ist. Manche Anwender von statistischen Verfahren freuen sich über einen p-Wert von .003 mehr als über einen von .044, weil sie denken, dass der erste Wert viel beeindruckender sei als der zweite, in dem Sinne, dass die gefundene Relation oder der gefundene Unter‐ schied bedeutsamer sei. Aber dieser Gedanke entsteht dadurch, dass man zwei Dinge verwechselt: die Wahrscheinlichkeit, dass wir meinen, Unterschiede zu finden, wo keine sind, und die Relevanz der Ergebnisse (Aussagekraft). Dies so zu bewerten, ist eindeutig falsch. Denn p hat an sich keine Wertigkeit: p = .003 ist nicht besser als p = .044. Es bedeutet nur, dass die Wahrscheinlichkeit eines α-Fehlers niedriger ist. Der p-Wert bringt unterschiedliche Probleme mit sich. Insbesondere ist er sehr abhängig von der Stichprobengröße. 76 Das bedeutet: Größere Stichproben haben eine größere Chance, statistisch signifikante Ergebnisse zu erzielen, auch wenn die Stärke des Zusammenhangs oder der Unterschiede minimal ist. 77 Wir stellen das mit einem Beispiel dar. Und zwar nehmen wir wieder die Daten, die im Beispiel zu Beginn des Kapitels berichtet wurden. Wir fragen uns, was mit p passiert, wenn wir einfach die Anzahl der beobachteten Fälle erhöhen, indem wir die erhobenen Daten versechzehnfachen. Das Ergebnis: In einer Untersuchung des Leseverstehens im Deutschen von Studentinnen (n = 80) und Studenten (n = 64) in einem Masterseminar konnte gezeigt werden, dass Frauen durchschnittlich bessere Ergebnisse (M = 50.8) als Männer (M = 41.8) erzielten, und dass dieser Unterschied groß und statistisch signifikant war (t(142) = 5.14; p < .001; d = 0.86). Sie merken: Auch wenn die Mittelwerte der zwei Gruppen gleich bleiben, sind unsere Ergebnisse auf einmal doch statistisch signifikant. (Der d-Wert ändert sich auch, allerdings nur ganz leicht, wir kommen gleich dazu bei der Besprechung der Effektstärke.) Der p-Wert sagt also nichts über die Bedeutung des Testwerts aus. Deshalb berichten Studien neben der statistischen Signifikanz auch über die Aussagekraft der gefundenen Ergebnisse - heutzutage auch, wenn diese nicht statisch signifikant sind. 13.3 Was ist die Aussagekraft? Was sagt uns dann, ob unsere Ergebnisse bedeutend sind, wenn nicht statistische Signifikanz? Diese Information gibt uns die Aussagekraft, die entweder als Assoziati‐ onsstärke (engl. strength of association) oder als Effektgröße (engl. effect size) angegeben 13.3 Was ist die Aussagekraft? 181 <?page no="182"?> 78 Da dies ein Einführungswerk ist, beschränken wir uns auf jeweils nur eine der am häufigsten genannten Möglichkeiten, über die Aussagekraft zu berichten. Es gibt viele weitere Verfahren, die unterschiedliche Berechnungsgrundlagen haben. Mehr Informationen finden Sie dazu u. a. in Döring (2023, Kap.-14). Streuung wird, je nachdem, ob wir eine korrelative Hypothese oder eine Unterschiedshypothese aufgestellt haben. Die grundlegende Idee dahinter ist, dass die in Untersuchungen gefundenen Er‐ gebnisse immer von weiteren Faktoren beeinflusst werden, die nicht in der Studie berücksichtigt sind. Die abhängige Variable „Testergebnis“ wird z. B. auch von anderen Faktoren beeinflusst als die unabhängige Variable „Lehrmethode“, selbst wenn nur diese manipuliert wurde. Die Aussagekraft zeigt, inwiefern eine Variable eine andere erklären kann (oder nicht erklären kann), oder wie stark die Auswirkung einer Variable auf eine andere ist. Die Aussagekraft eines Ergebnisses beruht auf zwei Konzepten. Das erste ist die Stärke der Beziehung zwischen Variablen. Diese wird durch die erklärte Varianz dargestellt - also dem Anteil der Streuung einer Variable, der durch eine andere Variable erklärt werden kann. Das zweite Konzept ist das der Mittelwertunterschiede. Hier geht es darum, wie stark sich der Mittelwert einer Gruppe vom Mittelwert einer anderen unterscheidet - gemessen in Anteilen der Standardabweichung (z. B. 1,5 Standardabweichungen Unterschied). Beide Konzepte sind recht robust gegenüber der Stichprobengröße - im Gegensatz zur p-Statistik. Die Effektgröße erlaubt daher eine Antwort auf die folgenden Fragen: 1. In welchem Umfang erklärt eine Variable die Varianz einer anderen (erklärte Varianz)? 2. Wie stark ist der Zusammenhang zwischen den beiden Variablen (Zusammen‐ hangs-Effektgröße)? 3. Wie unterschiedlich sind die Mittelwerte der verglichenen Gruppen (Unter‐ schieds-Effektgröße)? Wir gehen im Folgenden auf diese drei Möglichkeiten kurz ein und geben für jede Art der Aussagekraft ein Beispiel. 78 13.3.1 Erklärte Varianz: r 2 Die erklärte Varianz zeigt, wie viel Prozent der Varianz oder Streuung von Variable B durch Variable A erklärt werden kann. Sie kann für alle in diesem Buch eingeführten statistischen Testverfahren berechnet werden; wir gehen hier exemplarisch auf die erklärte Varianz bei korrelierenden Werten ein. Wir veranschaulichen dies zuerst an einem Beispiel. Nehmen wir an, wir wüssten, dass es eine Korrelation zwischen dem IQ (gemessen mit einem der Standard-IQ-Tests) und den Examensnoten von Germanistikstudenten gibt. Selbstverständlich wäre diese Korrelation nicht perfekt, vermutlich ist sie nicht einmal besonders hoch. Nehmen 182 13 Statistische Signifikanz und Aussagekraft <?page no="183"?> 79 Wie bei den p- und r-Werten wird die Null vor dem Dezimalpunkt nicht aufgeschrieben, weil der Absolutwert der Zahl nicht größer als 1 sein kann (Richtlinien nach APA7, 2020). Determina‐ tionskoeffi‐ zient r 2 Interpreta‐ tion von r 2 wir an, wir haben hierzu den IQ und die Examensnoten von zwei unterschiedlich großen Gruppen erhoben. Bei einer Gruppe von 100 Studenten ist der Zusammenhang gering, jedoch statistisch signifikant r = .30 (p < .001); bei einer zweiten Gruppe von 10 Studenten ergibt sich eine mittlere, statistisch signifikante Korrelation von r = .66 (p = .045). Die Frage ist jetzt: Wie gut erklärt das Ergebnis von Test A (IQ) das Ergebnis von Test B (Examensnote)? Eine Maßzahl ist der Determinationskoeffizient. Bei Korrelationen nehmen wir das Quadrat von Pearsons r, das wir dann als r 2 bezeichnen. In unserer ersten Gruppe hätte r = .30 einen r 2 -Wert von .09. 79 Wenn wir dies mit 100 multiplizieren, erhalten wir den Prozentanteil der erklärten Varianz. Der Prozentsatz der erklärten Varianz ist also .30 x .30 x 100 = 9 %. Das bedeutet: 9 % der Unterschiede in den Examensnoten lassen sich mit der Intelligenz der Examenskandidaten erklären. Daraus lässt sich ableiten, dass der IQ zwar ein relevanter Faktor für die Examensnoten ist, dass jedoch andere Faktoren existieren, die die anderen 91 % der Varianz erklären. Beide Variablen messen sozusagen zu 9 % das gleiche Konstrukt. In der zweiten Gruppe sieht es etwas anders aus: Hier war r = .66, sodass r 2 = .44. Die Varianz der ersten Variablen erklärt hier 44 % der zweiten. In der Interpretation der erklärten Varianz gehen wir davon aus, dass ein r 2 ab .02 einen geringen Effekt zeigt, ab .09 einen mittleren Effekt und ab .25 einen erheblichen Effekt (vgl. Döring, 2023, S.-802). Die Größe der Varianz der Examensnoten, die durch Intelligenz erklärt werden kann, ist also bei der ersten Gruppe mit r 2 =.09 wahrschein‐ lich noch klein genug, um nicht wirklich ernst genommen zu werden. Ganz anders ist es bei der zweiten Gruppe: Hier ist die erklärte Varianz mit r 2 = .44 recht hoch. Versuchen wir, das Konzept grafisch darzustellen. Wir stellen uns vor, alle Werte jeder Variable sind in jeweils einem Kreis. Wie hoch ist die Überlappung der zwei Kreise in unserem Beispiel? Für die erklärte Varianz von Intelligenz und Noten im ersten Beispiel ist sie nicht groß: Es handelt sich letztendlich nur um 9-% der Varianz (Abbildung 1): Abb. 1: r = .30, r 2 = .09 Sie merken: Auch wenn der Zusammenhang zwischen Intelligenz und Noten bei der ersten Gruppe einen kleineren p-Wert als der Zusammenhang bei der zweiten Gruppe hat, ist der Zusammenhang bei der zweiten Gruppe stärker. Man darf sich also nicht von der statistischen Signifikanz zu falschen Interpretationen verleiten lassen: Kleinere p-Werte sagen nichts über die Größe des Zusammenhangs oder der Unterschiede aus. 13.3 Was ist die Aussagekraft? 183 <?page no="184"?> 80 https: / / calculator.academy/ cramers-v-calculator/ [30.11.2024] 81 Das bedeutet, dass alle Abweichungen vom Mittelwert der Gruppe 1 und Gruppe 2 in die Berechnung einer Art „Gesamtstandardabweichung“ für beide Gruppen einfließen. Das ist vielleicht nicht die hübscheste Lösung, mit unterschiedlichen Standardabweichungen unserer Gruppen umzugehen, aber eine einfache, die auch alle Online-Programme meistern. 82 Ein sehr bekanntes Beispiel für das Nutzen von der Effektstärke zum Vergleich von unterschiedlichen Studien zu ähnlichen Themen ist die sog. „Hattie-Studie“, die den Effekt von unterschiedlichen Lernkontexten auf schulischen Erfolg analysiert: Hattie, J. (2024). Visible learning 2.0. Deutschspra‐ chige Ausgabe von “Visible learning: The sequel”. Schneider Verlag Hohengehren. 13.3.2 Zusammenhangs-Effektgröße für nominale Daten: Cramérs V Der Chi-Quadrat-Test prüft, ob ein statistisch signifikanter Zusammenhang zwischen nominalskalierten Variablen besteht. Wollen wir etwas über die Stärke dieser Bezie‐ hungen herausfinden, berechnen wir i. d. R. den Cramérs V. Wir fragen uns also: Wie eng sind diese kategorialen Merkmale miteinander verknüpft? Cramérs V berechnen wir mit Hilfe eines Online-Rechners 80 für die Ergebnisse in Kapitel 11, Tabelle 5. Dort hatten wir das (gerundete) Ergebnis χ 2 (n = 156) = 3.31, p = .069. Geben wir die entsprechenden Daten in den Online-Calculator ein - neben χ 2 und der Anzahl der Teilnehmenden brauchen wir noch die Anzahl der Spalten (2) und der Reihen (auch 2) - erhalten wir den Kennwert: V = .145. Cramérs V wird nun so interpretiert: Ab 0.1 nehmen wir einen geringen Effekt an, ab 0.3 einen mittleren und ab 0.5 einen erheblichen. Die Ergebnisse waren daher nicht statistisch signifikant und zeigten nur einen geringen Effekt, es gibt also keinen interessanten Zusammenhang zwischen Gruppe und Vokabellernstrategien. 13.3.3 Unterschieds-Effektgröße: Effektstärke d Führen wir unterschiedsprüfende Verfahren durch, erhalten wir einen statistischen Kennwert wie t = 1.10. Diesen können wir aber nicht wirklich interpretieren. Natürlich kann man hier auch einfach die Mittelwerte der zwei Gruppen betrachten und vergleichen. Wenn wir das Beispiel aus Kapitel 13.2 wieder aufgreifen, bei dem wir viele Fälle erhoben haben, sehen wir, dass der Mittelwert der Männer 41.8 beträgt, der der Frauen 50.8. Wir haben gesehen, dass dieser Unterschied statistisch signifikant ist (t(142) = 5.14, p < .001, d = 0.86). Aber ist der Unterschied von (nur) 9 Punkten hier bedeutend? Cohens d ist ein statistischer Kennwert der Effektstärke (auch Effektgröße genannt). Es ist ein standardisiertes (das bedeutet, überall gleich interpretierbares) Maß, das uns sagt, wie viele Standardabweichungen die Mittelwerte der beiden Gruppen auseinander liegen, gemessen an der gepoolten, also zusammengeführten, Standard‐ abweichung. 81 Die Effektstärke zu berichten, hat (mindestens) zwei Vorteile: Erstens ist sie von der Art der Messung unabhängig (damit können Sie z. B. Tests mit 100 Items mit solchen Tests, die nur 46 Items haben, vergleichen), 82 und zweitens ist sie größtenteils vom Stichprobenumfang unabhängig. 184 13 Statistische Signifikanz und Aussagekraft <?page no="185"?> 83 In der 3. Auflage dieses Buchs aus dem Jahr 2016 haben wir Delta als Effektgrößenmaß gewählt. Die Zeiten ändern sich, und Cohens d setzt sich immer mehr durch - u. a. auch in Metaanalysen. Deswegen greifen wir, trotz einiger Bedenken, nur noch d auf. 84 https: / / www.socscistatistics.com/ effectsize/ default3.aspx [30.11.2024] Wir gehen nun exemplarisch auf das häufigste Maß der Effektstärke ein, und zwar Cohens d. 83 Für den t-Test wird d unterschiedlich berechnet, je nachdem, ob die Ergebnisse von gleich großen Gruppen sind oder nicht. d wird bei vielen Online-Sta‐ tistikprogrammen bei der Auswertung der Daten direkt neben t und p auch ausgeben. Falls Sie Excel verwenden, müssen Sie d zusätzlich berechnen lassen. Hierfür müssen Sie die Mittelwerte und Standardabweichungen der beiden Gruppen kennen, ebenfalls die Gruppengrößen. Wir haben dies in einem Online-Programm durchgeführt 84 und das Ergebnis d = 0.86 erhalten. Das wird so interpretiert: Die Mittelwerte der Frauen und der Männer liegen 0.86 Standardabweichungen voneinander entfernt. Wenn wir weitere Effektstärken anschauen, können wir sie ähnlich interpretieren: Ein d von 0.50 bedeutet, dass der Mittelwertsunterschied zwischen beiden Gruppen gleich einer halben Standardabweichung ist, während ein Wert von d = 0.75 bedeutet, dass der Unterschied gleich dreiviertel einer Standardabweichung ist, und ein Wert von d = 2.10 bedeutet, dass die Mittelwerte etwas mehr als zwei Standardabweichungen auseinander liegen. In der Interpretation der Effektgröße zeigt ein d von mehr als 0.2 einen geringen Effekt, ab 0.5 einen mittleren Effekt und ab 0.8 einen erheblichen Effekt (vgl. Döring 2023, S. 802). Das bedeutet: Je höher d ist, desto weniger überschneiden sich die Verteilungen der Ergebnisse der beiden Gruppen. 13.3.4 Warum ist Aussagekraft besonders nützlich? Wie bereits erwähnt, kann man nur durch Berechnungen der Aussagekraft bestimmen, ob die gefundenen Ergebnisse tatsächlich bedeutend sind; der p-Wert sagt uns lediglich, ob der gefundene Effekt statistisch signifikant ist. Es gibt aber noch zwei weitere gute Gründe dafür, die Aussagekraft zu berechnen. Der erste ist, dass wir mit Hilfe der erklärten Varianz und der Effektgröße mehrere Studien vergleichen können. Gehen wir von der Situation aus, dass sowohl Sie als auch eine Kommilitonin dasselbe Experiment machen. Nur erscheinen zu Ihrer Erhebung nur 12 Teilnehmende, bei Ihrer Kommilitonin sind es aber 35. Es ist möglich, dass Sie beide ähnliche Ergebnisse erhalten, Ihre sind aber aufgrund der kleineren Stichprobe nicht statistisch signifikant, die Ihrer Kommilitonin dagegen schon. Wie am Anfang dieses Kapitels bemerkt, hängt statistische Signifikanz stark von den Gruppengrößen ab. Mit Hilfe der Effektgröße können Sie aber beide Experimente miteinander verglei‐ chen und prüfen, ob die Ergebnisse miteinander übereinstimmen. Der zweite Grund, warum man die Aussagekraft in den Forschungsbericht aufneh‐ men sollte, ist ein sehr praktischer: Wollen Sie Ihre Ergebnisse veröffentlichen (und das sollten Sie möglichst tun, wenn diese für das Forschungsfeld relevant sein könnten), 13.3 Was ist die Aussagekraft? 185 <?page no="186"?> 85 Vgl. u. a. das Publication Manual of the American Psychological Association (2020). 86 Für diese und weitere Effektgrößeninterpretationen s. Ellis (2010, S.-41). verlangen viele wissenschaftliche Zeitschriften und Verbände Informationen über die Effektgröße. Dazu gehört auch die American Psychological Association (APA) 85 , die Standards für Publikationen in der Psychologie und Psycholinguistik (und zunehmend auch für die in weiteren Disziplinen wie der Sprachlehrforschung) festlegt. Wir fassen nun die Interpretation der Aussagekraft in Tabelle 1 zusammen: 86 - Kleiner Effekt Mittlerer Effekt Erheblicher Effekt r 2 .01 .09 .25 Cramérs V .10 .30 .50 Cohens d 0.20 0.50 0.80 Tabelle 1: Interpretation der Aussagekraft Ein letzter kleiner Hinweis: Wenn Sie Forschungsstudien lesen, fragen Sie sich immer: Sind die Ergebnisse bedeutungsvoll - ungeachtet der Stichprobengröße? Damit können Sie die Ergebnisse sicherer interpretieren als nur durch die Angaben von Mittelwerten und p-Werten. Aufgaben 1. In der von Hattie durchgeführten Metaanalyse zur Unterrichtsqualität (s. Fußnote 11 in diesem Kapitel) sind Ergebnisse über den Einfluss von unterschiedlichen Faktoren auf den schulischen Lernerfolg (Gesamtleistung) zu finden. Für den Vergleich wurde Cohens d berechnet. U.a. wurden folgende Einflüsse auf den schulischen Lernerfolg berechnet: - Wortschatzprogramme (in der Sprache der Schule): d-= +0.62 - jahrgangsübergreifender Unterricht: d-= -0.01 - Fernsehschauen d = -0.15. Was bedeuten diese Daten? Sind die Effekte bedeutend? 2. Führen Sie den t-Test für unabhängige Gruppen für die Studie in Aufgabe 1 im Kapi‐ tel 12, in der wir zwei Gruppen von Schülern verglichen haben, die unterschiedlich erfahrene Lehrerinnen hatten, wieder durch. Beachten Sie dabei die Effektgröße. Schreiben Sie dann die Ergebnisse so auf, wie sie in der Ergebnisdarstellung einer Studie präsentiert werden. 186 13 Statistische Signifikanz und Aussagekraft <?page no="187"?> Schritt 4: Forschungsbericht Glückwunsch! Sie haben es beinahe geschafft. Es bleibt nur der Bericht. Viele Forsche‐ rinnen entscheiden sich, während der Planungsphase und der Datenerhebung Teile des Berichts zu schreiben. Andere schreiben alles erst dann, wenn alle Analysen angefertigt sind. Wie Sie es handhaben, obliegt Ihnen - jede Person hat eigene Strategien. Wir zeigen Ihnen hier eine typische Struktur eines einfachen Forschungsberichts als eine Art Blaupause für Ihren eigenen und wünschen viel Spaß und Erfolg beim Schreiben. <?page no="189"?> Aufbau des Forschungs‐ berichts Open Science 14 Der Forschungsbericht In den letzten Kapiteln haben wir, nachdem die Ergebnisse berechnet wurden, jeweils in einem kurzen Text gezeigt, wie man sie üblicherweise präsentiert. Jedoch besteht der Forschungsbericht (ein Artikel oder eine Abschlussarbeit) aus wesentlich mehr als diesem einen Absatz mit Informationen zu der statistischen Auswertung. In diesem Kapitel besprechen wir den üblichen Aufbau eines empirischen Forschungsberichts, der sich an die Standards der Psychologie anlehnt und ebenso für die Linguistik und Sprachlehrforschung gilt. Zur Präsentation der Studie gehört weitaus mehr als nur der Bericht. Besonders viel Aufmerksamkeit hat in die letzten Jahre die Diskussion um Open Science, Open Access und Open Data erhalten. Durch Open Science sollen wissenschaftliche Forschungser‐ gebnisse, erhobene Daten (als Rohdaten oder aufgearbeitet in öffentlich zugänglichen Datenbanken) und Methoden (zur Förderung der Replikation von Forschungsergeb‐ nissen) für die breite Öffentlichkeit - sowohl für Forscherinnen als auch für interes‐ sierte Laien - frei zugänglich gemacht werden und Daten nachhaltig, d. h. auch zur Wiederverwendung in anderen Forschungsprojekten, zur Verfügung stehen. Obwohl studentische Abschlussarbeiten meist nicht davon betroffen sind, folgen sie insofern dem Prinzip der Offenheit, indem viel detaillierter als in Forschungsartikeln meist der Fall der Forschungsprozess und die Daten dargestellt werden. Wir gehen hier nicht weiter auf diese Überlegungen ein, verweisen aber darauf, dass bei Forschungsprojek‐ ten immer über die Nachhaltigkeit von Ergebnissen und erhobenen Daten nachgedacht werden soll. Prinzipiell findet man immer sieben Bausteine im Forschungsbericht, wobei deren Bezeichnungen sich von Studie zu Studie leicht unterscheiden können. Im Normalfall gibt es folgende Teile: 1. Abstract 2. Einleitung, theoretischer Rahmen und Besprechung der relevanten Literatur 3. Fragestellung (und bei experimentellen Verfahren Hypothesen) 4. Forschungsdesign / Methodik 5. Ergebnisse 6. Besprechung der Ergebnisse und Schlussfolgerungen bzw. Ausblick 7. Literaturverzeichnis, evtl. Anhänge Wir gehen auf jeden dieser Punkte kurz ein. 14.1 Das Abstract Das Abstract, das meist zwischen 150 und 250 Wörtern umfasst, ist nichts anderes als eine knappe Zusammenfassung der Studie. Da es zwar am Anfang des Berichts steht, <?page no="190"?> Beispiel eines Abstracts aber sämtliche Informationen über die Studie resümiert, sollte es erst dann geschrieben werden, wenn der Forschungsbericht fertig ist. Abstracts gibt es bei Veröffentlichungen in Zeitschriften und meist auch in Sammelbänden. Im Abstract stehen die wichtigsten Informationen über die Studie: der Hintergrund, die Fragestellung und/ oder die Hypothesen, die Stichprobe, die Methode, die wichtigs‐ ten Ergebnisse und die Schlussfolgerungen. In einer Publikation ist dies der Erstkontakt (und oft auch der einzige), den Leser mit der Studie haben, weswegen es äußerst wichtig ist, das Abstract möglichst präzise zu formulieren. Ein Beispiel eines Abstracts in der Sprachlehrforschung: Die absinkenden Lernleistungen von Lernern zu Beginn der Winterzeit werden durch un‐ terschiedliche Hypothesen erklärt, u. a. durch die Temperaturänderung an der Kopfhaut. Die These aus Albert & Marx (2016), das Tragen von Mützen fördere die Behaltensleistung beim Lernen von Vokabeln, wurde daher in einem Feldexperiment mit 61 fortgeschrittenen Lernern des Molvanischen überprüft. Dabei zeigte sich, dass die Gruppe, die beim Lernen der Vokabeln - sowohl im Unterricht als auch beim häuslichen Einüben der Vokabeln - konsequent Mützen aufgesetzt hatte, bessere Behaltensleistungen aufwies als eine Kontrollgruppe, die keine Mützen aufgesetzt hatte. Die Ergebnisse unterstützen erste Schlussfolgerungen über den potenziellen Nutzen des Tragens von Mützen beim Vokabellernen, wobei die Erprobung der Wirkung der Mützenfarbe noch aussteht. 14.2 Einleitung, theoretischer Rahmen und relevante Literatur Der eigentliche Forschungsbericht beginnt mit der Einleitung; in kürzeren Arbeiten werden Einleitung und theoretischer Rahmen als ein Kapitel präsentiert, in längeren Arbeiten werden hierfür zwei oder mehr Kapitel verwendet. Üblich ist dann eine Einleitung, die nur kurz die Fragestellung der Arbeit vorstellt und dann in jeweils 3-5 Sätzen einen Überblick über die einzelnen Kapitel der Arbeit gibt. Die Einleitung beschreibt die Thematik der Studie und erklärt deren Hintergründe: Was war der Anlass für die Untersuchung? Hier findet man auch das Ziel der Studie; es wird beschrieben, warum die Studie durchgeführt wurde. Der theoretische Rahmen, in dem die eigene Arbeit angesiedelt ist, und die Darstel‐ lung der relevanten Literatur sowie die eigene Stellungnahme dazu folgen meist in einem oder zwei weiteren Kapiteln. Das hat den Zweck, die Studie in den breiteren Forschungskontext einzubetten. Bei der Literaturbesprechung beginnt man meist mit einem generellen Überblick und geht dann auf den engeren Bereich des Projekts ein; dies erlaubt eine logische Progression vom breiteren Forschungsfeld bis zum eigenen Untersuchungsinteresse. Aus dieser Zusammenfassung soll hervorgehen, warum die eigene Studie relevant (und notwendig) ist. Allerdings bestehen hier auch Unterschiede: Wie umfangreich dieser Teil ist, hängt von der Textsorte ab, ob es ein Forschungsbericht in einer wissenschaftlichen Zeitschrift ist (in diesem Fall sollte sich die Besprechung relevanter schon unternommener Forschung recht eng an den 190 14 Der Forschungsbericht <?page no="191"?> Stichprobe Fokus der Studie halten), oder ob es eine Master-Arbeit oder Dissertation ist (in einer Dissertation wird dieser Teil sehr umfangreich sein). Übrigens ist die Bezeichnung „Stand der Forschung“ für das literaturreferierende Kapitel nicht mehr so gebräuchlich wie früher, man wählt eher Überschriften, die genauer auf die besprochenen Inhalte eingehen. 14.3 Fragestellung und Hypothesen Hier werden - meist relativ knapp - die mit empirischen Methoden zu klärenden Fragen erläutert, falls hypothesenprüfend geforscht wird, werden dann die dazugehö‐ rigen Hypothesen aufgestellt. Die Hypothesen sollen sich logischerweise aus den Erkenntnissen des Theorieteils ergeben - wenn nicht, dann sollte man hierfür sehr gute Gründe anführen. Wenn nicht hypothesenprüfend geforscht wird, dann werden nur die Forschungs‐ fragen benannt. Manche hypothesenprüfenden Studien nennen dagegen nur die Hypothesen und nicht die dazugehörigen Fragestellungen. Wir empfehlen, bei hypo‐ thesenprüfenden Studien immer sowohl Forschungsfragen als auch Hypothesen klar darzustellen - damit erzielt man den höchsten Grad an Transparenz. 14.4 Forschungsdesign / Methodik Im Kapitel Forschungsdesign (bzw. Methodik) werden normalerweise Informationen zur Stichprobe, zu den Variablen, zum Untersuchungsmaterial und zum Design inkl. der Instrumente gegeben. Eine detaillierte Beschreibung der Stichprobe sowie der Auswahlkriterien erlaubt dem Leser, eine Vorstellung von der externen Validität der Studie zu entwickeln sowie auf mögliche Störvariablen zu schließen. Hier gibt es häufig Angaben zu Alter, Erst‐ sprache, Geschlecht und dem Untersuchungskontext; je nach Fragestellung werden weitere Informationen wie schon gelernte Fremdsprachen, Niveau in der zu untersu‐ chenden Zielsprache bzw. Dialektgebiet bei Untersuchungen zur Erstsprache, Rechtsvs. Linkshändigkeit (wenn dies für die Erhebung relevant war) erwähnt. Dieser Teil könnte etwa wie folgt formuliert sein: Teilnehmer waren 61 Studenten (10 Männer und 51 Frauen) der Molvanistik bzw. des Lehramts mit Fach Molvanisch im Alter von 20-30 Jahren (Mittelwert: 23.4, SD = 2.6). Alle hatten Deutsch als Erstsprache erworben und zwei bis sechs Fremdsprachen gelernt; sie sprachen durchschnittlich 3.8 Sprachen (inklusive der L1) pro Person. Als erste Fremdsprache wurde stets Esperanto angegeben. Die Studenten wurden nach dem Zufallsprinzip in eine Experimental- und eine Kontrollgruppe eingeteilt, wobei eine Balancierung der Gruppen in Bezug auf die Anzahl von Mützenliebhabern erzielt wurde. 14.3 Fragestellung und Hypothesen 191 <?page no="192"?> 87 Ein Registered Report ist ein Publikationsformat, bei dem die Forschungsfrage, Methode und Datenanalyseplan schon vor der Datenerhebung von einer Zeitschrift begutachtet und angenommen werden. So wird sichergestellt, dass auch neutrale oder nicht-signifikante Ergebnisse veröffentlicht werden - und nicht nur die „interessanten“. Variablen Erhebungs‐ instrumente Auch die Variablen werden häufig in diesem Teil erwähnt (ansonsten werden sie nach den Hypothesen genannt). Bei experimentellen Designs müssen hier unabhängige so‐ wie abhängige Variable(n) genannt werden. Sehr wichtig ist dazu, dass die Kontroll‐ variablen sowie mögliche Störvariablen - die auch bei nicht-experimentellen Designs auftreten - dargelegt werden. Man sollte hier auch offenlegen, wie man versucht hat, die Störvariablen möglichst zu reduzieren, so z.B.: Störvariablen wurden möglichst geringgehalten, indem die beiden Gruppen dieselben Vokabeln mit derselben Anleitung und in derselben Zeit lernten, jedoch die Studenten der Experimentalgruppe im Unterricht und zu Hause beim Vokabellernen die Mützen aufsetzten. Es wurde darauf geachtet, die Vokabeln während der Laufzeit des Experiments nicht im Unterricht zu wiederholen. Die Vokabeltests im Prä- und Posttest waren für beide Gruppen gleich. Das Untersuchungsmaterial wird auch in diesem Kapitel erläutert; es soll dargelegt werden, welche Erhebungsinstrumente (Fragebogen, Korpus, Tests, weitere Messin‐ strumente, Software usw.) bei der Durchführung der Studie eingesetzt wurden. An‐ schließend wird der Untersuchungsablauf (Datenerhebung) beschrieben, sodass die Leser nachvollziehen können, wie Sie zu Ihren Daten gekommen sind. Hier können die Instruktionen an die Teilnehmer wiedergegeben werden und weitere Merkmale der Erhebungssituation wie z. B. Zeitvorgaben usw. werden dargestellt, mit dem Ziel, die Erhebungssituation möglichst klar zu beschreiben. Ein kurzes Beispiel hierzu: Nach einem Vokabel-Prätest erhielt die Experimentalgruppe (saubere) Mützen aus Wolle, die sie beim Lernen tragen sollte. Tests zum Behalten der gelernten Vokabeln wurden eine Woche nach dem Lernen durchgeführt. Die auf Deutsch vorgegebenen Vokabeln waren jeweils auf einem Testbogen (Anhang 1) schriftlich ins Molvanische zu übersetzen. Dafür standen jeweils 10 Minuten zur Verfügung. Die Ergebnisse wurden mittels einer Varianzanalyse ausgewertet. Im Normalfall werden Sie bereits vor der Datenerhebung diese Teile des Forschungsbe‐ richts - Einleitung und Hintergrund, Fragestellung und Hypothesen sowie Forschungs‐ design - verfasst haben (wenn sie einen Registered Report  87 einreichen, muss das sogar so sein). Somit sichern Sie sich ab, dass Sie an alle notwendigen Schritte schon vor der Durchführung Ihrer Studie gedacht haben; evtl. müssen Sie dann nach der Datenerhebung die Textteile mit weiteren, im Laufe der Erhebung hinzugekommenen Informationen ergänzen. 192 14 Der Forschungsbericht <?page no="193"?> 14.5 Präsentation der Ergebnisse In diesem Teil des Berichts werden die Ergebnisse dargestellt, allerdings - und dies ist wichtig - noch nicht interpretiert. Erst in der Diskussion werden Ergebnisse bespro‐ chen und in Verbindung zu den Hypothesen sowie weiteren Forschungsergebnissen gesetzt. Hier geht es um einen möglichst umfassenden Bericht über die Daten; man stellt die statistische Auswertung dar, die meist mit Hilfe von Tabellen und/ oder Grafiken visualisiert wird. Da wir bereits in den vorhergehenden Kapiteln 9-13 detailliert über die Ergebnis‐ darstellung berichtet haben, gehen wir hier nicht weiter darauf ein. 14.6 Besprechung der Ergebnisse und Schlussfolgerungen bzw. Ausblick Je nach Textsorte wird dieser Teil in einem oder zwei Kapiteln dargestellt (bei längeren Berichten wie Abschlussarbeiten trennt man meist die Diskussion der Ergebnisse von den Schlussfolgerungen und dem Ausblick, bei kürzeren eher nicht). Das Ziel dieses Teils ist, zu beschreiben, ob und wie die Forschungsfragen beantwortet wurden bzw. ob die Hypothesen bestätigt wurden oder verworfen werden müssen. Man bezieht sich hier auf den theoretischen Teil der Arbeit und interpretiert nun die Ergebnisse - im Unterschied zur Präsentation der Ergebnisse, wo es nur darum ging, die Daten in aufbereiteter Form vorzulegen. Der Inhalt dieses Kapitels ist im Normalfall etwa: Zusammenfassung der Ergebnisse - Interpretation - Vergleich mit ähnlichen Studien - Bedeutung der Ergebnisse für die Theorie (ggf. auch für die Praxis) - Einschränkungen - Forschungsdesiderata. Bei der Besprechung beginnt man normalerweise mit einer kurzen Wiederholung der gestellten Forschungsfrage(n) und der Darstellung dessen, was man durch die Ergebnisse der Untersuchung darüber in Erfahrung bringen konnte. Man resümiert die Ergebnisse in Hinblick auf die Fragen und/ oder Hypothesen und erläutert, wel‐ chen Stellenwert die Ergebnisse im weiteren Forschungskontext haben, inwiefern sie die Forschung weitergebracht haben. Die Interpretation erfolgt auch auf Basis von Vergleichen mit anderen Forschungsprojekten - man führt es zum Beispiel an, wenn die Ergebnisse diejenigen von anderen Forschenden bestätigen, oder versucht die Diskrepanzen zu erklären, wenn sie dies nicht tun. Anschließend wird meist auch auf Probleme und Einschränkungen der Aussagefähigkeit des eigenen Projekts eingegangen, so zum Beispiel, wenn man sehr wenige Teilnehmende untersucht hat oder wenn Störfaktoren die Ergebnisse hätten beeinträchtigen können (wenn es ein eigenständiges (Teil-)Kapitel ist, heißt es oft „Limitationen“). Bei der Diskussion sollte man auf jeden Fall darauf achten, dass die Ergebnisse nicht „überinterpretiert“ werden. Häufige Fehler in der Besprechung von Forschungsergeb‐ nissen sind zum Beispiel: 14.5 Präsentation der Ergebnisse 193 <?page no="194"?> • Korrelationen werden als kausale Beziehungen interpretiert. • Didaktische Schlussfolgerungen werden gezogen, obwohl die Fragestellung und das Forschungsdesign nicht darauf ausgerichtet waren. • Man schließt auf eine Gesamtpopulation, die aber in der Studie nicht repräsentiert war (externe Validität, s. Kapitel 3 zu Stichproben). • Nicht-signifikante Ergebnisse und Ergebnisse mit unbedeutenden Effektgrößen werden so präsentiert, als ob sie „doch Tendenzen“ aufzeigen würden. Die Diskussion sollte schließlich genug Informationen enthalten, sodass andere For‐ scherinnen zum selben oder einem ähnlichen Thema weiterarbeiten können, wenn sie das wollen. Um zukünftiger Forschung einen Wegweiser zu geben, werden im Ausblick häufig Forschungsdesiderata genannt, die auf Lücken oder noch unbeantwortete Fragen im eigenen Projekt oder im Forschungsfeld hinweisen. Aufgabe Suchen Sie einen empirisch ausgerichteten Aufsatz aus einer linguistischen Zeitschrift oder einer Zeitschrift mit Ausrichtung auf die Sprachlehrforschung, möglichst zu einem Thema, das Ihnen interessant erscheint. Evaluieren Sie den Forschungsbericht anhand der Kriterien, die in diesem Buch besprochen wurden. Werden die unterschied‐ lichen Teile des Forschungsberichts umfassend und zu Ihrer Zufriedenheit dargestellt? Kommen weitere Informationen vor, die hier nicht angesprochen wurden? Halten Sie fest, was Sie durch diese kritische Reflexion für Ihr eigenes Forschungsvorhaben gelernt haben. 194 14 Der Forschungsbericht <?page no="195"?> Anhang: Lösungen der Aufgaben Hinweis: In vielen Fällen können wir auf Grund der Komplexität der Fragestellungen nur einige Lösungsvorschläge oder Musterlösungen anbieten; es bestehen jedoch oft weitere Möglichkeiten. Aufgaben Kapitel 1: Zur Einführung a. Der Einfluss eines Partybesuchs in der Nacht vor einer Prüfung auf diese Prüfung Experimentelle Forschung. Man könnte zwei Gruppen von Versuchsteilnehmern miteinander vergleichen, die möglichst gleich gut im geprüften Fach sind. Die eine Gruppe würde eine Party besuchen und die andere nicht und hinterher vergleicht man die Prüfungsergebnisse. b. Die Beziehung zwischen Sprachlaborübungen und Aussprache Experimentelle Forschung. Man könnte zwei Lernergruppen untersuchen. Ler‐ ner der einen Gruppe (der Experimentalgruppe) kommen in den Genuss von Sprachlaborübungen, die anderen Lerner (die Kontrollgruppe) nicht, dafür jedoch werden ihnen andere Übungsformen zur Verbesserung der Aussprache angeboten, z. B. Chorsprechen u. a. m. Sollte die Experimentalgruppe Ausspracheübungen machen, müsste die Kontrollgruppe ebenso viel Zeit für Ausspracheübungen verwenden, jedoch nicht im Sprachlabor. Am Ende würde beiden Gruppen ein (Aussprache-)Test abgenommen und die Ergebnisse miteinander verglichen. c. Welche Ansichten von de Saussure heute noch für die Linguistik relevant sind Qualitative Forschung. Man könnte hier z. B. eine Umfrage unter Linguisten durchführen, um ihre Meinung zur Bedeutung von de Saussures Ansichten für die heutige Linguistik zu untersuchen. d. Die Fremdsprachenkenntnisse niederländischer Geschäftsleute Quantitative nicht-experimentelle Forschung. Diese Forschungsfrage könnte auf verschiedene Weisen angegangen werden. Eine Möglichkeit wäre die nicht-expe‐ rimentelle Forschung in Form einer Befragung, in der die Geschäftsleute gefragt würden, welche Sprachen sie beruflich benutzen, ob sie diese Sprachen selbst beherrschen und falls ja, wie gut. Möglich wäre aber auch, die Fremdsprachen‐ kenntnisse tatsächlich mit Sprachtests zu testen, was komplizierter wäre, aber genauere Informationen ergäbe. Dies wäre - wie Sie sich vorstellen können - bei dieser Zielgruppe aber schwer zu erreichen. e. Der Nutzen von Korrekturen der Grammatikfehler von Fremdsprachenlernern Experimentelle Forschung. In der Regel würde man zwei Lernergruppen haben und jede Gruppe einige Male unterrichten, vorzugsweise indem man sich auf ein oder zwei grammatische Strukturen konzentriert. In der Experimentalgruppe würden die Fehler der Lerner korrigiert, in der anderen nicht. f. Verwendung von Höflichkeitsformen bei internationalen Verhandlungen <?page no="196"?> Typisch wäre eine Beobachtung, also eine nicht-experimentell angelegte Unter‐ suchung. Da es schwierig ist, Höflichkeitsformen in einer echten Verhandlungs‐ situation aufzunehmen, könnte man einige erfahrene Verhandlungsteilnehmer verschiedener Herkunftsländer bitten, eine Verhandlung in einem Rollenspiel nachzustellen. Dieses Rollenspiel müsste anschließend analysiert werden. Man muss dabei jedoch beachten, dass Rollenspiel-Gespräche meist stark von den tatsächlichen Gesprächen derselben Personen abweichen (vgl. Brons-Albert 1994 zu Rollenspiel-Artefakten). Eine Variante in Form einer Befragung wäre, einigen erfahrenen Verhandlungsteilnehmern einige Sätze und Redewendungen unter‐ schiedlicher Höflichkeitsgrade und aus verschiedenen Kulturkreisen vorzulegen und sie zu bitten, die Häufigkeit dieser Sätze in den Verhandlungen, die sie kennen, zu beurteilen. g. Arten der Selbstkorrektur beim Erst- und Zweitspracherwerb Typischerweise würden Beispiele von Selbstkorrektur gesammelt, z. B. Selbstkor‐ rektur der Äußerung, Neuanfang des Satzes (wie z. B. ich hasse es, morgens aufstehen / aufzustehen) in der Erst- und in der Zweitsprache. Man könnte diese Daten mit Hilfe von Tonaufnahmen von Gesprächen in beiden Sprachen sammeln und bei der Analyse jeder Selbstkorrektur eine Kategorie zuweisen. Dies wäre eine Beobachtung, also nicht-experimentelle Forschung. h. Ein Vergleich des stillen und des lauten Lesens bei der Entwicklung der Lesefähig‐ keit Experimentelle Forschung. Man würde Lesen nach zwei Methoden unterrichten: leises Lesen und lautes Lesen. Nach einer Weile würde beiden Experimentalgrup‐ pen ein Test vorgelegt, um so z. B. Aussprache und Textverständnis zu überprüfen. i. Welches Testverfahren am besten für die Diagnostik von Wortschatzkenntnissen in einer anschließenden Studie bei einer bestimmten Personengruppe eingesetzt werden sollte Hierfür wäre ein exploratives Verfahren mit quantitativen Daten sinnvoll, bei dem man mit einer kleinen Gruppe von Informanden eine begrenzte Anzahl an (möglichst vielversprechenden) Diagnostikverfahren durchführt und schaut, ob die Ergebnisse ähnlich sind, z. B. ob die Person, die die besten Ergebnisse bei Diagnostikverfahren A erzielt, auch unter den Leuten ist, die die besten Ergebnisse bei den weiteren Diagnostikverfahren B und C aufweisen. 196 Anhang: Lösungen der Aufgaben <?page no="197"?> Aufgaben Kapitel 2: Vorplanung einer empirischen Untersuchung Aufgabe 1: a. Fragestellung: Hat der Besuch einer Party in der Nacht vor einer Prüfung einen Einfluss auf die Ergebnisse dieser Prüfung? Mögliche Hypothese: Studenten, die eine Party in der Nacht vor einer Prüfung besuchen, schneiden bei dieser Prüfung schlechter ab als Studenten, die in dieser Nacht nicht feiern und spätestens um 20 Uhr zu Hause sind. b. Fragestellung: Ist die Aussprache von Sprachlernenden, die im Sprachlabor üben, besser als die von Sprachlernenden, die dies nicht tun? Mögliche Hypothese: Lerner, die in einem Sprachlabor ihre Aussprache trainieren, werden im Bereich Aussprache von Lehrpersonen der zu lernenden Sprache als besser beurteilt als Lerner, die außerhalb des Sprachlabors Ausspracheübungen durchführen. c. Fragestellung: Welche Bedeutung hat de Saussure für die Entwicklung der Lingu‐ istik? Mögliche Hypothese: De Saussure hatte eine richtungsgebende Bedeutung für die Linguistik und hat diese immer noch. d. Fragestellung: Wie hoch sind die Fremdsprachenkenntnisse niederländischer Ge‐ schäftsleute? Mögliche Hypothese: Niederländische Geschäftsleute beherrschen mindestens eine Fremdsprache, und zwar mindestens auf dem GER-Niveau C1. e. Fragestellung: Hilft es, Grammatikfehler von Fremdsprachenlernern zu korrigie‐ ren? Mögliche Hypothese: Lerner, deren Fehler korrigiert werden, machen später weniger Fehler der korrigierten Art als Lerner, deren Fehler nicht korrigiert werden. f. Fragestellung: Werden in internationalen Verhandlungen nur Höflichkeitsformen aus der Sprache verwendet, in der verhandelt wird (also im Zweifelsfall Englisch, sodass englisches Höflichkeitsverhalten praktiziert würde) oder gibt es auch Übersetzungen von Höflichkeitsroutinen und -ritualen aus der Herkunftssprache der Teilnehmer? Mögliche Hypothese: Die Verhandlungsteilnehmer verwenden öfter wörtlich übersetzte Höflichkeitsroutinen aus der eigenen Erstsprache als solche aus der Verhandlungssprache. g. Fragestellung: Verwenden Sprecher in ihrer Erst- und in ihrer Zweitsprache ähnliche Arten von Selbstkorrektur? Mögliche Hypothese: In der Erstsprache nehmen Sprecher häufiger semantische Korrekturen, in der Zweitsprache häufiger morphosyntaktische Korrekturen vor. h. Fragestellung: Führt das stille Lesen eher zum Textverständnis und das laute Lesen eher zu einer guten Aussprache? Anhang: Lösungen der Aufgaben 197 <?page no="198"?> Mögliche Hypothese: Schüler, die Leseverständnis-Übungen immer mit stillem Lesen durchführen, erzielen bessere Ergebnisse beim Textverständnis als Schüler, die Leseverständnis-Übungen auch mit lautem Lesen durchführen. In Bezug auf die Qualität der Aussprache sind jedoch die Schüler überlegen, die im Leseverständ‐ nis-Unterricht regelmäßig auch laut lesen. i. Fragestellung: Welches von den ausgewählten Testverfahren (z. B. A, B oder C) eignet sich am besten für die Diagnostik von Wortschatzkenntnissen in dieser bestimmten Zielgruppe bzw. welches der Testverfahren liefert die konsistentesten Ergebnisse? Hier handelt es sich um ein exploratives Verfahren, weswegen wir hier auf die Aufstellung von Hypothesen verzichten. Aufgabe 2: a. Sie müssten zumindest operationalisieren, was Sie mit katholisch, Perfekt und häufiger meinen. b. Sie suchen Kombinationen aus einer finiten Form von sein und haben und einem Partizip II (das geht sogar maschinell in Textkorpora). Nur müssen Sie dann noch bei den finiten Formen von sein abgleichen (lassen), ob das Partizip II von einem Verb stammt, das sein Perfekt mit sein bildet, sonst werden Sätze wie Die Tür ist geschlossen mitgezählt. Erheblich schwieriger ist es, die - seltenen - Zustandsformen mit haben auch auszuschließen (Er hat die Haare in die Stirn gekämmt, Das Pferd hat die Fesseln bandagiert). Auch das ist möglich, dann müssen Sie allerdings die Syntax der Sätze mit einbeziehen: Sie berücksichtigen nur Sätze, die nicht valenzreduziert sind, d. h. bei der nicht das Agens weggelassen ist. Ein weniger automatisch vorgehendes Verfahren, das aber auch eine klare Operationalisierung bietet, wäre, dass Sie überprüfen, ob die als Perfekt vermuteten Formen sich ohne wesentliche Bedeutungsveränderung ins Präteritum umformen lassen. Dabei kommt dasselbe Ergebnis heraus: Das Pferd hat die Fesseln bandagiert ist eindeutig valenzreduziert, das Agens fehlt offensichtlich (Das Pferd selbst hat niemandem die Fesseln bandagiert), und der Satz entspricht in der Bedeutung auch nicht Das Pferd bandagierte die Fesseln. Nach beiden Verfahren ist dies also eindeutig nicht als Perfekt zu zählen. Auch mit sein als Hilfsverb funktioniert das Verfahren: Die Tür ist geschlossen ist valenzreduziert und nicht identisch mit *Die Tür schloss. Aber bei echten Perfektformen wie Er hat gearbeitet geht die Umformung in Er arbeitete problemlos, und in der Valenz ändert sich auch nichts. c. Art der Datenerhebung: Auswahl der Informanden: Wir haben mit Absicht ein etwas kurioses Beispiel gewählt, insofern können Sie auch kuriose Lösungsverfahren anbieten. Ein Pro‐ blem ist nämlich die Auswahl der Informanden. Sie könnten sich z. B. überlegen, dass Sie per Bekanntgabe über Social Media wie Instagram Personen suchen, die planen, in nächster Zeit zu konvertieren. Dann nehmen Sie diese Personen 198 Anhang: Lösungen der Aufgaben <?page no="199"?> vor und nach dem Wechsel der Konfession auf und vergleichen ihren Gebrauch der Vergangenheitstempora. In diesem Fall wären Sie ganz sicher, dass nur die Konfessionszugehörigkeit die Ursache sein kann, falls Sie eine Veränderung im Gebrauch der Vergangenheitstempora finden. Wenn Sie weniger kuriose Lösungen suchen, dann müssen Sie auf jeden Fall darauf achten, dass Sie bei den Informanden beider Konfessionen die Schulbildung und die Verteilung auf Dialektgebiete so konstant wie möglich halten. Form der Erhebung: Umständlich wäre eine ungesteuerte Beobachtung, bei der Sie einfach Aufnahmen von natürlicher Sprache bei Sprechern unterschiedlicher Konfessionen machen und auswerten. Eine direkte Befragung „Gebrauchen Sie mehr Perfekt oder mehr Präteritum …? “ scheidet aus, man ist sich nicht bewusst, welche Tempora man benutzt. In einer solchen Befragung würden die Sprecher vermutlich nach Normen, die sie irgendwo aufgeschnappt haben, antworten, falls sie die Frage in dieser Form überhaupt verstehen. Was Sie aber tun können, ist, die Teilnehmer so zu steuern, dass sie von Vergan‐ genem sprechen müssen, damit sie nicht so lange Texte produzieren, in denen Sie kaum Vergangenheitstempora finden. Sie können also z. B. auffordern: „Erzählen Sie mir von Ihrem letzten Urlaub! “ (natürlich sollten Ihre Aufforderungen kein Vergangenheitstempus enthalten! ). Experimente, die dazu führen, dass ganze Sätze in einer gewünschten Form geäußert werden, sind nicht einfach zu erstellen. Vermutlich lohnt der Aufwand sich nicht, weil die Beobachtung relativ einfach möglich ist. d. Zunächst einmal haben Sie die Konfession nicht erhoben, sondern die mutmaßliche Konfession, wenn Sie so vorgegangen sind, wie es in der Aufgabenstellung beschrieben ist. Dann fragt sich, ob die Gruppen der untersuchten Dorfbewohner demographisch hinreichend gleich sind, was bei der kleinen Zahl von untersuchten Sprechern eine große Rolle spielt. Aber der Grund, warum diese Untersuchung überhaupt nicht zu gebrauchen ist, ist, dass Sie Sprecher aus verschiedenen Dialektgebieten untersucht haben. Die Daten könnten durchaus so aussehen wie in der Aufgabenstellung beschrieben, aber der Grund ist, dass man im Süddeutschen kaum Präteritum verwendet. Dieses „Oberdeutscher Präteritum‐ schwund“ genannte Phänomen beruht keineswegs auf der Konfession, sondern auf Dialektunterschieden. Aufgabe 3: Es gibt mehrere Probleme, die aufkommen könnten (wo nehme ich eine Kontroll‐ gruppe aus einem anderen Land mit ansonsten ähnlichen Lernbedingungen her, sehr unterschiedliche Einflussfaktoren auf den Lernerfolg, die Unsicherheit, ob tatsächlich sämtliche Studierende nur das A2-Niveau erreichen u. a.). Jedoch ist das Hauptproblem, dass man für diese Fragestellung kaum eine Operationalisierung finden kann, es Anhang: Lösungen der Aufgaben 199 <?page no="200"?> müssten viel zu viele Einflussfaktoren überprüft werden, die auch noch aufeinander Auswirkungen haben könnten. Aufgabe Kapitel 3: Stichproben und Sampling Hier können wir aufgrund der Aufgabenstellung keine Musterlösung anbieten. Aufgaben Kapitel 4: Die Beobachtung Aufgabe 1: Sie müssen natürlich festlegen, was Sie als Korrektur ansehen wollen. Das ist gar nicht so einfach, wenn es nicht auf „Korrektur ist das, was ich als Korrektur empfinde“ hinauslaufen soll. Die Möglichkeit aus Ihrer Vorüberlegung würde auch versehentliche Falschaussprachen der Lehrperson und Dinge wie Verschleifungen vs. Nicht-Verschlei‐ fungen bei Schüler oder Lehrperson mit erfassen. Besser wäre eine solche Festlegung: Als Korrektur werte ich jede Wiederholung eines falsch ausgesprochenen Wortes in der unmittelbar darauf folgenden Lehreräußerung mit korrekter Aussprache und jede explizit von der Lehrperson als Korrektur markierte Äußerung. Dann haben Sie nur noch zu operationalisieren, wie Sie „falsche Aussprache“ und „korrekte Aussprache“ feststellen. Für das Deutsche könnten Sie z. B. festlegen, dass Sie jede Aussprache als falsch ansehen, die im „Ausspracheduden“ nicht aufgeführt ist, und jede als korrekt, die im Ausspracheduden (ohne Markierung „regional“ o.ä.) aufgeführt ist. Natürlich können Sie auch ein anderes Aussprachewörterbuch zugrunde legen, aber möglichst nicht mehrere, denn sie sind sich oft nicht einig, was neue Probleme schafft. Auch mit dieser Operationalisierung kann es sein, dass einige Dinge, die Sie spontan als Korrektur empfinden, nicht als Korrektur gezählt werden dürfen, z. B. wenn eine von zwei erlaubten Aussprachen durch die andere korrigiert wird oder wenn eine erlaubte Aussprache durch eine nicht erlaubte oder als regional gekennzeichnete „korrigiert“ wird. Sie müssen auch festlegen, welche Fälle Sie als ähnlich genug ansehen wollen, um sie unter einer Kategorie zusammenzufassen. Eine Möglichkeit wäre z.B.: • erbetene Korrekturen Darunter würden Fälle von expliziten Fragen fallen („Spricht man das so aus? “, „Oder wie spricht man das aus? “), aber auch die versuchsweise Aussprache des Wortes mit fragendem Blick, fragender Intonation usw. • beiläufige Korrekturen durch die Lehrperson Das falsch ausgesprochene Wort wird von der Lehrperson richtig ausgesprochen in ihren nächsten Satz eingebaut, ohne dass sie auf den Fehler hinweist. • explizite Korrekturen durch die Lehrperson 200 Anhang: Lösungen der Aufgaben <?page no="201"?> Hier würde die Lehrperson ihre „Verbesserung“ als solche markieren, durch besonders lautes Aussprechen oder durch den expliziten Hinweis auf die falsche Aussprache. • Aufforderungen zur Selbstkorrektur Hier würde die Lehrperson die Lerner auffordern, den Fehler zu verbessern. Da verschiedene Möglichkeiten dazu bestehen, können Sie sich fragen, ob Sie den Punkt weiter untergliedern und z. B. „Vorsprechen und nachsprechen lassen“ als einen anderen Fall ansehen als „Da stimmt etwas nicht mit dem 3. Wort, versuch es noch einmal.“ • Aufforderungen zur Korrektur durch andere Schüler (weiter unterteilt oder nicht) • umfangreiche Korrektursequenz Auch hier gibt es ganz viele verschiedene Möglichkeiten, sodass Sie eventuell noch einmal Fallgruppen unterscheiden wollen, z. B. solche, bei denen der Fehler zum Anlass für eine lange Übungssequenz des zugrundeliegenden Phänomens bei der ganzen Lernergruppe genommen wird. Sie können auch unterschiedliche Kategorien bei den Lerner-Reaktionen in Ihre Auswertung aufnehmen. Ein mögliches Verfahren der Operationalisierung wäre auch, dass Sie danach gehen, wie die Lerner sich verhalten. Z. B. würden Sie das als Korrektur zählen, worauf die Schüler wie auf eine Korrektur reagieren (z. B. versuchen, es mit der richtigen Aussprache zu wiederholen, oder ärgerlich erklären „hab ich doch gesagt“ usw.). Was die Überprüfung, ob es nicht auch andere Interpretationsmöglichkeiten gibt, angeht, so ist eine wichtige Überlegung, ob das, was von der Lehrperson in einer anderen, Ihrem Nachschlagewerk nach besseren, Aussprache geäußert wird, nicht auch ein sogenanntes „Lehrerecho“ sein könnte. Lehrpersonen wiederholen Schüler‐ äußerungen z. B., weil sie zu leise waren, damit die ganze Gruppe von Lernern sie in der Wiederholung hört und beachtet, um den Inhalt zu bestätigen usw. Aufgabe 2: Beide Möglichkeiten erkaufen einen Vorteil mit einem Nachteil. Im ersten Fall un‐ tersuchen Sie gar kein natürliches Gespräch, d. h. das Gespräch findet nur zum Zweck der Aufnahme statt und einer der beiden Gesprächspartner weiß das. Dafür ist der Verkäufer allerdings nicht informiert, dass die erwartete Aufnahme genau im augenblicklichen Gespräch stattfindet. Im zweiten Fall weiß der Verkäufer während des Gesprächs auf jeden Fall, dass er beobachtet wird, was sein Verhalten beeinflussen wird. Zudem ist das Vorgehen im zweiten Fall gegenüber dem Kunden problematisch, er wird ja ohne seine Zustimmung beobachtet. Andererseits liegt ein natürliches Gespräch vor, d. h. die Kunden haben wirklich ein Interesse an einem Kauf und der Verkäufer hat dieselbe Chance, ihnen ein Auto zu verkaufen, wie in der unbeobachteten Situation. Früher hat man sich in vielen Fällen für die erste Möglichkeit entschieden; man hat also eingeweihte Personen die Rolle des Kunden spielen lassen, oder die Forscherinnen Anhang: Lösungen der Aufgaben 201 <?page no="202"?> haben selbst die Kundenrolle gespielt in der Annahme, das sei unschädlich, denn es solle ja das Verhalten des Verkäufers beobachtet werden, nicht das des Kunden. Diese Annahme hat sich jedoch als irreführend erwiesen. Die Personen in der Kundenrolle konnten sich nicht wie normale Kunden benehmen. Dadurch verlief das Gespräch überhaupt nicht wie ein normales Verkaufsgespräch, und insofern konnte auch der Verkäufer nicht sein normales Verhalten zeigen. Nun könnte man einwenden, dass das ja eventuell für den Beginn des Gesprächs, die Phase der Kontaktaufnahme, noch nicht wichtig ist, sondern erst später, wenn sich zeigt, dass der Kunde gar kein Auto kaufen will. Dies ist aber sicher nicht der Fall, da die eingeweihte Person sich ja auch noch Merkmale des nichtverbalen Verhaltens für das spätere Ausfüllen des Beobachtungsbogens merken muss. Das verlangt so viel Aufmerksamkeit, dass sie sich auf der Ebene der Kontaktaufnahme, also der Herstellung einer einvernehmlichen Beziehung, sicher so unnatürlich verhalten wird, dass auch der Verkäufer sich nicht so verhalten wird, wie er es im Gespräch mit einem echten Kunden, der „bei der Sache“ (und nicht bei der Beobachtung) ist, verhalten würde. Alles in allem gesehen ist also die zweite Möglichkeit vorzuziehen. Hier ist die beobachtende Person nicht am Gespräch beteiligt und kann also weit weniger durch ihr Verhalten das Gespräch beeinflussen. Vor jeder Verwendung der Gespräche müsste allerdings das Einverständnis der aufgenommenen Kaufinteressenten eingeholt wer‐ den. Aufgaben Kapitel 5: Arbeiten mit Textkorpora Aufgabe 1: Korpora können sich immer weiter ändern, wir arbeiten hier mit dem Falko-Teilkorpus „falkoEssayL2v2.4“ mit insgesamt 248 Lernertexten. Nach dem Stand am 28.08.2024 war folgendes Ergebnis zu verzeichnen: - Anzahl Texte mit Type Anzahl Tokens ich 172 1008 wir 115 446 Im L2-Essaykorpus kommt das Wort ich also in 172 von insgesamt 248 Lernertexten vor, und das gleich 1008-mal. Das Wort wir kommt in 115 Texten vor, aber nur 446-mal. Wir müssen natürlich darauf achten, dass wir alle Formen der Wörter (also solche, die groß- und solche, die kleingeschrieben sind), einbeziehen. Im Falko-Korpus wird dies durch eine besondere Eingabe ermöglicht: Wir geben also nicht einfach „ich“ in die Maske ein, sondern: / [Ii]ch/ . Ob die Häufigkeiten von ich bzw. wir besonders sind, ob sie sich voneinander wirklich unterscheiden, können wir bei diesem Schritt noch nicht sagen - wir müssen die statistische Analyse abwarten (Kapitel 11). 202 Anhang: Lösungen der Aufgaben <?page no="203"?> Aufgabe 2: Wir haben einerseits das Problem, das wir auch bei geschriebenen Texten hätten: Wie zählen wir grammatische Formen ein- und desselben Wortes? Das ist ganz besonders für die automatische Zählung ein großes Problem, denn alles, was gleich geschrieben wird, ist für den Computer derselbe Type. Also kann nur eine Zählung „von Hand“ oder ein annotiertes Korpus unterscheiden, ob die grammatische Form arbeitet 3. Person Singular Präsens oder 2. Person Plural Präsens von arbeiten ist. Dies ist für die gesprochene Sprache nicht anders, aber hier kommt ein zusätzliches Problem hinzu, nämlich die Zählung von Aussprachevarianten ein- und derselben grammatischen Form. Selbst wenn wir uns entscheiden würden, dass wir jede einzelne grammatische Form als Extra-Type zählen würden, stehen wir vor weiteren Problemen. Ist alles, was in der Standardschreibung als das auftreten würde, derselbe Type? Wir finden in Feld 4 und 13 das und in den Feldern 5, 14 und 16 dat. Für es finden wir ´s in Feld 7 und 10 und in Feld 18 sogar et in nützet. Dies macht nicht nur die automatische Suche schwierig, sondern stellt uns auch vor methodische Probleme. Wir können davon ausgehen, dass es noch erheblich mehr Aussprachevarianten von das gibt, jedoch nicht alle sind mit den Mitteln der Normalschrift zu unterscheiden. Wenn also alle Aussprachevarianten verschiedene Types sein sollen, wo wollen wir die Grenzen setzen? Aufgabe 3: Für diese Aufgabe gibt es mehrere Lösungen, wovon wir nur eine anbieten. a. Wir nehmen an, wir interessieren uns für den Kasusgebrauch und insbesondere alle Dativkontexte, die Lerner verwenden (oder verwenden sollten). Eine mögliche Fragestellung wäre: Verwenden zugewanderte Schüler der 6. Klasse den Dativ genauso oft und genauso sicher wie nicht-zugewanderten Schüler derselben Klassenstufe? b. Als Erstes überlegen wir uns, was genau die Analyse erfassen soll, um Aussa‐ gen über die Verwendung des Dativs treffen zu können. Es soll beispielsweise berücksichtigt werden, dass der Dativ sowohl als obliquer (d. h. Objekt-) Dativ als auch als präpositionaler Dativ (d. h. bei der Verwendung in Präpositionalgruppen) vorkommen kann. Während der oblique Kasus vor allem am Artikel und Pronomen markiert ist, kann bei der Verwendung in Präpositionalgruppen der bestimmte Artikel mit einer Präposition verschmelzen (z. B. von + dem = vom). Für die Erfassung des Dativgebrauchs bedeutet dies, dass nicht nur Artikel- und Prono‐ menmarkierungen, sondern auch Präpositionen berücksichtigt werden müssen. Gleichzeitig müssen wir Kontexte einbeziehen, in denen kein Dativ verwendet wird, aber hätte verwendet werden müssen. Damit die Ergebnisse der Korpusanalyse repräsentativ sind, soll auch die Zusam‐ mensetzung der Stichprobe überlegt werden. Gibt es zum Beispiel genug neuzuge‐ wanderte Schüler in der Stichprobe, um die Aussagen über diese Gruppe treffen zu Anhang: Lösungen der Aufgaben 203 <?page no="204"?> können? Unterscheiden sie sich in den individuellen Merkmalen, die einen Einfluss auf die Ergebnisse haben können (z. B. Aufenthalts- und Beschulungsdauer)? Welche weiteren Stör- und konfundierenden Faktoren sind für die untersuchten Schülergruppen relevant? Weitere Überlegungen können die Datenerhebungssituation betreffen: Werden die Texte aller Teilnehmer unter gleichen Bedingungen produziert? Faktoren wie die angewendeten Instruktionen, Zeitlimit, Tageszeit bzw. Grad der Müdigkeit der Schüler, sowie die Person, die die Datenerhebung durchführt, können dabei eine Rolle spielen. Auch die Art des Schreibanlasses, mit dem die Daten erhoben werden, kann die Aussagekraft der Analyse beeinflussen. Bietet der Schreibanlass den Schülern genug Gelegenheiten, um das untersuchte Phänomen zu produzieren? Ist die Geschichte lang genug, damit die Anzahl der Vorkommnisse des Phänomens aussagekräftige Schlussfolgerungen ermöglicht, oder müsste man vielleicht zwei oder gar drei Bildergeschichten erheben? Bei zugewanderten Schülern mit un‐ terschiedlichen kulturellen Hintergründen müssen wir auch sicherstellen, dass keine kulturellen Faktoren bestehen, die die Interpretation der Bildergeschichte erschweren können. Schließlich soll bedacht werden, dass sich die Analyse auf die schriftliche Sprach‐ produktion bezieht und dass in der gesprochenen Sprache andere Ergebnisse erzielt werden könnten. c. Es sollen insbesondere die Informationen erhoben werden, die alle Schüler be‐ treffen, wie z. B. Alter, Klassenstufe und Schulart, aber auch die Daten, die weitere Informationen über die Gruppe der zugewanderten Schüler liefern (z. B. Aufenthalts- und Beschulungsdauer und vorherige Schulerfahrungen, auch, ob sie überhaupt die Gelegenheit hatten, den Dativ als Kasus in beiden Verwendungen zu lernen). d. Wir müssen zumindest den Kasus und die Wortart annotieren, um den Gebrauch des Dativs im obliquen und präpositionalen Kasus erfassen zu können (siehe Punkt b). e. Jedes Programm, mit dem sich schriftliche Textkorpora annotieren lassen, bietet sich hier an - zum Beispiel das Analysetool MAXQDA. f. Da die Daten handschriftlich vorliegen, müssen sie zunächst abgetippt bzw. in digi‐ tale Form überführt werden. Für die aufgeführte Fragestellung sind Rechtschreib‐ fehler nicht kritisch, daher ist keine orthografische Normalisierung erforderlich. Die Texte sollen in ein einheitliches Format überführt werden, das vom Analysetool unterstützt wird (z. B. TXT). 204 Anhang: Lösungen der Aufgaben <?page no="205"?> Aufgaben Kapitel 6: Die Befragung Aufgabe 1: In der Aufgabenstellung haben wir angemerkt, dass wir hier nur schlecht eine Aufga‐ benlösung geben können - daher finden Sie hier keine Lösung. Aufgabe 2: Kreuztabellen in absoluten Zahlen: Votum <18 18-30 31-59 60+ Nicht angegeben Gesamt Ja 2 1 3 1 1 8 Nein 3 0 0 0 0 3 Weiß nicht 1 0 0 0 0 1 Gesamt 6 1 3 1 0 12 Tabelle a1: Votum nach Alter (absolut) Geschlecht Abitur Fachhoch‐ schulabschluss Universitäts‐ diplom Gesamt Männer 3 2 2 7 Frauen 1 3 1 5 Gesamt 4 5 3 12 Tabelle a2: Schulabschluss nach Geschlecht (Rohwerte) Einkommen <18 18-30 31-59 60+ Nicht angegeben Gesamt < € 50.000 1 0 0 1 1 3 € 50.001 - 80.000 3 1 1 0 0 5 ≥ € 80.001 1 0 2 0 0 3 Nicht angegeben 1 0 0 0 0 1 Gesamt 6 1 3 1 1 12 Tabelle a3: Einkommensgruppe nach Alter (Rohwerte) Anhang: Lösungen der Aufgaben 205 <?page no="206"?> Kreuztabellen in Prozentwerten: Votum <18 18-30 31-59 60+ Nicht angegeben Gesamt Ja 17% 8% 25% 8% 8% 67% Nein 25% 0% 0% 0% 0% 25% Weiß nicht 8% 0% 0% 0% 0% 8% Gesamt 50% 8% 25% 8% 0% 100% Tabelle b1: Votum nach Alter (Prozentwerte) Geschlecht Abitur Fachhochschulabschluss Universitätsdiplom Gesamt Männer 25% 17% 17% 58% Frauen 8% 25% 8% 42% Gesamt 33% 42% 25% 100% Tabelle b2: Schulabschluss nach Geschlecht (Prozentwerte) Einkommen <18 18-30 31-59 60+ Nicht angegeben Gesamt < € 50.000 8% 0% 0% 8% 8% 25% € 50.001 - 80.000 25% 8% 8% 0% 0% 42% ≥ € 80.001 8% 0% 17% 0% 0% 25% Nicht angegeben 8% 0% 0% 0% 0% 8% Gesamt 50% 8% 25% 8% 8% 100% Tabelle b3: Einkommensgruppe nach Alter (Prozentwerte) Aufgabe 3: Zunächst einmal ist die Stichprobe eine Stichprobe der Mensa-Benutzer, nicht der Studenten. Unter den Mensabenutzern sind auch Nicht-Studenten (Lehrpersonal und einige Personen, die die Mensa wegen des preiswerten Essens aufsuchen), und es könnte zudem sein, dass sich die Studenten, die die Mensa benutzen, von denen, die sie nicht benutzen, doch so erheblich unterscheiden, dass man gar nicht sagen kann, es handele sich um dieselbe Grundgesamtheit. Das eine Problem könnte man angehen, indem man sich vornimmt, die Fragebögen nur an Personen auszuteilen, die „nach Studenten aussehen“, mit der Gefahr, dass man einige ältere Studenten auslässt und 206 Anhang: Lösungen der Aufgaben <?page no="207"?> einige jüngere Dozentinnen einbezieht. Auf jeden Fall ist sehr offensichtlich, dass wir hier nicht behaupten können, wir hätten eine Zufallsauswahl getroffen. Ein Problem bei der Art der Wahl der Stichprobe durch Verteilen am Eingang ist auch das Wieder-Einsammeln. Vermutlich würden recht viele Fragebögen auf den Tischen liegen bleiben, und zwar bearbeitet, halb bearbeitet oder leer. Auf diese Weise werden Sie kaum 50-% Ihrer Fragebögen zurückbekommen. Ein solches Verfahren hat also eine Menge Nachteile, aber es ist handhabbar, vor allem, wenn Sie die Fragebögen an den Tischen verteilen und wieder einsammeln. Für eine Masterarbeit ist es völlig akzeptabel, ein solches oder ähnliches Verfahren (z. B. eine gut zusammengestellte Quote von Seminarbesuchern vor oder nach dem Seminar zu befragen) zu benutzen, jedoch ist in der Arbeit darauf hinzuweisen, welche Tücken die Wahl der Stichprobe hat. Die Auswahl der Stichprobe wäre ganz einfach möglich, falls man die Verwaltung überzeugen könnte, die Kartei der eingeschriebenen Studenten der Philipps-Universi‐ tät benutzen zu dürfen. Dann könnte man daraus eine Zufallsauswahl treffen und die entsprechenden Personen per E-Mail anschreiben. Den Fragebogen müssten Sie allerdings nicht mehr als Papierversion, sondern online als CAWI (Computer Assisted Web Interviewing) zur Verfügung stellen, die Studenten könnten dann auf einen Link in der E-Mail klicken und den Fragebogen online ausführen. Dieses Verfahren, das aus Datenschutzgründen an deutschen Universitäten nicht realisierbar ist, hat natürlich immer noch das im Text erwähnte Problem der „Selbst‐ selektion der Stichprobe“. Also sollte man besser nach dem Quotenverfahren vorgehen. Dabei wäre wichtig, dass die einzelnen Fachbereiche entsprechend ihrer Studierendenzahl berücksichtigt werden, ebenso Geschlecht, Alter und Nationalität der Studenten. Nun zum eigentlichen Fragebogen: Gut ist das Folgende: Es handelt sich um eine Fragestellung, bei der eine sprachliche Norm eine Rolle spielt; direkte Fragen sind also ausgeschlossen. Dies ist gewährleistet. Das offizielle Papier und der „ausgeliehene“ Titel der betreuenden Professorin erhöhen den Eindruck eines seriösen Fragebogens. Ihre Professorin wird Ihnen übri‐ gens auch dankbar sein, wenn Sie Ihre eigene E-Mail-Adresse und nicht ihre in den Fragebogen schreiben. Gut ist auch, dass eine Möglichkeit gegeben wird, die Ergebnisse der Befragung zu erfahren, ohne die eigene Anonymität aufzuheben. Wenn es sich um heiklere Fragen handeln würde, wäre es übrigens angebracht, dies gar nicht auf demselben Blatt zu erfragen, sondern auf einem Beiblatt. Es gibt einen ablenkenden Titel, der zwar schnell durchschaubar sein dürfte, aber bei der Kürze des Fragebogens fällt das vermutlich erst gegen Ende auf, zumal die erste Frage deutlich dialektbezogen ist. Anhang: Lösungen der Aufgaben 207 <?page no="208"?> Schlecht oder weniger gut ist das Folgende: Es gibt zu wenig korrekte Sätze in der Liste; man kommt schnell auf die Idee, alles müsse falsch sein. Insgesamt kommen die infrage stehenden Phänomene zu selten vor. Es sollten für die einzelnen Typen (Doppelperfekt/ Doppelplusquamperfekt; mit sein und mit haben gebildet) mindestens je 3 Sätze vorkommen. Dadurch müssen aber auch erheblich mehr Ablenker-Sätze aufgenommen werden, also Sätze, die gar kein Doppelperfekt oder Doppelplusquamperfekt enthalten. Die vorgegebenen Antwortkategorien vermischen zwei Aspekte. Einerseits geht es um die Beurteilung als korrekt oder unkorrekt (besser als „falsch“, was auch als „inhaltlich falsch“ aufgefasst werden kann - in diesem Fall würde z. B. Heute ist schönes Wetter an einem Regentag mit falsch beurteilt), andererseits darum, ob man etwas kennt und gebraucht. Das muss nicht übereinstimmen, denn man kann wissen, dass man Dinge sagt, die man trotzdem als unkorrektes Deutsch ansieht. Aufgaben Kapitel 7: Testen Aufgabe 1: Ihr Test enthält unterschiedlich schwer zu lösende Aufgaben, Sie können also damit rechnen, dass bestimmte Aufgaben fast von allen Schülern richtig gelöst werden, andere nur von den allerbesten Schülern. Das macht Probleme bei der Konsistenzprü‐ fung (es wird unterschiedliche Ergebnisse für die Einzelfragen geben). Wenn Sie das Testhalbierungsverfahren anwenden, dann sollten Sie auf keinen Fall so halbieren, dass Sie die erste Hälfte des Tests mit der zweiten vergleichen, sondern Sie sollten die Fragen mit ungeraden Nummern mit denen mit geraden Nummern vergleichen. Aufgabe 2: Die Distraktoren liegen sehr nah am korrekten Ergebnis. Um jeden Distraktor zu verwerfen, muss gründlich nachgedacht werden. Dies verlängert zum einen die Bearbeitungszeit, zum anderen erhöht es das Risiko eines Fehlers, der allein durch die Verwechslung mit ähnlichen Antwortmöglichkeiten ausgelöst wird. Dabei soll auch bedacht werden, dass der Test an Erstsemesterstudierende gerichtet ist, die vielleicht noch nicht über nuancierte Grammatikkenntnisse verfügen. Außerdem wird in der Fragestellung nicht spezifiziert, ob es sich um eine Single- oder Multiple-Choice-Frage handelt. Wenn es technisch nicht ausgeschlossen ist, kann es dazu führen, dass fälschlicherweise mehrere Antwortmöglichkeiten anstatt einer ausgewählt werden. Aufgabe 3: Ein möglicher Vorteil des Verfahrens wäre, dass die Aufgabe, die Tests in eine Reihen‐ folge zu bringen, für die Expertinnen konzeptuell leichter und schneller zu bewältigen 208 Anhang: Lösungen der Aufgaben <?page no="209"?> 88 Z.B. Levin, J. R. et al. 1979. Assessing the classroom potential of the keyword method. Journal of Educational Psychology 71, 583-594. wäre als eine Aufgabe, bei der sie auf mehrere bestimmte Kriterien achten müssten. Ein Nachteil wäre, dass sie ohne Auswertungsraster und festgelegte Bewertungskriterien eher intuitiv vorgehen würden. Dabei könnte sich jede Expertin auf unterschiedliche Aspekte des Tests fokussieren, was die Einschätzungen verschiedener Expertinnen schwer vergleichbar macht. Eine weitere Schwierigkeit liegt darin, dass die Abstände zwischen den Tests nicht gleich gehalten werden können. Wenn unter drei Tests zwei sehr gut sind und einer deutlich schlechter, dann ist der Abstand zwischen den ersten beiden viel kleiner als zwischen dem zweiten und dem dritten Test. Besonders problematisch ist das, wenn man immer nur zwei Tests vergleicht. Bekommt man zwei sehr gute oder zwei sehr schlechte Tests zur Hand, muss einer immer als besser und einer als schlechter bewertet werden. Aufgabe 4: Automatisierte Ratings durch Computersoftware bieten einen Vorteil in Bezug auf die Objektivität der Bewertung, da sie im Unterschied zu menschlichen Bewertern viel freier von subjektiven Einflüssen, wie Vorurteile, Vorlieben oder Unaufmerksamkeit, sind. Sie haben auch eine erhöhte Reliabilität, da sichergestellt werden kann, dass bei einer wiederholten Bewertung (wenn keine Änderungen im Algorithmus vorge‐ nommen werden) dasselbe Ergebnis entsteht. Weil die Bewertung der Testprodukte verschiedener Schreiber nach denselben Kriterien erfolgt, ist die Vergleichbarkeit der Testergebnisse gewährleistet. Hier verbirgt sich allerdings eine Gefahr für die Validität: Da die Schreibproduktion eine kreative Aufgabe ist, kann es schwierig sein, individuelle Unterschiede angemes‐ sen zu erfassen. Zum einen ist es nicht leicht, Bewertungskriterien zu entwickeln, die für Texte aller Schreiber gelten würden. Zum anderen kann das Erkennen, ob die Kriterien erfüllt sind, durch die Besonderheiten individueller Schreibstile oder anderer individueller Merkmale erschwert werden. Für eine korrekte automatisierte Bewertung müssen möglichst alle korrekten Antwortmöglichkeiten vorgesehen und vorprogrammiert werden, was nicht immer möglich ist. Dabei soll darauf geachtet werden, dass immer noch das bewertet wird, was der Test tatsächlich messen soll. Aufgaben Kapitel 8: Experimentelle Forschung Aufgabe 1: So eine Studie wurde durchaus unternommen. 88 Die unterschiedlichen Ergebnisse können viele Gründe haben. Vielleicht lernt man Wörter einer existierenden Sprache doch ein bisschen anders als Kunstwörter, weil man beim Lernen von Wörtern einer existierenden Sprache meist Lernstrategien benutzen kann, die auf der Ähnlichkeit des Anhang: Lösungen der Aufgaben 209 <?page no="210"?> zu lernenden Wortes mit bereits gelernten aus derselben oder einer anderen Sprache beruhen. Es kann auch sein, dass bei bei bezahlten Teilnehmern nur externe Motivation eine Rolle spielt (man will sein Teilnehmer-Honorar erhalten und deshalb erfüllt man die als sinnlos angesehene Aufgabe), während es in der echten Sprachlernsituation eine große Rolle spielt, ob man die zu lernenden Wörter wichtig findet, ob die Methode motivierend ist, ob sie sich gut in den Gesamtprozess des Unterrichts einfügt, ob man sie konsequent einsetzt oder (weil als zu aufwändig empfunden) nur sehr gelegentlich usw. Oder vielleicht gibt es ganz andere Gründe für dieses Ergebnis, die wir hier nicht bedacht haben. Es kann also durchaus sein, dass wir bei von Experimenten validierten Hypothesen nicht ohne weiteres behaupten können, dass sie für die Realsituation gültig sind. Aufgabe 2: 1. Die manipulierte Variable hat 3 Ausprägungen, Substantive auf -o, Substantive auf -a,-Substantive auf -e.-Die beiden ersten kann man auch zusammenfassen als Substantive mit durch die Wortform ersichtlichem Genus, damit brauchen wir nur 2 Ausprägungen der Variablen zu betrachten. Die abhängige Variable ist die Reaktionszeit bei „durchsichtigem Genus“ und „undurchsichtigem Genus“. 2. Das Problem bei dieser Art von Experimenten ist, dass die Wortform ja durch die Aufgabenstellung vorgegeben wird, somit ist der Weg zur Genusinformation in der normalen Sprachproduktion nicht nachgebildet. Aufgabe 3: Unabhängige Variable Ausführen von Entspannungsübungen vor Beginn der Unter‐ richtsstunde Operationalisierung UV Fünf Minuten Entspannungsübungen vor Beginn der Unter‐ richtsstunde vs. keine Entspannungsübungen Abhängige Variable Angst vor dem Sprechen in der Fremdsprache Operationalisierung AV Anzahl von produzierten Äußerungen in der Fremdsprache Ein Untersuchungsplan für ein Ein-Gruppen-Prä-/ Posttest-Design kann wie folgt aussehen: Man misst zunächst die Anzahl der fremdsprachlichen Äußerungen in einer Unter‐ richtsstunde, in der vor Beginn keine Entspannungsübungen durchgeführt wurden. Vor Beginn einer anderen Unterrichtsstunde führt man die Entspannungsübungen durch und misst die Anzahl der Äußerungen auch in dieser Unterrichtsstunde. Das Ergebnis kann dabei mit einer Linie in einem Liniendiagramm dargestellt werden. Der 210 Anhang: Lösungen der Aufgaben <?page no="211"?> erste Punkt auf der Linie repräsentiert die Anzahl der Äußerungen in der Unterrichts‐ stunde, vor der keine Entspannungsübungen durchgeführt wurden, der zweite Punkt - die Anzahl der Äußerungen in der Unterrichtsstunde nach den Entspannungsübungen. So kann verfolgt werden, ob die Anzahl der Äußerungen sich zum zweiten Punkt geändert hat oder nicht. Abgesehen von den Entspannungsübungen sollen alle anderen Bedingungen in den Unterrichtsstunden möglichst gleich sein. Der Unterricht soll zum Beispiel von dersel‐ ben Lehrkraft und zur selben Tageszeit durchgeführt werden. Auch der Unterrichtsstoff soll möglichst gleich viele Äußerungsanlässe für die Schüler bieten. Eine mögliche Störvariable können andere persönliche Merkmale der Schüler darstellen, die sich ebenfalls durch die Entspannungsübungen beeinflussen lassen. Zum Beispiel macht ein Schüler auch außerhalb des Unterrichts Entspannungsübungen, so können die Übungen seine Motivation erhöhen, sich am Unterricht zu beteiligen. Die Gruppenzusammensetzung ist ebenfalls von Bedeutung, insbesondere wenn man die Ergebnisse auf andere Gruppen bzw. Klassen generalisieren möchte. Wenn in einer Klasse zum Beispiel viele besonders (sprech)ängstliche Schüler sind, könnten die Entspannungsübungen in der Gruppe bessere Fortschritte zeigen als in einer Klasse mit nur wenigen ängstlichen Schülern. Um ein Zwei-Gruppen-Prä-/ Posttest-Design anwenden zu können, teilt man die Schüler in zwei Gruppen auf. Für die Zwecke der Balancierung soll die jeweilige Gruppe eine gleiche Anzahl von (sprech)ängstlichen und weniger ängstlichen Schülern enthalten. Dafür kann man eine Blockrandomisierung anwenden, indem man anhand der Ergebnisse im Prätest die Schüler in Blöcke nach dem Grad der Ängstlichkeit aufteilt. Anschließend wird eine gleiche Anzahl von Schülern aus jedem Block jeweils einer der beiden Gruppen zugeordnet. In der Gruppe A werden dann vor Beginn einer Unterrichtsstunde Entspannungs‐ übungen durchgeführt, in der Gruppe B hingegen nicht. In der Gruppe B wird also im Ablauf der Unterrichtstunde nichts geändert. Die Anzahl der Äußerungen wird dann in der Unterrichtsstunde der Gruppe A und in der Unterrichtsstunde der Gruppe B notiert und mit der Anzahl der Äußerungen verglichen, die die Schüler der jeweiligen Gruppe im Prätest produziert haben. Grafisch lassen sich die Ergebnisse gut mit einem Liniendiagramm mit zwei Linien abbilden. Eine Linie zeigt die Änderung in der Anzahl der Äußerungen zwischen Prä- und Posttest in der Gruppe A, die andere Linie in der Gruppe B. Es soll kontrolliert werden, dass beide Gruppen von derselben Lehrkraft und mit denselben Unterrichtsinhalten unterrichtet werden. Außerdem sollen die Unter‐ richtstunden gleich lang sein, zur gleichen Tageszeit und in derselben Umgebung stattfinden. In Bezug auf die Gruppenzusammensetzung sollen auch die Sprachkompetenzni‐ veaus der Schüler berücksichtigt werden. Es soll darauf geachtet werden, dass in jede Gruppe gleich viele Schüler mit höheren und niedrigeren Sprachkompetenzen aufgenommen werden. Wie beim Ein-Gruppen-Prä-/ Posttest-Design können auch hier Anhang: Lösungen der Aufgaben 211 <?page no="212"?> heterogene Persönlichkeitsmerkmale innerhalb der Gruppe eine wichtige Rolle spielen und sollten daher ebenfalls beachtet werden. Aufgabe 4: So formuliert ist die Frage nicht experimentell überprüfbar, denn hier geht es ja gar nicht um die Überprüfung einer Hypothese. Aber auch bei einer Umformulierung der Art „Lerner des Deutschen als Fremdsprache lernen mit dem Valenz-/ Dependenzmodell besser als mit der traditionellen Grammatik, korrekte Akkusativ-Markierungen zu gebrauchen“ hätten Sie verschiedene Probleme. Ein sehr großes Problem ist es, den beiden infrage stehenden Grammatikmodellen „gleiche Chancen“ zu geben. Während Lerner des Deutschen als Fremdsprache fast immer die traditionelle Grammatik bereits kennen, lernen sie das Valenz-/ Dependenzmodell zur Grammatikbeschreibung meist erst durch ihr Deutschlehrbuch kennen. Insofern ist zu erwarten, dass sie einfach (richtig oder falsch! ) die ungewohnt präsentierten grammatischen Erklärungen in ihrem Lehrbuch in ihr vertrautes Modell „übersetzen“, das angebotene Modell also gar nicht nutzen. Ein zweites Problem ist, dass das verwendete Modell nur bis zu einem bestimmten Punkt auf dem Weg zur richtigen Markierung bei der Sprachproduktion helfen kann, nämlich bis dahin, wo der Lerner weiß, dass ein Akkusativ stehen muss. Dass er dann auch noch die Markierung tatsächlich (und zwar korrekt) verwendet, ist ein weiterer Schritt. Zwischen den beiden Schritten kann sehr viel passieren, also ist es sinnvoll, nur das zu überprüfen, bei dem das verwendete Modell überhaupt eine Rolle spielen kann. D.h., wenn wir experimentieren, sollten wir für verschiedene Kontexte abfragen, welcher Kasus stehen muss, aber nicht die konkrete Markierung erfragen. Wir setzen also die Fragestellung erst in eine experimentell beantwortbare um, indem wir uns die Aufgabe stellen, die folgende Hypothese zu unterstützen: Deutsch‐ lerner profitieren beim Lernen des Unterschieds zwischen Nominativ und Akkusativ davon, dass man ihnen Grammatikerklärungen im Valenz-/ Dependenzmodell bietet. Bei der praktischen Durchführung des Experiments müsste man zwei vergleichbare Gruppen von Lernern haben und mit jeweils demselben Lehrbuch unterrichten, wobei jedoch für eine der beiden Gruppen alle relevanten Grammatikdarstellungen in die traditionelle Grammatik umgeschrieben werden müssten. Nachdem die Einführung des Akkusativs abgeschlossen ist, würde man dann beiden Gruppen einen schriftlichen Test vorlegen, in dem für verschiedene Sätze bei den nominalen Elementen abgefragt wird, welcher Kasus jeweils richtig ist. Aufgabe 5: Da Sie selbst eine Studie für diese Aufgaben suchen sollen, können wir Ihnen hier keine Beispiellösung anbieten. 212 Anhang: Lösungen der Aufgaben <?page no="213"?> Aufgaben Kapitel 9: Skalenniveaus Aufgabe 1: a. Schulbildung: Nominalskala b. Akzeptabilität von Sätzen: Ordinalskala c. gesprochener Dialekt: Nominalskala d. Benotung von Aufsätzen: Ordinalskala e. Reaktionszeit: Metrische Skala f. verschiedene Arten von Relativsätzen im Englischen: Nominalskala g. didaktische Fähigkeiten: Ordinalskala h. Länge der Schlagzeilen in Wörtern oder in Buchstaben: Metrische Skala Aufgabe 2: 1. Nationalität: Sie können jeweils die einzelnen Länder aufführen, Sie können aber auch, wenn die erhaltenen Ergebnisse Ihnen ausreichend ähnlich erscheinen, Län‐ der zusammenfassen, z. B. werden manchmal die BENELUX-Länder zusammenge‐ fasst oder Spanien und Portugal. In jedem Fall geht es um ein Nominalskalenniveau. 2. Erstsprache: Hier werden Sie eventuell einige weniger verbreitete Erstsprachen als „andere“ zusammenfassen wollen: Nominalskalenniveau. 3. Alter: Sie haben Verhältnisskalenniveau, wenn Sie das tatsächliche Alter festhalten. Das macht die Darstellung allerdings sehr unübersichtlich, insofern werden Sie sicher eine überschaubare Zahl von Gruppen in Bezug auf das Alter zusammen‐ fassen, z. B. <21, 21-35, 36-50, 51-65, >65, und damit kommen Sie auf ein Ordinalskalenniveau. 4. Ausbildung: Auch hier werden Sie Gruppen bilden, damit alle Möglichkeiten erfasst werden können, z. B. wenn Sie sich nur um die Schulausbildung küm‐ mern, wäre das Folgende eine Möglichkeit: Hauptschulabschluss oder geringer; Realschul-/ Fachoberschulabschluss; Abitur oder Äquivalent; begonnenes Studium; abgeschlossenes Studium. Hier hätten Sie eine Nominalskala, denn es ist vielleicht in der Wahrnehmung vieler Menschen so, dass ein abgeschlossenes Studium „mehr“ ist als ein Hauptschulabschluss, aber im statistischen Sinne ist das nicht so. Eine Verhältnisskala könnten Sie haben, wenn Sie einfach die Anzahl der aufsteigenden Schul- und Ausbildungsjahre zusammenrechnen, ohne den Schulbzw. Ausbildungstyp zu berücksichtigen, also nur „6, 7, 8 … Ausbildungsjahre“ angeben. Das ist jedoch unüblich. 5. Beruf: Die Berufe werden auch üblicherweise zusammengefasst, z. B. nach der Art des Arbeitsvertrags in Arbeiter, Angestellte, leitende Angestellte, Beamte, nicht berufstätig. Oder auch ganz anders, wie Wissenschaftler, Handwerker, Geschäftsmann usw. Für eine bestimmte Untersuchung kann aber eine andere Einteilung viel sinnvoller sein. Auf jeden Fall haben wir ein Nominalskalenniveau. Anhang: Lösungen der Aufgaben 213 <?page no="214"?> 6. und 7. Für 6 und 7 ist die Kategorisierung vorgegeben. Strikt genommen haben wir hier Ordinalskalenniveau, weil die „Intervalle“ nicht unbedingt gleich sind, es kann gut sein, dass die Befragten die Extreme eher vermeiden. In der Praxis betrachtet man eine solche Skala aber oft als (Semi-) Verhältnisskalenniveau und berechnet Mittelwerte, was bei einer Ordinalskala nicht möglich wäre. 8. Hier wurde vorgesehen, dass offene Antworten gegeben werden können; das stellt Sie vor die Aufgabe, im Nachhinein den gegebenen Antworten Kategorien zuzuweisen, was vermutlich nicht mehr einbringt, als wenn Sie gleich etwas wie „sehr gering 1 - 2 - 3 - 4 - 5 äußerst groß“ vorgegeben hätten. Aufgaben Kapitel 10: Beschreibung von Daten Aufgabe 1: - Gesamtgruppe ohne William Median 6.5 7 Mittelwert 6.20 6.78 S 2.15 1.20 z-Werte (berechnet ohne das Ergebnis von William): Person z-Wert Person z-Wert Adrian -0.65 Nan -0.65 Jay -0.65 Margaret 1.02 Judith -1.48 Frank 0.19 Lydia 0.19 David 1.85 Nancy 0.19 William - Aufgabe 2: Ergebnis Häufigkeit 9 1 8 1 7 3 6 3 214 Anhang: Lösungen der Aufgaben <?page no="215"?> Ergebnis Häufigkeit 5 1 4 0 3 0 2 0 1 1 Gesamt 10 Aufgaben Kapitel 11: Beziehungen zwischen Daten Aufgabe 1: Wenn es eine positive Korrelation zwischen der Taillenweite von Menschen und ihrem Einkommen gibt (und dies ist in den meisten europäischen Ländern der Fall), ist wahrscheinlich ein verborgener Faktor mit im Spiel, wie beispielsweise das Alter oder das Geschlecht. Es gibt eine positive Korrelation zwischen Alter und Taillenweite (Menschen werden ein bisschen dicker, wenn sie älter werden) und zwischen Alter und Einkommen (mit höherem Alter steigt das Einkommen). Daher gibt es konsequenter‐ weise auch eine positive Korrelation zwischen Taillenweite und Einkommen. Dies wäre eine irreführende Korrelation. Aufgabe 2: Ein Korrelationskoeffizient von r = -.65 ist stärker als r = +.45. Das hat nichts damit zu tun, dass der eine positiv und der andere negativ ist. Aufgabe 3: a. r = -.52 Die Korrelation ist negativ, wie auch durch die negative Steigung der Geraden des Graphen in der folgenden Abbildung ersichtlich ist. Sie zeigt eine mittlere Be‐ ziehung. Die negative Korrelation ist durch Mattys Ergebnis entstanden. Nehmen wir Matty als „Ausreißer“ aus der Ergebnisbewertung heraus, haben wir einen Korrelationskoeffizienten von r = .25. b. Vielleicht hat Matty sich nicht gut gefühlt, als sie aus der Erstsprache übersetzte, oder vielleicht hat sie eine andere Erstsprache als die anderen Schüler. Anhang: Lösungen der Aufgaben 215 <?page no="216"?> c. d. Ein Vergleich der Ergebnisse aus den zwei Übersetzungsaufgaben ergab eine (ne‐ gative) Korrelation (r = -.52). Eine Neuberechnung der Korrelation mit Ausschluss des Ausreißers ergibt eine schwach positive Korrelation (r = .25). Aufgabe 4: Die Berechnung von Spearmans Rho auf Grund dieser Rangordnungen ergibt einen Korrelationskoeffizienten von r s = -.04, der aber das Signifikanzniveau nicht erreicht. Aufgabe 5: Um diese überaus konfliktträchtige Frage zu beantworten, führen wir einen Chi-Qua‐ drat-Test durch. Wir beobachten, dass es im Laufe der letzten Fleischklößchenmahlzeiten eine unterschiedliche Anzahl von Fleischklößchen gibt, nämlich 10, 5 und 30. Wenn die Mutter nicht voreingenommen ist, würden wir bei dieser Anzahl verteilter Klößchen erwarten, dass jeder Sohn insgesamt 15 Klößchen in seinen Suppen der letzten fünf Mahlzeiten hat. Die erwartete Häufigkeit ist also 15, 15 und 15: 216 Anhang: Lösungen der Aufgaben <?page no="217"?> Sohn A Sohn B Sohn C beobachtete Häufigkeit 10 5 30 erwartete Häufigkeit 15 15 15 Die Frage ist nun, ob die Differenz zwischen der beobachteten und der erwarteten Häufigkeit groß genug ist, dass wir sagen können, ob die ungleiche Verteilung auf böswillige Absicht zurückzuführen ist oder ob sie rein zufällig ist. Wir führen einen Chi-Quadrat-Test durch. Nun stellen wir fest, dass unser Wert χ 2 = 23.34 (p < .001) signifikant ist. Mit anderen Worten: Es gibt ausreichenden Grund zu behaupten, dass die Anzahl der Klößchen in der Suppe von irgendetwas außer dem Zufall beeinflusst wurde. Mit der Mutter müsste man reden…. Aufgaben Kapitel 12: Prüfen von Unterschieden und Veränderungen Aufgabe 1: Ein t-Test für unabhängige Gruppen, den wir einfach in Excel durchführen, ergibt: t(38) = 2.04, p = .048. Sie könnten die Ergebnisse im Forschungsbericht wie folgt darstellen: In einer Untersuchung der Lernergebnisse in zwei Gruppe, wobei Gruppe A von einer jungen, aber unerfahrenen Lehrerin unterrichtet wurde und Gruppe B von einer älteren, erfahrenen Lehrerin unterrichtet wurde, zeigte sich, dass Schüler der Gruppe A (M = 6.60, SD = 2.11) bessere Ergebnisse erreichten als Schüler der Gruppe B (M = 5.35, SD = 2.98) (t(37) = 2.04, p = .048, d = 0.48). Dies legt nahe, dass die ältere Lehrerin trotz ihrer größeren Erfahrung weniger erfolgreich im Vermitteln des Lehrstoffs war als ihre jüngere Kollegin. Aufgabe 2: Beobachtete Häufigkeit: - A B Gesamt Ja 16 12 28 Nein 4 8 12 Gesamt 20 20 40 Wir geben die Anzahl der „ja“- und „nein“-Antworten jeweils für Gruppe A und B in einen Chi-Quadrat-Rechner ein und erhalten das Ergebnis: χ 2 (1) = 1.91, nicht signifikant. Ein möglicher Ergebnisbericht wäre: Ein Chi-Quadrat Test ergab keinen Unterschied zwischen den zwei Gruppen in Bezug auf die Frage der frühzeitigen Pensionierung von Lehrern über 50 (χ2 = 1.91, df = 1, n.s.). Anhang: Lösungen der Aufgaben 217 <?page no="218"?> Aufgabe 3: Da es sich hier um sehr wenige Daten handelt, würden wir normalerweise einen Mann-Whitney-U-Test verwenden. Dies lassen wir mit einem Online-Rechner durch‐ führen und erhalten das Ergebnis U(n 1 = 6, n 2 = 7)= 2, z = -2.64, p < .001. Man könnte das Resultat der Analyse wie folgt aufschreiben: Der Vergleich mit einem Mann-Whitney-U-Test ergab, dass in Boulevard-Zeitungen kürzere Sätze (mit durchschnittlich 14.0 Wörtern) verwendet werden als in seriösen Zeitungen (mit durchschnittlich 26.3 Wörtern) (U (n1=6, n2=7)= 2, p < .001). Wenn Sie übrigens stattdessen doch einen t-Test versucht haben, werden Sie das Ergebnis: t(11) = 3.48, p < .001 erhalten haben - das Beispiel zeigt uns also wieder, dass der t-Test auch bei recht kleinen Gruppen noch ziemlich robust ist. Aufgabe Kapitel 13: Signifikanz vs. Aussagekraft Aufgabe 1: Die Hattie-Metaanalyse zeigt, dass der Einsatz von Wortschatzprogrammen in der Sprache der Beschulung zu verbesserten schulischen Leistungen mit mittlerer Effekt‐ stärke (d = +0.62) führt. Dagegen hat der jahrgangsübergreifende Unterricht keinen Einfluss auf die Lernleistungen - Schüler, die im jahrgangsübergreifenden Unterricht lernen, erreichen weder bessere noch schlechtere Ergebnisse als Schüler, die in Klassen unterrichtet werden, die nur aus einem Jahrgang bestehen (z. B. Klasse 7). Und schließlich hat das Fernsehen einen negativen Effekt auf die Lernleistung, allerdings ist dieser Effekt sehr klein. Aufgabe 2: In Kapitel 12 haben wir folgendes Ergebnis erhalten: t(38) = 2.04, p = .048. Wir berechnen nun auch d mit einem Online-Programm, hier SocSciStatistics (https: / / w ww.socscistatistics.com/ effectsize/ default3.aspx). Dafür müssen wir die Mittelwerte, Standardabweichungen und Gruppengrößen der beiden Gruppen angeben: Gruppe A: M = 6.60, SD = 2.11, n = 20 Gruppe B: M = 5.35, SD = 2.98, n = 20 Wir erhalten das Ergebnis: d = 0.48 Dies ist ein fast mittlerer Effekt. Die Ergebnisdarstellung könnte wie folgt aussehen: In einer Untersuchung der Lernergebnisse in zwei Gruppen, wobei Gruppe A von einer jungen. aber unerfahrenen Lehrerin unterrichtet wurde und Gruppe B von einer älteren, erfahrenen Lehrerin unterrichtet wurde, zeigte sich, dass Schüler der Gruppe A (M = 6.60, SD = 2.11) bessere Ergebnisse erreichten als Schüler der Gruppe B (M = 5.35, SD = 2.98). Die Unterschiede waren statistisch signifikant mit kleiner bis mittlerer Effektstärke (t(38) = 2.04, p = .048, d-= 0.48). 218 Anhang: Lösungen der Aufgaben <?page no="219"?> Literaturverzeichnis In dieser Liste haben wir nach dem Titel einen kurzen Kommentar hinzugefügt, wenn wir meinten, ein Titel könnte sich als weiterführende Literatur eignen. Wie immer in diesem Buch folgen wir hier den Richtlinien für APA7 (deutsche Version). Altrichter, H., Posch, P. & Spann, H. (2018). Lehrerinnen und Lehrer erforschen ihren Unterricht. Verlag Julius Klinkhardt. [Standardwerk zur Einführung in die Aktionsforschung; geht hauptsächlich auf qualitative Forschung ein] American Psychological Association (APA). (2020). Publication manual of the American Psycho‐ logical Association: The official guide to APA style (Seventh edition). American Psychological Association. [In diesem Buch verwenden wir die Richtlinien der APA mit Bezug auf Zitation und die Angaben u. a. statistischer Werte.] Atteslander, P., Ulrich, G.-S. & Hadjar, A. (2023). Methoden der empirischen Sozialforschung (14., neu bearb. und erw. Aufl.). Erich Schmidt Verlag. [Gut verständliche Einführung, mehrfach überarbeitet, Beispiele vorwiegend aus der Soziologie] Bachman, L. (2010). Statistical analyses for language assessment. Cambridge University Press. [Leicht verständliche Einführung in statistische Tests in der Sprachlehrforschung] Blom, E. & Unsworth, S. (Hrsg.). (2010). Experimental methods in language acquisition research. John Benjamins. [Guter Überblick unterschiedlicher Möglichkeiten des Experimentierens in der Spracherwerbsforschung.] Boeckmann, K.-B. (2002). Forschung in der Unterrichtspraxis: FremdsprachenlehrerInnen als ForscherInnen. In H. Barkowski & R. Faistauer (Hrsg.), … in Sachen Deutsch als Fremdsprache: Festschrift für Hans-Jürgen Krumm zum 60. Geburtstag (S.-180-190). Schneider. [Einführung in die Unterrichtsbegleitforschung, hier bezogen auf, aber auf keinen Fall begrenzt auf die Fremdsprachenvermittlungsforschung / Aktionsforschung] Brinker, K. & Sager, S. F. (2006). Linguistische Gesprächsanalyse: Eine Einführung (4. Aufl.). Erich Schmidt Verlag. [Standardwerk zur Einführung in die Gesprächsanalyse] Brown, J. D. & Rodgers, T. S. (2003). Doing second language research. Oxford University Press. Bubenhofer, N. (2006-2024). Einführung in die Korpuslinguistik: Praktische Grundlagen und Werk‐ zeuge. Elektronische Ressource: http: / / www.bubenhofer.com/ korpuslinguistik/ . [20.08.2024] [Gut verständlicher, kostenloser und praxisnaher Online-Kurs mit einer Einführung in die Korpuslinguistik, Tutorials zur Korpuserstellung und -analyse sowie Einführungen in wichtige deutschsprachige Korpora.] Caspari,-D., Klippel,-F., Legutke,-M. & Schramm,-K. (Hrsg.). (2022). Forschungsmethoden in der Fremdsprachendidaktik: Ein Handbuch (2. Aufl.). Narr Francke Attempto. [Sammelband mit unterschiedlichen Artikeln zu relevanten Themen der quantitativen und qualitativen Forschung.] Cohen, J. (1992). A power primer. Psychological Bulletin 112 (1), 155-159. Deppermann, A. (2008). Gespräche analysieren (4. Aufl.). Verlag für Sozialwissenschaften. [Standardwerk zur Einführung in die Gesprächsanalyse] <?page no="220"?> Dörnyei, Z. & Dewaele, J.-M. (2022). Questionnaires in second language research: Construc‐ tion, administration, and processing (3. Aufl.). Routledge. [Gut verständliches Werk zu methodisch-methodologischen Aspekten der empirischen Forschung mit Fragebögen in der Zweitspracherwerbsforschung, auch mit umfangreicher Besprechung der Arbeit mit Onlinefragebögen und der Entwicklung und Validierung von Instrumenten.] Döring, N. (2023). Forschungsmethoden und Evaluation. Springer. [Gut lesbare Einführung zu Forschungsmethoden insgesamt sowie zu den häufigsten statistischen Verfahren. Frühere Auflagen sind unter Döring & Bortz oder Bortz & Döring zu finden.] Edmondson,-W.-J. & House,-J. (2011). Einführung in die Sprachlehrforschung (4. Aufl.). Francke. [Kapitel 3 enthält eine knappe und übersichtliche Einführung in Forschungsansätze der Sprachlehrforschung] Ellis, P. D. (2010). The essential guide to effect sizes: Statistical power, meta-analysis, and the inter‐ pretation of research results. Cambridge University Press. [Gute Einführung in Effektstärken und Metaanalysen] Flick,-U. (2011). Triangulation: Eine Einführung (3., aktualisierte Aufl.). VS Verlag. Friebertshäuser,-B., Langer,-A. & Prengel,-A. (Hrsg.). (2013). Handbuch qualitative Forschungs‐ methoden in der Erziehungswissenschaft (4. Aufl.). Beltz Juventa. [Guter Überblick über die qualitative Forschung, deren Arbeitsschritte und Forschungsansätze (Unterrichtsbeobach‐ tung, Fallstudien, Lehrertagebücher, Interviews)] Hagenauer,-G., Gegenfurtner,-A. & Gläser-Zikuda,-M. (2023). Grundlagen und Anwendung von Mixed Methods in der empirischen Bildungsforschung. Lehrbuch. Springer VS. Heine,-L., Marx,-N., Schädlich,-B. & Wilden,-E. (2020). Review of doctoral research in language education in Germany (2014-2018). Language Teaching, 53(3), 341-357. https: / / doi.org/ 10.10 17/ S0261444820000063 Henne, H. & Rehbock, H. (2019). Einführung in die Gesprächsanalyse. De Gruyter. [Gut verständ‐ liche erste Einführung in die Gesprächsanalyse] Hirschmann, H. (2019). Korpuslinguistik: Eine Einführung. J.B. Metzler. [Gute Einführung mit praktischen Anleitungen und Aufgaben anhand von frei verfügbaren, plattformunabhängi‐ gen Ressourcen.] Hunston, S. (2022). Corpora in applied linguistics. Cambridge University Press. Lemnitzer, L. & Zinsmeister, H. (2015). Korpuslinguistik: Eine Einführung. Narr Francke At‐ tempto. [Gründliche Einführung in die Korpuslinguistik] Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse. Beltz Psychologie VerlagsUnion. Lincoln, Y. S. & Guba, E. (1989). Naturalistic inquiry. Sage. Mackey,-A. & Gass,-S.-M. (2022). Second language research: Methodology and design (3. Aufl.). Routledge Taylor & Francis Group. [Standardwerk zu Forschungsmethoden in der Sprach‐ lehrforschung in englischer Sprache] Porte, G. K. (2010). Appraising research in second language learning: A practical approach to critical analysis of quantitative research (2. Aufl.). John Benjamins. [Gute Einführung in die Rezeption empirischer Untersuchungen in der Sprachlehrforschung] Porte,-G.-K. & McManus,-K. (2019). Doing replication research in applied linguistics. Routledge Taylor & Francis Group. [Empfehlenswerte Einführung in Replikationsstudien.] 220 Literaturverzeichnis <?page no="221"?> Riemer, C. (2006). Entwicklungen in der qualitativen Fremdsprachenforschung: Quantifizierung als Chance oder Problem? In J.-P. Timm (Hrsg.), Fremdsprachenlernen und Fremdsprachenfor‐ schung: Kompetenzen, Standards, Lernformen, Evaluation (S.-451-464). Narr. [Überblick über Möglichkeiten und Richtlinien für die qualitative Sprachlehrforschung] Riemer, C. (2008). DaF/ DaZ und empirische Forschung: wechselnde Herausforderungen. In C. Chlosta, G. Leder & B. Krischer (Hrsg.), Auf neuen Wegen. Deutsch als Fremdsprache in Forschung und Praxis. Tagungsband der 35.-Jahrestagung des Fachverbandes Deutsch als Fremdsprache 2007 an der Freien Universität Berlin (S. 1-16). Universitätsverlag. [Besprechung u. a. von Standards in der qualitativen Sprachlehrforschung] Rost, J. (2004). Lehrbuch Testtheorie - Testkonstruktion. (2. Aufl.) Huber. Scherer,-C. (2014). Korpuslinguistik (2. Aufl.). Winter. [Verständliche Einführung in die Korpus‐ linguistik] Settinieri, J., Demirkaya, S., Feldmeier, A., Gültekin-Karakoç, N. & Riemer, C. (Hrsg.). (2014). Empirische Forschungsmethoden für Deutsch als Fremd- und Zweitsprache. Schöningh. [Einlei‐ tung in qualitative und quantitative Forschungsmethoden mit dem Schwerpunkt DaF] Statistisches Bundesamt. (o.-J.). www.destatis.de/ DE/ Home/ _inhalt.html [20.08.2024] [Enthält Daten über die Grundgesamtheit] Steiner,-E. & Benesch,-M. (2021). Der Fragebogen: Von der Forschungsidee zur SPSS-Auswertung (6. Aufl.). Facultas. [Ausführliche und verständliche Behandlung der Vorgehensweise bei Befragungsstudien] Steinke, I. (1999). Kriterien qualitativer Forschung: Ansätze zur Bewertung qualitativ-empirischer Sozialforschung. Juventa. Strübing, J. (2021). Grounded theory: Zur sozialtheoretischen und epistemologischen Fundierung des Verfahrens der empirisch begründeten Theoriebildung. Verlag für Sozialwissenschaften. Vanhove, J. (2021). Statistische Grundlagen. https: / / homeweb.unifr.ch/ VanhoveJ/ Pub/ Statistikku rs/ StatistischeGrundlagen.pdf [Gute Einführung zu Statistik, insbesondere aus der Perspek‐ tive der Sprachwissenschaften] Wei, L. & Moyer, M. (Hrsg.). (2008). The Blackwell guide to research methods in bilingualism and multilingualism. Blackwell. [Enthält gut verständliche Texte zu unterschiedlichen Forschungsmethoden und -designs in der Spracherwerbsforschung; bei der Suche nach Projektideen ist ein eigenes Kapitel mit möglichen Forschungsfragen nützlich] Winter, B. (2019). Statistics for linguists: An introduction using R. Routledge. [Gute Einführung zu Statistik, insbesondere aus der Perspektive der Sprachwissenschaften] Literaturverzeichnis 221 <?page no="222"?> ISBN 978-3-381-11521-1 Das Studienbuch bietet eine systematische Anleitung für Studierende, die eine quantitativ vorgehende empirische Untersuchung im Bereich Linguistik/ Sprachlehr- und -lernforschung planen. Jeder einzelne Schritt wird ausführlich erklärt: das Finden einer genau definierten Untersuchungsfrage, das Beachten wissenschaftlicher Gütekriterien, die Auswahl einer geeigneten Stichprobe, häufige Ansätze (Beobachtung, Befragung, Testen, Interventionen und Nutzung von Textkorpora), häufig eingesetzte Erhebungsinstrumente, die Datenaufbereitung und Datenauswertung, die Präsentation der Ergebnisse und das Schreiben des Forschungsberichts. Zu allen Kapiteln gibt es Übungsaufgaben mit Lösungshinweisen sowie ausführliche Hinweise auf weiterführende Literatur. Für die vierte, komplett überarbeitete Auflage wurden insbesondere neue Forschungstendenzen bei empirisch vorgehenden Untersuchungen beachtet. Stimmen zum Buch: „Der große Pluspunkt des Studienbuchs liegt in seiner Konzeption, die sehr durchdacht auf die Bedürfnisse von Studierenden zugeschnitten ist“ - Zeitschrift für Romanische Sprachen und ihre Didaktik 13,1 (2019) „So darf das Buch als gelungene Didaktisierung empirischer Methoden für eine spezifische Zielgruppe betrachtet werden“ - Zeitschrift für Angewandte Linguistik (2018) Albert / Marx Empirisches Arbeiten Empirisches Arbeiten in Linguistik und Sprachlehrforschung 4., überarbeitete Auflage Ruth Albert / Nicole Marx