eBooks

Empirie in Linguistik und Sprachlehrforschung

2002
978-3-8233-5985-2
Gunter Narr Verlag 
Ruth Albert
Cor J. Koster

Das aus der Praxis der Examensbetreuung entstandene und in diversen Seminaren zum empirischen Arbeiten erprobte Arbeitsbuch soll diejenigen Studierenden anleiten, die eine empirische Untersuchung auf dem Niveau der Magisterarbeit oder Dissertation planen. Ruth Albert und Cor J. Koster bieten eine allgemeinverständliche Einführung in die verschiedenen Verfahrensweisen, die in der Linguistik und Sprachlehrforschung angewandt werden. Sie erklären Beobachtung, Befragung, Experiment und Nutzung von Textkorpora als Verfahren zur Datenerhebung, hinsichtlich der Auswertung erläutern sie diejenigen Methoden der beschreibenden und prüfenden Statistik, die GeisteswissenschaftlerInnen tatsächlich benötigen. Dabei wird auch der Umgang mit der üblicherweise verwendeten Software Schritt für Schritt vorgeführt. Übungsaufgaben und ein Lösungsschlüssel ermöglichen die Selbstkontrolle.

narr studienbücher Ruth Albert / Cor J. Koster Empirie in Linguistik und Sprachlehrforschung Ein methodologisches Arbeitsbuch Gunter Narr Verlag Tübingen Die Deutsche Bibliothek - CIP-Einheitsaufnahme Albert, Ruth: Empirie in Linguistik und Sprachlehrforschung : ein methodologisches Arbeitsbuch / Ruth Albert ; Cor J. Koster. - Tübingen : Narr, 2002 (Narr Studienbücher) ISBN 3-8233-4985-6 © 2002 · Gunter Narr Verlag Tübingen Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf chlorfrei gebleichtem und säurefreiem Werkdruckpapier. Internet: http: / / www.narr.de E-Mail: info@narr.de Druck: Gulde, Tübingen Verarbeitung: Nädele, Nehren Printed in Germany ISSN 0941-8105 ISBN 3-8233-4985-6 V Inhaltsverzeichnis 0 Zur Einführung 1 Aufgabe 10 1 Gütekriterien für empirische Untersuchungen 11 1.1 Verlässlichkeit (Reliabilität) 12 1.2 Gültigkeit (Validität) 13 1.3 Geltungsbereich 14 Aufgaben 16 2 Die Beobachtung 17 Aufgaben 23 3 Die Befragung 24 3.1 Die Wahl der Stichprobe 27 3.1.1 Die Größe der Stichprobe 29 3.2 Befragungsarten 30 3.2.1 Offene Konzepte, explorative Interviews 30 3.2.2 Geschlossene Konzepte, festgelegte Fragefolgen 32 3.2.3 Offene und geschlossene Fragen 34 3.2.4 Direkte und indirekte Fragen 35 3.3 Aufbau eines Fragebogens 36 3.4 Umgang mit der Gefahr von Artefakten 37 3.5 Kodierung der Antworten, Auswertungsmöglichkeiten 39 Aufgaben 43 4 Das Experiment 46 4.1 Experimentelle Forschung 46 4.2 Der Entwurf des Forschungsvorhabens 48 4.2.1 Vorbereitungen für ein Experiment 51 4.2.2 Laborvs. Feldexperiment 52 4.2.3 Kontrollgruppen 53 4.3 Mehrfaktorielle Fragestellungen 56 4.4 Ergebnisdarstellung 59 Aufgaben 67 5 Arbeiten mit Textkorpora 68 Aufgabe 72 6 Beschreibende Statistik 74 6.1 Messskalen 74 6.2 Streuung, Mittelwert, Standardabweichung 77 6.3 Häufigkeiten, relative Häufigkeit 80 6.4 Die Darstellung der Daten 81 Aufgaben 85 7 Korrelationen 87 7.1 Kalkulation des Korrelationskoeffizienten 90 7.2 Wann ist eine Korrelation hoch genug? 93 7.3 Korrelation bedeutet keine Kausalität 95 7.4 Wie man Korrelationen präsentiert 97 Aufgaben 98 VI 8 Das Testen des Tests 100 8.1 Geschlossene Tests 100 8.1.1 Einheitenanalyse (item analysis) 101 8.2 Offene Tests 104 8.3 Gemischte Tests 105 8.4 Validität 105 8.5 Verlässlichkeit (Reliabilität) 106 Aufgaben 110 9 Wann sind Unterschiede bedeutsam? 111 9.1 Der t-Test 112 9.1.1 t-Test für korrelierende Stichproben 112 9.1.2 t-Test für unabhängige Gruppen 114 9.1.3 Annahmen, die der t-Test voraussetzt 117 9.1.4 Wie man die Ergebnisse eines t-Tests präsentiert 118 9.2 Der Chi-Quadrat-Test 118 9.2.1 Wie man Chi-Quadrat-Ergebnisse präsentiert 127 9.3 ANOVA: Varianzanalyse (analysis of variance) 128 9.3.1 ANOVA: Beispiel 1 128 9.3.2 ANOVA: Beispiel 2 131 9.4 Wann man welchen Test benutzt 134 9.5 Signifikanz und Aussagekraft 135 9.5.1 Interpretation des Signifikanzniveaus 135 9.5.2 Erklärte Varianz 137 9.5.2.1 Korrelation und r-Quadrat 137 9.5.2.2 t-Test und Omega zum Quadrat 138 9.5.2.3 Chi-Quadrat und Cramér’s V 139 9.5.2.4 ANOVA und Eta zum Quadrat 140 9.6 Weiterführende Literatur 141 Aufgaben 142 10 Statistik- und Tabellenkalkulationsprogramme 144 10.1 Freeware-/ Shareware-Statistikprogramme 144 10.2 Das Tabellenkalkulationsprogramm Excel 145 10.3 Berechnung von Korrelationen 147 10.4 t-Test für korrelierende Stichproben 148 10.5 t-Test für zwei unabhängige Stichproben 151 10.6 Chi-square 152 10.7 ANOVA 153 11 Lösungen der Aufgaben 156 Anhänge 177 VII Vorwort Wir richten uns an Studierende der Geisteswissenschaften, die ihre Examens- oder Doktorarbeit schreiben und haben uns deshalb auf die Beschreibung der Verfahren beschränkt, die Geisteswissenschaftler tatsächlich benutzen. Dabei zeigen wir neben den Rechenverfahren “von Hand” die Benutzung von Computerprogrammen, vor allem die Statistik-Anwendungen im verbreiteten Tabellenkalkulationsprogramm Excel. Dieses Buch kann keine Wunder wirken. Es ersetzt nicht, mit dem/ der Betreuer(in) der Arbeit zu besprechen, was genau untersucht werden soll, welche Methoden dabei zur Datenerhebung eingesetzt werden können und wie bei der Analyse der erhobenen Daten vorzugehen ist. Wir vermitteln einen ersten Eindruck, erklären häufig benutzte Verfahren und warnen vor häufig vorkommenden Fehlern. Wenn man ein Buch für Personen mit recht verschiedenem Hintergrundwissen schreibt, dann tut man gut daran, bei der Darstellung der einzelnen Methoden Beispiele zu wählen, die man verstehen kann, ohne dass vorher komplizierte linguistische Hypothesen oder lerntheoretische Annahmen erklärt werden müssen. Deshalb haben wir hier mit möglichst einfachen und teils auch erfundenen Beispielen gearbeitet, die man mit Alltagswissen verstehen kann und in Kauf genommen, dass diese Beispiele gelegentlich banal erscheinen mögen. Die einzelnen Kapitel enden jeweils mit Übungsaufgaben, die es Ihnen ermöglichen sollen zu überprüfen, ob Sie das Gelesene schon selbständig auf eine neue, konkrete Aufgabenstellung anwenden können. Erfahrungsgemäß ist man recht sicher, dass man die Aufgabe genau so gelöst hätte, wie es im Lösungsteil angegeben ist, wenn man unmittelbar nach dem Lesen der Aufgabe die Lösung nachliest. Wenn man die Aufgabe aber tatsächlich zu lösen versucht, ergeben sich doch Fragen. Wir raten Ihnen deshalb, falls die Aufgabe für Ihre geplante Arbeit relevant sein könnte, sie wirklich erst ohne die Lösungshinweise in Kapitel 11 zu bearbeiten. Wir wollten einen möglichst leicht lesbaren Text schreiben, sodass wir uns entschieden haben, in Bezug auf die politische Korrektheit bei den Personenbezeichnungen wie folgt vorzugehen: Wenn eine tatsächlich geschlechtsneutrale Form (wie z.B. “Lehrperson”) nicht existiert, sind die Forscher und Forscherinnen im Text immer weiblich, die Versuchsteilnehmer und Versuchsteilnehmerinnen (das ist der politisch korrekte Ausdruck für “Versuchspersonen”) oder Schüler und Schülerinnen immer männlich bezeichnet. In beiden Fällen sind selbstverständlich beide Geschlechter gemeint. Wir danken Tamara Faschingbauer, Sabine Jentges, Gebhard Aders und den Studierenden unserer Seminare für wertvolle Hinweise, die zur Verbesserung des Manuskripts beigetragen haben. 1 0 Zur Einführung Manche Sprachlehrpersonen fragen sich Dinge wie beispielsweise: • Wie lehrt man am besten Vokabeln? Sollte man Vokabeln den Schülern mit Hilfe von Texten beibringen, indem man eine Übersetzung der unbekannten Wörter eines Textes gibt, oder sollte man die Schüler die Bedeutung der Wörter aus dem Text heraus selbst erraten lassen? • Wie sollte man Grammatik lehren? Ist es besser, sie zuerst zu erklären und dann einige Übungen zu machen oder sollte man mit einer Situation oder einem Text beginnen und die darin enthaltenen wichtigen grammatischen Erscheinungen mit den Schülern gemeinsam erarbeiten? • Würden die weniger begabten Schüler mehr lernen, wenn ich die Gruppe aufspalte in eine mit den besseren und eine mit den schlechteren Schülern? • Macht es einen Unterschied, ob in Gruppen mit Schülern unterschiedlicher Sprachlerneignung oder ob in homogenen Gruppen unterrichtet wird? • Sind Schüler mit zwei arbeitenden Elternteilen tatsächlich im Schnitt besser als diejenigen, bei denen nicht beide Eltern arbeiten, oder ist das nur ein Eindruck, den ich aufgrund meiner eigenen Schülergruppe habe? • Sind Mädchen wirklich sprachbegabter als Jungen? Und falls ja, warum? Oder fällt ihnen nur die Aussprache von Fremdsprachen leichter? Oder sie interessieren sich für ganz andere Fragestellungen, wie beispielsweise: • Wie unterscheidet sich die gesprochene von der geschriebenen Sprache in Bezug auf den Gebrauch komplexer Satzkonstruktionen? • Worin unterscheidet sich die Sprache der Boulevardpresse von der seriöser Zeitungen? • Ist es tatsächlich so, dass in politischen Talkshows in England mehr “tag questions” (wie isn't it? ) verwendet werden als in anderen Sendungen? Und wenn das stimmt, woran liegt es? Einige dieser Fragen können sehr leicht beantwortet werden, weil auf diesem Gebiet schon viel Forschung betrieben wurde. Trotzdem kann man der Meinung sein, dass man selbst mehr darüber herausfinden möchte, oder vielleicht glaubt man auch, dass die vorhandene Forschung zu einer bestimmten Frage für die eigene Situation nicht besonders relevant ist, oder man hat einfach Spaß an der Überprüfung von Hypothesen. Für diese neugierige Sorte der besonders enthusiastischen Sprachlehrpersonen - und angehenden Sprachlehrpersonen - sind dieses und die folgenden Kapitel geschrieben. Fragestellungen Zur Einführung 2 Auch Linguistinnen, die keine praktische Anwendung ihrer Forschung im Klassenzimmer planen, arbeiten oft empirisch. Empirisches Arbeiten liegt schon dann vor, wenn man seine Urteile des “kompetenten Sprechers” der jeweiligen Sprache nicht mehr bei sich selbst durch Introspektion gewinnt, sondern versucht, eine Anzahl “kompetenter Sprecher” systematisch nach ihren Grammatikalitätsurteilen zu befragen. Selbst eine so einfache Befragung kann man geschickt und auch ausgesprochen ungeschickt angehen. Obwohl dies häufig nicht geglaubt wird, kann Forschung von Sprachlehrpersonen auch in tatsächlichen Klassenzimmersituationen betrieben werden. Alles, was man braucht um Forschung zu betreiben, ist Neugier, eine Menge Geduld, etwas Wissen über Statistik und eine gehörige Portion gesunden Menschenverstand. Zusätzlich muss man über die möglichen Fallen Bescheid wissen, die einen bei einem Forschungsprojekt erwarten. Arten von Forschung Forschung wird gewöhnlich in qualitative und quantitative Forschung aufgeteilt. Quantitative Forschung wird dann wieder aufgeteilt in experimentelle und nicht-experimentelle Forschung. Nur als Anmerkung: “Qualitative Forschung” ist natürlich nur eine Bezeichnung und bedeutet nicht notwendigerweise, dass diese Forschung von besonders hoher Qualität ist, es gibt in der qualitativen und in der quantitativen Forschung gute und schlechte Arbeiten. Abb. 1: Arten von Forschung Arten von Forschung Forschung quantitative Forschung qualitative Forschung experimentelle Forschung nicht-experimentelle Forschung Zur Einführung 3 Quantitative Forschung beschäftigt sich mit Zahlen, die zusammengerechnet oder in komplizierte Formeln eingesetzt werden; bei dieser Art von Forschung beschäftigt man sich mit Konzepten wie dem Mittelwert und der Standardabweichung. Bei der qualitativen Forschung zählt man vielleicht auch (wie beispielsweise die Anzahl der weiblichen Charaktere in “Hamlet” im Vergleich zum “Sommernachtstraum”), aber man interessiert sich hauptsächlich für Meinungen, Gefühle und Intuitionen von anderen Menschen (oder sich selbst). Qualitative Forschung ist sehr häufig introspektiv. Wir lassen qualitative Forschung völlig außer Acht - einfach deshalb, weil qualitative Forschung sich nicht mit numerischen Daten beschäftigt. Nicht-experimentelle quantitative Forschung zählt oft einfach nur; Meinungsumfragen sind ein typisches Beispiel dafür (“Wie viele Menschen beantworten eine bestimmte Frage mit ja, wie viele mit nein? ”). Experimentelle Forschung ist dadurch charakterisiert, dass etwas (beispielsweise die Menge Alkohol, die man zu sich nimmt, oder die Art und Weise, wie man lernt) manipuliert wird, d.h. vom Forscher kontrolliert wird. Tabelle 1 enthält typische Beispiele für die verschiedenen Arten von experimenteller Forschung. Tabelle 1: Beispiele für die drei Arten von Forschung Experimentelle Forschung nicht-experimentelle Forschung qualitative Forschung Der Effekt von Alkohol auf die Fahrtüchtigkeit Änderungen im Familieneinkommen während der letzten 10 Jahre Die Rolle der Frau bei Schiller Ergebnisse eines frühen Lernanfangs im Englischen Die Entwicklung der Wortstellung bei Kindern Die Endung “-mark” in Ortsnamen Effekte von Hausaufgaben im Sprachunterricht Häufigkeit der einzelnen Vergangenheitstempora im Deutschen Arten der Pronominalisierung im Frühneuhochdeutschen Der Effekt von regressiver Assimilation auf die Worterkennung Sprachlicher Hintergrund in multiethnischen Grundschulen Kritik am Begriff “Regressive Assimilation” Wann arbeitet man eigentlich in der Linguistik und Sprachlehrforschung sinnvollerweise empirisch? Nicht für jedes linguistische Problem und auch nicht für jedes Problem der Beschreibung einer bestimmten Sprache ist empirische Forschung nötig. Nötig ist sie aber dann, wenn man nicht durch die Beobachtung seines eigenen Sprachvermögens zu einer Lösung des anstehenden Problems gelangen kann. Das ist z.B. dann der Fall, wenn vermutet werden muss, dass es Unterschiede gibt zwischen der sprachlichen Gegenstand Zur Einführung 4 Norm und dem tatsächlichen Sprachgebrauch; in diesem Fall muss man den tatsächlichen Sprachgebrauch empirisch untersuchen, um die Unterschiede zur Norm zu erfahren. Auch kann es sein, dass man sich nicht sicher ist, ob jeder Sprecher der zu beschreibenden Sprache denselben Sprachgebrauch hat wie man selbst. Ebenso kann es sein, dass das zu untersuchende Phänomen äußerst komplex ist. Das ist z.B. in der Wirklichkeit des Fremdsprachenunterrichts immer so. Aber auch in der “reinen Linguistik” gibt es sehr komplexe Phänomene zu untersuchen. Dazu gehören vor allen Dingen die Beschreibung des Ablaufs von Gesprächsformen, z.B. Kommunikation vor Gericht, Kommunikation in der Schule, Verkaufsgespräche, Verhandlungsgespräche u.a.m. Für diese Untersuchungen gibt es eine spezielle linguistische Methode, die Gesprächsanalyse oder Konversationsanalyse. Sie beruht auf speziellen Verfahren der Datenerhebung und der Datenaufbereitung, darunter besonders die Transkription der Gespräche nach festgelegten Notationen, die nicht nur den Wortlaut der Äußerungen, sondern auch Betonungen, Gleichzeitig-Sprechen, Pausen, Tonhöhenverlauf und vieles andere mit berücksichtigen. In die Gesprächsanalyse oder Konversationsanalyse gibt es zwei Einführungen, einerseits Helmut Henne/ Helmut Rehbock, 1982, Einführung in die Gesprächsanalyse, erschienen bei Walter de Gruyter - Sammlung Göschen und andererseits Klaus Brinker/ Sven Sager, 1989, Linguistische Gesprächsanalyse: Eine Einführung, erschienen bei Schmidt, Berlin. Da es für diese Art empirischer Forschung bereits zwei gute Einführungen gibt, soll dieses Thema hier nicht weiter aufgegriffen werden. Zudem gelten für die Gesprächsanalyse einige Sonderbedingungen. Aufgrund des enormen Aufwands bei der Datenerhebung und -aufbereitung ist es bei konversationsanalytischen Arbeiten schwierig, mit einer angemessenen Anzahl von untersuchten Personen bzw. untersuchten Gesprächen zu arbeiten, so dass hier teilweise nicht auf den Standards bestanden wird, die wir im Folgenden für andere Arten von empirischer Forschung anführen. Wir beschäftigen uns also mit der nicht konversationsanalytisch ausgerichteten empirischen Forschung im Bereich Linguistik/ Sprachlehrforschung. Empirische Forschung im Bereich Linguistik außerhalb der Konversationsanalyse folgt den üblichen Regeln der empirischen Sozialforschung, d.h., die dort geltenden Gütekriterien und die dort geltenden Methoden werden von Linguisten genauso benutzt wie von Soziologen auch. Das Ziel dieser einführenden Darstellung ist, einen Überblick über diese Methoden zu verschaffen und die Leserinnen in die Lage zu versetzen, selbst eine empirische Untersuchung in diesem Bereich zu planen und durchzuführen. Dazu werden die folgenden Themen behandelt: Zunächst einmal die Gütekriterien für empirische Sozialforschung allgemein. Danach die Form der Befragung, wobei auf Interviews und Fragebogen-Befragungen eingegangen wird. Der Aufbau eines Fragebogens ist bei einer empirischen Untersuchung dieser Art der Teil, der ganz besonders sorgfältig geplant sein Zur Einführung 5 muss. Wir erleben es immer wieder, dass Studierende mit einem gut gemeinten, aber falsch angelegten Fragebogen enorme Arbeit in eine wissenschaftlich nicht verwertbare Untersuchung stecken. Es folgen die B e obachtung und das Experiment als Forschungsmethode. Im anschließenden Teil geht es um die statistische Auswertung der Ergebnisse, die man bei seinen durch Befragung, Beobachtung oder Experiment erhobenen Daten gewonnen hat. Dieser Teil ist oft für Geisteswissenschaftler etwas angsterregend. Schließlich hat man das Studium einer Philologie gewählt, weil man schon immer nicht rechnen konnte. 1 Es gibt aber keinen Anlass vor Statistik Angst zu haben. Die eigentliche Rechenarbeit übernehmen heutzutage Computer-Programme, und der in dieser Einführung behandelte Teil der Statistik ist nur der, den man als Geisteswissenschaftler tatsächlich braucht. Bevor man eine empirische Untersuchung beginnt, sollte man sich über die folgenden Fragen völlig klar sein: 1. Was genau soll untersucht werden? Damit ist gemeint, der Untersuchungsgegenstand muss genau beschrieben werden. Man muss exakt festlegen, welchen Ausschnitt aus der Wirklichkeit man untersuchen möchte. Gerade in der Sprachlehrforschung, bei der es um recht verschiedene Dinge gehen kann, die alle auf den Unterrichtsprozess ihren Einfluss haben, muss man seine Untersuchungsfragestellung sehr klar formuliert haben, was keineswegs einfach ist. Ein Beispiel dazu: Nehmen wir an, es soll untersucht werden, ob man das Hörverständnis von Fremdsprachenlernern besser mit der Methode X oder mit der Methode Y fördern kann. Dann wird eine ganz entscheidende Frage für den Wert der Untersuchung sein, ob es gelingt, den Faktor “Hörverständnis” hinreichend von anderen Faktoren zu isolieren. 2. Wie soll das zu Untersuchende erfasst werden? Damit ist die Wahl der Methode gemeint. Abhängig von der Art der Fragestellung muss die richtige Methode zur Datenerhebung gewählt werden. Grundsätzlich können Daten über Beobachtung, Befragung oder durch ein Experiment gewonnen werden. Untersucht man z.B. Fehlerkorrekturen im Fremdsprachenunterricht, so kann man die Frage, welche Arten von Fehlerkorrekturen überhaupt vorkommen, kaum anders als durch Beobachtung klären, keine Lehrperson wird ihr Verhalten so genau beschreiben können, dass man tatsächlich alle Arten von Fehlerkorrekturen erfahren würde, die diese Lehrperson anwendet. Die Zufriedenheit der Schüler mit bestimmten Arten der Korrektur kann man über eine Befragung erheben und eine Erfolgsmessung verschiedener Korrekturverfahren gelingt am exaktesten in einem Experiment, in dem man alle störenden Einflussfaktoren ausschließen kann. 1 Oder nicht? : -) Vorfragen Zur Einführung 6 3. Zu welchem Zweck sollen diese Daten erfasst werden? Die Frage bezieht sich darauf, dass man vor der Datenerhebung bereits bedenken muss, welche Schlussfolgerungen man aus den Resultaten hinterher tatsächlich ziehen kann. Viele laienhaft angelegte empirische Untersuchungen sammeln Daten, die hinterher nicht interpretierbar sind. Soll z.B. eine bestehende Hypothese oder Theorie überprüft werden, so wird man sich fragen, welche Vorhersagen diese Hypothese für bestimmte Situationen macht. Dann kann man diese Situationen versuchen zu beobachten oder sie künstlich zu schaffen, um zu überprüfen, ob sich die Wirklichkeit entsprechend den Vorhersagen dieser Theorie verhält. Man beobachtet z.B. bei Befragungen oft, dass Studierende Fragen stellen, ohne sich vorher genügend genau überlegt zu haben, was die möglichen Antworten für ihre Untersuchung überhaupt bedeuten können. Den daraus resultierenden Problemen kann man entgehen, indem man, nachdem der Fragebogen konzipiert ist, systematisch untersucht, ob man die zu erwartenden Antworten überhaupt für seine Argumentation gebrauchen kann. Es ist nicht sinnvoll eine Befragung so anzulegen, dass man Fragen stellt mit dem Ziel “Ich sehe mal, was dabei herauskommt”. Wenn man z.B. für die im Folgenden als Beispiel gebrauchte Untersuchung eine Operationalisierung von “katholisch” nach der Lohnsteuerkarte benutzt (“katholisch ist derjenige, in dessen Lohnsteuerkarte als Religion “katholisch” eingetragen ist”), dann ist eine Frage wie “Gehen Sie regelmäßig in die Kirche? ” oder “Was halten Sie vom Papst? ” nicht relevant für die Untersuchung. Derartige Fragen hätten nur einen Sinn, wenn anzunehmen wäre, es spiele eine Rolle beim Perfektgebrauch, ob jemand das “Katholisch-Sein” mehr oder weniger intensiv praktiziert. Hypothesenprüfung Empirische Forschung untersucht normalerweise, ob eine bestimmte Hypothese der Überprüfung in der Realsituation standhält. In diesem Zusammenhang muss zunächst einmal ausgeführt werden, was eine Hypothese für die empirische Sprachforschung überhaupt bedeutet. Eine Hypothese ist ein Satz, der empirisch falsifizierbar ist. Sinn der empirischen Untersuchung ist, dass durch sie eine Hypothese bestätigt oder verworfen werden kann. Die wichtigsten Kriterien für eine solche falsifizierbare Hypothese sind: 2 1. Eine Hypothese ist eine Aussage, nicht eine Frage. Beispielsweise könnte man die Hypothese aufstellen: “Katholische Deutschsprachige gebrauchen Perfekt bei der Bezeichnung von Vergangenem, andere Deutschsprachige nicht”. Diese Hypothese könnte man vereinfachen 2 Die folgende Darstellung lehnt sich an die Ausführungen in Atteslander 1995 an. Was heißt “Hypothese”? Zur Einführung 7 zu: “Wenn jemand katholisch ist, dann gebraucht er das Perfekt bei der Bezeichnung von Vergangenem, andernfalls nicht”. 2. Die Aussage enthält mindestens zwei semantisch gehaltvolle Begriffe. Im Beispiel sind das “katholisch” und “Perfekt”. 3. Die Begriffe sind durch den logischen Operator “wenn-dann” verbunden. Also in unserem Fall, w e nn jemand katholisch ist, dann gebraucht er das Perfekt. 4. Die Aussage ist nicht tautologisch, d.h. ein Begriff deckt den anderen semantisch nicht vollständig ab. Dies ist ein Problem der Definition der beiden Begriffe, auf die die Untersuchung sich bezieht. In unserem Fall würden wir “katholisch” wie oben erwähnt als eingetragene Zugehörigkeit zur katholischen Kirche (auf der Lohnsteuerkarte) definieren. Bei “Perfekt” würden wir uns vermutlich an die Morphologie halten und sowohl für starke als auch für schwache Verben genau festlegen, woran wir Perfektformen erkennen. In diesem Fall war es nicht schwer Tautologien auszuschließen. Das kann bei anderen sprachwissenschaftlichen Fragestellungen ganz anders sein. Angenommen, wir hätten die Hypothese zu überprüfen, “Jeder deutsche Satz enthält ein Subjekt”, dann würden wir vor der Frage stehen, wie “Subjekt” überhaupt ohne den Rückgriff auf den Begriff “Satz” zu definieren sein kann und umgekehrt. 5. Die empirischen Geltungsbedingungen sind implizit oder explizit im Einzelnen aufgezählt. In unserer Hypothese gilt implizit eine Universal-Aussage, d.h. ein einziger Katholischer, der das Präteritum statt des Perfekts gebrauchen würde, würde unsere Hypothese schon widerlegen. Betrachten wir nun den realistischeren Fall, wir hätten die Hypothese aufgestellt “Katholische Deutschsprachige gebrauchen häufiger Perfekt als Nicht-Katholische”. Dann würde stattdessen eine statistische Behauptung gelten, nämlich die, dass wenn man eine hinreichend große Gruppe von katholischen und von nicht-katholischen Sprechern des Deutschen untersucht, dass man dann bei den katholischen Sprechern prozentual mehr Perfekt, bezogen auf die Gesamtverteilung der Tempora, findet als bei den nicht-katholischen. Natürlich ist hier die Beweisführung viel komplizierter und erfordert einen viel größeren Aufwand beim Einsatz empirischer Methoden. 6. Die Begriffe sind auf Wirklichkeits-Phänomene hin operationalisierbar. Das haben wir bereits getan, indem wir “katholisch” operationalisiert haben mit “Zugehörigkeit zur katholischen Kirche (Eintrag auf der Lohnsteuerkarte)”. Auch “Perfekt” müssten wir nun operationalisieren durch eine feste Definition von “Perfekt”, die immer wieder gleich angewandt wird, also zu einer Liste der infrage kommenden Formen führt. Wir können nicht willkürlich bei den Nicht-Katholischen einen anderen Begriff von “Perfekt” zu Grunde legen als bei den Katholischen. Die Definition ist übrigens nicht so einfach, denn man Zur Einführung 8 muss valenzreduzierte Formen wie Die Straße ist gesperrt und Das Pferd hat die Fesseln bandagiert ausnehmen. 7. Die Aussage ist falsifizierbar. Die ursprüngliche Hypothese wäre bereits mit dem Nachweis falsifiziert, dass eine einzige nichtkatholische Person einmal ein Perfekt benutzt hat. Bei der schwächeren Hypothese “Katholiken gebrauchen häufiger Perfekt” wäre die Hypothese falsifiziert, wenn sich bei einer hinreichend großen Anzahl von katholischen und nicht-katholischen Sprechern kein im statistischen Sinne signifikanter Unterschied (d.h. kein Unterschied, der groß genug ist, um den Zufall mit ausreichender Sicherheit als Ursache auszuschließen) in der Häufigkeit des Gebrauchs des Perfekts aufzeigen lässt. Das heißt noch nicht, dass das Gegenteil bewiesen wäre (also dass Katholiken das Perfekt genauso gebrauchen wie andere Sprecher des Deutschen), es heißt nur, dass unsere Daten keinerlei Unterstützung für die Annahme liefern, Katholiken gebrauchten mehr Perfekt als Nicht-Katholiken. Gegenstand unserer Untersuchungen ist im allerweitesten Sinn menschliches Verhalten, nämlich Sprachverhalten, Kommunikationsverhalten oder Lernverhalten. Um über dieses Verhalten mehr zu erfahren, gibt es drei verschiedene Herangehensweisen. Zunächst einmal kann ich das zu untersuchende Verhalten da untersuchen, wo es natürlicherweise stattfindet. Das ist in der Sprachlehrforschung das verbreitetste der angewandten Verfahren. Man beobachtet das Unterrichtsgeschehen einfach im “normalen” Unterricht. Wichtig bei diesem Verfahren der Beobachtung ist es, dass die beobachtenden Forscher die zu beobachtende Wirklichkeit so wenig wie möglich verändern. Sie können sich vorstellen, dass eine Gruppe von Schülern - und ganz bestimmt auch eine Lehrperson - sich anders verhält, wenn eine Gruppe von Video-filmenden Forscherinnen in ihrem Unterricht auftritt, als in der normalen Unterrichtssituation. Die zweite Möglichkeit ist die Befragung. Hier stört die Forscherin nicht den Prozess, über den sie etwas aussagen will, sondern sie bittet die am Prozess Beteiligten um Auskünfte. In diesem Fall wird die Wirklichkeit gefiltert durch bewusste Prozesse derjenigen, die befragt werden. Das ist besonders dann problematisch und erfordert besonders ausgefeilte Techniken, wenn Normen im Spiel sind. Jeder Befragte wird natürlich das Bestreben haben, sich so darzustellen als verhalte er sich den Normen entsprechend, vor allem, wenn er selbst diese Normen akzeptiert (was bei sprachlichen Normen häufiger der Fall ist als bei anderen Verhaltensnormen). In einer von Ruth Albert durchgeführten Untersuchung (Brons- Albert 1977) wurden Sprecher des Deutschen gefragt, welches Tempus sie zur Bezeichnung von zukünftigen Ereignissen verwenden. Fast alle Befragten erklärten, sie gebrauchten ständig das Futur. In später erhobenen Daten ihrer aktuellen Sprachproduktion gebrauchten sie allerdings nur in etwa 5% der Fälle das Futur. Wir können also nicht immer davon ausgehen, Die einzelnen Methoden Zur Einführung 9 dass die Antworten, die wir in Befragungen bekommen, tatsächlich die Wirklichkeit widerspiegeln. Die dritte Möglichkeit der Verhaltensbeobachtung ist das Experiment. Der Vorteil von Experimenten ist, dass wir dort versuchen alles auszuschließen oder konstant zu halten, was für die Untersuchungsfragestellung keine Rolle spielt. Ein gut geplantes Experiment ist ausschließlich auf die Untersuchungsfragestellung hin geplant und erhebt keine anderen Daten als die, um die es bei der entsprechenden Hypothesenüberprüfung geht. Ein Beispiel dafür wären die bekannten Experimente zu den von Sprechern benutzten Regeln der Pluralbildung. In diesen Experimenten bildeten die Sprecher Pluralformen von verschieden aufgebauten Kunstwörtern, z.B. zu einem Wort wie W u g oder Emmel. Das erreicht man mit einem ganz einfachen Verfahren. Man zeigt eine Zeichnung oder Stoffpuppe eines seltsamen Tieres und erklärt: “Das ist ein Wug.” Dann zeigt man eine Zeichnung von zwei Exemplaren davon oder zwei Stoffpuppen und erklärt: “Und hier ist noch ein Wug. Das sind jetzt zwei…” Die Versuchspersonen ergänzen ihren Plural von “Wug”. Hier ist völlig ausgeschlossen, dass die Versuchspersonen die entsprechenden Wörter schon einmal in einem Plural gehört haben, sie müssen also die Pluralregeln anwenden, die sie mental gespeichert haben. Störende Einflüsse kann es aber trotzdem geben, z.B. durch die Reihenfolge, in der die Kunstwörter präsentiert (die Versuchsteilnehmer bleiben gern bei einer vorher gewählten Endung). Man muss also nach Techniken suchen, derartige Effekte möglichst auszuschalten, hier wäre eine ganz einfache Technik, dass man die Kunstwörter jedem Versuchsteilnehmer in einer anderen Reihenfolge zeigt. Zur Einführung 10 Aufgabe Nehmen wir an, Sie sollten Forschung auf einer Reihe von Gebieten, die unten in etwa beschrieben werden, betreiben. Welche Art der Forschung wäre am geeignetsten (experimentell, nicht-experimentell, qualitativ)? Beschreiben Sie, falls die experimentelle Forschung vorzuziehen ist, den Entwurf des Forschungsvorhabens, die verschiedenen Variablen und die Art und Weise, wie diese operationalisiert werden sollen. In anderen Worten: Wie würden Sie das Forschungsvorhaben angehen? a. Der Einfluss eines Partybesuchs in der Nacht vor einer Prüfung auf diese Prüfung b. Die Beziehung zwischen Sprachlaborübungen und Aussprache c. Die Bedeutung von Farben in den Werken von Chaucer (ein englischer Dichter des 14. Jahrhunderts) d. Die Fremdsprachenkenntnisse niederländischer Geschäftsleute e. Der Nutzen von Korrekturen der Grammatikfehler von Fremdsprachenlernern f. Verwendung von Höflichkeitsformen bei internationalen Verhandlungen g. Arten der Selbstkorrektur beim L1- und L2-Spracherwerb h. Ein Vergleich des stillen und des lauten Lesens bei der Entwicklung der Lesefähigkeit. 11 1 Gütekriterien für empirische Untersuchungen Bei jeder empirischen Untersuchung entstehen einige nahe liegende grundsätzliche Fragen, die wir anhand von drei Beispielen erläutern wollen. Angenommen, wir wollen die Übersetzungsfertigkeit von Studenten messen und wir haben dazu einen Text von 200 Wörtern ausgesucht, der in die Fremdsprache übersetzt werden sollte. Manche Studenten haben eine gute Übersetzung geschrieben, manche eine mittelmäßige oder schlechte. Wissen wir auf Grund dieser Übersetzungen dann, ob diese Studenten gut oder schlecht übersetzen können? Oder könnte es sein, dass wir ganz andere Resultate bekommen hätten, wenn wir einen anderen Text ausgesucht hätten, einen Text über ein anderes Thema oder einen viel längeren Text? Und angenommen, wir hätten diesen Text von einer von drei Gruppen Erstsemester-Studenten der Anglistik übersetzen lassen, können wir dann anhand der Resultate dieser Übersetzungen etwas über das zu erwartende Übersetzungsfertigkeitsniveau der anderen beiden Gruppen aussagen? Oder über die Fähigkeiten von Erstsemestern allgemein im Übersetzen? Oder nehmen wir an, wir lassen einen Dozenten Essays beurteilen, die Studenten in einem Kurs “Schriftlicher Ausdruck” geschrieben haben. Wie sicher können wir sein, dass die Kriterien, die der Dozent benutzt, gut und konsistent sind? Würde ein anderer Dozent dieselben Noten vergeben? Und können wir, wenn ein Student eine gute Note für diesen Essay bekommen hat, annehmen, dass er sich gut schriftlich ausdrücken kann? Um ein ausführliches Beispiel zu geben: Wir wollen herausfinden, wie Wörter in unserem mentalen Lexikon zusammenhängen, ob Wörter, die in bestimmten Kontexten häufig zusammen vorkommen, auch im Gehirn so organisiert sind, dass sie einander aktivieren. Wir betrachten Wörter aus demselben Script wie Arzt, Krankenschwester, Krankenhaus oder wie Schlüssel und abschließen, bei Mehrsprachigen auch in ihrer zweiten Sprache (key, lock), oder wir betrachten Wörter aus demselben Wortfeld wie hell und dunkel oder Vogel und Spatz. Um das zu untersuchen, haben wir ein Experiment entwickelt, in dem Wortpaare auf einem Computerbildschirm präsentiert werden, wobei das zweite “Wort” manchmal ein existierendes Wort und manchmal eine Buchstabenfolge ohne Bedeutung ist. Unter den Wörtern gibt es dann solche, die eine Beziehung zum anderen Wort des Wortpaares haben, und solche, die keine von den o.a. Beziehungen aufweisen. Das erste Wort wird kurz auf dem Computerbildschirm gezeigt und direkt danach das zweite. Die Versuchsteilnehmer (Studenten) müssen auf einen roten Knopf drücken, wenn das zweite kein Wort ist, und auf einen grünen, wenn es ein Wort ist. Dabei interessiert uns nur, wie sie auf tatsächliche Wörter reagieren. Wir messen die Reaktionszeit von der Präsentation des zweiten Wortes bis zum Drücken des Knopfes. Wir erwarten, dass Einführung Gütekriterien für empirische Untersuchungen 12 die Reaktionszeit kürzer ist, wenn das präsentierte Wortpaar key - lock ist, als wenn das präsentierte Wortpaar fee - lock ist. Dabei kommen Fragen auf wie: • Wie viele Wortpaare brauchen wir eigentlich, um ein einigermaßen zuverlässiges Ergebnis zu bekommen? Reichen 5? Oder 10? Oder brauchen wir erheblich mehr? • Und wenn wir Unterschiede in der Reaktionszeit finden, was können wir auf Grund davon genau über unsere Fragestellung aussagen? • Und, angenommen wir haben tatsächlich gefunden, dass die Reaktionszeit kürzer war, wenn es eine - wie auch immer geartete - Beziehung zwischen den beiden Wörtern des Wortpaares gab, können wir dann für die Schlüsse, die wir daraus ziehen, mit der nötigen Sicherheit sagen, dass sie nicht nur für unsere kleine Gruppe von Versuchsteilnehmern gelten, sondern für alle Deutschsprachigen? Die oben gestellten Fragen beziehen sich unter anderem auf die Reliabilität, die Validität und den Geltungsbereich der jeweiligen Untersuchung. 1.1 Verlässlichkeit (Reliabilität) Die Begriffe “Verlässlichkeit”, “Zuverlässigkeit” und “Reliabilität” werden synonym gebraucht; sie bezeichnen dasselbe, und zwar ob das Messverfahren exakt ist, ob es das, was gemessen werden soll, exakt erfasst. Als verlässlich gilt eine Erhebung und das bei dieser Erhebung benutzte Instrument dann, wenn bei einer Wiederholung des Verfahrens unter gleichen Bedingungen die gleichen Ergebnisse erzielt werden. Das ist bei einfachen Messverfahren kein Problem: die Länge meines Tisches sollte dieselbe sein, wenn ich sie zweimal nacheinander mit demselben oder einem anderen Zollstock messe, aber bei unserer Art von Untersuchungen macht die Ermittlung der Reliabilität schon einigen Aufwand nötig. Zur Ermittlung der Verlässlichkeit gibt es im Prinzip vier Verfahren: • Testwiederholung: Wenn es möglich ist, kann man - nach einer gewissen Zeit, damit sich die Versuchsteilnehmer nicht mehr an das erinnern, was sie beim letzten Mal produziert haben - einfach denselben Test noch einmal machen. Dabei sieht man, ob das Ergebnis der zweiten Durchführung des Tests mit der ersten übereinstimmt. Dieses Verfahren kann man bei Grammatikalitätsurteilen durchaus anwenden, bei Sprachbeherrschungstests geht es meist nicht, weil die Lerner in der Zwischenzeit - oder durch den ersten Test selbst - Lernfortschritte gemacht haben können. • Paralleltest: Man untersucht dieselben Versuchsteilnehmer ohne nennenswerten zeitlichen Abstand mit einer zweiten Version des Tests, Verlässlichkeit Gütekriterien für empirische Untersuchungen 13 den man eingesetzt hat. Das erfordert allerdings, dass die beiden eingesetzten Tests wirklich äquivalent sind. Zudem lässt sich das Verfahren nicht anwenden, wenn ein Lerneffekt durch das Bearbeiten des ersten Tests eintritt. • Testhalbierung (in der englischsprachigen Literatur “split-half”): Bei diesem Verfahren wird nichts neu gemessen, sondern es wird berechnet, ob der Test in sich konsistent ist. Man unterteilt dazu die Ergebnisse des Tests in zwei Hälften und überprüft mit statistischen Verfahren, ob diese zwei Hälften wesentlich verschiedene Ergebnisse haben. Wenn das so ist, gilt der Test als inkonsistent und damit wenig verlässlich. • Konsistenzprüfung: Auch das ist ein Rechenverfahren, aber es ist viel aufwändiger als das vorige. Man unterteilt den Test in alle seine Einzelaufgaben und berechnet wieder die Konsistenz der Ergebnisse. 1.2 Gültigkeit (Validität) Mit “Gültigkeit” oder “Validität” bezeichnet man, inwiefern das Messverfahren das misst, was es zu messen vorgibt. Wir kennen alle ironische Sprüche wie “ich weiß zwar nicht genau, was ich messe, aber das messe ich ganz genau”. 1 Die Validität einer Untersuchung ergibt sich also daraus, ob tatsächlich das erhoben, erfragt oder beobachtet und gemessen wird, was untersucht werden soll. Nicht nur das Messinstrument selbst (also z.B. der benutzte Fragebogen oder der benutzte Test), sondern das gesamte Untersuchungsdesign müssen bei einer Prüfung der Gültigkeit kontrolliert werden, denn Fehler können auch in anderen Punkten liegen, etwa einer fehlerhaften Auswahl der Befragten oder der Verwendung von Begriffen, die von verschiedenen Personenkreisen unterschiedlich gebraucht werden, u.a.m. Bei der Gültigkeitsprüfung ist eine Reihe von unterschiedlichen Vorgehensweisen möglich. Es ist üblich, zwischen mindestens vier Arten von Validität zu unterscheiden. Wir werden sie nicht weiter behandeln, weil es praktisch keinen statistischen Test gibt, der eine von den vielen verschiedenen Arten von Validität messen kann. 1. Augenschein-Validität ist die einfachste - und am schlechtesten nachprüfbare - Art der Validität und bezieht sich ganz einfach darauf, ob Tester und Getesteter meinen, dass der Test “richtig” aussieht (Plausibilitätskontrolle). Er könnte nicht richtig aussehen, wenn er zum Beispiel zu kurz ist. Einige Lehrer können sich sehr schnell eine gute Einschätzung davon verschaffen, wie die Aussprache eines Schülers ist, nachdem sie mit ihm eine Minute geredet haben, und diese Einschätzung würde sich auch nicht ändern, wenn der Schüler einen 20 1 Der Erfinder eines Intelligenztests z.B. soll gesagt haben, “Intelligenz ist das, was meine Tests messen.” Gültigkeit Gütekriterien für empirische Untersuchungen 14 Minuten dauernden Aussprachetest absolvieren würde. Es gäbe also keinen Grund, einen 20-Minuten-Test durchzuführen; eine Minute würde reichen. Allerdings kann es gut sein, dass der Schüler nicht glauben würde, dass der Lehrer ein gut begründetes Urteil auf Grund einer einminütigen Prüfung fällen kann, und daher würde ein solch kurzer Aussprachetest für ihn keine Augenschein-Validität besitzen. 2. Die Messung der Übereinstimmungs-Validität. Dieses Verfahren, das darauf angewiesen ist, dass bereits andere Daten vorliegen, vergleicht die in der Untersuchung gewonnenen Daten mit Daten, von denen man annimmt, dass sie mit dem Merkmal, das gemessen werden soll, eng zusammenhängen. Man nimmt an, dass das eigene Erhebungsinstrument dann valide ist, wenn die damit erhobenen Daten annähernd mit bereits vorliegenden Daten übereinstimmen. Ein Beispiel: Es geht um einen Hörverständnis-Test. Schlecht konzipierte Hörverständnis- Tests messen bekanntlich oft Wortschatz, allgemeine Schlussfolgerungsfähigkeiten, Weltwissen u.a. Ein in seiner Aussagefähigkeit zu überprüfender Hörverständnis-Test müsste also bei denselben getesteten Personen ähnliche Ergebnisse haben wie bereits als gut erkannte Hörverständnis-Tests desselben Niveaus. 3. Inhaltliche Validität (content validity) bezieht sich darauf, ob das Material, das in einem Test verwendet wird, eine repräsentative Auswahl dessen ist, was getestet werden muss, bei Tests in der Schule also zum Beispiel von dem, was gelernt oder gelehrt wurde. 4. Die Konstrukt-Validität ist das Verfahren, was angewendet wird, wenn kein “handgreiflicheres” möglich ist. Es handelt sich um das Aufzeigen, dass das Erhebungsinstrument tatsächlich eine angemessene Operationalisierung des zu Untersuchenden darstellt und den theoretischen Bezugsrahmen der Forschungsfrage genau trifft. Geisteswissenschaftlerinnen, die empirisch arbeiten, sollten auf jeden Fall überprüfen, ob sie andere Möglichkeiten der Messung der Validität haben, denn ein solcher Beweis ist nicht nur schwierig zu führen, es ist auch naheliegend, dass man bessere Operationalisierungsmöglichkeiten, die man schon bei der Planung seiner Untersuchung übersehen hat, auch in diesem Fall übersieht. Wenn jedoch keine andere Möglichkeit besteht, so müssen sie eben so deutlich wie möglich darlegen, dass ihre Operationalisierung das misst, was gemessen werden soll. 1.3 Geltungsbereich Das dritte Gütekriterium ist der Geltungsbereich. Der Geltungsbereich umschreibt, unter welchen Gegebenheiten die Ergebnisse einer Untersuchung Gütekriterien für empirische Untersuchungen 15 für ein bestimmtes Untersuchungsobjekt bzw. für bestimmte Untersuchungsobjekte gelten. Der Geltungsbereich bei sprachwissenschaftlichen Untersuchungen ist häufig einer der am ehesten angreifbaren Punkte. Sehr häufig wird recht naiv davon ausgegangen, dass Daten, die vor zwanzig Jahren oder vor noch längerer Zeit erhoben wurden, immer noch Aussagen über die heutige Sprache erlauben. Ebenso naiv wird oft angenommen, dass Daten, die in einem ganz bestimmten Dorf oder einer ganz bestimmten Stadt erhoben worden sind, Aussagen erlauben über die Landessprache insgesamt. Wir müssen also genau überlegen, wofür die erhobenen Daten überhaupt repräsentativ sein können. Dabei spielen nicht nur zeitliche und örtliche Gegebenheiten eine Rolle, sondern natürlich auch die ausgewählten Versuchspersonen. Das, was wir üblicherweise in der Psycholinguistik und Sprachpsychologie mangels anderer Möglichkeiten tun, nämlich aus Experimenten mit Psychologiestudierenden Rückschlüsse zu ziehen auf die Sprecher der deutschen Sprache allgemein, berücksichtigt nicht, dass Psychologiestudierende natürlich eine besondere soziale Gruppe sind, und zwar sowohl vom Alter als auch vom sozialen Status her, möglicherweise sogar auch von bestimmten Wertvorstellungen her. Dies kann in Teilbereichen auch ein besonderes Sprachverhalten hervorrufen. Auch die Sprachlehrforschung hat mit diesem Problem zu kämpfen. Es ist nicht einfach, sämtliche Schultypen, Unterrichtsformen usw. in die Untersuchung einzubeziehen, aber wenn dies nicht gelingt, kann man nicht ohne weiteres davon ausgehen, dass die erhobenen Daten für alle Schultypen usw. gelten. Geltungsbereich Gütekriterien für empirische Untersuchungen 16 Aufgaben Wir nehmen uns noch einmal den Fall des Gebrauchs der Vergangenheitstempora vor. 1. Operationalisieren Sie “Perfekt”! Welche Bedingungen müssen erfüllt sein, damit etwas als “Perfekt” gezählt wird? Erstellen Sie eine eindeutige Zählanweisung, die “Zustandsformen” weitgehend ausschließt. 2. Welche Art der Datenerhebung würden Sie vorschlagen, wenn es darum geht, den Gebrauch der Vergangenheitstempora bei Sprechern unterschiedlicher Konfession zu ermitteln (Beobachtung - Befragung - Experiment)? Legen Sie fest, wie Sie konkret bei der Form der Datenerhebung vorgehen könnten, die Sie gewählt haben. 3. Angenommen, Sie sind folgendermaßen vorgegangen: Sie haben bei Ihren Eltern in der ländlichen Umgebung von Kiel, wo der größte Teil der Bevölkerung evangelisch ist, und bei Ihrer Freundin in der ländlichen Umgebung von München, wo der größte Teil der Bevölkerung katholisch ist, jeweils 20 nach Schichtzugehörigkeit und Geschlecht sorgsam ausgewählten Dorfbewohnern die gleiche Aufgabe gestellt: “Bitte, erzählen Sie mir detailliert, wie Ihr gestriger Tag verlaufen ist.” Die Erzählungen haben Sie auf Band aufgenommen und die finiten Verbformen gezählt. Sie haben bei den Kielern 1356 finite Verbformen in Vergangenheitstempora erhalten, bei den Münchenern 1837. Davon waren bei den Kielern 1017 Präteritum, 258 Perfekt, der Rest andere Tempora oder unverständlich. Bei den Münchenern waren 1706 Perfekt, 93 Präteritum, der Rest andere bzw. unverständlich. Diskutieren Sie Validität und Geltungsbereich dieser Ergebnisse für eine Hypothesenprüfung: “Die Wahl der Vergangenheitstempora richtet sich nach der Konfession der Sprecher in der Art, dass Katholische mehr Perfekt gebrauchen als Nicht-Katholische.” 4. Nun ein ganz anderes Beispiel: Sie haben aus pädagogischen Gründen einen Sprachstandstest so konzipiert, dass am Anfang die leichten Fragen gestellt werden, damit die Schüler Erfolgserlebnisse haben; gegen Ende des Tests werden die Fragen immer schwieriger. Was bedeutet das für die Anwendung von Reliabilitätstests? 17 2 Die Beobachtung Die Beobachtung ist ein besonders aufwändiges Verfahren der Datenerhebung. Für eine Beobachtung entscheidet man sich deshalb normalerweise nur dann, wenn man anhand von Befragungen oder Experimenten nicht das tatsächliche Verhalten, über das man Aufschluss haben will, erfahren kann. Dies kann dann der Fall sein, wenn die zu befragenden Personen auf Grund der Fragestellung zu sehr beeinflusst würden (z.B. wenn sprachliche oder gesellschaftliche Normen im Spiel sind - man denkt üblicherweise von sich selbst, dass man “richtig” spricht bzw. sich als Lehrperson “richtig” verhält) oder wenn es um ein Phänomen geht, das lediglich in gesprochener Sprache zu beobachten ist, oder wenn das zu untersuchende Sprechbzw. Kommunikationsverhalten nur im realen situativen Kontext vorkommt und nicht simulierbar ist. Die Beobachtung ist auch deshalb ein besonders Zeit raubendes und aufwändiges Verfahren, weil sie in der realen Situation stattfindet und anschließend dokumentiert werden muss. 1 Das Verfahren der Beobachtung wird von Linguistinnen und Sprachlehrforscherinnen vor allem in der Konversationsanalyse und in der Unterrichtsbeobachtung als eine Methode zur Gewinnung von Informationen benutzt. Man unterscheidet bei der Beobachtung die offene und die verdeckte Beobachtung. Bei der verdeckten Beobachtung sind die Beobachteten sich während der Beobachtung nicht der Tatsache bewusst, dass sie beobachtet werden. Dies ist allerdings teils moralisch und oft auch gesetzlich problematisch. Die verdeckte Beobachtung ist der offenen dadurch überlegen, dass der Beobachter die Beobachteten nicht durch die Beobachtung beeinflusst. Wenn man weiß, dass man beobachtet wird, verhält man sich üblicherweise anders als in der normalen Situation, über die man ja Daten gewinnen will. Eine Schulklasse mit einem videofilmenden Team von Wissenschaftlerinnen im Hintergrund benimmt sich nun einmal normalerweise nicht so, wie sie sich ohne dieses Team und seine Kameras verhielte. Zur Unterrichtsbeobachtung gibt es daher in einigen Laborschulen speziell für Unterrichts-Mitschnitte gebaute Klassenräume, die eine verdeckte Beobachtung problemlos ermöglichen. 2 In diesen Räumen gibt es Möglichkeiten, von einem Nebenzimmer aus in den Klassenraum zu sehen und zu filmen, ohne dass das Nebenzimmer vom Klassenraum aus einzusehen wäre. 1 Kapitel 5 geht auf die Möglichkeiten ein, als Linguistin von anderen erhobene Beobachtungsdaten zu nutzen. 2 Natürlich funktioniert das nur, wenn diese Räume auch für normalen Unterricht genutzt werden, nicht so wie in einer den Autoren bekannten Schule mit einem solchen Beobachtungsraum, der nur aufgesucht wird, wenn der Unterricht beobachtet wird. Beobachtung Offen vs. verdeckt Die Beobachtung 18 Aus ethischen Gründen wird aber üblicherweise die Lehrperson vor der Beobachtung informiert, auch sind die Schüler und Eltern generell über die Existenz der Anlage informiert und werden über Aufnahmen wenigstens nachher unterrichtet. Sollen Aufnahmen aus solchen Beobachtungen veröffentlicht oder öffentlich vorgeführt werden, ist das übrigens nur mit Einverständnis aller gefilmten Personen möglich. Eine relativ bekannt gewordene verdeckte Beobachtung von kommunikativem Verhalten ging so vor, dass man bezahlten männlichen und weiblichen Versuchsteilnehmern mitteilte, leider habe sich der Beginn des Experiments, an dem sie teilnehmen sollten, verzögert, sie sollten bitte in einem Warteraum Platz nehmen. In diesem Warteraum “warteten” dann jeweils ein Versuchsteilnehmer und eine Versuchsteilnehmerin, deren Kontaktaufnahme untereinander mit einer unauffälligen Anlage gefilmt wurde. Natürlich wurden die Personen nachträglich darüber aufgeklärt, dass sie genau für die Beobachtung dieser Situation engagiert und bezahlt wurden, und ihr Einverständnis für die Auswertung wurde eingeholt. Trotzdem bleibt das Gefühl einer nicht ganz korrekten Vorgehensweise. Der Normalfall bei der Beobachtung ist deshalb die offene Beobachtung, die jedoch anfällig ist für Beobachtungseffekte. Die störenden Effekte des Beobachters auf das Beobachtete können vor allen Dingen durch möglichst unauffällige Apparaturen und die Gewöhnung der Beobachteten an die Beobachtungssituation reduziert werden. Beim fünften Auftauchen des Video- Teams ist das Gefilmtwerden erfahrungsgemäß schon nicht mehr so aufregend, dass man deswegen sein gesamtes Verhalten ändern würde. Trotzdem ist immer damit zu rechnen, dass Menschen, die plötzlich in die Situation geraten, Teilnehmer an einer wissenschaftlichen Untersuchung zu sein, ihr Verhalten ändern. 3 Man wird also möglichst vermeiden wollen, dass solche Verhaltensänderungen auftreten. Wenn es um sprachliches Verhalten geht, ist es oft noch relativ einfach, die Beobachtungseffekte gering zu halten, indem man die Vermutung darüber, was untersucht wird, auf etwas Nichtsprachliches lenkt. So kann man z.B. bei einer Untersuchung zu Interferenzerscheinungen zwischen zwei Sprachen einer bilingualen Person eine soziologische Frage stellen (“Wie fühlt man sich als Person, die ständig zwei Sprachen benutzen muss? ”). Ein praktisches Problem bei Beobachtungen ist das folgende: Bei der Beobachtung fallen erheblich mehr Informationen an, als in die Auswertung eingehen können. 4 Deswegen ist bei der Beobachtung ganz besonders wichtig, dass eine systematische Auswahl von Beobachtungskategorien 3 Diese Erscheinung nennt man Hawthorne-Effekt; sie wurde so genannt nach einer Fabrik, in der Psychologen in den 30er Jahren des vorigen Jahrhunderts Untersuchungen zu den Arbeitsbedingungen durchführten, wobei herauskam, dass einfach das Wissen, Gegenstand einer Untersuchung zu sein, dazu führte, dass das Verhalten der Arbeiter sich änderte. 4 Die Darstellung orientiert sich in großen Teilen an Atteslander, 1995. Beobachtungskategorien Die Beobachtung 19 getroffen wird, durch die diese Vielfalt an Informationen erheblich reduziert wird, und zwar auf diejenigen, die für die Fragestellung am wichtigsten sind. Wissenschaftliche Beobachtung muss immer durch explizit formulierte Fragen angeleitet sein; das bedeutet in diesem Zusammenhang, dass die Beobachtungskategorien vor der Durchführung der Beobachtung festgelegt sein müssen. Eine Herangehensweise der Art: “Wir sehen mal, was passiert, und analysieren es dann” hat also wenig Sinn, weil man dann gar nicht weiß, was man genau beobachten und analysieren soll. Nur wenn man die Situation komplett aufgezeichnet hat (z.B. mit einer aussagefähigen Videoaufnahme), kann man dann noch etwas retten, weil man im Nachhinein die Situation noch beliebig oft ansehen kann, nachdem man seine Beobachtungskategorien entwickelt hat. Bei einer normalen Mitschrift im Unterricht sind die Ergebnisse nicht verwertbar, wenn die Beobachtungskategorien nicht vorher genau genug festgelegt waren. Wie viele Beobachtungskategorien man benutzt, hängt sehr stark davon ab, wie viel Zeit für die Beobachtung zur Verfügung steht. Wenn die Beobachtung anhand von Videoaufnahmen dokumentiert ist, die man sich immer und immer wieder ansehen kann, hat man die Möglichkeit, sehr viele verschiedene Kategorien auf einmal zu beobachten. Wenn man allerdings auf den Einsatz von Videotechnik verzichtet (die Videokamera, vor allem mit “Kamerafrau”, ist immer auffällig und führt daher zu stärkeren Beobachtungseffekten) und in der Unterrichtsstunde selbst einzelne Verhaltensmerkmale protokollierend beobachtet, muss man sich auf sehr wenige beschränken, wenn die Beobachtung für diese Merkmale noch genau sein soll. Der nächste Schritt nach der unmittelbaren Beobachtung besteht darin, die beobachteten Rohdaten zu klassifizieren, was keineswegs einfach ist. Es geht hierbei um die Einordnung von einzelnen Verhaltensweisen in verschiedenen Klassen von Sachverhalten, die als ähnlich beobachtet wurden. Hierbei ist es wichtig, sinnvolle und für das zu untersuchende Phänomen relevante Klassen von Verhaltensweisen zu erstellen. Die Einteilung der einzelnen Sachverhalte in die jeweiligen Klassen erfolgt durch Vergleichen der Sachverhalte untereinander. In einem dritten Schritt schließlich geht es darum, offen zu legen, welche der aufgenommenen Signale aus den beobachteten Verhaltensweisen zur Klassifizierung als “X” oder “Y” geführt haben. Hierbei muss die Beobachterin auch die von ihr für bedeutungsvoll erachteten nicht-verbalen Signale (z.B. nimmt sie wahr, dass Schüler A die linke Schulter ca. 3 cm, die rechte ca. 2 cm anhebt und anschließend beide wieder absenkt, wobei er die Kopfposition nach links hinten verschiebt) in verbale (z.B. “Schüler A zuckt mit den Schultern”) übertragen. Dabei werden Informationen verändert, teilweise gehen Informationen verloren, teilweise wird interpretiert. Da die Beobachterin mit diesem dritten Schritt zunächst für sich selbst die Datenklassifikation Die Beobachtung 20 Begründung ihrer Interpretation offen legt, gibt sie sich selbst die Möglichkeit, ihre Einschätzung zu verbessern. Um diese sehr abstrakte Darstellung etwas zu veranschaulichen: Angenommen, unsere beobachtete Kategorie war “Schüler folgen der Lehrperson nicht (mehr)”. Gesehen haben wir Schüler, die unter dem Tisch Comic-Hefte lasen, Schüler, die mit Mitschülern sprachen, mit Mitschülern Briefchen austauschten, in Zeichensprache mit Mitschülern Botschaften austauschten, Schüler, die aus dem Fenster guckten, Schüler, die sich ihrer Frisur oder ihrem Make-up widmeten u.a.m. Genau genommen sind dies hier schon teilklassifizierte Daten, denn was wir genau gesehen haben, ist ja: “Erwin schneidet Grimassen zu Helga, die ihn amüsiert anguckt, Eva schreibt ein Briefchen, das Hans weiterreicht und an Erna gibt, die es liest und ein Briefchen zurückschreibt, Hugo faltet einen Papierflieger, Hans guckt aus dem Fenster, Susi hat einen Taschenspiegel hervorgeholt und verbessert ihren Lidstrich, Marion untersucht ihre Haarspitzen, Klaus flüstert dem neben ihm sitzenden Theo etwas ins Ohr, Mario stupst die vor ihm sitzende Elisabeth an, die sich umdreht, und er sagt etwas zu ihr usw. usf.” Unsere endgültige Klassifikation könnte sich nun auf die Stimmung der Abgelenkten (fröhliche, missmutige Aktivitäten, “Den Clown/ Miesepeter machen”) oder auf die Art der Aktivität (Sprechen, Schreiben, Körperpflege usw.) beziehen oder sie könnte Personenanzahl und räumliche Kriterien zu Grunde legen (Einzelaktivitäten eines Schülers, Aktivitäten mit Banknachbarn, Aktivitäten über größere Distanzen). Für die Unterrichtssituation ist aber wohl vor allem wichtig, wie groß der Grad der Störung ist, der durch die Aktivität hervorgerufen wird. Insofern werden wir wohl die Anzahl der an der Störung Beteiligten wichtiger nehmen als die Stimmung der Beteiligten. Angenommen, unsere Klassifikation ginge einfach nach der Anzahl der Beteiligten, so wäre das Merkmal, das zur Klassenbildung führt, “1-2-3-4-5-usw. Beteiligte”. Das Zuerkennen dieses Merkmals ist sicher einfach, wenn zwei Personen miteinander ein Comic-Heft ansehen, aber es dürfte genauer Begründung bedürfen, wenn man dem durch die Klasse fliegenden Papierflieger eine Anzahl Beteiligter zuerkennt (genügt das bloße Hinsehen usw.? ). Es ist also nicht immer einfach, die eigene Datenklassifikation hieb- und stichfest zu begründen. Dieses Ziel wird aber vor allem mit dem vierten Schritt verfolgt, der systematischen Suche nach Signalen, die nicht zu der Interpretation passen, zu der man gelangt ist. Beim wissenschaftlichen Beobachten muss man sämtliche Interpretationen, die man vorgenommen hat, zunächst als zu prüfende Hypothesen behandeln. Diese Hypothesen muss man zu falsifizieren versuchen, d.h., man muss versuchen, jede einzelne Hypothese bzw. Interpretation als falsch zu erweisen. Dies erfolgt dadurch, dass man systematisch nach Gegenbeispielen sucht, die der jeweiligen Interpretation bzw. Hypothese widersprechen und sie damit infrage stellen. Kann das Gegenbeispiel mit der Hypothese bzw. vorliegenden Interpretation Falsifikationsversuche Die Beobachtung 21 noch plausibel erklärt werden, so ist dieser eine Falsifikationsversuch gescheitert und die Validität der Hypothese hat sich erhöht. Kann das Gegenbeispiel beim besten Willen mit der vorliegenden Interpretation nicht mehr erklärt werden, so kann sie nicht mehr als allgemein gültige wissenschaftliche “Erkenntnis” angesehen werden und muss aufgegeben werden - sie ist falsifiziert. Bleiben wir bei unserem Papierflieger-Beispiel. Angenommen, wir haben beobachtet, dass 15 Personen dem Papierflieger zugesehen haben. Damit wäre es eine ganz große Störung, 15 Personen sind selten an einer Störaktion im Unterricht beteiligt. Wenn unsere Hypothese war: “Je mehr Personen an einer Störung beteiligt sind, desto schädlicher ist sie für den Unterrichtsverlauf”, dann könnten wir beim Falsifizierungsversuch z.B. versuchen, herauszufinden, wie viele von den 15 Personen dabei den Ausführungen der Lehrperson noch folgen. Angenommen, es wären 13 gewesen, dann zeigt sich, dass unsere Art der Klassifizierung ungünstig war. Einen Teil seiner Aufmerksamkeit der Störaktion zu widmen, wäre nicht ausreichend, um das Merkmal “Beteiligung an der Störaktion” zuzuerkennen, es müsste schon ein so großer Teil der Aufmerksamkeit sein, dass man dem Unterrichtsgeschehen nicht mehr folgt. Insofern wäre unsere Zuerkennung von Beobachtungskategorien zu verbessern, für die Hypothese wäre dieser Falsifizierungsversuch nicht schädlich. Die Validität einer Hypothese wird umso größer, je mehr der Sache angemessene Falsifikationsversuche eine Interpretation, ein Messverfahren oder eine sonstige Operationalisierung bestanden hat, ohne widerlegt worden zu sein. Im Idealfall findet sich keinerlei Gegenbeispiel, sodass größtmögliche Validität gegeben ist. Auch bei Magister- und Staatsexamensarbeiten ist es wichtig, auf diesen Punkt große Sorgfalt zu verwenden und eventuell auch den Bekannten- und Freundeskreis einzubeziehen, sich Falsifizierungsmöglichkeiten für die eigene Hypothese und das benutzte Vorgehen einfallen zu lassen. Man übersieht leicht Schwächen der eigenen Vorgehensweise, begeht dieselbe Ungenauigkeit bei der Entwicklung und bei der Überprüfung, insofern kann der Rückgriff auf fremde Intuitionen den Wert der Untersuchung erheblich steigern. Es wäre wünschenswert, dass, wenn zwei Wissenschaftlerinnen dieselbe Situation nach denselben Kategorien und derselben Klassifizierung untersuchen, sie auch dasselbe Ergebnis bekämen. Das ist natürlich nur möglich, wenn die Kategorien und Klassifikationen so genau wie möglich beschrieben werden. In der Praxis ist es aber selten möglich, dass die Verlässlichkeit so überprüft wird, schon deshalb, weil dieselbe Situation nicht noch einmal herstellbar ist. Ein weiteres Problem ist die Gültigkeit, die so gut wie möglich überprüfbar gemacht werden muss. Zum einen muss die Wissenschaftlerin, die die Beobachtung bzw. Studie durchführt, in ihrer Veröffentlichung sämtliche Interpretationen, die sie vorgenommen hat, systematisch und vollständig offen legen, auch diejenigen, die zu den Klassifizierungen geführt haben. Verlässlichkeit Gültigkeit Die Beobachtung 22 Dadurch wird es möglich, dass durch andere Wissenschaftlerinnen ein etwa vorhandenes und die Interpretationen beeinflussendes Bezugsmuster der interpretierenden Wissenschaftlerin - vorgefasste und als selbstverständlich erachtete Meinungen, ungeklärte Prämissen u.a.m. - aufgedeckt werden und eine alternative Interpretation der vorgenommenen entgegengehalten werden kann. Zum anderen bewirken die schon besprochenen Falsifikationsversuche, sofern sie erfolglos sind, eine Erhöhung der Validität. Wichtig ist hierbei, dass gezielt nach Signalen gesucht wird, die nicht zu der vorgenommenen Interpretation passen. Die Beobachtung 23 Aufgaben 1. Sie wollen herausfinden, welche Arten von Korrekturen der Aussprache durch die Lehrperson im Fremdsprachenunterricht vorkommen und wie die Lerner darauf reagieren. Sie haben sich für eine Beobachtung im normalen Englischunterricht entschieden. Überlegen Sie, wie Sie genau vorgehen wollen und welche Auswertungskategorien Sie benutzen wollen. 2. Sie möchten herausfinden, mit welchen Mitteln erfolgreiche Gebrauchtwagenhändler zu Beginn eines Gesprächs mit Kunden dafür sorgen, dass eine gute Beziehung zum Kunden entsteht, dass sie vom Kunden als vertrauenswürdig angesehen werden. Sie haben den Kontakt zu einem großen Gebrauchtwagenhändler mit verschiedenen, unterschiedlich erfolgreichen Angestellten hergestellt, der Ihnen die Beobachtung erlaubt hat, unter der Bedingung, dass Sie später die als erfolgreich erkannten Methoden seinen Mitarbeitern erläutern und dass keine Kunden sich während des Kaufs beobachtet fühlen. Der Chef hat seine Mitarbeiter darüber informiert, dass irgendwann in nächster Zeit Ihre Beobachtung stattfinden werde und dass sie der Fortbildung diene. Sie schwanken nun zwischen zwei verschiedenen Möglichkeiten, Ihre Beobachtung durchzuführen: a. Sie gewinnen in Ihrem Freundeskreis einige Personen, die sich bereit erklären, “den Kunden zu spielen”, die also vorgeben, ein Auto kaufen zu wollen und sich von den Verkäufern beraten lassen. Diese Freunde von Ihnen nehmen verdeckt gehaltene kleine Kassettenrekorder mit, die das Gespräch aufzeichnen, und notieren unmittelbar nach dem Gespräch auf einem von Ihnen vorbereiteten Blatt mit vorgegebenen Kategorien ihre Beobachtungen zu einigen Phänomenen, die nicht per Band aufgenommen werden können, z.B. eingehaltener Körperabstand zum Kunden, Gesten, Lächeln u.ä. b. Sie nehmen an natürlichen Kundengesprächen teil und lassen sich den Kunden als neue Verkäuferin in der Ausbildung vorstellen, die erst einmal durch Zuhören ihr Handwerk lernt. Auch in dieser Situation haben Sie einen kleinen, nicht sichtbaren Kassettenrekorder mit, der die Gespräche aufzeichnet, und auch in diesem Fall soll nach jedem Gespräch ein Bogen ausgefüllt werden mit einigen vorgegebenen Kategorien zu nicht auditiv wahrnehmbaren Merkmalen des Gesprächs. Stellen Sie Überlegungen an zu den Vor- und Nachteilen der beiden Verfahren in Bezug auf Beobachtungseffekte und Validität der erhaltenen Ergebnisse. 3 Die Befragung Die einfachste Art der Datenerhebung ist die Befragung, weil man so mit relativ geringem Aufwand zu seinen Ergebnissen kommt. Sie hat allerdings auch ihre Tücken. Eine Befragung ist nicht ein reines Einholen von Informationen, sondern auch eine Kommunikation zwischen zwei oder mehreren Personen. Durch die gestellten Fragen, werden verbale Reaktionen, nämlich Antworten, hervorgerufen. 1 Dies geschieht in einem situativen Kontext und wird geprägt durch gegenseitige Erwartungen. Die Antworten stellen die Erinnerung an Ereignisse dar, die die befragte Person erlebt hat, oder sie spiegeln ihre Meinungen und Bewertungen wider. Die Befragung zeigt also eine Art “gefilterte Wirklichkeit”, wobei einer der “Filter” die Versprachlichung ist, ein anderer die Erinnerung, aber daneben gibt es natürlich auch die Einflüsse, die durch die o.a. gegenseitigen Erwartungen, die Kommunikationssituation u.a.m. verursacht werden. Wenn man die Einteilung nach der Situation, in der sich die Antwortenden befinden, vornimmt, gibt es zwei verschiedene Arten von Befragungen, nämlich einmal die persönliche Befragung, in der einer Person - der Interviewerin - mündlich geantwortet wird und andererseits die schriftliche Befragung, in der die befragte Person beim schriftlichen Beantworten von schriftlich gestellten Fragen allein ist. Dazwischen liegt die telefonische Befragung, in der man zumindest seinen Gesprächspartner nicht sieht. In allen diesen Situationen ist damit zu rechnen, dass gegenseitige Erwartungen das Antwortverhalten beeinflussen. Bei jeder Art von Befragung ist mit so genannten “Interviewer-Effekten” zu rechnen. Die befragte Person wird mit einer mündlich oder schriftlich formulierten Frage konfrontiert und reagiert darauf in verschiedener Hinsicht. Sie nimmt nicht nur die wörtliche Bedeutung der Frage wahr, sondern auch allerhand Merkmale der Situation, sie analysiert und bewertet alle diese Informationen und überlegt eine Antwort oder reagiert mit einer Ant-wortverweigerung, z.B. wenn die Frage oder die Befragung als Zumutung empfunden wird. Jeder dieser Schritte ist insgesamt von Vorstellungen und Erwartungen, von internalisierten sozialen Normen beeinflusst. Bei persönlichen Interviews ist dies für jeden ganz offensichtlich. Das Aussehen der Interviewerin, ihre Art zu fragen, ihre Formulierungen, ihre Art, während der Antwort zu reagieren, all das beeinflusst ganz offensichtlich das Verhalten der interviewten Person. 1 Natürlich gibt es auch eine nonverbale Ebene der Kommunikation bei der Befragung, die kaum beachtet wird und eigentlich nur in Zusammenhang mit dem Thema “Vermeidung von Interviewereffekten” zur Sprache kommt. So gibt es denn auch keine Anleitungen zum Umgang mit offensichtlichen Ironiesignalen bei Interviewten usw. Befragungssituationen Interviewereffekte Die Befragung 25 Interviewereinflüsse gibt es aber nicht nur bei persönlichen Befragungen. Sie sind auch nicht auf offensichtlich suggestive Fragen bei schriftlichen Befragungen beschränkt. Sehr viel weniger wird beachtet, dass Interviews sehr häufig den Befragten durch die Situation suggerieren, sie müssten auf jeden Fall eine Antwort auf die gestellte Frage oder eine Meinung zu dem infrage stehenden Problem haben. Atteslander (1984, 100) berichtet von einer Befragung, in der dieselbe Frage nach der Akzeptanz einer militärischen Vereinbarung zwischen Amerika und Russland einmal so gestellt wurde, dass die Befragten einfach ihre Meinung dazu äußern sollten, und einmal so, dass zunächst gefragt wurde, ob sie schon eine Meinung dazu hätten und, wenn ja, welche. Im ersten Fall gab es nur 15,2% Unentschiedene bzw. nicht antwortende Befragte, im zweiten Fall erklärten 56,2% der Befragten, sie hätten zu diesem Thema noch keine Meinung. Die Situation, die das Interview schafft, beeinflusst also ganz deutlich die Antworten. Effekte wie die oben angegebenen ergeben sich natürlich auch aus der Situation, dass die Befragende ein sehr viel deutlicheres Interesse an den Ergebnissen des Interviews hat als der Befragte. Befragende, die meist ein klares Ergebnis für ihre Untersuchung haben wollen, sind an “Weiß nicht"-Antworten im Normalfall nicht interessiert. Die übliche Methode, die Interviewer-Effekte so gering wie möglich zu halten, ist eine möglichst starke Lenkung der Interviews oder Befragungen. Dadurch kann man sicherstellen, dass wenigstens alle Befragten dieselben Fragen erhalten haben, selbst wenn unterschiedliche Interviewerinnen die Fragen gestellt haben. Die starke Festlegung und die damit verbundene Reduzierung von Interviewer-Effekten geht allerdings auf Kosten von eventuell bei der Erstellung der Fragenfolge nicht bedachten Einzelheiten. So kann es sein, dass in einem wenig strukturierten Interview die Befragten von selbst Aspekte einbringen, an die die Interviewerin nicht gedacht hätte. Deswegen wird empfohlen, bevor man mit stark gelenkten Interviews eine größere Menge von Personen befragt, zunächst einmal explorativ nicht so stark gelenkte Interviews mit am Thema interessierten Personen vorzunehmen, die eventuell von sich aus mögliche weitere Aspekte, nach denen man fragen könnte, einbringen. Für die Interviewerinnen gibt es Anweisungen, wie sie sich verhalten sollten. Dabei ist ganz wichtig, dass sie Hörersignale (z.B. hmhm, hm) geben, die nicht als Bewertung der Antwort - wohl aber als Interesse - aufzufassen sind, und dass sie sich dabei unter Kontrolle haben, dass sie nicht bei von ihnen erwünschten Antworten viel mehr solche Signale abgeben als bei nicht erwünschten. 2 Interviewerinnen in persönlichen Interviews sollen freundlich-interessiert wirken, eine eigene Meinung darf 2 Auch die Art der Hörersignale ist wichtig. Das Hörersignal ja, das vor allem Frauen häufig benutzen, um zu zeigen, dass die Ausführungen des Sprechers verstehen, wird oft als Zustimmung missverstanden. Auch hmhm sollte nicht mit bejahender oder verneinender Intonation verwendet werden. Interviewerverhalten Die Befragung 26 man ihnen nicht anmerken. Es erfordert ein gewisses Training, so zu wirken. Am geeignetsten für die Befragung sind tatsächlich Personen, die keinerlei Interesse an einem bestimmten Ergebnis der Untersuchung haben, denen also die untersuchte Frage ziemlich egal ist. Dies gilt für die Fälle, in denen es um die Erhebung von Meinungen oder um Berichte über Verhalten geht. Wenn die Frage nur darauf abzielt, Sprache aufzunehmen, weil z.B. die Art der Realisierung des Phonems / r/ untersucht werden soll oder ein bestimmtes grammatisches Phänomen elizitiert werden soll, sind die Gefahren von Interviewer-Effekten geringer. Aber auch hier sollte die Interviewerin nicht eine der möglichen Varianten selbst vorgeben in der Frage, die sie stellt. 3 Auch die schriftliche Befragung ist natürlich eine Möglichkeit zur Reduktion von Interviewer-Effekten, zumindest sind die Interviewer-Effekte dann reduziert auf diejenigen, die die Fragebogenschreiberin zu verantworten hat. Jeder Befragte bekommt dieselben Fragen und niemand wird beeinflusst durch eventuelle Reaktionen seiner Gesprächspartnerin. Das ist nur ein Vorteil der schriftlichen Befragung, ein weiterer Vorteil der schriftlichen Befragung ist (im professionellen Bereich zumindest), dass sie kostengünstiger ist. Schriftliche Befragungen können meist in kürzerer Zeit mit weniger Personalaufwand eine größere Zahl von Befragten erreichen. Trotzdem gibt es hier einige Probleme. Bei der schriftlichen Befragung ist die Befragungssituation kaum kontrollierbar. Es können andere Personen die Antworten des Befragten beeinflussen, eventuell wird der Fragebogen gar nicht von der befragten Person ausgefüllt. Man hat die Erfahrung gemacht, dass in Firmen Fragebögen, die sich an den Chef richteten, sehr häufig von den Sekretärinnen ausgefüllt wurden. Dies ist ein Fall, in dem wenigstens ein Rücklauf des Fragebogens erfolgt, sehr häufig werden aber schriftlich zugestellte Fragebögen überhaupt nicht beantwortet. Beantwortet werden sie nur von Personen, die ein besonderes Interesse an der jeweiligen Fragestellung haben oder die aus irgendwelchen Gründen gern Fragebögen ausfüllen. Häufig beträgt der Rücklauf bei derartigen Fragebogenaktionen um die 20%, man spricht dann von einer “Selbstselektion der Stichprobe”. Das ist insofern problematisch, als sich die Personen, die den Fragebogen beantworten, von der befragten Grundgesamtheit in wesentlichen Merkmalen unterscheiden könnten. Denken Sie z.B. an Fragen zum Sprachunterricht. Diejenigen, die unbedingt ihren Fragebogen einschicken wollen, sind oft die ganz Begeisterten und die stark Verärgerten oder die besonders Enttäuschten. Damit hat man aber nur Befragungsergebnisse zu den Extremgruppen. Was die breite Mehrheit denkt, erfährt man nicht. Es gibt einige Verfahren, dieses Problem in den Griff zu bekommen. Wenn man die Fragebögen nicht persönlich austeilt, sondern mit der Post schickt, dann gibt 3 Wenn es z.B. um den Gebrauch der Tempora bei der Bezeichnung von Zukünftigem geht, ist weder die Frage: “Was machen Sie im nächsten Urlaub? ” noch “Was werden Sie im nächsten Urlaub machen? ” sinnvoll, sondern etwas wie “Was sind Ihre Pläne für den nächsten Urlaub? ”. Schriftliche Befragung Selbstselektion Die Befragung 27 es die Möglichkeit, bei ungenügendem Rücklauf telefonisch oder schriftlich zu mahnen. Bei schriftlichen Mahnungen verschickt man sinnvollerweise gleich den Fragebogen wieder mit, damit die angeschriebene Person nicht ihren alten Fragebogen suchen muss. Dies ist natürlich auch ein Kostenfaktor, denn bei jeder solchen Mahnung muss wieder ein frankierter Rückumschlag beigelegt werden. Wenn Erhebungen in Schulen oder mit Studierenden-Gruppen gemacht werden, so hat sich das Verfahren bewährt, dass man die Fragebögen in Anwesenheit der Verteilenden ausfüllen lässt und danach gleich wieder einsammelt. So kommt man zu akzeptablen Rücklaufquoten. Wenn die Schüler oder Studierenden die Fragebögen mit nach Hause nehmen, so kommt nur ein erheblich geringerer Teil wieder an die Befragerinnen zurück. Die Länge des Fragebogens spielt ebenfalls eine Rolle für die Rücklaufquote. Fragebögen von mehr als vier Seiten werden seltener ausgefüllt, vor allem wenn sie auch noch offene Fragen enthalten, bei denen die Befragten selbst eine Antwort formulieren müssen. Das wirkt sich umso stärker aus, je weniger interessant die Befragten das Thema und die Gestaltung des Fragebogens finden. 3.1 Die Wahl der Stichprobe Wenn wir eine Befragung durchführen, haben wir selten die Möglichkeit, alle Betroffenen, über die wir gern eine Aussage machen wollen, auch tatsächlich zu befragen. Wir wählen also nur einen Teil der Betroffenen aus, eine so genannte Stichprobe (alle Betroffenen wären die “Grundgesamtheit”). Was wir erreichen wollen, ist immer eine Aussage, die generell oder doch für einen möglichst großen Anwendungsbereich gilt, nicht nur für die eingeschränkte Gruppe, die wir tatsächlich untersucht haben (Wer interessiert sich für das Ergebnis “In der Klasse 5b des Herder-Gymnasiums in Immekeppel funktioniert der Englischunterricht mit der Grammatik-Übersetzungsmethode besser als der mit der Interkulturellen Methode”? ). Wir können aber nicht jeden Sprachenlerner untersuchen. Also müssen wir unsere Aussage anhand der Untersuchung einer so genannten Stichprobe machen. Die Meinungsforscher tun nichts Anderes: Sie fragen am Tag der Wahl 2000 Deutsche, wen sie gewählt haben, errechnen das Wahlergebnis, das sich bei diesen 2000 - allerdings sehr gut ausgewählten - Leuten ergeben hätte, und sagen vor der Auszählung schon, wie das Ergebnis der Wahl sein dürfte. Das Verblüffende ist: Sie irren sich selten in mehr als einem Prozent, obwohl sie doch einen verschwindend kleinen Anteil von der gesamten Anzahl der Wähler befragt haben. Das Geheimnis des Erfolgs der Fragebogenlänge Auswahl der Befragten Die Befragung 28 Stichprobenwahl liegt nicht darin, dass man einen möglichst großen, sondern einen möglichst gut ausgewählten Teil der Grundgesamtheit untersucht. 4 Das kann man mit zwei verschiedenen Verfahren erreichen. Das eine Verfahren nennt man “Zufallsstichprobe”. In diesem Fall muss man mit geeigneten Verfahren sicherstellen, dass jedes Mitglied der Grundgesamtheit die gleiche Chance hat, in die Stichprobe zu kommen. Echte Zufallsstichproben lassen sich z.B. erzielen, wenn man eine Kartei/ Datenbank der infrage kommenden Personen hat, aus der man blind die Exemplare wählen kann. Idealerweise sind die Personen in einer Liste nummeriert, dann kann man sich vom Computer Zufallszahlen für die entsprechende Anzahl geben lassen. So etwas hat man aber meist nicht. Sehr häufig werden Zufallsstichproben aus Telefonbüchern genommen. Wenn man z.B. für eine Untersuchung zu den Trinkgewohnheiten in Köln Interviewpartner sucht, dann schlägt man blind eine Seite des Kölner Telefonbuchs auf und tippt auf einen Eintrag, dann wiederholt man das so lange, bis man die gewünschte Zahl an Personen hat. Man muss sich darüber im Klaren sein, dass man so keine Aussagen über die Gesamtbevölkerung Kölns macht, sondern höchstens eine Aussage über die Kölner Telefonbesitzer. Aber selbst bei den über 95 % der Bevölkerung, die ein Telefon im Haushalt hat, hat nicht jeder die gleiche Chance, in die Stichprobe aufgenommen zu werden. Arbeitsmigranten haben z.B. weniger Telefonanschlüsse, Singles haben ein Telefon für sich alleine, Familienmitglieder im Normalfall nicht. Damit werden Singles in der Stichprobe überrepräsentiert sein, Arbeitsmigranten unterrepräsentiert. Zudem ist nicht jeder Telefonbesitzer im Telefonbuch eingetragen, vor allem alleinstehende Frauen und Intellektuelle lassen sich oft nicht ins Telefonbuch eintragen. Auch Handy-Nummern stehen meist nicht im Telefonbuch. Ein weiteres Problem ergibt sich erst mit der Art der Kontaktaufnahme mit den betreffenden Mitgliedern der Stichprobe. Im Telefonbuch stehen meist die Haushaltsvorstände, wenn man sich also schriftlich an die eingetragenen Personen wendet, sind die Haushaltsvorstände überrepräsentiert. Ruft man aber an, sind diejenigen überrepräsentiert, die mit Begeisterung ans Telefon gehen, und das sind häufig die Kinder und Jugendlichen im Haushalt. Die Besitzer von Anrufbeantwortern werden in einer solchen Umfrage dagegen eher unterrepräsentiert sein, wenn man es nicht immer wieder bei ihnen versucht - die Wahrscheinlichkeit, dass jemand für eine Umfrage zurückruft, ist sehr gering. Die Zufallsauswahl ist also oft recht schwierig durchzuführen. Die andere Möglichkeit der Zusammenstellung der Stichprobe ist das Quotenverfahren. Bei diesem Verfahren wählt man seine Stichprobe nach bestimmten Merkmalen, die für die Untersuchung relevant sein könnten, und stellt die Stichprobe so zusammen, dass sie im Hinblick auf diese Merkmale 4 Es gibt natürlich Untergrenzen, die man einhalten muss. Wenn man extrem kleine Gruppen untersucht, gibt es keine Chance mehr, dass “untypische Exemplare” in der Masse untergehen. Zufallsstichprobe Quotenverfahren Die Befragung 29 der Grundgesamtheit entspricht. Die Merkmale der Grundgesamtheit findet man, wenn die Grundgesamtheit die Bevölkerung der BRD ist, im Statistischen Jahrbuch, das jedes Jahr vom Statistischen Bundesamt herausgegeben wird und u.a. in jeder Universitätsbibliothek zu finden ist. Für unser Beispiel mit der bevorzugten Lehrmethode im Englischunterricht könnten z.B. folgende Merkmale relevant sein: Alter, besuchter Schultyp, Geschlecht, Stadt-/ Landbevölkerung. Wir müssten darauf achten, dass ihre Verteilung in etwa der in der Grundgesamtheit der Lerner in diesem Land entspricht. Diese Daten können wir gut anhand des Statistischen Jahrbuchs mit dem Quotenverfahren an die Grundgesamtheit angleichen. Was Art und Dauer des bisher erteilten Unterrichts, Englisch als 1. oder spätere Fremdsprache und eventuell noch weitere uns interessierende Merkmale betrifft, kann uns das Jahrbuch allerdings nicht helfen, eventuell ist es nötig, selbst Zahlen zu erheben. 3.1.1 Die Größe der Stichprobe Da wir die Fragen nur einer Auswahl aus der Gesamtzahl der interessierenden Personen stellen, erhebt sich die Frage, wie vielen wir die Fragen stellen müssen. Der Begriff “Gesamtzahl” wird hier in einem technischen Sinne verwendet, z.B. die Gesamtheit aller Personen, die die Wissenschaftlerin interessieren. Sollten wir zum Beispiel wissen wollen, was Studierende über ihren Kultusminister denken, dann bilden alle eingeschriebenen Studierenden des Landes die Gesamtzahl. Wenn wir wissen wollen, ob Germanistik-Studierende einer bestimmten Hochschule mit ihrem Studiengang zufrieden sind, dann bilden alle Germanistik-Studierenden dieser Hochschule zusammen die Gesamtzahl. Weil auch bei diesen noch überschaubaren Gruppen in der Regel nicht die ganze Gesamtzahl befragt werden kann, muss eine Stichprobe gemacht werden. Als Hilfestellung bei der Ermittlung, wie groß diese Stichprobe sein muss, wenn es sich um eine Zufallsstichprobe handelt, kann man ein Programm benutzen. Das Internet bietet eine Reihe solcher “Stichproben-Rechner”, sodass man leicht die Stichprobengröße berechnen kann. Man findet sie über die gängigen Suchmaschinen mit dem Suchbegriff “sample size calculator”. Da die Stichprobengröße, die für eine repräsentative Untersuchung nötig ist, in der Praxis bei Haus- und Magisterarbeiten nie erreicht wird, verzichten wir auf eine ausführliche Besprechung. Bei den Programmen zur Berechnung von Stichprobengrößen findet man üblicherweise Erläuterungen. Stichprobengröße Die Befragung 30 3.2 Befragungsarten 3.2.1 Offene Konzepte, explorative Interviews Unter einer “offenen Befragung” versteht man eine Befragung, bei der die Befragten frei antworten können und Gelegenheit haben, eigene Formulierungen und Gedanken einzubringen. Zunächst mag es so aussehen, als sei “offen” und “nicht-standardisiert” dasselbe, aber der Unterschied liegt in den einzelnen Fragen, die “offen” (d.h. ohne vorgegebene Antwortkategorien) oder “geschlossen” (mit vorgegebenen Antwortkategorien) sein können. Man kann also auch eine standardisierte Befragung mit offenen Fragen durchführen, dies ist allerdings nicht üblich, weil man offene Befragungen meist ohne feste Abfolge der Fragen mit einer kleinen Gruppe durchführt. Die offene Befragung wird oft vor einer geschlossenen Befragung angewandt, um zunächst einmal einen Überblick darüber zu bekommen, welche Themenbereiche angesprochen werden könnten und welche Arten von Antworten gegeben werden. Sie können in der explorativen Phase der Forschungsarbeit helfen, genauer zu erfahren, welche Fragen angesprochen werden sollten. Manche Details kann eine Forscherin nicht schon vorher wissen, sondern erhebt sie in Gesprächen mit Experten oder mit Betroffenengruppen. Angenommen, Sie führen eine Befragung zum Korrekturverhalten von Lehrpersonen durch, wobei Sie wissen wollen, was die Schüler akzeptieren und was sie stört. Dann werden Ihnen einige offene Befragungen mit Schülern helfen, erst einmal das Spektrum von vorkommenden - beliebten und unbeliebten - Korrekturtechniken zu erfahren. Nach diesen Techniken können Sie dann später präzise fragen. Auch die günstigste Reihenfolge der Fragen kann in der explorativen Phase der Untersuchung durch offene Fragen ermittelt werden (welche Themen sprechen die befragten Personen von sich aus nacheinander an? ). Die Reihenfolge der Fragen ist nämlich nicht beliebig. Zu Beginn des Interviews braucht der Befragte meistens einige Fragen als Anlaufphase, um sich an die Situation des Interviews zu gewöhnen. Auch bei einem Themenwechsel braucht der Interviewte eine gewisse Zeit, um sich auf das neue Thema einzustellen und an Details zu erinnern. Daher ist es ungünstig, die entscheidenden Fragen gleich zu Anfang zu stellen, die Befragung sollte mit einigen leicht zu beantwortenden Fragen eingeleitet werden. Solche Einleitungsfragen können außerdem zum Aufbau der sozialen Beziehung zwischen Interviewerin und Interviewtem genutzt werden sowie zu einer allgemeinen Orientierung über den Kontext der Befragung. Bleiben wir bei unserem Beispiel mit dem Korrekturverhalten. Ein allgemeiner Kontext, der den Interviewten auch anhand der ersten Fragen klar werden sollte, wäre z.B., dass es um eine wissenschaftliche Untersuchung über die Effektivität verschiedener Korrekturverhaltensweisen geht, und nicht etwa die Ermitt- Offene Befragung Die Befragung 31 lung der Zufriedenheit mit einzelnen Lehrpersonen. Bei linguistischen Befragungen, bei denen selten nach Dingen gefragt wird, die ungern preisgegeben werden, stehen am Anfang oft die Fragen zur Person (Altersgruppe, Dialektgebiet, in dem die Person aufgewachsen ist u.ä.). 5 Auch die relevanten Antwortkategorien werden häufig in der offenen Befragung festgestellt. Der Forscherin ist oft nicht klar, welche Antwortkategorien bei den Befragten später auftauchen werden, und ob sie selbst alle Antwortkategorien bedacht hat, die die Befragten später produzieren würden. In wenig strukturierten Interviews, in denen so wenig Themenkontrolle wie möglich ausgeübt wird, kann die Vollständigkeit und Klarheit der vorgesehenen Antwortkategorien überprüft werden, und wenn sie sich als unvollständig oder unnötig herausstellen, kann man sie verbessern. Während der wenig strukturierten Interviews zu Beginn der Untersuchung kann man oft auch Informationen über mögliche Interviewpartner für die Hauptuntersuchung bekommen. Bei Lehrerbefragungen z.B. erfährt man meist, wer sich mit dem zu untersuchenden Thema besonders beschäftigt hat und Interesse an der Untersuchung hätte. Auch sprachliche Besonderheiten der untersuchten Gruppe können in den explorativen Interviews festgestellt werden. Das trifft sowohl für Dialektsprecher als auch für die Sprache von einzelnen Gruppen, z.B. Jugendlichen zu. Es ist ungünstig, wenn man in den eigentlichen Interviews Dinge nicht kodieren kann, weil man die Antworten auf Grund ungewohnter Ausdrücke nicht versteht (z.B.: Ist nun “urst” gut oder schlecht? ). Eine weitere Funktion der offenen Befragung ist das Abbauen von Hemmschwellen. Es kann durchaus sein, dass Kommunikationspartner, die wir befragen, uns gegenüber behaupten, sie würden sich normgerecht verhalten. Das betrifft durchaus auch sprachliches Verhalten. Sprecher schämen sich oft für ihr sprachliches Verhalten, wenn sie gelernt haben, dass dieses Verhalten falsch sei (Ich bin die Kuh am Stall am Schwanz am raus am Ziehen, sagen z.B. alle rheinischen Grundschullehrpersonen ihren Schülern, um ihnen Wendungen wie Ich bin am Arbeiten abzugewöhnen. Folglich sagen befragte Rheinländer auch meist, dass sie diese Form nie verwenden). In solchen Fällen kann man Hemmschwellen abbauen, indem nicht nach einem festgelegten Schema (“inquisitorisch”), sondern locker gefragt wird. In Extremfällen kann auch die Interviewerin selbst die nicht normgerechte Form benutzen. Unter Experteninterviews versteht man, dass man mit Menschen spricht, die Erfahrung haben im Umgang mit den Personen, die wir eigentlich untersuchen wollen. In unserem Fall sind das häufig ihre Lehrpersonen. Eine weitere Möglichkeit, “offen” zu Fragestellungen für die eigene Untersuchung zu kommen, sind Gruppendiskussionen, die man als For- 5 Z.B. Fragen nach dem Einkommen werden häufig nicht gern beantwortet und deshalb in Interviews oft ans Ende gestellt; sie werden aber in linguistischen Befragungen kaum gestellt. Antwort kategorien Sprachliche Besonderheiten Experteninterviews Die Befragung 32 scherin beobachtet oder anregt. Sie haben aber nur Sinn, wenn die Gruppe in Gegenwart der Forscherin auch normal diskutiert. Gruppendiskussionen unterscheiden sich von Gruppenbefragungen dadurch, dass die Teilnehmer an der Gruppendiskussion nicht nur Fragen beantworten, sondern auch selbst Fragen stellen. Indem die Gruppenmitglieder auch untereinander diskutieren, und eigene Themen einführen, können Aspekte aufkommen, auf die die Forscherin als Außenstehende nicht gekommen wäre. 3.2.2 Geschlossene Konzepte, festgelegte Fragefolgen Wenn man Meinungen erfahren will, ist wohl das gebräuchlichste Verfahren das Interview, das mündlich anhand eines stark strukturierten Fragebogens als Einzelinterview geführt wird. Auf den Aufbau eines solchen das Interview strukturierenden Fragebogens sowie auf die dabei verwendeten Fragearten gehen wir im nächsten Abschnitt ausführlicher ein. Die mündliche Befragung anhand eines strukturierten Fragebogens kann im direkten Face-to-face-Gespräch durchgeführt werden oder als telefonisches Interview. Das telefonische Interview liegt in Bezug auf die Kosten und in Bezug auf die Interviewereffekte zwischen der schriftlichen und der persönlichen Befragung. Bei der schriftlichen Befragung soll der Befragte, wie erwähnt, ohne Einwirkung einer Interviewerin einen Fragebogen ausfüllen. In den überwiegenden Fällen wird dieser Fragebogen per Post zugeschickt und es wird erwartet, dass die Antwort in vorbereiteten Rückantwort-Umschlägen an die Untersuchungsleiterin zurückgeschickt wird. Einige Nachteile dieser Art der Befragungen wurden bereits erwähnt, nämlich dass keine Kontrolle der Interviewsituation vorliegt, sodass der Befragte die Fragen nicht in der gedruckten Reihenfolge zu bearbeiten braucht und sich sehr lange Zeit nehmen kann, um sich mit bestimmten Fragen auseinander zu setzen, wobei man nie ganz sicher sein kann, wer einen schriftlichen Fragebogen ausgefüllt hat und unter welcher Beeinflussung durch Dritte. Ein weiterer Nachteil der schriftlichen Befragung ist, dass offensichtliche Missverständnisse durch keine Interviewerin zu klären sind. Die befragte Person hat keine Möglichkeit Rückfragen zu stellen. Ein ungelöstes Problem bei schriftlichen Befragungen ist nach wie vor auch die Rücklaufquote. Es ist keineswegs so, dass die Rücklaufquote nur vom Fragebogen selbst beeinflusst wird. Die Länge des Fragebogens spielt eine gewisse Rolle; längere Fragebögen kommen noch seltener zurück als kürzere, aber der Unterschied liegt etwa bei 5%. Entscheidender als die Länge des Fragebogens ist es, wie man dafür sorgt, die Fragebögen wieder zurück zu bekommen, also z.B. das Anschreiben, mit dem der Fragebogen verschickt wird, die Gestaltung des Fragebogens, das Mahnen bei Nicht-Antworten u.a.m. Fragebögen Die Befragung 33 Die Unterscheidung in “standardisiertes” und “nichtstandardisiertes Interview” bezieht sich auf die Art der vorgegebenen Antwortkategorien. Als “standardisiert” wird ein Interview bezeichnet, wenn die Antworten zu den einzelnen Fragen in Kategorien zusammengefasst werden. Beim nichtstandardisierten Interview wird die Kategorisierung der Antworten von den Auswerterinnen später vollzogen, die Interviewerin nimmt auf Tonband auf oder schreibt alles mit. Wenn man die Antwortkategorien vorher festlegt, dann können die Antwortkategorien den Befragten mit der Frage gleichzeitig vorgelegt werden, in persönlichen Interviews können sie aber auch nur der Interviewerin bekannt sein. Ihre Aufzeichnungsarbeit wird natürlich dadurch erleichtert, dass sie nur die richtige Antwortkategorie ankreuzt, nicht die Antwort mitschreibt (allerdings muss sie unerwartete Antworten unter Zeitdruck kategorisieren, was eine Fehlerquelle darstellen kann). Wenn es um Meinungsbefragungen geht, dann stellt sich die Frage, ob eine einfache Ja-Nein-Antwortmöglichkeit angemessener ist, oder ob mehrere Kategorien besser geeignet sind, die verschiedenen Meinungen wiederzugeben. Für die Ja-Nein-Alternative spricht, dass die Befragten zu einer klaren und eindeutigen Stellungsnahme gezwungen werden, während mehrere Alternativen die Möglichkeit des Ausweichens auf eine mittlere Kategorie geben, die sehr häufig genutzt wird, wodurch man kein aussagefähiges Ergebnis bekommt. Das ist nicht wünschenswert, wenn die Befragten durchaus zu einer der Alternativen tendieren, ihnen jedoch in der Befragungssituation die mittlere Kategorie als der “sichere Weg” erscheint. Umgekehrt kann man auch unerwünschte Effekte bei der Ja-Nein-Alternative bekommen. Es könnte sein, dass die befragten Personen eigentlich “weiß nicht” oder “mal so, mal so” antworten wollen und durch das alleinige Vorgeben von “ja” und “nein” zu einer Antwort gezwungen werden, die das Ergebnis verfälscht. Es empfiehlt sich also in vielen Fällen, Ausweichkategorien zu geben. Wie immer man die Antwortkategorien vorgibt, die Gefahr einer Beeinflussung der Ergebnisse der Befragung besteht und ist zu bedenken und zu diskutieren. Um eine Suggestiv-Wirkung zu verhindern, sollte bei der Ja-Nein- Antwortvorgabe auf jeden Fall darauf geachtet werden, dass beide Alternativen bereits in der Frage enthalten sind (Beispiel: “Bevorzugen Sie einsprachigen Unterricht oder ist es Ihnen lieber, wenn die Lehrperson gelegentlich muttersprachliche Erklärungen gibt? ”). Wenn man mehrere Antwort-Alternativen vorgibt, sollten sie sich nicht inhaltlich überschneiden, und vor allem sollte auf ein Gleichgewicht zwischen positiven und negativen Antwortkategorien geachtet werden. Beispiel: Sprechen Sie mit Ihrer Frau Dialekt? immer häufig gelegentlich selten nie Standardisiertes vs. nichtstandardisiertes Interview Vorgegebene Antwortkategorien Die Befragung 34 Man kann dieselbe Frage auch so stellen, dass man eine Anzahl von Ziffern vorgibt, wobei eine Ziffer für “immer” und eine Ziffer für “nie” steht und die Befragten im Interview die Zahl nennen, in der schriftlichen Befragung eine Zahl umkringeln können, ohne dass sie eine direkte Verbalisierung für die Zwischenkategorien finden müssen. Diese Form wird vor allem bei schriftlichen Befragungen häufig verwendet, auch mit anderen Eckpunkten. Es sollte mehr Fremdsprachenunterricht an Schulen geben sehr einverstanden 1 2 3 4 5 6 7 überhaupt nicht einverstanden Wichtig bei Reihen von Aussagen dieser Art, die jeweils anzukreuzen oder zu umringen sind, ist, dass man die Befragten durch die Art der Fragestellung nicht dazu verleitet, immer dieselbe Zahl zu nennen oder die gesamten Reihen immer an der selben Stelle anzukreuzen. Das geht meist recht einfach, indem man gelegentlich auch verneinte oder anders zu wertende Aussagen einfügt. Beim nichtstandardisierten Interview wird auf eine vorgegebene Kategorisierung der Antworten verzichtet. Das bedeutet, nicht der Befragte oder die Interviewerin klassifiziert die Antworten nach der Zugehörigkeit zu bestimmten Kategorien, sondern das geschieht nachträglich durch die auswertende Forscherin. Der Vorteil dabei ist, dass viel Zeit für die Klassifizierung zur Verfügung steht, andererseits besteht dann keine Möglichkeit mehr für Rückfragen. 3.2.3 Offene und geschlossene Fragen Diese Kategorien bezeichnen den Spielraum, der bei der einzelnen Frage für die Antworten gelassen wird. Die offene Frage enthält keine festen Antwortkategorien. Eine offene Frage wäre z.B. “Wie gefällt Ihnen Ihr Sprachlehrbuch? ”. Die befragte Person kann ihre Antwort völlig selbständig formulieren und die Interviewerin hat die Aufgabe, die Äußerungen der Auskunftsperson so genau wie möglich zu notieren. Erst bei der späteren Auswertung werden die Antworten bestimmten Kategorien zugeordnet. Bei der geschlossenen Frage werden den Befragten mit der Frage auch alle für die Auswertung vorgesehenen Antworten nach Kategorien geordnet vorgelegt. Die Aufgabe besteht lediglich darin, dass sie aus diesen Antwortmöglichkeiten ihre Antwort auswählen. Geschlossene Fragen wären z.B. “Gefällt Ihnen Ihr Sprachlehrbuch? Ja - teilweise - Nein.” oder “Wie würden Sie Ihr Sprachlehrbuch am ehesten charakterisieren? Sehr interessant - interessant - geht so - langweilig - sehr langweilig”. In der Beurteilung der offenen versus geschlossenen Frageform wird als grundsätzlicher Unterschied angeführt, dass offene Fragen vom Befragten Nichtstandardisiert Offene vs. geschlossene Fragen Die Befragung 35 verlangen, sich an etwas zu erinnern, geschlossene Fragen dagegen, etwas wiederzuerkennen. Sich-Erinnern ist schwieriger als Wiedererkennen; auf offene Fragen erhält man daher in der Regel weniger Antworten als auf geschlossene Fragen. Andererseits besteht bei geschlossenen Fragen die Gefahr der Suggestivwirkung, vor allem bei Meinungsfragen, über die der Befragte nie oder kaum nachgedacht hat oder zu denen er sich noch keine Meinung gebildet hat. Offene Fragen helfen, Unwissenheit, Missverständnisse und unerwartete Einordnungen der Frage zu entdecken. 6 Bei unserem Beispiel mit der Frage zum Sprachlehrbuch könnte z.B. herauskommen, dass die Interviewten das Buch in Bezug auf die äußere Aufmachung beurteilen, während die Untersuchungsleiterin an den Inhalt gedacht hatte. Offene Fragen können auch den Gesprächskontakt und das Interesse am Interview fördern, weil sie einer normalen Gesprächssituation nahe kommen. Der Befragte fühlt sich als Gesprächspartner ernst genommen. Geschlossene Fragen erbringen dagegen eine größere Einheitlichkeit der Antworten und erleichtern dadurch die Vergleichbarkeit. Sie erleichtern der Interviewerin die Aufnahmearbeit und der Forscherin die Auswertung. Sie sind auch weniger anfällig für Interviewereffekte, es sei denn, es fehlen Antwortmöglichkeiten, die die Befragten in einer offenen Befragung geäußert hätten. 3.2.4 Direkte und indirekte Fragen Die Technik der indirekten Befragung versucht, eine Gesprächssituation zu schaffen, in der der Befragte sich auch offen zu Themen äußert, bei denen Normvorstellungen eine Rolle spielen. Die indirekte Befragung eignet sich auch dazu, Informationen über Zusammenhänge, die dem Befragten selbst nicht bewusst sind, zu erhalten. Dabei liegt selbstverständlich die Annahme zu Grunde, dass auch Faktoren, die dem Befragten nicht bewusst sind, dessen Verhalten wesentlich beeinflussen, auch solche, die den bewussten Werten und Zielen des Befragten widersprechen. Nun erheben wir als Sprachwissenschaftlerinnen oder Sprachlehrforscherinnen ja selten sehr sensible Daten, trotzdem haben wir auch manchmal mit Normvorstellungen zu tun, z.B. über den richtigen Unterricht oder über das richtige Sprachverhalten. In diesen Fällen kann es vorkommen, dass auch wir indirekte Fragetechniken gebrauchen. Eine raffinierte Methode der indirekten Fragetechnik stellt die Frage so, dass eine “richtige” Antwort gar nicht bei der Fragestellung vorgesehen ist. So etwas wurde z.B. gemacht, um Einstellungen verschiedener Personen zu unter- 6 Eine Linguistin, die Grammatikalitätsurteile erheben wollte, wunderte sich nicht schlecht, als ihr ein Befragter zum zu beurteilenden Satz Fritz ist größer wie Paul sagte, er könne zu seiner Korrektheit kein Urteil abgeben, da er weder Fritz noch Paul kenne. Direkte vs. indirekte Fragen Die Befragung 36 schiedlichem Sprachverhalten zu ermitteln. Die Versuchspersonen hörten Bandaufnahmen von jeweils demselben Sprecher. Ihnen wurde aber gesagt, dass es sich um unterschiedliche Sprecher handele. Aufgabe der Versuchspersonen war, den Beruf dieser angeblich unterschiedlichen Sprecher zu erraten. Auf den Bandaufnahmen, die zu beurteilen waren, sprach ein geschulter Schauspieler in unterschiedlichen amerikanischen Soziolekten. Entsprechend bestimmten Merkmalen seiner Sprache wurde er zwischen “Arzt” und “Hafenarbeiter” in seinen Berufen eingeschätzt. In einer direkten Befragung mit Fragen wie beispielsweise “Würden Sie doppelte Verneinung als ein Kennzeichen von Unterschichtsprechern ansehen? ”, wären wahrscheinlich nicht dieselben Ergebnisse erzielt worden. 3.3 Aufbau eines Fragebogens Der Fragebogen ist das wichtigste Instrument der Befragung; insofern kann man kaum genug Sorgfalt in seine Entwicklung stecken. Üblicherweise geht man beim Aufbau eines Fragebogens nach den folgenden Prinzipien vor. Fragen, von denen man erwartet, dass sie das Interesse des Befragten am ehesten zu wecken vermögen, werden zu Beginn gestellt. Wenn sein Interesse geweckt ist und er sich am Interview zu beteiligen beginnt, wird er eher bereit sein, auf Fragen, die ihn weniger interessieren oder die mehr Überlegungen und Anstrengungen verlangen, zu antworten. Sollten auch heikle Fragen gestellt werden, dann möglichst gegen Ende der Untersuchung, und zwar aus zwei Gründen. 7 Erstens kann es durchaus sein, dass durch den Ablauf des Interviews der Befragte Zutrauen zur Interviewerin gefasst hat und daher auch bereit ist auf heikle Fragen einzugehen, und zweitens, wenn der Befragte bei solchen Fragen beginnt das Interview zu verweigern oder in seinen Antworten höchst zurückhaltend wird, so hat die Interviewerin zumindest die Antworten auf die früheren unproblematischen Fragen erhalten. Ein Trick bei Fragen nach negativ bewertetem Verhalten ist, dass man einleitende Bemerkungen zum Abbau konventioneller Schranken den eigentlichen Fragen voranstellt. Ein Beispiel dafür wäre “Viele Schüler benutzen ja Hilfsmittel während der Klassenarbeiten. Könnten Sie mir sagen, wann Sie zum letzten Mal in einer Klassenarbeit ein unerlaubtes Hilfsmittel benutzt haben? ” Bei einer solchen - im zweiten Teil sicherlich suggestiven - Frage bekommt man vermutlich mehr zutreffende Antworten, als wenn man direkt fragt “Wann haben Sie zuletzt gemogelt? ” (Selbstverständlich sollte man ohnehin negativ wertende Ausdrücke in derartigen Fragen vermeiden). In manchen Fragebögen werden auch Kontrollfragen 7 Heikle Fragen wären z.B. Fragen zu als unerwünscht geltendem Lehrerverhalten u.ä. Aufbau des Fragebogens Die Befragung 37 eingebaut, die überprüfen sollen, ob die Versuchspersonen übertrieben haben, unaufrichtig waren oder in ihren Urteilen schwanken. Bei linguistischen Fragebögen zur Akzeptanz bestimmter sprachlicher Erscheinungen gibt es immer mehrere Beispiele für ein als gleich angesehenes Phänomen, einerseits wegen dieser möglichen Schwankungen des Urteils, und andererseits, weil man nicht sicher sein kann, dass in einem einzelnen vorgelegten Satz oder einer einzelnen vorgelegten Textpassage nicht irgendetwas zur Wertung durch den Befragten führt, was mit der Untersuchungsfrage gar nichts zu tun hat (er mag oder kennt ein bestimmtes Wort nicht beispielsweise). Im Folgenden wird eine Aufstellung der einzelnen Phasen der Fragebogenentwicklung wiedergegeben, die zeigt, wie Sozialwissenschaftler dies für ihre Untersuchungen verlangen. 3.4 Umgang mit der Gefahr von Artefakten Es lässt sich niemals völlig vermeiden, dass die Befragung selbst die Ergebnisse der Befragung beeinflusst, und die bereits behandelten Interviewereffekte sind nur eine der Möglichkeiten dazu. Man kann jedoch den Grad der Verfälschung in gewisser Weise unter Kontrolle halten. Einerseits muss man die Art der Befragung vollständig dokumentieren, sodass andere Wissenschaftlerinnen überprüfen können, in welcher Weise mögliche Beeinflussungen stattgefunden haben können. Andererseits muss man seinen Fragebogen so sorgfältig zusammenstellen, dass aus dem Fragebogen selbst nicht geschlossen werden kann, welches Ergebnis die Untersuchende selbst bevorzugen würde. Dafür ein schlichtes Beispiel: In einer Untersuchung sollen die Probanden Sätze auf ihre Grammatikalität hin beurteilen. Wenn Studierende für eine solche Umfrage einen Fragebogen entwerfen sollen, gehen sie häufig fälschlicherweise so vor, dass sie die Beispielsätze, die die Probanden beurteilen sollen, schon im Fragebogen in einer gewissen Ordnung angeben: Sie bringen zuerst die Sätze, die sie selbst für grammatisch halten, dann die, bei denen sie selbst zweifeln, dann die, die sie für völlig ungrammatisch halten. Das ist ganz logisch in der Vorgehensweise, und bei der Planung des Fragebogens ist es auch sicher ein wichtiger Schritt (es sollten schließlich auch genügend akzeptable Sätze in der Befragung vorkommen, und die erwartete Verteilung von akzeptablen, zweifelhaften und ungrammatischen Sätzen lässt sich so gut abschätzen). Der Fehler bei einem solchen Verfahren ist jedoch offensichtlich: Die Befragten Artefakte Die Befragung 38 Tabelle 1: Logischer und psychologischer Aufbau eines Fragebogens (entnommen aus Atteslander, 1995, S. 139) Phasen der Fragebogenentwicklung Gesichtspunkte/ Kriterien 1) Präzisierung, Einengung des Themas, Klärung der zu erfragenden Inhalte, geordnet nach ihrer Bedeutsamkeit. Aufstellung von Hypothesen - Entscheidung über Ausmaß der Standardisierung; ob schriftliche oder mündliche Befragung (Interview) - Analyse der Literatur zum Thema - Entscheidung über Gruppen, die befragt werden sollen - Intensives Erfragen eines Bereichs oder oberflächliches Abfragen verschiedener Bereiche 2) Formulierung von Fragen zu den interessierenden Bereichen/ zu den Hypothesen - Balance der Fragen, Konkretheit, Verständlichkeit, Eindeutigkeit - Trennung von unabhängigen und abhängigen Variablen - Mischung geschlossener und offener Fragen (Adressatenkreis, Monotonie des Fragebogens, Präzision und objektive Auswertbarkeit der Fragen) 3) Ordnung der Fragen in eine Reihenfolge - Einleitung: Allgemeine Information, Motivierung, Zusicherung der Anonymität - Aufwärmfragen - Peinliche Fragen nicht an den Anfang - Abhängigkeit vom Fragekontext: Kontrollgruppen 4) Überprüfung des Fragebogens - Vortest an ca. 20 Befragten - Fragen nach Unebenheiten der Frageformulierung - Statistische Auswertung (wenn nur eine Antwort auf eine Frage vorkommt, dann ist die Frage nicht informativ) 5) Vorbereitung der Hauptuntersuchung: Interviewerschulung und Auswahl der Stichprobe - Versuchsplanung: Ist eine Variation der unabhängigen Variablen durch die Auswahl der Stichprobe möglich? - Interviewerschulung - Organisation von Adressenlisten usw. Die Befragung 39 können - bewusst oder unbewusst - eine Ordnung erkennen, nämlich die Wertung der Autorin des Fragebogens, werden davon beeinflusst und neigen im Allgemeinen dazu, sich diesen impliziten Wertungen des Fragebogens anzuschließen, ohne sich selbst noch weitere Gedanken zu machen. Dass das Ergebnis einer solchen Umfrage dann weitgehend unbrauchbar ist, versteht sich von selbst: Man hat nicht empirisch die Meinungen mehrerer sprach-kompetenter Probanden eingeholt, sondern sich im Wesentlichen lediglich die Meinung einer Sprecherin, noch dazu einer wenig repräsentativen, nämlich der Linguistin, die den Fragebogen entworfen hat, bestätigen lassen. Um derartige Beeinflussungen der Probanden so weit wie möglich zu vermeiden, ist es daher wichtig, die zu beurteilenden Beispielsätze möglichst gut gemischt und ohne erkennbares Ordnungsprinzip zu präsentieren. Insbesondere wenn es um die Untersuchung sprachlicher Normen geht, ist es auch wichtig, dass die Befragten möglichst nicht erkennen können, um welches grammatische Phänomen es in der Untersuchung geht. Denn wenn sie ein solches Wissen über die Ziele der Untersuchung haben oder meinen zu haben, sind sie in ihrem Urteil nicht mehr die unmittelbar und intuitiv-unreflektiert antwortenden Sprachbenutzer bzw. kompetenten Sprecher, sondern fangen möglicherweise an, sich über das Phänomen Gedanken zu machen, und stellen dazu bewusst eigene Regeln auf oder greifen auf vorhandenes Regelwissen zurück. Da man mit der Untersuchung aber nicht das Wissen der Sprachbenutzer über normative Regeln des Duden oder ähnlicher normierender Instanzen testen möchte, sondern etwas über den Sprachgebrauch und das Sprachempfinden kompetenter Sprecher herauszufinden beabsichtigt, ist das Verwenden so genannter Distraktoren nötig. Distraktoren sind beispielsweise Ablenkersätze, d.h. zusätzliche Beispielsätze, die für das eigentliche Ziel der Untersuchung gänzlich irrelevant sind und in denen es um ein ganz anders gelagertes grammatisches Phänomen oder andere sprachliche Erscheinungen geht. 3.5 Kodierung der Antworten, Auswertungsmöglichkeiten Der Aufbau eines Fragebogens und die Art und Weise, wie Fragen gestellt und Stichproben gewählt werden, wurden ausführlich behandelt. Im Folgenden wird anhand eines Beispieles dargestellt, wie und warum die gewonnenen Daten kodiert werden sollten und wie dann mit den kodierten Daten umgegangen wird. In einer 1998 in den USA durchgeführten Umfrage sollte die Einstellung der Bevölkerung dazu ermittelt werden, ob Präsident Clinton sein Amt aufgeben solle oder nicht. Die Washington Post veröffentlichte die Ergebnisse der Umfrage (Dezember 1998) auf ihrer Internetseite. Beim Ansehen der Ergebnisse im Internet hatte der Interessent die Möglichkeit, die Umfrage zur Amtsenthebung Die Befragung 40 Antworten nach Hautfarbe, Geschlecht, Parteizugehörigkeit, Bildung, Alter oder Region aufzusplitten: Tabelle 2: Antworten auf die Frage, ob man der Meinung ist, dass Clinton seines Amtes enthoben werden soll Weiße Afro-Amerikaner Insgesamt Der Senat soll ihn seines Amtes entheben 38% 5% 33% Der Senat soll ihn nicht seines Amtes entheben 60% 95% 66% keine Meinung 2% 0% 2% Offensichtlich gab es zu dieser Zeit (Dezember 1998) unter den Amerikanern eine zweidrittel Mehrheit für ein Verbleiben Clintons im Amt, wobei Afro-Amerikaner deutlich positiver zu Clinton als Weiße eingestellt waren (vgl. Tabelle 2). Wie kam die Washington Post zu den Ergebnissen und wie wurden die Daten gesammelt (und kodiert)? Offensichtlich interviewte die Zeitung viele Menschen (tatsächlich wurden 1285 Erwachsene befragt). Die gestellten Fragen waren, ähnlich offensichtlich, nicht ausschließlich “Sind Sie der Meinung, dass....”, sondern es wurde auch gefragt “Welche Hautfarbe haben Sie? ”, “Welchen Schulabschluss haben Sie? ” etc. In der Datensammlung muss jede Antwort kodiert sein. Zum Beispiel waren die Antworten zur obigen Frage wahrscheinlich mit 1 (“Ja, Clinton soll seines Amtes enthoben werden”), 2 (Nein, Clinton soll nicht seines Amtes enthoben werden”) und 3 (“keine Meinung”) kodiert. Ähnlich könnte das Geschlecht mit 1 (für männlich) und 2 (für weiblich) kodiert gewesen sein. Alter könnte kodiert sein mit 1 (18-30 Jahre), 2 (31-44 Jahre), 3 (45-60 Jahre) und 4 (61 Jahre und älter) etc. Die Datensammlung, in der diese Daten dokumentiert wurden, könnte wie Tabelle 3 mit hypothetischen Daten ausgesehen haben (zwei Zellen sind leer, weil die Befragten keine Antwort gaben). Danach wäre Befragte 1 weiß (vgl. Spalte “Hautfarbe”: 1 steht für weiß, 2 für schwarz), weiblich (vgl. Spalte “Geschlecht”: 1 steht für männlich, 2 für weiblich), Anhängerin der Demokraten (vgl. Spalte “Partei”: 1 steht für Demokraten, 2 für Republikaner), hat einen Highschool Abschluss (vgl. Spalte “Ausbildung”, in der 3 für Highschool steht), ist im Alter zwischen 31 und 44 Jahren (vgl. Spalte “Alter”), stammt aus dem mittleren Westen (wenn wir davon ausgehen, dass 4 in der Spalte “Region” für den Mittleren Westen steht) und sie ist der Meinung, der Senat sollte Clinton seines Präsidentenamtes entheben (vgl. Spalte “Votum”, in der 1 für “entheben” und 2 für “nicht entheben” und 3 für “keine Meinung” steht). Kodierung Die Befragung 41 Tabelle 3: Hypothetische Daten zu den einzelnen Befragten Befragte Hautfarbe Geschlecht Partei Ausbildung Alter Region Votum 1 1 2 1 3 2 4 1 2 2 1 1 2 2 3 2 3 1 1 2 2 2 2 1 4 1 2 2 1 4 5 2 5 1 2 3 1 1 1 6 2 1 1 2 3 1 2 7 1 2 2 1 2 2 8 2 1 1 1 2 1 3 Man sieht sofort den Vorteil dieser Kodierung, wenn man es mit einer großen Menge von Befragten zu tun hat. Die Tabelle enthält sehr viele Informationen über das “Wahl”-Verhalten, die auf unterschiedliche Art analysiert und präsentiert werden können. Man kann nicht nur herausfinden, wie zwei verschiedene Hautfarben-Gruppen der USA über eine Amtsenthebung Clintons denken oder wie Männer und Frauen denken (s. Tabelle 3). Man kann ebenso herausfinden, wenn man nur bestimmte Kategorien auswählt, was afroamerikanische Frauen im Gegensatz zu weißen Frauen denken, oder wie die Meinung der weißen Republikaner mit Universitätsabschluss im Alter von 61 Jahren und älter aus dem Osten der USA aussieht. Natürlich lassen sich so beliebig viele andere Gruppen bestimmen. Diese Art Information wird meistens in Kreuztabellen präsentiert, wie in Tabelle 4. Tabelle 4: Meinungen von Männern und Frauen, basierend auf den hypothetischen Daten in Tabelle 3 (N=8) Männer Frauen Insgesamt Der Senat soll ihn seines Amtes entheben 1 2 3 Der Senat soll ihn nicht seines Amtes entheben 2 2 4 keine Meinung 1 0 1 Insgesamt 4 4 8 Beim genaueren Blick auf die Befragung bemerken wir, dass jede Frage eine Antwort verlangt, die jede Versuchsperson in eine bestimmte Kategorie steckt. Die befragten Personen müssen sich entweder als “männlich” oder als “weiblich”, entweder als “schwarz” oder als “weiß” bezeichnen: 8 Somit gibt 8 Wer Menschen beider Hautfarben unter seinen Vorfahren hat, muss sich also für eine der beiden Möglichkeiten entscheiden. Die Befragung 42 es bei der Frage nach dem Geschlecht ebenso wie bei der Hautfarbe zwei mögliche Antworten. Die Kategorie “Alter” bietet 4 Möglichkeiten: 18-30, 31-44, 45-60 und 61+. Und die Kategorie “Votum” hat drei Antwortmöglichkeiten. Die Art der Kategorien führt dazu, dass man keine Mittelwerte u.ä. berechnen kann. Es ist offensichtlich, dass man keinen Durchschnitt aus schwarzer und weißer Hautfarbe ausrechnen kann, in dem Sinne, dass der durchschnittliche Amerikaner grau ist. Es lässt sich lediglich die Aussage machen, dass soundso viele Afroamerikaner und soundso viele Weiße an der Befragung teilgenommen haben. Ebenso wenig lässt sich ein Geschlechts-Durchschnitt berechnen und man kann also nicht sagen, dass der durchschnittliche Amerikaner 0,52 weiblich ist. Dies hängt mit dem Skalenniveau zusammen. Männlich-weiblich oder schwarz-weiß sind nominalskalierte Daten. Aber auch die Art der Klassifizierung der Daten kann dazu führen, dass keine Mittelwerte mehr berechnet werden können, das ist z.B. beim Alter der Fall. Da nicht das exakte Alter, sondern die vier Gruppen festgehalten wurden, sind die Ergebnisse für eine Berechnung des Durchschnittsalters der Befragten nicht mehr zu gebrauchen. Die Befragung 43 Aufgaben 1. Angenommen, Sie wollen wissen, welche Gruppen der Bevölkerung eine bestimmte Meinung vertreten (z.B., dass an Schulen zu wenig Sprachunterricht erteilt wird). Sie haben dazu mit einem Fragebogen Informationen gesammelt. Im Folgenden sind die (hypothetischen) Daten für 12 Befragte angegeben. (a) Erstellen Sie aus den Daten unten eine Kreuztabelle, in der Sie (in absoluten Zahlen) angeben (a1) wie viele Befragte in den einzelnen Altersgruppen diese Meinung vertreten (a2) welchen Schulabschluss die befragten Männer und Frauen hatten (a3) wie die Einkommensgruppen sich auf die Altersgruppen verteilen. b) Erstellen Sie eine neue Kreuztabelle, in der Sie nicht die absoluten Zahlen, sondern Prozentwerte angeben. Versuchsperson Geschlecht Schulabschluss Einkommen Alter Votum 1 1 1 1 2 2 1 2 2 1 2 3 2 2 2 2 1 4 1 1 1 1 3 5 1 3 2 1 1 6 2 3 3 3 1 7 2 2 2 3 1 8 1 3 1 4 1 9 1 2 1 10 2 1 2 1 2 11 1 1 3 1 1 12 2 2 3 3 1 Hierbei gilt: Versuchsperson: weist jeder befragten Person eine Nummer zu Geschlecht: 1 = männlich, 2 = weiblich Schulabschluss: 1 = Abitur, 2 = Fachhochschulabschluss, 3 = Universitätsdiplom, Magister oder Promotion Einkommen: 1 ≤ € 50.000, 2 = € 50.001 - 80.000, 3 ≥ € 80.001 jährlich Alter: 1 ≤ 18 Jahre, 2 = 19-30 Jahre, 3 = 31-60 Jahre, 4 > 60 Jahre Votum: 1 = “ja”, 2 = “nein”, 3 = “weiß nicht” 2. Der im folgenden dargestellte Fragebogen soll für eine Befragung zur Akzeptanz der Vergangenheitstempora “Doppelperfekt” (Es hat geregnet Die Befragung 44 gehabt) und “Doppelplusquamperfekt” (Es hatte geregnet gehabt) bei Studierenden der Philipps-Universität Marburg benutzt werden. Er soll an 300 Studierende am Eingang der Mensa verteilt werden und beim Herausgehen wieder eingesammelt werden. Kommentieren Sie dieses Vorgehen und die Qualität des Fragebogens! Philipps-Universität Marburg Fachbereich 09 “Germanistik und Kunstwissenschaften" Institut für Germanistische Sprachwissenschaft Prof. Dr. Erna Anfänger/ Eva Neumann Philipps-Universität Marburg, D-35032 Marburg FB 09, Institut für Germanistische Sprachwissenschaft 35032 Marburg Telefon: (0 64 21) 28 248 92 Telefax: : (0 64 21) 28 24558, neumann@stud-mailer.uni-marburg.de Fragebogen zu Dialektmerkmalen bei Studierenden der einzelnen Fachbereiche Sehr geehrte Versuchsteilnehmerin, sehr geehrter Versuchsteilnehmer, schenken Sie uns 3 Minuten Ihrer Zeit? Wir bitten Sie, diesen Fragebogen anonym auszufüllen und beim Verlassen der Mensa wieder abzugeben. Ihre Angaben sind für eine Magisterarbeit sehr wichtig. Ich bin männlich weiblich Alter: .......... Jahre Fachbereich des studierten Hauptfachs: ............................................................. Muttersprache: Deutsch andere, nämlich: ............................................. Bitte, beurteilen Sie die folgenden Sätze auf ihre sprachliche Richtigkeit. Die Befragung 45 korrekt höre ich schon mal, würde es aber nicht sagen falsch 1. Kenns ka Ampel ni? 2. Heute ist schönes Wetter. 3. Gestern hat es den ganzen Tag geregnet gehabt. 4. Fritz ist größer wie Paul. 5. Ich habe keine Lust zum Essen, weil es ist zu heiß. 6. Heute abend gehen Fritz und Hugo ins Kino. 7. Als Fritz ihm den Schnaps wegnahm, hatte Paul schon 9 Gläser getrunken gehabt. 8. Ostern ist nächste Woche. 9. Wie ist der Weg nach dem Bahnhof? 10. Heute morgen Fritz ist zu spät aufgestanden. 11. Meine Mutter ihr Auto hat eine Panne. 12. Als Fritz die Treppe runterfiel, war das Licht schon lange eingeschaltet gewesen. 13. Claudia ist ganz sympathisch. 14. Weil Egon ständig in einer Grammatik liest, er hat Probleme mit seiner Freundin. 15. Als wir Egon und Paul abholen wollten, sind sie schon weggefahren gewesen. 16. Franken sprechen besseres Deutsch als wie Bayern. 17. Als Egon ins Auto steigen wollte, hatte er 4 Flaschen Bier getrunken gehabt. 18. Gestern ist Erna total beleidigt gewesen. Vielen Dank für Ihre Mitarbeit! Wenn Sie die Ergebnisse unserer Befragung wissen wollen, schreiben Sie unten Ihre e-mail-Adresse auf! ------------------------------------------------------------------------------------------------------------------- Dieser Streifen wird vor der Auswertung abgetrennt. e-mail-Adresse: ............................................. 46 4 Das Experiment 4.1 Experimentelle Forschung In der experimentellen Forschung manipuliert man eine Variable und betrachtet, ob eine Änderung in dieser Variablen (der unabhängigen Variablen) eine Auswirkung auf eine andere Variable zeigt (die abhängige Variable). Als ein erstes, einfaches Beispiel können wir uns die folgende Frage stellen: “Beeinträchtigt Alkohol die Fahrtüchtigkeit? ”. 1 Das Alkoholbeispiel ist recht repräsentativ für die meisten Arten der Forschung, sogar im Bereich der Sprachlern- und -lehrforschung. In der experimentellen Forschung würde man normalerweise damit anfangen, die Fahrtüchtigkeit nüchterner Menschen mit der solcher Menschen zu vergleichen, die etwas (oder eine Menge) getrunken haben. Man könnte zwei Gruppen bilden, eine nüchterne Gruppe und eine Gruppe von Leuten, die jeweils fünf Glas Bier getrunken haben, und bittet sie, eine bestimmte Strecke zu fahren, und misst dabei, ob die nüchterne Gruppe besser fährt. Die Menge des getrunkenen Alkohols ist hierbei die unabhängige Variable, die vom Forscher manipuliert wird (der Forscher entscheidet, wer kein Bier trinkt, fünf Gläser oder gar zehn Gläser), und die Fahrtüchtigkeit ist die abhängige Variable, denn sie hängt ab von (und zeigt den Effekt) der Menge Bier, die man getrunken hat. Wir müssten natürlich die abhängige Variable operationalisieren, d.h. beschreiben, wie wir sie messen. Wir können die abhängige Variable in unserem Fall messen, indem wir unsere Probanden einen Slalom um eine Reihe Verkehrshütchen fahren lassen und die Anzahl der umgefahrenen Verkehrshütchen zählen, oder wir messen sie, indem wir die Zeit stoppen, die die Versuchsteilnehmer benötigen, um einen Kilometer zu fahren. In diesem Fall nehmen wir an, dass die Fahrer desto mehr Verkehrshütchen umfahren oder desto langsamer um die Hütchen fahren, je mehr Bier sie getrunken haben. 1 Natürlich tut er das, und wir wissen es auch. Je mehr Alkohol man trinkt, desto weniger ist man in der Lage, sicher Auto zu fahren. Trotzdem beginnt jedes Jahr ein Team von Forschern irgendwo in der Welt ein neues Forschungsprojekt, um eine Antwort auf ein Detail dieser Frage zu finden. Beispiel Das Experiment 47 Tabelle 1: Forschungsfragen, Variablen und ihre Operationalisierung Forschungsfrage unabhängige Variable operationalisiert als beeinflusst abhängige Variable operationalisiert als Beeinflusst Alkohol die Fahrtüchtigkeit? Menge des Alkohols Anzahl der getrunkenen Gläser (0 - 5 - 10) Fahrtüchtigkeit Anzahl von umgeworfenen Verkehrshütchen Sollte man die von Schülern gemachten Fehler korrigieren? Häufigkeit der Korrektur Lehrer korrigiert Fehler oder korrigiert sie nicht Sprechfertigkeit Anzahl der in einem Test gemachten Fehler Welchen Effekt hat das Lehren in Gruppen mit heterogener Lernfähigkeit im Vergleich zu homogenen Gruppen? Gruppenzusammensetzung zwei unterschiedliche Gruppen: eine gemischte und eine homogene Sprechfertigkeit Ergebnisse bei einem Sprechtest Würden die weniger sprachbegabten Schüler mehr lernen, wenn ich meine Schülergruppe in zwei Gruppen aufteile, in der die weniger sprachbegabten Schüler in einer Gruppe sind? Gruppengröße und -zusammensetzung große, heterogene Gruppe, verglichen mit zwei kleineren, homogenen Gruppen Sprechfertigkeit Ergebnisse bei einem Sprechtest Wenn man sich überlegt, wie man sein Experiment aufbaut, muss man eine Reihe von Aspekten berücksichtigen und festlegen: Die Forschungsfrage, die Variablen und wie sie operationalisiert werden sollen, die Versuchsteilnehmer (wie viele und welche Art von Schülern/ Personen sollen bei dem Experiment teilnehmen, wie viele Gruppen), die Art von Ergebnissen, die wir erwarten, und womit wir sie vergleichen wollen, die Validität der Forschung (d.h. ob wir wirklich testen, was wir testen wollen) und ob wir die Ergebnisse des Experiments verallgemeinern können (d.h. ob wir uns sicher sein können, dass die Ergebnisse eine größere Bedeutung haben, die nicht nur für die Personen, die wir getestet haben, zutrifft). Wegen des hohen Aufwands bei einem Experiment kann man allerdings nicht dasselbe für die Das Experiment 48 “Wahl der Stichprobe” verlangen wie bei einer Befragung. Oft arbeitet man mit 20-30 Experimentteilnehmern. 2 4.2 Der Entwurf des Forschungsvorhabens Normalerweise möchten wir den Effekt der unabhängigen Variable (zum Beispiel Alkohol) auf die abhängige Variable (Fahrtüchtigkeit) einschätzen können. Wir stellen fest, ob es einen Effekt gibt, indem wir die Ergebnisse eines Tests in dem einen Zustand einer Variablen (zum Beispiel in einem Fahrtest, bei dem die Anzahl der umgefahrenen Verkehrshütchen nach zehn Gläsern Bier gezählt wird, wobei die Variable “Menge des getrunkenen Alkohols” ist) mit den Ergebnissen in einem anderen Zustand der gleichen Variablen (zum Beispiel die Anzahl der Verkehrshütchen, die nach null Gläsern Bier umgefahren werden, d.h. von nüchternen Fahrern) vergleichen. Wir können eine Gruppe von Probanden in dem einen Zustand (betrunken) und eine andere Gruppe von Probanden in einem anderen Zustand (nüchtern) nehmen. In diesem Fall sprechen wir von einem Unabhängige- Gruppen-Design. Alternativ können wir nur eine Gruppe verwenden, die wir zuerst nüchtern und später nach zehn Gläsern Bier testen. In diesem Fall wiederholen wir den Test; wenn die Probanden in beiden Zuständen teilnehmen, sprechen wir von einem Wiederholte-Messungen-Design. Beide Verfahren haben offensichtlich jeweils einen speziellen Nachteil. Die beiden unabhängigen Gruppen sind möglicherweise nicht völlig gleich gut im Slalomfahren, und die Gruppe mit der wiederholten Messung hat den Parcours ja schon nüchtern geübt, wenn sie ihn betrunken fährt. Wenn von der Anlage des Experiments her beide Möglichkeiten bestehen, muss man sich überlegen, welcher der beiden Effekte das Ergebnis stärker verfälschen würde, und dann das andere Verfahren wählen. Der Aufwand, der mit einem Experiment verbunden ist, verbietet es normalerweise, beide Möglichkeiten auszuprobieren. In beiden Fällen vergleichen wir zwei Zustände der gleichen Variablen (“Menge von Alkohol”). Wir können natürlich mehr verschiedene Zustände (Ebenen) einführen, beispielsweise Leute mit null Gläsern Bier, mit fünf und mit zehn Gläsern. In diesem Fall sagen wir, dass die unabhängige Variable drei Ebenen hat. Um ein Beispiel aus dem Bereich der Sprachforschung zu bringen, nehmen wir an, dass wir herausfinden möchten, ob Alkohol einen positiven oder einen negativen Effekt auf die Aussprache hat. Vielleicht haben wir sogar eine Theorie darüber. Einige Leute empfinden es als “komisch”, eine Fremdsprache richtig auszusprechen, und sind gehemmt, die richtige Intonation anzuwenden, weil beispielsweise die Anwendung der gesamten 2 Dies ist eine weitere politisch korrekte Bezeichnung für “Versuchsperson”. Beispiel Das Experiment 49 Reichweite der englischen Intonation auf sie recht übertrieben wirkt. 3 Man könnte also behaupten, dass mit ein bisschen Alkohol, sagen wir ein oder zwei Gläsern, die Personen ihre Hemmungen verlieren und sich trauen, freier zu sprechen, und deshalb eine bessere Intonation haben. Wenn man jedoch zu viele Gläser getrunken hat, neigt die Aussprache dazu, undeutlich zu werden, was zu einer weniger akzeptablen Intonation führt. 4 Ein Einfluss der unabhängigen Variable auf die abhängige muss also nicht linear sein, muss nicht die Form von “je mehr X, desto mehr/ weniger Y” haben. Um unsere Theorie zu überprüfen, führen wir ein Experiment durch, in dem die unabhängige Variable (mit 6 Ebenen, d.h., die unabhängige Variable ist operationalisiert als eine variierende Anzahl von Gläsern Sherry, nämlich 0 - 1 - 2 - 3 - 4 - 5) “Alkoholmenge” ist. Die abhängige Variable ist “Intonation”, operationalisiert als eine Note, die von einer Anzahl erfahrener Sprachtester nach dem Vorlesen eines englischen Textes vergeben wird. 5 Tabelle 2: Noten für die Intonation nach 0 bis 5 Gläsern Sherry Gläser 0 1 2 3 4 5 John 7.0 7.5 7.0 6.5 6.5 4.0 Peter 6.5 6.5 6.5 6.0 6.0 4.0 Ellis 6.0 6.0 6.0 5.5 5.5 3.5 Sara 7.0 7.5 6.0 5.0 5.0 4.0 Martin 6.5 7.0 5.5 4.5 4.5 4.0 Matty 5.0 6.5 5.0 4.0 4.5 3.5 Eve 6.0 6.0 4.5 4.0 4.0 2.0 Nancy 9.0 9.0 8.0 8.0 6.0 5.0 Adam 8.5 8.5 7.5 7.5 5.5 4.5 Mike 8.0 9.0 8.5 5.0 6.0 4.0 Mittelwert 7,0 7,4 6,5 5,6 5,4 3,9 3 Beispielsweise ist die Differenz zwischen “hoher” und “niedriger” Intonation im Niederländischen eine halbe Oktave, im britischen Englischen jedoch eine ganze. Deshalb finden niederländische Schüler es häufig “komisch” und ein wenig peinlich, die “Höhen” und “Tiefen” zu sprechen, und haben daher eine recht flache Intonation. 4 Auch in der Muttersprache, vgl. für genauere Aufschlüsse darüber die Arbeiten von Angelika Braun in H. J. Künzel, A. Braun und U. Eysholdt, 1992. Einfluß von Alkohol auf Sprache und Stimme. Heidelberg: Kriminalistik-Verlag. 5 Selbstverständlich wissen diese Sprachtester nicht, welche Texte von nüchternen und welche von betrunkenen Vorlesern stammen. Benotung der Intonation 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 Anzahl der Gläser Abb. 1 Das Experiment 50 Wir nehmen uns also zehn Studierende im ersten Studienjahr und bitten sie, einen Text vorzulesen (in nüchternem Zustand, die Forscherin muss also sicherstellen, dass sie wirklich nichts getrunken haben), und nehmen sie beim Vorlesen auf. Dann geben wir ihnen ein Glas Sherry und lassen sie wieder einen Text vorlesen, den wir wieder aufnehmen. Und so fahren wir fort, bis wir sie nach dem fünften Glas Sherry und dem sechsten Vorlesen nach Hause gehen lassen (oder sie vielleicht besser nach Hause bringen). Am Schluss haben wir sechzig Aufnahmen gesammelt, die wir zwei oder drei erfahrenen “Intonationsrichtern” vorlegen mit der Bitte, diese auf einer 10-Punkte-Skala zu bewerten, wobei 10 exzellent und 1 sehr schlecht ist. Wir nehmen dann den Mittelwert der Noten, die von den zwei oder drei “Intonationsrichtern” für jedes Vorlesen jedes einzelnen Probanden gegeben wurden, und stellen die Ergebnisse in einer Tabelle (Tabelle 2) dar oder plotten die Mittelwerte in einem Graphen (Abb. 1). Wir sehen, mehr als ein Glas Sherry ist der Intonation nicht zuträglich. In der linguistischen Forschung gibt es verschiedene Arten von Experimenten; insbesondere in der Psycholinguistik wird üblicherweise mit Experimenten gearbeitet. Die Sprachlehrforschung führt vornehmlich Experimente zum Lernverhalten durch. Wir erläutern die methodischen Probleme im Folgenden anhand von Fragestellungen aus der Sprachlehrforschung und geben im Anhang zu diesem Kapitel einen kurzen Überblick über einige häufig benutzte Experimentformen in der Psycholinguistik. Die meisten Forschungsstrategien tragen in irgendeiner Weise Züge des Experimentellen. Daher ist es schwierig, eindeutig zu bestimmen, wann von einem Experiment gesprochen werden kann. Im Experiment werden eine oder mehrere unabhängige Variablen unter kontrollierten Bedingungen so verändert, dass sich dadurch die Möglichkeit ergibt, die Hypothese, die der Durchführung des Experiments bzw. dem Experiment zugrunde liegt und die einen Kausalzusammenhang zwischen Phänomenen behauptet, in unterschiedlichen Situationen zu überprüfen. Ein gutes Experiment ist wiederholbar, d.h. wenn jemand anderes mit anderen Versuchsteilnehmern (in der Psycholinguistik meist auch: anderem Testmaterial, anderen Sprachen usw.) versucht, dasselbe Ergebnis zu erzielen, gelingt dies. Wenn die Wiederholung eines Experiments nicht dieselben Ergebnisse hat, muss man annehmen, dass die Hypothese, die das Experiment stützen wollte, zumindest nicht für alle möglichen Bedingungen gilt. Das Besondere an einem Experiment besteht darin, dass man versucht, alle Faktoren zu kontrollieren, die auf die Daten, die man erheben will, einen Einfluss haben könnten. Das Experiment weist gegenüber der Beobachtung und der Befragung drei entscheidende Vorteile auf: 1. Ein Experiment bietet die Möglichkeit, Versuchsteilnehmer und Materialien in einen künstlich gestalteten Prozess einzufügen und damit jede Einzelheit zu kontrollieren. Wann ist etwas ein Experiment? Das Experiment 51 2. In einem Experiment kann man extreme Situationen konstruieren, die die zu prüfende Hypothese und deren Voraussagen unter schwierigsten Bedingungen testen. 3. Das Experiment benutzt naturwissenschaftliche Methoden, um Kausalbeziehungen im Bereich sozialer Phänomene festzustellen. In der Linguistik sind es zum Beispiel Messungen von Reaktionszeiten, die die naturwissenschaftliche Basis bieten, in der Sprachlehrforschung sind es meist Resultate in Fertigkeitstests. Wenn es bei einer Untersuchung nicht gelingt, diese strengen methodischen Vorgaben zu erfüllen, weil man etwa nicht alle Einflussfaktoren kontrollieren kann (bei natürlichen Gesprächen, normalem Unterricht u.ä. ist das oft nicht möglich), die Untersuchung jedoch ansonsten wie ein Experiment angelegt ist, spricht man von einer “Fallstudie”. Eine Fallstudie ist also kein Experiment, aber auch sie kann helfen, neue Erkenntnisse über eine Fragestellung zu gewinnen, und für eine Magister- oder Examensarbeit ist eine gut gemachte Fallstudie durchaus akzeptabel. 4.2.1 Vorbereitungen für ein Experiment Bevor man überhaupt mit einem Experiment beginnen kann, müssen folgende Voraussetzungen erfüllt sein: 1. Die dem Forschungsproblem entsprechenden Variablen müssen identifiziert sein. 2. Es muss eine Hypothese aufgestellt werden, die eine Kausalbeziehung über einen Zusammenhang zwischen verursachenden Faktoren - unabhängigen Variablen - und bewirkten Faktoren - abhängigen Variablen - aufstellt. 3. Die zu betrachtenden Variablen müssen von anderen Variablen isolierbar sein. 4. Die jeweils zu untersuchende unabhängige Variable muss variierbar sein. 5. Es muss gewährleistet sein, dass solche Manipulationen - Variationen der unabhängigen zu beobachtenden Variablen - wiederholt werden können. Die betrachteten Faktoren können so variiert werden, dass sie entweder vorhanden oder abwesend sind (die Fahrer sind nüchtern oder nicht), oder dass sie in unterschiedlich großem Maße vorhanden sind (die Fahrer haben 1, 2, 3, 4, 5 usw. Glas Bier getrunken). Dies klingt zunächst einmal sehr theoretisch; wir wollen es daher anhand eines Beispiels illustrieren. Angenommen, in unserem Experiment ginge es um die beste Methode für das Lernen unbekannter Vokabeln. Dann kommen außer der Lehrmethode auch andere Faktoren in Frage, die ebenfalls einen Einfluss auf das Lernergebnis haben könnten, z.B. der Schwierigkeitsgrad der zu lernenden Vokabeln und die Intelligenz der Lerner, denen wir die Vorbereitung Das Experiment 52 Vokabeln beibringen, oder selbst Dinge wie die Tageszeit der entsprechenden Schulstunde (liegt die Stunde so spät, dass die Schüler kaum noch aufnahmefähig sind? ). Wir würden die Hypothese aufstellen, dass es eine Kausalbeziehung gibt zwischen der Lehrmethode und dem Lernerfolg bei den Schülern. Diese Hypothese könnte z.B. so aussehen, dass wir sagen, Vokabeln werden am besten aus Texten gelernt, am zweitbesten in Wortfeldern, und am schlechtesten in alphabetischen Listen. Unsere beiden betrachteten Variablen sind dann also Lehrmethode (unabhängige Variable) und Lernerfolg (abhängige Variable). Alle anderen unabhängigen Variablen müssen wir konstant halten. Das kann man in diesem Fall z.B. folgendermaßen gewährleisten: Man lässt die gleiche Schülergruppe unter Anleitung derselben Experimentatorin zur selben Tageszeit jeweils mit verschiedenen Lehrmethoden die einzelnen Vokabeln lernen. Man sorgt dafür, dass die Vokabeln gleich schwer sind, indem man als “Vokabeln” sinnlose Buchstabenfolgen jeweils gleicher Länge präsentiert (z.B. soka = Klavier, tifu = Zelt). Auch die Zusammensetzung der Buchstabenfolgen muss dann in jeder der Bedingungen gleich sein. Es wird nicht schwer fallen, die unabhängige Variable zu variieren, wir verwenden einfach die drei verschiedenen Lehrmethoden. Die Vermittlung geschieht nicht in normalem Unterricht, sondern die Schüler üben in Einzelarbeit anhand von Lernmaterial, das man ihnen schriftlich präsentiert, jeweils gleich lange jeweils die gleiche Anzahl ihrer “Vokabeln”. Auch die Wiederholbarkeit ist in diesem Fall kein Problem. Man kann dasselbe problemlos mit anderen Schülergruppen noch einmal durchführen. Den Lernerfolg operationalisieren wir als die Anzahl der nach 3 Tagen noch beherrschten Vokabeln in einem Übersetzungstest. Der Lernerfolg wird nicht einfach nur anwesend oder abwesend sein, sondern wir nehmen an, dass je nach verwendeter Lehrmethode ein gewisser Prozentsatz der gelernten Vokabeln behalten wurde, wobei wir vorhergesagt haben, dass die in Texten gelernten Vokabeln den höchsten Prozentsatz erreichen werden. Unsere Hypothese wäre also widerlegt, wenn bei einer anderen Lehrmethode mehr “Vokabeln” behalten werden, aber auch wenn es keine signifikanten Unterschiede in der Erfolgsrate zwischen den drei Methoden gibt. 4.2.2 Laborvs. Feldexperiment Dieses Beispiel war ein Fall für ein Laborexperiment, denn wir haben den Sachverhalt bzw. Vorgang planmäßig vereinfacht, damit wir reine Bedingungen erhalten. Die Situation ist künstlich, um sicherzustellen, dass kein anderer als der zu untersuchende Faktor sich auswirkt (die Schüler können die Vokabeln nicht zufällig nebenbei noch einmal aufschnappen, denn sie sind frei erfunden). Solche Verfahren werden von vielen Sprachlehrforscherinnen abgelehnt, denn es ist nicht erwiesen, dass sich Lerner in einer Laborexperiment Das Experiment 53 für sie so ungewöhnlichen Situation gleich verhalten wie in ihrer normalen Lernsituation, d.h. die Aussagefähigkeit der Ergebnisse solcher Experimente für die normale Unterrichtspraxis wird angezweifelt. Man spricht dagegen von Feldexperimenten, wenn der zu untersuchende Gegenstand nicht aus seiner natürlichen Umgebung herausgelöst wird. Dies zu erreichen stellt allerdings eine erhebliche Schwierigkeit dar. Bezogen auf unser Beispiel müsste man in echten Unterrichtssituationen seine Experimente durchführen. Dabei gibt es normalerweise eine große Anzahl von sogenannten intervenierenden Variablen. Damit sind Störfaktoren gemeint, die die Ergebnisse des Experiments verfälschen können. Wenn wir in realen Unterrichtssituationen das Fremdsprachen-Lernverhalten von Schülern untersuchen, dann können wir keine Unterrichtssituation für eine Kunst-Sprache mit für unser Experiment “idealen” (d.h. gleichartigen, niemandem vorher bekannten, keine etymologischen (o.ä.) Zusammenhänge aufweisenden etc.) Vokabeln herbeiführen, sondern wir müssen zwangsläufig den Unterricht in einer natürlichen Sprache studieren. Allein dadurch ergibt sich jedoch schon eine Reihe intervenierender Variablen, die das Ergebnis des Experiments verzerren: Manche Schüler kennen schon einige der Vokabeln, andere assoziieren Bedeutungen anhand von ähnlichen Wörtern, die sie schon kennen, wieder andere lernen - unbeeinflussbar von der Experimentatorin - während des Experiments Vokabeln durch den Umgang mit anderen Schülern (z.B. Brieffreunden) oder durch das Lesen zusätzlicher Lehrbücher oder Lexika, Hören von Pop-Songs u.ä. Auch die Reproduzierbarkeit des Experiments leidet, da bei denselben Schülern der Vorrat an gleichartigen Vokabeln ausgeht bzw. bei gleichen Vokabeln andere Schüler mit anderen sprachlichen und sozialen Hintergründen neu ins Experiment treten usw. Aber nicht nur Verhaltensweisen der Schüler beeinflussen das Experiment “im Feld”. Wenn “normaler Unterricht” beobachtet werden soll, gibt es auch immer die Lehrperson als möglichen Störfaktor. Die Lehrperson wird sich sicher bemühen, so nach den zu untersuchenden Methoden zu unterrichten, wie man es von ihr erbittet, aber sie unterrichtet begreiflicherweise schlechter mit Methoden, die sie nicht kennt oder die ihr nicht liegen. 4.2.3 Kontrollgruppen Wenn man Feldexperimente durchführt, arbeitet man daher üblicherweise mit sogenannten Kontrollgruppen. Man findet in der didaktischen Literatur häufig Berichte von Lehrpersonen, die mit einer neuen Lehrmethode bei ihren Schülern hervorragende Lernerfolge erzielt haben. In solchen Fällen ist wissenschaftlich nicht überprüfbar, ob tatsächlich besondere Lernerfolge erreicht werden und ob diese tatsächlich auf die neue Methode und nicht etwa auf die neue Lehrperson, oder auf eine bessere Motivation durch einen Feldexperiment Kontrollgruppen Das Experiment 54 Methodenwechsel oder gar durch einen Wechsel der Räumlichkeiten o.ä. zurückzuführen sind. Es ist ja außerdem keineswegs so, dass nur mit dieser Lehrmethode irgendwelche Erfolge erzielt werden oder dass Schüler, die nach anderen Lehrmethoden unterrichtet werden, niemals so weit die entsprechende Fremdsprache lernen wie die mit dieser speziellen Methode unterrichteten. Um die These, eine bestimmte Methode sei erfolgreicher als andere, in einem Feldexperiment wissenschaftlich zu überprüfen (d.h. zu validieren oder zu falsifizieren), geht man normalerweise so vor, dass man zwei möglichst gleich starke Gruppen von Lernenden gleichzeitig mit vergleichbaren Lehrpersonen einen vergleichbaren Stoff lernen lässt (also ein “unabhängige Gruppen-Design”). 6 Selbstverständlich müssen auch beide Gruppen vor Beginn der Untersuchung auf demselben Sprachstand gewesen sein. Die eine Gruppe wird dann mit der neuen Methode unterrichtet, die andere Gruppe mit der herkömmlichen und fungiert so als Kontrollgruppe. Am Ende der Untersuchung werden die Lernerfolge der beiden Gruppen verglichen. Die Hypothese wird durch das Experiment gestützt (d.h. die neue Methode ist besser), wenn die Ergebnisse der Experimentalgruppe erheblich besser sind als die der Kontrollgruppe. Selbstverständlich muss so etwas im Prinzip wiederholt werden, um Zufälligkeiten ausschließen zu können. Bedauerlicherweise ist es in der didaktischen Literatur allerdings schon selten, dass überhaupt mit Kontrollgruppen gearbeitet wird. Bei Feldexperimenten ist die Kontrollierbarkeit oft so schlecht, weil Effekte der “self-fulfilling prophecy” die Situation beeinflussen. Um hierfür ein Beispiel zu geben, können wir wieder auf unsere exemplarische Untersuchung einer neuen Lehrmethode zurückkommen: Die Experimentalgruppe weiß, dass sie nach einer neuen Methode unterrichtet wird. Auch die Lehrperson weiß das. Das kann die Motivation der Gruppe und der Lehrperson so erhöhen, dass bessere Ergebnisse erzielt werden als bei der Kontrollgruppe, ohne dass dies tatsächlich auf die Methode an sich zurückzuführen wäre. Jedes Sich-Einstellen der Versuchspersonen auf ihre Situation im Experiment kann ihr Handeln beeinflussen. 6 Das “wiederholte Messungen-Design” ist auch möglich, aber in der Realsituation des Unterrichts meist schwieriger durchzuführen. Man kann die Schüler nicht dasselbe noch einmal mit einer anderen Methode lernen lassen; gleich schwierigen neuen Lernstoff zu finden, ist nicht so einfach, und zudem ändert sich in der Zeit, die zwischen den beiden Messungen vergeht, die Jahreszeit und damit die Motivation für den Unterricht, das allgemeine Sprachwissen, die allgemeine Sprachlernfähigkeit usw. Selbsterfüllende Prophezeihung Das Experiment 55 eye egg Abb. 2: Schlüsselwort-Methode Nach: Eric C. Ott et al., 1973. The effect of interactive-image elaboration on the acquisition of foreign language vocabulary. Language learning - A Journal of Applied Linguistics, 23-2, S. 199. Ein zweites Argument, das oft gegen Experimente angeführt wird, ist das der Selektivität. Damit ist gemeint, dass das Experiment die unterschiedlichen Faktoren, die alle in der Wirklichkeit eine Rolle spielen, unvollkommen berücksichtigt. Das Experiment betrachtet einen bestimmten Bereich des menschlichen Handelns isoliert, aber die in dieser isolierten Situation bewiesene Hypothese ist u.U. keine richtige Hypothese für die Realsituation, in der mehr Faktoren wirksam sind, als das Experiment berücksichtigen konnte. Nehmen wir als Beispiel noch einmal den bereits erwähnten Fall, dass wir die Effektivität von Vokabel-Lehrmethoden testen wollen. Um nur und wirklich nur die Methode als beeinflussenden Faktor zu isolieren, lassen wir bezahlte Versuchspersonen nach unterschiedlichen Methoden jeweils 20 Kunstwörter lernen. So etwas wurde durchaus unternommen, und es kam dabei heraus, dass die Schlüsselwort-Methode, bei der die Versuchspersonen zu jedem zu lernenden Wort ein Bild assoziierten, das einen Zusammenhang zur Lautform hat, die besten Lernerfolge verzeichnen konnte. Überraschenderweise war dieser Effekt der Schlüsselwortmethode aber im normalen Unterricht nicht nachzuweisen. 7 Das kann viele Gründe haben. Vielleicht lernt man Wörter einer existierenden Sprache doch ein bisschen anders als Kunstwörter, weil man beim Lernen von Wörtern einer existierenden Sprache meist Lernstrategien benutzen kann, die auf der 7 Siehe J. R. Levin, et al., 1979. Assessing the Classroom Potential of the Keyword Method. Journal of Educational Psychology, 71, 583-594, sowie E. J. Fuentes, 1976. An Investigation into the Use of Imagery and Generativity in Learning Foreign Language Vocabulary. Dissertation Abstracts International, 37/ 5, 2694A. Aussagefähigkeit Das Experiment 56 Ähnlichkeit des zu lernenden Wortes mit bereits gelernten aus derselben oder einer anderen Sprache beruhen. Es kann auch sein, dass bei einer bezahlten Versuchsperson und dem Lernen von ohnehin sinnlosen Silben nur externe Motivation eine Rolle spielt (man will sein Versuchspersonen- Honorar erhalten, und deshalb erfüllt man die als sinnlos angesehene Aufgabe), während es in der echten Sprachlern-Situation eine große Rolle spielt, ob die Methode motivierend ist, ob sie sich gut in den Gesamtprozess des Unterrichts einfügt usw. Es kann also durchaus sein, dass wir bei von Experimenten validierten Hypothesen nicht ohne weiteres behaupten können, dass sie für die Realsituation gültig sind. 4.3 Mehrfaktorielle Fragestellungen Bis jetzt haben wir uns vor allem nur mit einer unabhängigen Variablen beschäftigt. Aber es kann auch vorkommen, dass wir ein Forschungsprojekt haben, in dem wir zwei oder mehr unabhängige Variablen benutzen müssen, jede mit einer oder mehreren Ebenen. Nehmen wir als Beispiel die Frage, wie man das Vokabular einer Fremdsprache lehren sollte. Soll man die Übersetzung der unbekannten Wörter in einem Text angeben, oder soll man eine Definition der Bedeutung der unbekannten Wörter in der Fremdsprache bereitstellen? Wenn man nun ein Forschungsprojekt zur Beantwortung dieser Frage durchführen möchte, wäre die unabhängige Variable “Vokabellehrmethode”, welche als “eine Übersetzung geben” oder als “eine Beschreibung in der Fremdsprache geben” operationalisiert werden könnte. Wenn man sich nun überlegt, wie das Ergebnis wahrscheinlich aussehen wird, könnte man zu der Schlussfolgerung gelangen, dass die Antwort zur Forschungsfrage auch davon abhängt, um welche Art von Wörtern es sich handelt, d.h., ob es sich um konkrete oder abstrakte Wörter handelt. Eine Beschreibung in der Fremdsprache könnte bei abstrakten Wörtern weniger effektiv sein als bei konkreten. In diesem Fall entscheidet man sich womöglich für zwei unabhängige Variablen, wobei die zweite “Wortart” wäre, die dann als “Konkreta” und “Abstrakta” operationalisiert würden. Wir hätten dann zwei Variablen (“Vokabellehrmethode” und “Wortart”), jede mit zwei Ebenen. Wenn man mehr als eine unabhängige Variable hat, braucht man eine Methode, die statistische Analyse mit mehreren unabhängigen Variablen und mit einer oder mehreren abhängigen möglich zu machen. Die Anwendung dieser Verfahren setzt jedoch eine eingehende Beschäftigung mit statistischen Grundlagen voraus, und hier sollte nur ein Überblick gegeben werden. Ein Beispiel für unsere Analyse nach mehreren Faktoren finden wir schematisch in Abb. 3. Mehrere Faktoren Das Experiment 57 Konkreta Abstrakta Übersetzung Definition Vokabellehrmethode Wortart Abb. 3: Mehrfaktorielles Design Man kann versuchen, die Forschungsfrage zu beantworten, indem man je 20 konkrete und abstrakte Wörter auf zwei verschiedene Arten lehrt: Einmal, indem man eine Übersetzung gibt, und einmal, indem man eine Definition gibt. Damit haben wir dann 2 x 2 = 4 Zellen in unserer Matrix. In der Praxis kann dies dann auf verschiedene Weisen ausgeführt werden: 1. Wir können vier Schülergruppen haben, und jede Gruppe bekommt eine der vier Varianten 2 . Wir können zwei Schülergruppen haben, wobei jede Gruppe mit der Übersetzung und mit der Definition der zu lernenden Wörter konfrontiert wird. 3 . Wir können eine Schülergruppe nehmen, in der alle Schüler alle vier Varianten erhalten. Alle drei Möglichkeiten haben ihre Vor- und Nachteile. Bei Möglichkeit 1 benötigen wir nur 40 Wörter, 8 was eine ganze Reihe von Vorteilen hat, aber wir müssten sicherstellen, dass die Gruppen vergleichbar sind. Bei Methode 2 brauchen wir schon 80 gleich schwer zu lernende Wörter. 9 Nehmen wir aber Möglichkeit 3, so müssten wir 160 verschiedene Wörter haben und bei diesen sicherstellen, dass sie vom Schwierigkeitsgrad her gleichwertig sind. Dafür haben wir mit der Vergleichbarkeit der Schülergruppe hier keine Probleme. Welcher Möglichkeit die Forscherin den Vorzug gibt, muss sie 8 Gruppe 1 bekommt 20 konkrete Wörter mit Übersetzung, Gruppe 2 dieselben konkreten Wörter mit Definition, Gruppe 3 20 abstrakte Wörter mit Übersetzung, und Gruppe 4 dieselben abstrakten Wörter mit Definition. 9 Gruppe 1 lernt 20 konkrete Wörter mit Übersetzung und 20 andere konkrete Wörter mit Definition, Gruppe 2 lernt 20 abstrakte Wörter mit Übersetzung und 20 andere abstrakte Wörter mit Definition. Das Experiment 58 von Fall zu Fall unter Berücksichtigung der Vor- und Nachteile bei der konkreten Aufgabenstellung neu entscheiden. Wie auch immer man sich entscheidet, ein mögliches Ergebnis wird in Tabelle 3 dargestellt. Diese gibt die Mittelwerte von jeder Ebene jeder Variablen sowie die Mittelwerte für jede Variable an. Abb. 4 zeigt eine grafische Darstellung derselben Ergebnisse. Tabelle 3 Konkreta Abstrakta Mittelwert Übersetzung 20 10 15 Definition 15 5 10 Mittelwert 17,5 7,5 Wenn wir uns die Ergebnisse ansehen, scheint es so, dass der Lerneffekt am besten ist, wenn man eine Übersetzung gibt, und zwar sowohl für konkrete wie auch für abstrakte Wörter. Dabei spielt es für die Auswertung keine Rolle, dass die Abstrakta generell schlechter gelernt wurden. 0 5 10 15 20 Konkreta Abstrakta Übersetzung Definition Abb. 4 Man kann natürlich auch andere Ergebnisse erhalten, zum Beispiel die, die in Abb. 5 gezeigt werden. Sollte ein solches Ergebnis entstehen, müssten wir sagen, dass eine Übersetzung bei konkreten und abstrakten Wörtern besser funktioniert, obwohl der Unterschied bei konkreten Wörtern nicht besonders groß ist, dafür aber bei den abstrakten. Weil die Linien nicht parallel verlaufen, sagen wir, dass es eine Interaktion zwischen “Vokabellehrmethode” und “Art der Wörter” gibt. Interaktion bedeutet, dass der Effekt der einen Variablen abhängig ist vom Effekt der anderen. In diesem Fall Das Experiment 59 würden wir sagen, dass es kaum einen Unterschied zwischen den beiden verschiedenen Vokabellehrmethoden gibt, außer bei abstrakten Wörtern. Ob die Ergebnisse, die wir ermittelt haben, signifikant sind, also wahrscheinlich nicht durch Zufall entstanden sind, müssen wir mit Hilfe der inferentiellen Statistik herausfinden. In einem Fall wie diesem würden wir eine Varianzanalyse (s. Kapitel 9) benutzen. 0 5 10 15 20 Konkreta Abstrakta Übersetzung Definition Abb. 5 4.4 Ergebnisdarstellung Jedes Experiment liefert uns Ergebnisse, die die abhängige Variable reflektieren. Oben haben wir gesehen, dass man eine oder mehrere unabhängige Variablen haben kann. Gleichermaßen kann man eine oder mehrere abhängige Variablen haben. So könnten wir beispielsweise die Ergebnisse von zwei Schülergruppen bei einem Grammatiktest und einem Vokabeltest messen. Die statistischen Prozeduren, die in diesem Buch beschrieben werden, finden ihre Anwendung bei nur einer abhängigen Variablen. Diese Ergebnisse sind häufig Testergebnisse und werden normalerweise in der Anzahl der korrekten Antworten (oder in der Anzahl der Fehler) angegeben und manchmal werden sie in %-Ergebnisse umgeformt (s. Tabelle 4). Wenn wir mit Schülern einen Vokabeltest machen, kann das Ergebnis die Anzahl der richtigen Übersetzungen sein; bei einem gelenkten Gespräch wäre es die Anzahl der richtigen Erwiderungen usw. Von diesen Ergebnissen nehmen wir an, dass sie auf einer Intervallskala angeordnet und normalverteilt sind in dem Sinne, dass einige Ergebnisse sehr gut, andere sehr schlecht und die Ergebnisse Das Experiment 60 meisten irgendwo dazwischen sind. Wir gehen in den Kapiteln 6 und 9 ausführlich auf die Darstellung der Ergebnisse ein. Tabelle 4 Ergebnis % richtig John 20 100% Peter 19 95% Ellis 15 75% Sara 14 70% Martin 13 65% Matty 12 60% Erika 12 60% Eve 10 50% Nancy 9 45% Adam 2 10% Bei psycholinguistischen Experimenten werden üblicherweise Reaktionszeiten und Fehlerquoten verglichen. Die zu prüfenden Hypothesen sind also immer der Art, dass gesagt wird, Faktor A sorge für längere Reaktionszeiten (und/ oder mehr Fehler) als Faktor B oder umgekehrt. Bei psycholinguistischen Experimenten gibt es zwar auch eine Vielzahl von möglicherweise intervenierenden Variablen, aber sie sind doch relativ leicht zu kontrollieren, indem man mögliche einflussnehmende Faktoren jeweils unter der “A”- und der “B”-Bedingung gleich hält. Ein ganz einfaches Beispiel für ein solches Experiment wäre, dass wir annehmen, bei der Sprachverarbeitung werde auf Morpheme zurückgegriffen. Diese Hypothese würde die Voraussage machen, dass das Erkennen mehrmorphemiger Wörter länger dauert als das Erkennen von Simplicia. 10 Eine Möglichkeit des Überprüfens dieser Hypothese wäre, dass wir Reaktionszeiten messen beim Erkennen von Wörtern, die aus mehreren Morphemen bestehen, und beim Erkennen von gleich langen Wörtern derselben Silbenzahl, die nur aus einem Morphem bestehen (z.B. Eisbär/ Gibbon). Nach unserer Hypothese müsste also die Reaktionszeit bei Eisbär länger sein, denn beim Erkennen müsste man auf zwei Morpheme zurückgreifen, als die bei Gibbon, denn das besteht nur aus einem Morphem. Dies gilt natürlich nur für den Fall, dass alle anderen 10 Das Erkennen von Wörtern misst man meist in einer Experimentform, die “lexical decision” bzw. “lexikalische Entscheidungsaufgabe” genannt wird. Dabei sitzen die Versuchsteilnehmer vor einem Bildschirm, auf dem in zufälliger Abfolge tatsächliche Wörter und bedeutungslose Buchstabenfolgen, die Wörter der betreffenden Sprache sein könnten (glompf z.B. für das Deutsche), erscheinen. Sie müssen dann immer so schnell wie möglich mit “ja” oder “nein” reagieren, wenn sie etwas als Wort oder Nichtwort erkannt haben. Das Experiment 61 Bedingungen, die die Reaktionszeit beeinflussen können, konstant gehalten werden. In diesem Fall wäre zwar die Länge in Buchstaben und die Silbenzahl gleich, jedoch ist Eisbär das häufiger gebrauchte Wort, das deswegen schneller erkannt werden müsste. Weil es nie gelingen wird, die zu kontrastierenden Elemente in jeder Hinsicht gleich zu halten, müssten diese Effekte im Experiment mit ca. 40 Wörtern in jeder der Gruppen so ausgeglichen werden, dass manchmal das einmorphemige und manchmal das mehrmorphemige Wort das häufiger gebrauchte ist, und dass für die beiden Gruppen jeweils die durchschnittliche Frequenz konstant gehalten wird. Die Häufigkeit von Wörtern ermittelt man über Häufigkeitswörterbücher oder -datenbanken; die gebräuchlichste dieser Datenbanken ist CELEX. 11 Es ist kaum möglich, in einer Einführung alle Arten von linguistischen Experimenten vorzustellen. Immerhin wollen wir einen kurzen Überblick über einige verbreitete Techniken geben. Wenn es um Sprachproduktion geht, sind u.a. folgende Verfahren möglich: Texte/ Sätze laut lesen lassen Dieses Verfahren hat nur Sinn, wenn kaum mehr als die Aussprache, Satzintonation u.ä. interessiert. Man kann Texte vorgeben, in denen die Aussprachephänomene enthalten sind, die einen interessieren, man muss jedoch bedenken, dass keineswegs sicher ist, dass die Sprecher beim freien Sprechen genauso artikulieren würden. Beim Vorlesen gibt es allerhand hyperkorrekte Aussprachen, die beim freien Sprechen nicht vorkommen. Einzelwörter vom Computerbildschirm lesen lassen Hier besteht die Möglichkeit, Reaktionszeiten zu messen, d.h. für verschiedene Gruppen von Wörtern zu überprüfen, wie lange es dauert, bis die Versuchsteilnehmer anfangen, das Wort auszusprechen. Sätze/ Äußerungen vervollständigen lassen Bei diesem Verfahren bekommt man eine einigermaßen freie Sprachproduktion, aber man kann trotzdem bis zu einem gewissen Grad durch die Vorgabe steuern, was produziert wird. Die Möglichkeiten sind sehr variabel. 11 Zum psycholinguistischen Experimentieren brauchen Sie neben den an Ihrer Universität zugänglichen Möglichkeiten zur Frequenzermittlung der benutzten Wörter auch meist ein Programm, das am Computer das Stimulusmaterial präsentiert und gleichzeitig die Reaktionszeiten misst, etwa NESU oder ERTS. Dabei sind Sie auf das Programm angewiesen, welches an Ihrer Universität vorhanden ist, und für die vorhandenen Programme wird es wohl Anleitungen geben. Insofern haben wir darauf verzichtet, hier eine genauere Einführung zu geben. Sprachproduktion Das Experiment 62 Man kann Äußerungen so vorgeben, dass nur noch eine einzige Antwort möglich ist, z.B. Fritz bringt mich mit seinen dummen Witzen auf die............., aber auch so, dass völlig verschiedene Reaktionen möglich sind, z.B. Wenn meine Eltern anderer Meinung sind als ich, dann.............. Häufig wird das Verfahren eingesetzt, wenn man Fehler oder Reaktionszeiten bei bestimmten grammatischen Formen messen will. Das kann man z.B. so arrangieren, dass man einen Satz in Einzelwörtern auf dem Computerbildschirm zeigt und dann das letzte Wort in einer Zitierform vorgibt und bittet, es in der im Satz korrekten Form auszusprechen. Dabei wird die Zeit gemessen, die die Versuchsteilnehmer brauchen, bis sie ihre Reaktion beginnen und eventuell auch die Anzahl der Fehler, die sie dabei machen. So kann man z.B. Unterschiede in der Reaktionszeit oder in der Fehleranzahl bei regelmäßiger im Vergleich zu unregelmäßiger Flexion feststellen. Imitieren lassen Man kann ganz verschiedene Imitationsaufgaben stellen; das geht von “einzelne Laute oder Wörter nachsprechen lassen” bis “Sätze/ Texte reproduzieren”. Meist wird dieses Verfahren angewendet, wenn es darum geht, festzustellen, welche (oft auch unerwarteten) Merkmale der zu reproduzierenden Einheiten die Versuchsteilnehmer bemerken, ob sie also z.B. einen Laut korrekt nachsprechen oder ihn an einen Laut ihrer Muttersprache angleichen. Eine besondere Form dieser gelenkten Sprachproduktion nennt man “shadowing”. Dabei werden die Versuchsteilnehmer gebeten, alles, was sie hören, so schnell wie möglich nachzusprechen. Dabei kann man überprüfen, inwieweit sie ihnen fehlerhaft präsentierte Äußerungen “reparieren”, d.h. also z.B. nachsprechen: “Ich begrüße Sie”, obwohl ihnen “Ich beglüße Sie” vorgesprochen wurde. Man kann dabei beobachten, dass die Versuchsteilnehmer ganz offensichtlich nicht papageienhaft reproduzieren, was ihnen vorgesprochen wurde, sondern ihr Sprachverarbeitungssystem dabei benutzen. Als unabhängige Variable kann man z.B. die Position des Fehlers im Wort/ in der Äußerung variieren und überprüfen, wie sich das auf die Anzahl der Reparaturen auswirkt. Wortassoziationen nennen oder aufschreiben Dabei werden Versuchsteilnehmer gebeten, so schnell wie möglich und ohne Reflexion die Wörter zu nennen/ aufzuschreiben, die ihnen zu einem Stimuluswort einfallen. Dabei wird Zeitdruck erzeugt, um ein bewusstes Aussuchen der genannten Wörter möglichst auszuschließen. Von diesem Verfahren hat man zunächst sogar angenommen, es könne dazu dienen, die Struktur des mentalen Lexikons wiederzugeben. 12 Es zeigt sich tatsächlich bei dieser Art von Experimenten, dass bei vielen Wörtern 12 I. Taylor, 1971. How are words from two languages organized in bilinguals´ memory? Canadian Journal of Psychology 25, 228-240. Das Experiment 63 eine hohe Übereinstimmung zwischen Sprechern besteht in Bezug darauf, was sie als 1. Assoziation nennen (z.B. zu Tisch Stuhl). Die als 1. Assoziation genannten Wörter stehen oft in einer Oberbegriff/ Unterbegriff- oder Schwesterbegriff-Relation zu dem Stimulusbegriff. Gelegentlich werden auch typische Fortsetzungen (Hund - bellen) oder Kollokationen (Maßnahmen - ergreifen) genannt. Bei späteren Assoziationen werden sehr häufig Elemente von vorgestellten Situationen genannt (König - Königin - Schloss - Schlosscafé - Erdbeereis mit Sahne). Spätestens bei der letzten genannten Assoziation muss man bezweifeln, dass tatsächlich die Struktur des mentalen Lexikons durch diese Assoziationen gezeigt wird. Man hat die Tatsache, dass die Assoziationen recht stark übereinstimmen, auch benutzt, um für einzelne Sprachen sogenannte “Assoziationsnormen” zusammenzustellen; darin kann man nachschlagen, welche Wörter besonders häufig zusammen genannt wurden (u.a. in: M. Hasselhorn und W. Hager, 1994. Handbuch deutschsprachiger Wortnormen. Göttingen: Hogrefe). Diese Listen von Assoziationsnormen werden bei Experimenten benutzt, bei denen “assoziierte Begriffe” in Kontrast zu anderen, z.B. phonologisch oder semantisch ähnlichen, gesetzt werden. Bilder benennen Das Benennen von Zeichnungen oder Fotos ist eine klassische Sprachproduktionsaufgabe, die man am Computer durchführen lassen muss, wenn man die Reaktionszeiten messen will, die man aber auch einfach anhand von vorgelegten Bildern durchführen kann, wenn es darum geht, überhaupt eine Äußerung zu produzieren. Der Nachteil des Verfahrens ist, dass man nur Dinge verwenden kann, die eindeutig zu zeichnen oder zu fotografieren sind, und das sind im wesentlichen konkrete Substantive. Bilder beschreiben/ Geschichten erzählen anhand von Bildern/ Unterschiede zwischen zwei Bildern nennen Mit diesen Aufgaben kann man auch längere Texte erzeugen, allerdings per Computer nur die Reaktionszeit bis zur Produktion des 1. Wortes messen. Gerade das Nennen von Unterschieden zwischen zwei Bildern ist aber geeignet, auch bestimmte grammatische Formen zu elizitieren. Wenn man z.B. bei zwei geeigneten Bildern fragt “Was ist zwischendurch passiert? ”, kann man Partizipien II elizitieren (“Das Haus ist eingestürzt”). Nacherzählungen (anhand von gehörten/ gelesenen Erzählungen, Videos u.a.) Auch hier kann man seine Vorgaben so wählen, dass bestimmte Wörter, bestimmte grammatische Phänomene vorkommen müssten, die man in der freien Sprachproduktion erhalten will. Bei derartigen Vorgaben ist es ganz besonders wichtig, mit mehreren Personen aus dem Bekanntenkreis auszuprobieren, ob die gewünschten Phänomene tatsächlich elizitiert werden. Das Experiment 64 Man kann sich gar nicht vorstellen, wie viele Möglichkeiten Versuchsteilnehmer finden, um die gewünschten sprachlichen Phänomene zu vermeiden. Rollenspiele Rollenspiele werden recht häufig eingesetzt zur Erhebung von kommunikativen Strategien, wenn die Beobachtung in der realen Situation fast unmöglich ist (z.B. bei Geschäftsverhandlungen u.ä.). Man muss dabei allerdings bedenken, dass Personen sich üblicherweise in Rollenspielen nicht wie in realen Situationen verhalten. 13 Meist gelingen mit dieser Methode eher Fallstudien als Experimente, weil es kaum möglich ist, in einer so komplexen Kommunikationssituation wirklich alle möglicherweise intervenierenden Variablen zu kontrollieren. Stroop-Tests Dieses Verfahren gibt verschiedene Informationen über Sprache und über Bilder, damit untersucht werden kann, wie sich die damit verbundene Störung auf die Reaktionszeiten und/ oder die Fehleranzahl auswirkt. In der einfachsten Form des Tests werden die Versuchsteilnehmer z.B. aufgefordert, Tintenfarben zu benennen von geschriebenen, damit nicht kongruenten Farbbezeichnungen, also z.B. steht dort rot mit grüner Tinte. Dabei kann man z.B. die Sprachen variieren und feststellen, dass die inkongruenten Farbbezeichnungen um so mehr stören, je präsenter die Sprache dem Versuchsteilnehmer ist. Ein anderes gebräuchliches Stroop- Verfahren blendet in zu benennende Bilder Wörter als Schrift ein. Kunstwörter morphologisch verändern Hierzu gehört das bereits erwähnte “wug”, mit dem die Pluralformen erhoben wurden. Den Versuchsteilnehmern wird eine Zeichnung dieses Tiers vorgelegt und gesagt: “Hier ist ein wug.” Dann kommt ein zweites Kärtchen mit noch einem solchen Tier, und es wird gesagt: “Und da kommt noch eins. Jetzt haben wir hier zwei ......”. Wenn es um Sprachrezeption geht, ist die Anzahl der Experimentformen noch größer. Am verbreitetsten sind die bereits erwähnten lexikalischen Entscheidungsaufgaben, wobei ein wichtiges Verfahren das so genannte Priming (dt. Bahnung; meist wird aber der englische Terminus verwendet) ist. Das Verfahren misst Einflüsse eines vorher gezeigten Reizes auf die Reaktionszeit für den gemessenen Reiz und schließt daraus auf Verbindungen in unserer mentalen Repräsentation der Sprache. Z.B. wird die Reaktionszeit auf das Wort König verkürzt, wenn vorher Krone (ein asso- 13 S.a. Thomas Bliesener und Ruth Brons-Albert, 1994. Rollenspiele in Kommunikations- und Verhaltenstrainings. Opladen: Westdeutscher Verlag. Sprachrezeption Das Experiment 65 ziativ verbundenes Wort), Königin (ein morphologisch verbundenes Wort) oder king (ein über ein gemeinsames Konzept verbundenes Wort aus einer anderen Sprache) gezeigt wird. So kann man mit dem Priming-Verfahren Hypothesen über bestehende Verbindungen testen. Ein weiterer verbreitetes Verfahren ist, dass man den Versuchsteilnehmern die Aufgabe stellt, jedes Mal einen Knopf zu drücken, wenn sie einen bestimmten Laut hören (phoneme monitoring). Abhängig davon, wie komplex das vorher Präsentierte war oder von der Umgebung, in der dieser Laut präsentiert wurde, verändert sich die Reaktionszeit. Für dieses Verfahren gibt es auch eine Papier- und Bleistift-Variante, die unkompliziert zu handhaben ist und sich also auch für linguistische Hausarbeiten eignet: Man lässt seine Versuchsteilnehmer unter Zeitdruck jeweils einen bestimmten Buchstaben in einem schriftlich präsentierten Text markieren. Dabei wird nicht die Reaktionszeit gemessen, sondern die Zahl der Fehler, d.h. nicht markierten Buchstaben. In bestimmten syntaktischen/ morphologischen Umgebungen werden nämlich mehr solche Fehler gemacht als in anderen, d.h. man schließt aus der Zahl der gemachten Fehler auf die Schwierigkeit der Verarbeitung der jeweiligen Textstelle. Ein anderes Verfahren (gating) präsentiert unterschiedlich lange Segmente von zu erkennendem Sprachmaterial und überprüft, ab wann es richtig ergänzt wird, also eindeutig erkannt wurde. So wird zum Beispiel das Wort “Elefant” auditiv wie folgt in Teilen präsentiert, wobei die Versuchspersonen nach jedem Teil angeben müssen, welches Wort gemeint ist: E El Ele Elef Elefa Elefan Elefant Dieses Verfahren ist zum Beispiel benutzt worden, um fest zu stellen, wo der “Erkennungspunkt” eines Wortes liegt, d.h. wann das Wort als “Elefant” erkannt wird. Das wäre hier wohl wenn man das “f” gehört hat, denn bis dahin wäre auch noch die Fortsetzung “Element” möglich. Wenn das Wort “Elefant” ganz präsentiert ist, sind natürlich noch (längere) flektierte oder abgeleitete Wörter mit Elefant als Bestandteil möglich, z.B. “Elefanten”, “elefantös”. Wenn es um komplexe Wörter geht, wird häufig mit einem Verfahren gearbeitet, bei dem einzelne Elemente aus einem Wort in ein anderes verschoben werden sollen (segment shifting), also etwa soll zu einem auf dem Computerbildschirm mit Markierung der ersten Silbe präsentierten Das Experiment 66 GEBURT ein Wort gebildet werden , das das ebenfalls auf dem Bildschirm präsentierte BET enthält, wobei die markierte Silbe zu verschieben ist (die Versuchsteilnehmer sollen also Gebet sagen). Man kann dabei z.B. überprüfen, ob Reaktionszeiten verschieden sind, wenn es sich bei dem zu verschiebenden Element um ein Morphem oder eine in diesem Kontext nicht bedeutungstragende Silbe handelt. Weitere Verfahren messen das Erkennen von Fehlern (die Zeit, die dazu benötigt wird, oder - auch das ist wieder ohne komplizierte Computerprogramme möglich - die Anzahl der übersehenen Fehler in zu variierenden Kontexten), wobei verschiedene Möglichkeiten vorgegeben werden können, unter denen die richtige auszusuchen ist, oder wobei einfach fehlerhafte und fehlerlose Sätze präsentiert werden und die Versuchsteilnehmer unter Zeitdruck die Fehler finden müssen. 14 14 Der Zeitdruck, der in den o.a. Experimentbeschreibungen fast immer auftaucht, dient dazu, die für die Sprachverarbeitung schwierigen Aufgaben von den für die Sprachverarbeitung leichteren Aufgaben zu trennen. Mit genügend Zeit werden natürlich alle Fehler gefunden, aber dann hätte man keine auswertbaren Daten mehr. Das Experiment 67 Aufgaben 1. Stellen Sie sich vor, Sie wollen experimentell überprüfen, ob die Verarbeitung der deutschen Plurale von Substantiven auf -s (sie gelten als die regelmäßige Pluralbildung) schneller geht als die Verarbeitung anderer Plurale. Sie haben sich dazu ein Experiment ausgedacht, in dem Versuchspersonen so schnell wie möglich die Singularform eines Substantivs nennen müssen, wenn der Computer das entsprechende Wort im Plural zeigt (also bei “Autos” müssen sie “Auto” sagen, bei “Mütter” “Mutter” usw.). Der Computer misst die Reaktionszeiten. Mit welchen intervenierenden Variablen müssen Sie rechnen, und wie können Sie sie ausschalten? 2. Sie möchten wissen, mit welchem Grammatikmodell Lerner des Deutschen als Fremdsprache die besten Ergebnisse beim Markieren des Unterschieds zwischen Nominativ und Akkusativ haben. Halten Sie es für möglich, diese Frage experimentell zu beantworten? Passen Sie die Fragestellung gegebenenfalls so an, dass sie experimentell bearbeitbar ist und entwickeln Sie einen Plan für ein passendes Experiment! 68 5 Arbeiten mit Textkorpora Der Vollständigkeit halber soll hier ein (sehr kurzes) Kapitel das Arbeiten mit Textkorpora darstellen, das durch die Erhöhung der Speichermöglichkeiten und der Arbeitsgeschwindigkeit von Computern ein immer stärker verwendetes Verfahren bei der Analyse von Sprachdaten wird. Es wird sogar ein eigener Terminus “Korpuslinguistik” für das Arbeiten mit solchen Daten verwendet. Das Arbeiten mit Textkorpora ist eine Alternative zur introspektiven Sprachanalyse (bzw. der Befragung einiger weniger “kompetenter Sprecher” einer Sprache). Wir haben es hier mit Beobachtungen natürlicher Sprache zu tun, wobei - im Falle von veröffentlichten Korpora zur allgemeinen Nutzung - jemand die Beobachtungsdaten bereits erhoben und aufbereitet hat. Eine gute Einführung in die “Korpuslinguistik” oder - besser - “korpusbasierte Linguistik” bietet Biber et al. 1998, 1-12. 1 Natürlich ist “Korpuslinguistik” in keiner Weise ein neues Verfahren, für das andere Regeln gelten als für andere Beobachtungen, jedoch wollen wir einige praktische Hilfestellungen anbieten zur Benutzung von Textkorpora, vor allen Dingen bei der Nutzung bereits vorhandener Korpora. Ein Korpus ist eine Sammlung von Wörtern, Sätzen oder Texten, die üblicherweise als elektronische Datenbank vorliegt; es kann ein paar Hundert oder viele Millionen von Wörtern umfassen (gemeint hier als sogenannte tokens). 2 Aber auch eine Sammlung von Sätzen oder Texten, die die Forscherin selbst für ihre Untersuchung (aus tatsächlich beobachtetem Sprachmaterial, nicht aus selbst erfundenen Beispielen) erstellt hat, ist ein Korpus. Korpora, die in elektronischer Form vorliegen und die man für eigene Untersuchungen benutzen kann, sind meist sehr viel umfangreicher als eine selbst zusamengestellte Sammlung; das NEGRA-Korpus der Universität des Saarlandes (Saarbrücken) z.B. umfasst 176.000 tokens (in 10.000 Sätzen), die aus deutschen Zeitungstexten (Frankfurter Rundschau) stammen. Andere Korpora sind noch erheblich größer, und natürlich gibt es Korpora für sehr viele verschiedene Sprachen der Welt. 1 Douglas Biber, Susan Conrad, Randi Reppen, 1998. Corpus Linguistics: investigating language structure and use. Cambridge: CUP. 2 Als “type” würde jedes neu auftretende Lexem einmal gezählt, als “token” jedes Vorkommen dieses Wortes. Das Wort “ist” im Deutschen z.B. kommt in einem Text von einer Seite Länge durchaus gelegentlich 20 Mal vor und würde als “token” auch so oft gezählt; als “type” würde es im gesamten Korpus nur einmal gezählt. Definition Arbeiten mit Textkorpora 69 Manche Korpora sind von den Forscherinnen für ein bestimmtes Projekt zusammengestellt worden; z.B. zum Zweck der Erstellung oder Überarbeitung eines Wörterbuchs können aktuelle Belege für die Verwendung der Wörter gesammelt werden. Jemand, der sich für Arzt-Patient-Interaktion interessiert, kann sich ein Korpus von Transkripten selbst aufgenommener Arzt-Patient-Gespräche zusammenstellen. Wer sich für stilistische Unterschiede zwischen seriösen Tageszeitungen und Boulevardzeitungen interessiert, wird eine Sammlung von Artikeln aus beiden Arten von Zeitungen anlegen; wer sich für die Unterschiede zwischen Reklame für Autos im Internet und in Zeitungen interessiert, wird Anzeigen aus dem Internet und aus Zeitungen sammeln und sie zum Beispiel daraufhin vergleichen, wie viele technische Details sie enthalten. Andere Korpora sind von Anfang an für die Nutzung durch verschiedene Forscherinnen zusammengestellt worden, wobei es den Erstellerinnen darum ging, eine möglichst große und möglichst repräsentative Menge an Texten zu sammeln und deren Nutzung so einfach wie möglich zu machen. Normalerweise benutzen Forscherinnen ein Korpus, weil sie wissen wollen, wie das Vorkommen eines bestimmten linguistischen Phänomens in authentischen (gesprochenen und geschriebenen) Texten ist, meist im Vergleich mit einem anderen linguistischen Phänomen. Man könnte zum Beispiel annehmen, das Perfekt komme im Deutschen relativ selten vor im Vergleich zu anderen Tempora, und um herauszufinden, ob diese Annahme richtig ist, könnte man ein Korpus von authentischen Texten daraufhin auszählen. Oder, um ein anderes Beispiel anzuführen, man könnte sich fragen, ob der englische Satz If I would have more money, I would buy a new computer zu korrigieren ist in If I had more money, I would buy a new computer, wie wir es in der Schule gelernt haben, oder ob Muttersprachler des Englischen die Form if I would have... nicht auch recht häufig gebrauchen. Ob dies so ist, kann man anhand eines Korpus von englischen Texten, vor allem aus der gesprochenen Sprache, überprüfen. Das heißt, Vermutungen, die wir über den Gebrauch bestimmter sprachlicher Phänomene haben, können wir unter Benutzung eines geeigneten Korpus überprüfen. Was man unter dem Begriff “Korpuslinguistik” zusammenfasst, ist also keineswegs etwas anderes als das, was wir bisher besprochen haben, sondern die vorhandenen Korpora bieten eine Arbeitserleichterung bei der Datenerhebung. Alle Kriterien, die wir für die Auswahl der Daten genannt haben, bleiben aber selbstverständlich gültig. Wenn man ein vorhandenes Korpus benutzt, stellt man nicht selbst die Stichprobe zusammen, aber man muss sich durchaus die Frage stellen, ob die Auswahl, die beim Zusammenstellen dieses Korpus getroffen worden ist, aus der Grundgesamtheit stammt, die man selbst untersuchen will. Angenommen, wir wollten ein Phänomen untersuchen, bei dem wir gute Gründe haben, anzunehmen, dass es in gesprochener Sprache sehr viel häufiger vorkommt als in geschriebener, Korpuslinguistik Arbeiten mit Textkorpora 70 dann wäre es wenig sinnvoll, ein Korpus von Zeitungstexten zur Grundlage der Analyse zu machen. Was “Korpuslinguistik” von anderen Verfahren unterscheidet, ist nicht die Methode, sondern der Gebrauch von Werkzeugen. Bei der Arbeit mit elektronisch vorliegenden Korpora von Sprachmaterial wird üblicherweise mit ausgeklügelten Computerprogrammen, z.B. Konkordanzen 3 und Parsern (Programmen zur Syntaxanalyse) besonders effektiv und schnell nach einer Erscheinung gesucht, oder das gesamte Korpus wird umorganisiert, z.B. alphabetisch nach Wortanfängen geordnet, wobei jedes Wort dann mit seinem Umgebungssatz ausgegeben wird, so dass man - z.B. für die Arbeit an einem Wörterbuch - über eine Belegsammlung verfügt. Dies zeigt die folgende Abbildung; durch Anklicken von bestimmten Stellen auf dem Bildschirm kann man sich den weiteren Kontext zeigen lassen. Abb. 1: Beispiel für ein Wort im Satzkontext (http: / / www.ids-mannheim.de/ kt/ merkmal6.html) 3 Damit kann man z.B. für ein bestimmtes Wort alle Kontexte, in denen es vorkommt, aus dem Korpus heraussuchen lassen. Arbeiten mit Textkorpora 71 Wenn bei der Analyse des Korpus numerische Daten entstehen, dann werden sie so wie bei den anderen Verfahren der Datenerhebung ausgewertet und mit denselben statistischen Verfahren weiter untersucht. Beispiele dafür finden sich in Kapitel 9 bei der Darstellung des Chi-Quadrat-Tests. Wenn ein bereits erstelltes geeignetes Korpus veröffentlicht ist, bietet es also eine Möglichkeit, sich die Mühen der Datenerhebung zu ersparen. Aber wo findet man solche Korpora? Erfreulicherweise gibt es recht viele Möglichkeiten, sodass wir gar nicht alle nennen können. Wenn es um - meist öffentlich geführte (wegen des bereits erwähnten Datenschutzproblems) - Gespräche geht, in denen man grammatische Phänomene, Gebrauch von Wörtern oder auch bestimmte Verhaltensweisen im Gespräch untersuchen will, so gibt es für das Deutsche verschiedene als Bücher erschienene Transkriptsammlungen, aber - noch praktischer - es gibt auch Transkriptkorpora, aus denen man per Computer einzelne Wörter und Wortverbindungen heraussuchen kann. Leider ändern sich Internet-Adressen so schnell, dass Adressen, die wir gerade überprüft haben, schon bei der Drucklegung des Buches veraltet sein können. Wir wollen deshalb vor allem auf die Suchmaschine Google verweisen, die sich besonders für akademische Verwendungen eignet, und mit der man nach Textkorpora verschiedener Sprachen suchen kann. Zum Suchen deutschsprachiger Korpora gibt es eine Adresse, bei der wir eine gewisse Hoffnung haben, dass sie für längere Zeit eingerichtet ist, nämlich die der Korpora-Liste des Instituts für deutsche Sprache in Mannheim. Zumindest kann man über das IdS, das selbst große Korpora erstellt hat und weiterhin erstellt, sicher auch in Zukunft weitere Informationen bekommen. Die Adresse http: / / ftp.ids-mannheim.de/ dsav/ korpora/ korpusliste.html bietet eine Übersicht über Korpora des gesprochenen Deutschen und erläutert auch für die einzelnen Korpora, wie man Zugang zu ihnen bekommt. Etwas Ähnliches zum geschriebenen Deutschen gibt es natürlich auch: http: / / www.ids-mannheim.de/ kt/ corporas.html. Viele der dort aufgeführten Korpora sind für eine begrenzte Zeit ohne Nutzungsgebühr zugänglich über die Adresse http: / / www.ids-mannheim. de/ kt/ cosmas.html. Die Zugriffszeit ist auf 60 Minuten beschränkt. Das kann ausreichen, wenn man bestimmte Wörter in ihren Satzkontexten sucht, es reicht aber sicher nicht, wenn die Suche nicht ausschließlich vom Computer erledigt werden kann, wenn man z.B. ein Wort nur in einer bestimmten Bedeutung sucht, die man selbst aus dem Kontext erschließt, wenn man die Belegstellen im Korpus findet. Zeitlich unbeschränkt kann man das bereits erwähnte Korpus der Computerlinguisten der Universität Saarbrücken kostenlos nutzen; es enthält allerdings ausschließlich Zeitungstexte: http: / / www.coli.uni-sb.de/ sfb378/ negra-corpus. Eine sehr nützliche Adresse für Transkripte gesprochener Sprache ist übrigens die Mailliste zur Gesprächsforschung, auf die sehr viele Sprach- Computerlesbare Korpora Adressen Arbeiten mit Textkorpora 72 wissenschaflterinnen und Sprachwissenschaftler abonniert sind, die sich mit gesprochener Sprache beschäftigen, und über die man u.a. Transkriptkorpora zum Tausch anbieten und nach bestehenden - auch unveröffentlichten - Transkriptkorpora fragen kann (mailliste@gesprächsforschung.de). Aufgabe Angenommen, Sie wollen mit Hilfe von einem Korpus Zählungen machen, die Aufschluss darüber geben, wie häufig ein bestimmtes Phänomen (oder auch nur ein bestimmtes Wort) in der gesprochenen und in der geschriebenen Sprache vorkommt. Sie wollen beim Worthäufigkeitsvergleich die Anzahl der tokens in den beiden Gesamtkorpora mit den tokens für Ihr interessierendes Wort vergleichen, bei den types wollen Sie dasselbe tun. Stellen Sie Überlegungen dazu an, welche Probleme der Abgleich von types und tokens machen könnte. Achten Sie u.a. auf Realisierungen der Wörter das und es! Zur Illustration ist ein Transkript 4 aus einem Korpus gesprochener Sprache beigefügt. Siglen: V: Verkäuferin K: Kunde V: Guten Tag! K: / _Haben Sie'n Wörterbuch? . Deutsch. langsam, zögernd 1 V: wo alle K: Französisch, Deutsch-Spanisch? _/ Beides. 2 V: beide drin sin? / _Ich wollt grad sagen, lebhaft K: beides, beides, bitte, ja. 3 V: nämlich beides in einem Band, das gibt also / _/ K: / _nee, nee, nee, nee, lebhaft 4 K: Entschuldijung! _/ Dat war jetzt, e,. mein Irrtum! 5 V: Wolln Sie diese Größe oder. größer oder kleiner? 6 V: Für welchen Zweck soll’s denn sein? 4 Aus: Ruth Brons-Albert, 1995. Verkaufsgespräche und Verkaufstrainings. Opladen: Westdeutscher Verlag, 179-180. Arbeiten mit Textkorpora 73 K: Kleinere hätte 7 V: Für’n Urlaub? Dann brauchen Se die K: ich gerne. Ja Nur 8 V: Kleinen! / _Da ruhig K: für unterwegs. um / um. einigermaßen... 9 V: reichen die vollkommen aus. Kleinere gibt’s auch 10 ((Geräusch Kasse eintippen)) V: nich mehr! _/ ((16 s)) ((6 s)) ruhig 11 ((Geräusch V: Dreizehn Mark sechzig! Geht K: So! Was hätten Sie gerne? 12 Kleingeld)) ((Geräusch Kleingeld, V: das so, oder `ne Tüte? Ja? K: Ja. Ja. Ja! 13 Geräusch Kasse öffnen 16 s)) K: Dat sin ja vierzehn! Hab 14 K: ich denn jetzt, eins, zwei, drei, vier, fünf, sechs, 15 V: (dreizehn, ne) Und zehn K: doch, dat stimmt! / _Dat is (richtig)._/ geflüstert 16 ((Geräusch Geld ein- V: Mark zurück! Hm, dankeschön! K: Bitteschön (Hoffentlich nehm 17 sortieren)) V: / _Jaha_/ amüsiert K: ich sie auch mit! ) sons nützet mir alles nix! 18 V: Richtig! ((3 s)) Wiedersehen! K: Wiedersehn! 19 K: / _Ihr seid ja so still, ihr zwei! Ihr seid ja so zu zwei Wellensittichen im Laden 20 K: still! Hm? 21 74 Messskalen 6 Beschreibende Statistik In diesem Teil behandeln wir beschreibende Statistik, die Art von Statistik, die man benutzt, um die Daten von beispielsweise Sprachtests zu beschreiben. Das Gebiet der Statistik wird normalerweise eingeteilt in beschreibende und prüfende (inferentielle) Statistik. Beschreibende Statistik gibt einem nur die Ergebnisse an, während inferentielle Statistik überprüft, ob ein Zusammenhang oder Unterschied zwischen vorliegenden Daten dem Zufall zuzuschreiben ist oder nicht. 6.1 Messskalen Wenn man annimmt, dass man einer kleinen Gruppe von Studenten einen Vokabeltest von 20 Wörtern gegeben hat, die ins Englische übersetzt werden sollten, kann man davon ausgehen, dass einige Schüler alle oder die meisten Wörter richtig haben, andere werden schlechter abschneiden. Es gibt nun verschiedene Arten, das Resultat des Tests zu beschreiben. Die folgende Tabelle zeigt einige der Möglichkeiten. Tabelle 1 Name richtige Vokabeln korrekt (%) Rang bestanden? Note John 20 100 1 ja 1 Peter 19 95 2 ja 2+ Ellis 15 75 3 ja 3 Sara 14 70 4 ja 3 Martin 13 65 5 ja 3- Matty 12 60 6,5 ja 4 Eve 12 60 6,5 ja 4 Nancy 10 50 8 nein 5 Adam 9 45 9 nein 5 Mike 2 10 10 nein 6 Die erste Spalte enthält die Namen der 10 Studenten, die den Vokabeltest gemacht haben. Die zweite Spalte enthält das Resultat, das jeder Schüler erzielt hat, also die Anzahl der Wörter, die der Student korrekt übersetzt hat. In der dritten Spalte finden wir die Ergebnisse in Prozent. Spalte vier teilt die Studenten in eine Rangliste ein: John, der beste Student, erhält Platz eins. Peter ist der zweitbeste und erreicht so Platz zwei usw. In der fünften Spalte steht “bestanden” oder “durchgefallen” hinter jedem Namen. Ob ein Schüler Beschreibende Statistik 75 bestanden hat oder durchgefallen ist, liegt an einer zufällig festgelegten Grenze. In unserem Fall liegt die Grenze für das Bestehen bei 11 korrekt übersetzten Wörtern von 20. Man muss also mehr als 50% richtig übersetzen, um den Test zu bestehen. Man hätte natürlich auch eine größere Anzahl von korrekt übersetzten Wörtern verlangen können, beispielsweise 70%, dann hätten in unserem Fall nur 4 Studenten bestanden. In der letzten Spalte ist die Note nach den Kriterien eingetragen, die in Tabelle 2 beschrieben werden. Tabelle 2 Punkte Note 20 20 17-19 19 14-16 15 11-13 14 6-10 13 0-5 12 Weil dies für die richtige Anwendung statistischer Verfahren ausgesprochen wichtig ist, wollen wir noch einmal wiederholen, dass die verschiedenen Spalten unterschiedliche Messskalen verwenden: Intervall-, Ordinal- und Nominalskala. Spalte zwei in Tabelle 1 präsentiert die Resultate auf einer Intervallskala. So haben wir nicht nur die Information, wer der Beste und wer der Schlechteste ist, sondern wir haben auch eine Abstufung zwischen den einzelnen Schülern und können sagen, wie weit ihre Leistungen voneinander entfernt sind. Die meisten Tests benutzen diese Intervallskala, wie beispielsweise Wörter pro Minute in einem Lesetest, die Anzahl der Fehler in einem Grammatiktest usw. Andere Beispiele von Daten, die üblicherweise auf einer Intervallskala dargestellt werden, sind die Anzahl von Jahren, die man eine Fremdsprache gelernt hat, Ergebnisse bei einem Sprachtest (z.B. TOEFL) oder die Temperatur des Wassers in Grad Celsius. Eine Intervallskala nimmt also an, dass die Messeinheiten in gleiche Intervalle unterteilt sind, wie beispielsweise Jahre. Diese Daten können in Punktzahlen, wie in Spalte zwei, oder in Prozent, wie in Spalte drei, dargestellt werden. In der Ranglistenspalte haben wir eine Ordinalskala. John ist besser als Peter, der wiederum besser ist als Ellis - aber wir können nicht sagen, um wie viel genau John besser ist, und es wäre auch unsinnig, einen Durchschnittsplatz zu berechnen. Wir haben bei Ordinalskalen also nur eine Rangliste von “am besten” bis “am schlechtesten” oder “am meisten” bis “am wenigsten” ohne eine klar gegliederte Einteilung zwischen den einzelnen Maßeinheiten. Der Abstand zwischen den Plätzen auf der Skala ist nicht Intervallskala Ordinalskala Beschreibende Statistik 76 gleich, sie geben nur einen Rang an. Ein anderes Beispiel für eine Ordinal- (oder Rang-) Skala sind Schulnoten. Der Abstand zwischen einer 2 und einer 3 muss nicht derselbe sein wie der zwischen einer 1 und einer 2. 1 Die “bestanden/ durchgefallen”-Spalte präsentiert die Daten auf einer Nominalskala. Jedes Resultat fällt in eine Kategorie, entweder gut genug - “bestanden” - oder nicht gut genug - “durchgefallen”. Ein bestimmtes Resultat kann nur in eine Kategorie eingeordnet werden. Besonders häufig auftauchende Beispiele von Nominaldaten sind Geschlecht und Muttersprache. Eine Person fällt entweder in die Kategorie “männlich” oder “weiblich”, aber mehr kann man mit diesen Daten nicht anfangen. Es ist zwar durchaus üblich, bei der Kodierung der Daten auch Geschlecht und Muttersprache mit Zahlen zu versehen, also z.B. 1 für weiblich und 2 für männlich, aber ein Durchschnittsgeschlecht oder eine Durchschnittsnationalität zu errechnen ist nicht sinnvoll, während ein Durchschnittsergebnis bei einem Sprachtest uns meist ein aufschlussreiches Ergebnis liefert. 98 86 83 81 62 59 58 50 45 45 45 43 36 32 31 21 0 20 40 60 80 100 120 L NL DK S B A FN D F EU15 GR I E P IRL UK Prozent % Abb. 1: Prozentzahl der Einwohner, die in einer anderen als ihrer Muttersprache ein Gespräch führen können Bei Sportwettkämpfen wie Kurzstreckenlauf oder Eisschnelllauf betrachten wir sowohl Daten auf Intervallskalenals auch auf Ordinalskalenniveau. Die ersten geben die benötigte Zeit an, meist in Hundertstelsekunden, die zweite 1 Wenn man statistische Verfahren korrekt anwendet, muss man darauf Rücksicht nehmen, dass Schulnoten keine intervallskalierten Daten sind. Üblicherweise wird jedoch in der Sprachlehrforschung mit Schulnoten so umgegangen, als wären es intervallskalierte Daten, weil so erheblich mehr Möglichkeiten der statistischen Aufbereitung bestehen. Wenn Sie so etwas für Ihre eigene Arbeit vorhaben, weisen Sie zumindest darauf hin, dass es nicht ganz korrekt ist, sonst könnten die Beurteiler Ihrer Arbeit denken, Sie wüssten nicht über Skalenniveaus Bescheid. Nominalskala Beschreibende Statistik 77 den Rangplatz im Feld der Teilnehmer. Man kann dann Erster werden mit einer Zeit von 9,36 Sekunden, Zweiter mit 9,55 und Dritter mit 9,56 Sekunden. Abbildung 1, die zeigt, wie hoch jeweils der Prozentsatz der Einwohner der 15 EU-Länder ist, die in der Lage sind, ein Gespräch in einer anderen Sprache als ihrer Muttersprache zu führen, gibt auch gleichzeitig Informationen auf zwei Skalenniveaus. Die Prozentzahlen sind intervallskaliert, die Ordnung der Säulen von links nach rechts gibt den Rangplatz an (Ordinalskala) und zeigt, dass in Luxemburg die meisten Einwohner mehr als eine Sprache sprechen, in England die wenigsten (Quelle: Eurobarometer, Report 50, Brüssel: Directorate General X, S. 108). Eine Intervallskala gibt die präziseste Information und lässt uns gleichzeitig die Möglichkeit, die in ihr enthaltenen Daten jederzeit in Daten einer Ordinal- oder Nominalskala zu konvertieren, während dies umgekehrt nicht möglich ist. Eine solche Konvertierung macht allerdings nur bedingt Sinn, da schließlich viele Informationen verloren gehen. Manchmal kann es allerdings doch sinnvoll sein, Daten in ein niedrigeres Skalenniveau umzusetzen. Angenommen, wir hätten die Daten über das Alter der Befragten exakt erhoben, dann könnten wir z.B. einen Mittelwert berechnen und dabei herausfinden, dass unsere Befragten im Durchschnitt 36 Jahre alt sind. Aber vielleicht ist es interessanter zu wissen, wie viele Befragte jeweils in die einzelnen Altersgruppen <20, 20-40, 41-60, >60 fallen. In diesem Fall würden wir die Altersangaben auf Intervallskalenniveau in eine Gruppierung mit vier Kategorien auf Nominalskalenniveau umsetzen. 6.2 Streuung, Mittelwert, Standardabweichung In Tabelle 3 sehen wir die Ergebnisse von 10 Studenten, die einen 20-Wort- Vokabeltest gemacht haben. Aus diesen Daten können wir verschiedene Tabelle 3 Name Ergebnis John 20 Peter 19 Ellis 15 Sara 14 Martin 13 Matty 12 Erika 12 Eve 10 Nancy 9 Adam 2 Summe 126 Mittelwert 12,6 Beschreibende Statistik 78 Dinge errechnen: die Streuungsmaße, den Mittelwert (bzw. das arithmetische Mittel) und die Standardabweichung. Die Streuung ist die Differenz zwischen dem höchsten Ergebnis und dem niedrigsten, in unserem Fall 18, nämlich der Wert von 20 (John) - der von 2 (Adam) = 18. Der Mittelwert ( X ) ist die Summe aller Ergebnisse, geteilt durch die Anzahl der Ergebnisse. In diesem Fall ist der Mittelwert 126: 10 = 12,6. Tabelle 4 Punkte Abweichung vom Mittelwert x 2 2 -1,5 2,25 3 -0,5 0,25 4 +0,5 0,25 5 +1,5 2,25 Summe 5,00 Der nach dem Mittelwert wichtigste Wert der beschreibenden Statistik ist die Standardabweichung (s). Man kann sie als Maß der durchschnittlichen Abweichung vom Mittelwert definieren. Aus diesem Wert können wir ablesen, wie sich die Ergebnisse um den Mittelwert herum verteilen. An der als Standardabweichung errechneten Zahl können wir ablesen, ob die einzelnen Messwerte relativ eng beim Mittelwert liegen oder recht weit streuen. Die Standardabweichung berechnet man nach folgender Formel: s = x N 2 1 ∑ − wobei s die Standardabweichung ist und N die Anzahl der Ergebnisse. 2 x jede Abweichung vom Mittelwert x 2 ∑ die Summe aller quadrierten Differenzen Wir berechnen jetzt zur Übung die Standardabweichung der Zahlenreihe 2, 3, 4 und 5, die einen Mittelwert von 3,5 hat (siehe Tabelle 4). Die Summe der quadrierten Abweichungen ist 5. Wenn wir dies durch N-1 (d.h. die Anzahl der Ergebnisse minus 1: 4 - 1 = 3) teilen, erhalten wir 1,6666. Nun ziehen wir noch die Quadratwurzel aus 1,6666 und erhalten unsere Standardabweichung von 1,29. 2 Es gibt zwei Formeln für die Berechnung der Standardabweichung, eine für eine Stichprobe der Grundgesamtheit und eine für die Grundgesamtheit. Die oben benutzte Formel ist die erste von beiden. Standardabweichung Beschreibende Statistik 79 Die Standardabweichung sagt uns also etwas über die Verteilung der Ergebnisse um den Mittelwert herum. Ein hoher Wert für die Standardabweichung zeigt uns, dass die einzelnen Ergebnisse weit voneinander entfernt liegen, ein kleiner Wert für s bedeutet, dass alle Ergebnisse dicht um den Mittelwert herum liegen. In Tabelle 5 sehen wir als Beispiel einige Zahlenreihen mit Mittelwert und Standardabweichung für jede Zahlenreihe. Tabelle 5 A B C D E 3 1 1 1 10 4 3 2 1 10 5 5 5 5 50 6 7 8 9 90 7 9 9 9 90 Mittelwert 5 5 5 5 50 s 1,58 3,16 3,54 4,00 40,00 Die Standardabweichung ist auch nützlich, weil sie einen gewissen Überblick über die Reichweite gibt, in die die Ergebnisse fallen. Nehmen wir die vorletzte Spalte in Tabelle 5: Ein Mittelwert von 5 und eine Standardabweichung von 4 zeigen uns, dass die Mehrzahl aller Ergebnisse (68%) normalerweise zwischen (5 - 4 =) 1 und (5 + 4 =) 9 liegt. Dies können wir verallgemeinern und sagen, dass 68% aller Ergebnisse normalerweise zwischen “Mittelwert ± 1 Standardabweichung” liegen. Wenn wir also irgendwo lesen, dass bei einer Untersuchung der Mittelwert der Ergebnisse 60 ist und die Standardabweichung 15, können wir erwarten, dass 68% aller Ergebnisse zwischen 75 und 45 fallen. Wir können sogar sagen, dass 95% aller Ergebnisse zwischen “Mittelwert ± doppelte Standardabweichung” fallen, in unserem Beispiel also zwischen 90 und 30. Der Wert 68% ergibt sich rein mathematisch aus der Gaußschen Normalverteilung und gilt grundsätzlich für die Standardabweichung; ebenso der danach eingeführte Wert 95%. Ein anderes in der Statistik häufig auftauchendes Konzept ist die Varianz. Die Varianz ist die quadrierte Standardabweichung (s 2 ). Wenn eine Zahlenreihe eine Standardabweichung von 4 hat, ist die Varianz also 16; wenn die Standardabweichung 3 ist, ist die Varianz 9. Die Varianz misst die Variabilität der Messwerte, liefert uns aber als quadratisches Maß ein schlechter interpretierbares Ergebnis als die Standardabweichung. Varianz Beschreibende Statistik 80 6.3 Häufigkeiten, relative Häufigkeit Wenn wir die Testergebnisse einer Gruppe Studenten haben, sehen wir häufig, dass mehrere Studenten das gleiche Ergebnis haben. Dies gibt uns die Möglichkeit, eine Häufigkeitstabelle für die Testergebnisse zu erstellen. Tabelle 6 zeigt uns in der zweiten Spalte eine Häufigkeitsverteilung der Ergebnisse von 50 Studenten, die an einem 20-Wort-Vokabeltest teilgenommen haben. Diese Tabelle zeigt, dass von den 50 Studenten, die teilgenommen haben, niemand ein Ergebnis von 0, 1, 2 oder 3 hatte; ein Student hatte ein Ergebnis von 4, zwei Studenten 5, drei Studenten 6, usw. Die dritte Spalte zeigt die relative Häufigkeit jedes Ergebnisses. Diese relative Häufigkeit erhalten wir, indem wir die Häufigkeit dieses speziellen Ergebnisses durch die Anzahl der Ergebnisse (hier: 50) teilen. Das Ergebnis 10 wurde von 5 der 50 Studenten erreicht, die relative Häufigkeit dieses Ergebnisses ist also 5 : 50 = 0,1. Tabelle 6 Punkte Häufigkeit relative Häufigkeit 0 0 0,00 1 0 0,00 2 0 0,00 3 0 0,00 4 1 0,02 5 2 0,04 6 3 0,06 7 3 0,06 8 4 0,08 9 4 0,08 10 5 0,10 11 7 0,14 12 7 0,14 13 5 0,10 14 4 0,08 15 0 0,00 16 2 0,04 17 2 0,04 18 1 0,02 19 0 0,00 20 0 0,00 N = 50 Zusätzlich zur relativen Häufigkeit gibt es auch noch die kumulative Häufigkeit, diese wird aber hauptsächlich dazu benutzt, um Percentile zu errechnen. Ein Percentil zeigt an, wieviel Prozent der untersuchten Gesamtheit das gleiche oder ein niedrigeres Ergebnis haben als das entsprechende Ergebnis. Häufigkeitsverteilung Percentil Beschreibende Statistik 81 Wenn Michael ein Percentil von 90 bei einem Test erreicht, so heißt dies, dass 90% der Studenten, die auch an dem Test teilgenommen haben, das gleiche oder ein niedrigeres Ergebnis haben. Umgekehrt könnte man auch sagen, dass 10% ein besseres Ergebnis hatten. Damit sieht man sehr gut den Platz, den Michael in der Gruppe einnimmt. Zur Berechnung der Percentile benutzen wir die kumulativen Häufigkeiten. Um diese zu berechnen, listen wir die Ergebnisse in einer Reihenfolge von hoch bis niedrig auf (Tabelle 7, Spalte 1) und fügen die Häufigkeit des jeweiligen Ergebnisses (Spalte 2) hinzu. Die dritte Spalte zeigt uns nun die kumulative Häufigkeit jedes Ergebnisses. Diese berechnen wir, indem wir die Häufigkeit des niedrigsten Ergebnisses nehmen und zu diesem jeweils die Häufigkeit des nächsthöheren Ergebnisses hinzu addieren, bis wir bei dem Ergebnis sind, dessen kumulative Häufigkeit wir berechnen wollen. Beim höchsten Ergebnis müssen wir die absolute Häufigkeit als kumulative Häufigkeit erhalten. Tabelle 7 Punkte Häufigkeit (absolute Häufigkeit ist 28) kumulative Häufigkeit Percentil 14 4 28 100 13 5 24 86 12 7 19 68 11 7 12 43 10 5 5 18 N = 28 Nun zu den Percentilen; diese berechnen wir, indem wir mit dem höchsten Ergebnis anfangen. Das Percentil für das Ergebnis 14 Punkte ist die Zahl der kumulativen Häufigkeit (28), geteilt durch die Anzahl der Ergebnisse (28) mal 100, also 100. Diese Berechnung führen wir für jede Reihe in Spalte 4 durch. Man sollte an dieser Stelle anmerken, dass die Percentile natürlich in keinem Zusammenhang mit einem Prozent-richtig-Ergebnis stehen. Ein Student, der nur 16 von 20 Fragen richtig beantwortet hat, also ein Prozentrichtig-Ergebnis von 80 erreicht, könnte trotzdem ein Percentil von 100 haben, wenn kein anderer ein besseres Ergebnis erzielt hat. Außerdem sind Percentile nur bei sehr großen Teilnehmerzahlen (> 100) sinnvoll. 6.4 Die Darstellung der Daten Seit Computer so weit verbreitet sind, kann praktisch jeder seine Daten auf ansprechende Art und Weise darstellen. Die am häufigsten benutzte Darstellungsweise ist immer noch die Tabellenform, von der wir oben schon Beschreibende Statistik 82 einige Beispiele hatten. 3 Andere Arten sind Grafiken, wie sie Programme wie Excel liefern. Die üblichsten Grafiken sind dabei Histogramme oder Polygone. Bewertung in Punkten Häufigkeit 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Abb. 2: Histogramm (Häufigkeitsverteilung) 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Bewertung in Punkten Häufigkeit Abb. 3: Polygon (Häufigkeitsverteilung) 3 Beschriftungen werden in wissenschaftlichen Veröffentlichungen über Tabellen und unter Grafiken angebracht. Beschreibende Statistik 83 Es gibt einen kleinen, aber bedeutsamen Unterschied in der Darstellung von Histogrammen. Berühren sich die Balken, so handelt es sich um Daten auf einer Intervallskala (Abb. 4a), Daten einer Nominalskala (Abb. 4b) haben durch Abstände getrennte Balken. 0 1 2 3 4 5 6 7 8 ≤ 50 51- 60 61- 70 71- 80 ≥ 81 Ergebnis Häufigkeit 0 1 2 3 4 5 6 7 8 DE EN FR NL SP Muttersprache Häufigkeit Abb. 4a: Grafik für intervallskalierte Daten, z.B. Häufigkeit der Personen mit einem bestimmten Testergebnis Abb. 4b: Grafik für nominal skalierte Daten, z.B. Personen mit den jeweiligen Muttersprachen in einem internationalen Kurs Die Daten können also auch in Kuchen- oder Balkendiagrammen dargestellt werden. Balkendiagramme sind im Prinzip Histogramme, nur dass die Darstellung horizontal ist. Die meisten Tabellenkalkulationsprogramme können Daten jetzt sogar in dreidimensionaler Form darstellen (Abb. 5). Man sollte allerdings nicht der Versuchung erliegen und die Ergebnisse eines ernsthaften Forschungsprojekts in jeder Menge spezieller Grafiken untergehen lassen. Die meisten Fachpublikation akzeptieren sogar keine dreidimensionalen Grafiken, da diese weniger klar ablesbar sind als zweidimensionale Grafiken oder Tabellen. Beschreibende Statistik 84 0% 10% 20% 30% 40% 50% 60% 70% Deutsch Englisch Andere Französisch Russisch Spanisch Abb. 5: Dreidimensionales Histogramm: die wichtigsten Fremdsprachen, die in ungarischen Firmen benutzt werden. Nach: C.J.Koster und Z.Radnai. 1997. Foreign languages in Hungarian business. Pécs: Pécs University Press. Beschreibende Statistik 85 Aufgaben 1. Sie sehen im Folgenden einen Teil aus einem Fragebogen, in dem Daten zur Einschätzung von Sprachkenntnissen des Deutschen in verschiedenen europäischen Ländern erhoben werden. Geben Sie an, wie Sie die erhaltenen Antworten kategorisieren würden und was für ein Skalenniveau Sie damit erhalten! 1. Nationalität 2. Muttersprache 3. Alter 4. Ausbildung 5. Beruf 6. Bedeutung des Deutschen in Europa jetzt: sehr wichtig 1 2 3 4 5 sehr unwichtig 7. Bedeutung des Deutschen in Europa in 20 Jahren: sehr wichtig 1 2 3 4 5 sehr unwichtig 8. Bedeutung von Lesefertigkeit im Deutschen: ....................... 9. Bedeutung von Sprechfertigkeit im Deutschen: ....................... 2. Sehen Sie sich die folgenden Ergebnisse einer Gruppe von Studenten bei einem Aussprachetest (Ergebnisse auf einer 10-Punkte-Skala) an, und berechnen Sie die Streuung, den Mittelwert, die Standardabweichung und die Varianz. Berechnen Sie auch die Standardabweichung, die vorläge, wenn William nicht am Test teilgenommen hätte. Adrian 6 Jay 6 Judith 5 Lydia 7 Nancy 7 Nan 6 Margaret 8 Frank 7 David 9 William 1 3. Erstellen Sie eine Häufigkeitstabelle der Ergebnisse in Aufgabe 2. 4. Was ist das Percentil von Nancy? Und von Adrian? 5. Erweitern Sie die Tabelle aus Aufgabe 2 um eine neue Spalte. Geben Sie das Geschlecht der Personen an, indem Sie 1 für Männer und 2 für Frauen gebrauchen (beachten Sie, dass Jay männlich und Nan weiblich ist). Wie lautet der Durchschnitt für Männer und Frauen? Und wie lautet der Durchschnitt für Männer und Frauen, wenn William ausgelassen wird? Beschreibende Statistik 86 6 Welche Art von Skala (1: Intervallskala, 2: Ordinalskala, 3: Nominalskala) würden Sie für folgende Daten benutzen? a) Geschlecht des Befragten b) Dialekt des Befragten c ) Verschiedene Arten von Relativsätzen im Englischen (wobei in zwei verschiedenen Korpora die Anzahl der restriktiven im Vergleich zu den appositiven erhoben werden soll) d) Benotung derselben Aufsätze durch verschiedene Dozenten e ) Reaktionszeit bei der Erkennung von nicht-existenten Wörtern in einer gemischten Wortliste mit existenten und nicht-existenten Wörtern f) Beurteilung der didaktischen Fähigkeiten von Dozenten durch Studenten g) Länge der Schlagzeilen über den Artikeln in der Frankfurter Allgemeinen Zeitung und in der Bild-Zeitung. 7. Auf welche Art von Daten (in Bezug auf das Skalenniveau) beziehen sich die folgenden Abbildungen? Stellen Sie Überlegungen dazu an, was die Ziffern auf den beiden Achsen bedeuten könnten. 0 5 10 15 20 25 1 2 3 4 5 0 1 2 3 4 5 6 7 1 2 3 4 5 Abb. A Abb. B 87 7 Korrelationen Im letzten Kapitel haben wir die verschiedenen Arten von Daten zu beschreiben versucht. In allen Beispielen hatten wir es mit einem Datensatz zu tun, d. h. den Ergebnissen von einer Gruppe von Studenten in einem Test. In diesem Kapitel sehen wir uns die Resultate von mehreren Tests und/ oder mehreren Studentengruppen an und fragen uns, ob es eine Beziehung (d. h. eine Korrelation) zwischen den Testergebnissen gibt. Einer der meistgenutzten statistischen Ansätze besteht darin, sich die Daten anzusehen, die zu zwei Gruppen oder zwei Ergebnismengen gehören, um herauszufinden, ob zwischen ihnen eine Beziehung besteht. Einige Beispiele sollen im Folgenden illustrieren, welche Art von Beziehungen dies sein können. • Im Allgemeinen neigen große Menschen dazu, schwerer zu sein als kleine Menschen. In anderen Worten: Je größer Menschen sind, desto mehr neigen sie dazu, schwerer zu sein. • Im Allgemeinen ist es so: Je mehr Bier man getrunken hat, desto weniger ist man in der Lage, ein Auto zu fahren. Nach fünf Bieren ist die Fahrtüchtigkeit schlechter als nach einem Bier, und nach zehn Bieren ist man wahrscheinlich unfähig zu fahren. • Im Allgemeinen neigen intelligentere Eltern dazu, intelligentere Kinder zu haben. • Im Allgemeinen ist es so: Wenn alle anderen Bedingungen gleich sind, schneidet man um so besser bei den Klassenarbeiten ab, je mehr Zeit man mit Hausaufgaben für die Schule verbringt. • Im Allgemeinen ist man um so besser beim Übersetzen vom Englischen ins Deutsche, je besser man beim Übersetzen vom Deutschen ins Englische ist. • Im Allgemeinen ist das Leseverständnis um so besser, je mehr Wörter man in einer Fremdsprache kennt. • Im Allgemeinen ist die Beherrschung der Fremdsprache eines Schülers um so besser, je mehr Präsenzunterricht er in dieser Sprache hat. • Im Allgemeinen würden wir eine hohe Übereinstimmung zwischen den Noten erwarten, wenn wir zwei erfahrene Lehrer bitten, die Aufsätze einer Gruppe von Studenten zu benoten, in dem Sinne, dass, wenn Lehrer A eine gute Note vergibt, Lehrer B ebenso eine gute Note gibt und umgekehrt. Wenn es keine Korrelation zwischen den Noten gibt, könnte man daraus schließen, dass die Lehrer ihre Arbeit nicht richtig getan haben, oder man könnte vermuten, dass die Noten von den beiden fünf Jahre alten Töchtern der Lehrer vergeben wurden, die jede eine Note nach dem Zufallsprinzip unter die Aufsätze geschrieben hat. Beziehungen zwischen Daten Korrelationen 88 • Im Allgemeinen erwartet man vergleichbare Ergebnisse, wenn man eine Studentengruppe einen bestimmten Test zweimal mit einer einwöchigen Pause dazwischen schreiben lässt. Diese Beziehungen sind ziemlich offensichtlich und stimmen mit der intuitiven Auffassung überein, die die meisten Menschen über die Beziehung zwischen Dingen haben. Gleichzeitig wissen wir natürlich, dass diese Beziehungen “im Allgemeinen” stimmen, dass es aber Ausnahmen geben könnte. Es gibt kleine Menschen, die schwerer sind als einige große Menschen, und intelligente Eltern können recht dumme Kinder haben. Und nicht jeder, der gut vom Deutschen ins Englische übersetzen kann, kann es auch umgekehrt gut; dies könnte beispielsweise auf englische Muttersprachler zutreffen, die recht gut in ihre eigene Sprache übersetzen können, aber deren Kenntnis des Deutschen noch nicht ausreicht, um eine gute Ausdrucksweise zu ermöglichen. Manchmal existiert eine Beziehung, die absolut ist - in dem Sinne, dass eine Eigenschaft sich genau abhängig von einer anderen verändert. Zum Beispiel geht um so mehr Benzin in den Tank, je größer dieser ist. Natürlich kann es auch zwischen zwei Dingen überhaupt keine Korrelation geben. Es gibt beispielsweise wahrscheinlich überhaupt keine Korrelation zwischen der Schuhgröße eines Menschen und seinen Ergebnissen in einem Sprachtest, oder zwischen der Menge des Regenniederschlags in einem Bundesland und der Höhe der dortigen Steuern. Tabelle 1 Vokabeln Grammatik John 1 3 Peter 2 4 Eva 3 5 Ralph 4 6 Mike 5 7 Jane 6 8 Korrelationen können sehr schön in einem Streudiagramm dargestellt werden. Nehmen wir an, wir untersuchen die Ergebnisse von sechs Studenten in zwei Tests, einem Vokabeltest und einem Grammatiktest, beide mit zehn Aufgaben (siehe Tabelle 1). Wenn wir die Ergebnisse darstellen (Abb. 1), sehen wir, dass alle Punkte auf einer geraden Linie liegen. Die gestrichelten Linien in Abb. 1 zeigen, wo die Punkte für Jane und Eva liegen. Streudiagramm Korrelationen 89 Grammatik kenntnis 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 Vokabelkenntnis Eva Jane Abb. 1: Streudiagramm der Noten aus Tabelle 1 Die Punkte liegen auf einer geraden Linie, weil es in diesem erfundenen Beispiel eine perfekte Korrelation zwischen den Noten für Vokabeln und Grammatik gibt, die uns zeigt, dass gute Noten im Vokabeltest mit guten Noten in der Grammatik zusammenhängen. Die Linie in Abb. 1 hat eine positive Steigung, die darauf hindeutet, dass eine positive Korrelation besteht. Eine solche Linie kann auch eine negative Steigung haben, die dann eine negative Korrelation zeigt. Es gibt beispielsweise eine negative Korrelation zwischen der Größe des Wortschatzes eines Studenten und der Anzahl der Male, die er ein Wörterbuch benutzen muss. In diesem Fall läuft die Linie in umgekehrter Richtung, vgl. Abb. 2. Normalerweise ist eine Korrelation natürlich nicht perfekt. Ein Streudiagramm wie in Abbildung 3 unten wäre viel normaler. Die Beziehung zwischen zwei Aspekten kann mit Hilfe der Korrelation dargestellt werden, die als Zahl zwischen -1 und +1 angegeben wird. Wenn es eine perfekte positive Korrelation zwischen zwei Dingen gibt (das eine erhöht sich mit der Erhöhung des anderen), haben wir die maximale positive Korrelation von +1. Es kann auch eine negative Korrelation geben, wie in dem Beispiel vom Bierkonsum und Fahrtüchtigkeit oder im Fall der Benutzung eines Wörterbuchs in einer Fremdsprache: Mit der Zunahme des Wortschatzes des Studenten verringert sich die Anzahl der Male, die er ein Wörterbuch benutzen muss. Wenn die Korrelation sich um Null bewegt, gibt es keine signifikante Beziehung (wie zum Beispiel zwischen Schuhgröße und IQ eines Erwachsenen). Korrelationen 90 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 Wortschatz Wörterbuchbenutzung Abb. 2: Negative Korrelation; Wörterbuchbenutzung: Anzahl der Suchvorgänge pro Stunde; Wortschatz: Umfang in tausend Wörtern 7.1 Kalkulation des Korrelationskoeffizienten Die Korrelation zu berechnen ist recht einfach. Zuerst werden wir uns mit der Art der Korrelation beschäftigen, die product-moment correlation (Pearson product-moment correlation oder einfach PM-Korrelation) genannt wird. Diese Art wird benutzt, wenn wir mit Daten einer Intervallskala umgehen - wie in Tabelle 2. Dort finden wir die Noten, die von zwei Lehrern für die Aufsätze von zehn Studenten gegeben wurden. 1 Die Noten 1 Da dies kein Kurs im Rechnen, sondern in der Nutzung statistischer Verfahren ist, haben wir ein Beispiel mit einer kleinen Datenanzahl genommen. Im Allgemeinen gilt allerdings, dass es nicht sinnvoll ist, eine Korrelation zwischen zwei Testergebnissen mit weniger als 25 Teilnehmern zu berechnen. Übrigens tun wir hier - und befolgen hiermit einen Tipp, den wir Ihnen in Kapitel 6 gegeben haben, nämlich das Problem wenigstens zu erwähnen - etwas, was in der Sprachlehrforschung üblich, aber vom Standpunkt der Statistik aus nicht ganz korrekt ist: Wir wenden hier ein Verfahren, das nur auf intervallskalierte Daten angewendet werden darf, auf Daten an, die eigentlich nur Ordinalskalenniveau Rechenverfahren Korrelationen 91 sind Ergebnisse auf einer 10-Punkte-Skala, wobei 10 ein hervorragender Aufsatz ist und 1 ein miserabler. Weil die schlechteste erteilte Note 3 ist, hat anscheinend niemand einen miserablen Aufsatz geschrieben. Abb. 3 stellt die Noten in einem Streudiagramm dar. Tabelle 2: Daten für eine PM-Korrelation Student Lehrer X Lehrer Y X 2 Y 2 XY 1 6 7 36 49 42 2 5 7 25 49 35 3 3 4 9 16 12 4 5 5 25 25 25 5 8 9 64 81 72 6 8 8 64 64 64 7 4 5 16 25 20 8 7 7 49 49 49 9 9 7 81 49 63 10 7 8 49 64 56 Summe Σ X=62 Σ Y=67 Σ X 2 =418 Σ Y 2 =471 Σ XY=438 Quadratsumme ( Σ X) 2 =62 2 =3844 ( Σ Y) 2 =67 2 =4489 Die zu benutzende Formel lautet: r = N XY X Y N X X N Y Y ( ) ( )( ) [ ( ) ][ ( ) ] Σ Σ Σ Σ Σ Σ Σ − − − 2 2 2 2 Die Formel sieht etwas furchterregend aus, ist aber eigentlich ganz leicht. r steht für den Korrelationskoeffizienten, und N ist die Anzahl der gepaarten Ergebnisse (d.h. die Anzahl der Aufsätze) 10 Σ X ist die Summe der Noten von Lehrer X in der X-Spalte 62 ( Σ X) 2 ist die quadrierte Summe der Noten von Lehrer X in der X-Spalte 62 2 = 3844 Σ Y ist die Summe der Noten von Lehrer Y in der Y-Spalte 67 haben. Das hat sich im Umgang mit Schulnoten so eingebürgert. Um mehr und aussagefähigere statistische Verfahren anwenden zu können, tun die Sprachlehrforscherinnen so, als seien die Abstände zwischen den einzelnen Schulnoten gleich. Korrelationen 92 ( Σ Y) 2 ist die quadrierte Summe der Noten von Lehrer Y in der Y-Spalte 67 2 = 4489 Σ X 2 ist die Summe der quadrierten Noten in der X 2 -Spalte 418 Σ Y 2 ist die Summe der quadrierten Noten in der Y 2 -Spalte 471 Σ X ist die Summe der Produkte von X und Y in der XY-Spalte 438 Wenn wir diese Zahlen in die Formel einsetzen, erhalten wir ( ) ( ) ( ) ( ) r = ⋅ − ⋅ ⋅ − ⋅ ⋅ − − − ⋅ − 10 438 62 67 10 418 3844 10 471 4489 4380 4154 4180 3844 4710 4489 = = ⋅ = ≈ ≈ 226 336 221 226 74256 226 272 5 0 83 , , Der Korrelationskoeffizient beantwortet die Frage, ob es eine Beziehung zwischen zwei Variablen gibt oder nicht gibt, dahingehend, dass eine Variable dazu neigt, sich in einer zur anderen Variablen ähnlichen Art zu erhöhen oder zu verringern. In dem hier benutzten Beispiel kann man die von den beiden Lehrern vergebenen Noten als solche Variablen betrachten. Was wir also herausfinden wollten, war, ob ein Aufsatz, der von Lehrer X gut benotet wurde, von Lehrer Y ebenfalls gut benotet wird und ob dies auch bei den mittelmäßigen und schlechten Noten der Fall ist. Wenn Lehrer X Aufsätze gut benotet, die sein Kollege als mittelmäßig oder gar schlecht bewertet, ist die Korrelation niedrig oder gar negativ. Eine Korrelation 2 von 0,83 in dieser Art von Vergleich (Bewertung von Aufsätzen) ist akzeptabel, obwohl man eigentlich erwarten würde, dass der Korrelationskoeffizient in diesem Fall etwas höher liegt. Dass die Korrelation nicht perfekt ist (d.h. nicht 1), kann man im Streudiagramm in Abb. 3 sehen. Zur gleichen Zeit zeigt uns das Diagramm, dass die meisten Punkte dicht an einer (fiktiven) aufsteigenden Linie liegen, dass also “im Allgemeinen” die Noten von Lehrer X für einen Aufsatz mit denen von Lehrer Y korrespondieren. 2 Im englischsprachigen Raum ist die Verwendung eines Punktes zur Kennzeichnung des Dezimalstellenbeginns in Zahlenangaben üblich. Falls vor dem Punkt eine 0 steht und der höchste mögliche Wert 1 ist, kann diese weggelassen werden; also beispielsweise “.7” statt “0.7". Korrelationen 93 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Lehrer X Lehrer Y Abb. 3: Streudiagramm der Daten aus Tabelle 2 (r=0,83) 7.2 Wann ist eine Korrelation hoch genug? Wie oben besprochen, bewegt sich der Wert des Korrelationskoeffizienten zwischen -1 und +1. Beträgt der Wert 0 oder bewegt er sich um 0, dann gibt es keine Korrelation, keine Beziehung. Aber wann ist die Korrelation hoch genug, um sagen zu können, dass es eine Beziehung zwischen zwei Variablen gibt? Wir werden dieser Frage auf zwei Arten begegnen, zuerst in technischer Hinsicht, indem wir Signifikanz besprechen, und dann in inhaltlicher Hinsicht, indem wir sehen, wie hoch die Korrelationen sind, die für bestimmte Arten von Forschungsaussagen erwartbar sind. Wir können den Korrelationskoeffizienten in einer Tabelle nachsehen, die uns sagt, ob diese Korrelation signifikant ist oder nicht. Wir werden später noch auf den Begriff Signifikanz zurückkommen; für den Moment reicht es uns, dass die Tabelle uns zu sagen erlaubt, ob man von einer tatsächlich existierenden Beziehung, d.h. davon, dass sie signifikant ist, sprechen kann. Um bestimmen zu können, ob eine Korrelation zwischen zwei Variablen signifikant ist, müssen wir die folgenden Schritte durchführen. Signifikanz Korrelationen 94 Schritt 1 Wir nehmen die Anzahl der gepaarten Daten, die in der Kalkulation des Korrelationskoeffizienten benutzt wurden, und subtrahieren davon 2. In unserem Fall hatten wir 10 gepaarte Daten (s. Tabelle 2: Wir hatten 10 Ergebnisse von Lehrer X und 10 von Lehrer Y, die gepaart wurden, was 10 gepaarte Daten ergibt.). Wir ziehen 2 ab. Dies ergibt 8. Wir nennen diese Zahl df. 3 Schritt 2 Wir sehen die Tabelle in Anhang 1 an. Diese Tabelle hat eine Anzahl von Zeilen (horizontal) und Spalten (vertikal). Wir sehen zuerst in der Spalte, die mit df markiert ist, den d f, den wir ausgerechnet haben, nach (unsere Freiheitsgrade waren 8). In dieser Zeile finden wir 3 Zahlen: 0,632, 0,765 und 0,872. Diese sind die Korrelationskoeffizienten, die man für 10 gepaarte Ergebnisse (oder df=8) mindestens haben sollte. Unser Korrelationskoeffizient (0,83) liegt zwischen der zweiten und der dritten Zahl. Wenn wir uns nun die kleinere Zahl (0,765) ansehen, sehen wir, dass diese Spalte mit 0,01 beschriftet ist. Das bedeutet, dass hier sehr wahrscheinlich eine Beziehung existiert. Unsere Korrelation ist “signifikant auf der 0,01-Ebene”. Wäre unsere Korrelation 0,43 gewesen, hätten wir sagen müssen, dass unsere Korrelation nicht signifikant ist, weil sie einen niedrigeren als den minimal benötigten Wert (0,632, für die 0,05-Ebene) gehabt hätte, d.h., dass es keinen ausreichenden Grund gegeben hätte anzunehmen, dass eine Beziehung zwischen zwei Variablen existiert. Wäre die Korrelation 0,65 gewesen, wäre sie höher gewesen als die am weitesten links stehende der drei Zahlen in der Tabelle, aber sie wäre kleiner als die zweite gewesen. In diesem Fall würden wir sagen, dass die Korrelation signifikant auf der 0,05- Ebene ist (0,05 ist die Beschriftung der Spalte, die den Minimalwert 0,632 enthält.). Wenn wir sagen, dass etwas signifikant auf der 0,05-Ebene ist, meinen wir, dass die Wahrscheinlichkeit, dass unser Ergebnis zufällig ist, d.h. nicht signifikant ist, 1 aus 20 ist oder 5% (0,05 = 5%). Wenn ein Ergebnis signifikant auf der 0,01-Ebene ist, bedeutet dies, dass die Wahrscheinlichkeit, dass unser Ergebnis zufällig ist (d.h. nicht signifikant ist), 1 aus 100 beträgt oder 1% (0,01 = 1%). Die Signifikanzebene eines Korrelationskoeffizienten zu bestimmen ist eins, man muss aber andererseits auch beachten, dass in einigen Forschungsfeldern eine wesentlich höhere Korrelation erwartet wird als in anderen. Die Übereinstimmung zwischen zwei Lehrern, die Aufsätze von Studenten 3 df: steht für degrees of freedom (Freiheitsgrade). Das Konzept der Freiheitsgrade ist recht schwierig und wird hier nicht in allen Details besprochen. In der Praxis braucht man es nur, um in der Lage zu sein, einen bestimmten Wert in einer Tabelle nachzusehen. Für die hier besprochenen Tests geben wir jeweils an, wie die Freiheitsgrade ermittelt werden. Korrelationen 95 benotet haben, würde typischerweise bei 0,90 erwartet. Korrelationen zwischen den Noten für Englisch am Ende der Grundschule und nach dem ersten Jahr der Oberstufe wären wahrscheinlich wesentlich niedriger, etwa um 0,50 herum. Und bei einer Korrelation zwischen Schulnoten für Deutsch und sozialer Angepasstheit (angenommen, es wäre möglich, soziale Angepasstheit ordentlich zu testen)? Wenn wir hier eine Korrelation von 0,30 bekämen, sähen wir dies als ein überaus interessantes Ergebnis an. Eine allgemeine Faustregel 4 für die Interpretation des Wertes des Korrelationskoeffizienten im Hinblick auf die Stärke der Beziehung zwischen zwei Variablen ist folgende: 5 Wert Interpretation 0,90 - 1 sehr hohe Korrelation, sehr starke Beziehung 0,70 - 0,89 hohe Korrelation, ausgeprägte Beziehung 0,40 - 0,69 mäßige Korrelation, substantielle Beziehung 0,20 - 0,39 schwache Korrelation, definitive, aber geringe Beziehung 0 - 0,19 keine oder leichte Korrelation, Beziehung vernachlässigenswert. 7.3 Korrelation bedeutet keine Kausalität Man ist leicht versucht, eine kausale Beziehung zwischen zwei Variablen anzunehmen, für die man eine signifikante Korrelation gefunden hat. Wir sehen uns noch einmal ein paar der Beispiele vom Anfang dieses Kapitels an. Im Allgemeinen ist es so: Je mehr Bier man getrunken hat, desto weniger ist man in der Lage, ein Auto zu fahren. Nach fünf Bieren ist die Fahrtüchtigkeit schlechter als nach einem Bier, und nach zehn Bieren ist man wahrscheinlich unfähig zu fahren. Es gibt tatsächlich eine hohe Korrelation zwischen den zwei Variablen “Menge des Alkohols”, den man getrunken hat, und “Fahrtüchtigkeit”. Es ist verlockend, jetzt zu behaupten, dass die eine Variable (Alkohol) die andere verursacht (Fahruntüchtigkeit). Gleichermaßen ist es verlockend, in der folgenden Aussage eine kausale Beziehung zu sehen: 4 Die Bedeutung der Höhe von r ist natürlich immer abhängig vom df-Wert; diese Faustregel ist also sehr “allgemein”, für einen “durchschnittlichen” df-Wert anzuwenden. Im strengen Sinne kann also ein r-Wert nur mit Angabe des zugehörigen df-Werts richtig interpretiert werden. Je größer der df-Wert ist, desto kleiner muss der minimale r-Wert sein. 5 Nach T. G. Conolly und W. Sluckin, 1971. An introduction to statistics for the social sciences. London: Macmillan. Faustregel Interpretation Korrelationen 96 Im Allgemeinen ist es so: Wenn alle anderen Bedingungen gleich sind, schneidet man desto besser bei den Klassenarbeiten ab, je mehr Zeit man mit Hausaufgaben für die Schule verbringt. Einmal angenommen, dass wir eine signifikante Korrelation zwischen den zwei Variablen (Zeit, die man mit Hausaufgaben verbringt, und Klausurergebnisse) finden, so scheint es offensichtlich zu sein, dass die erste die letzte kausal bedingt. Trotz dieser scheinbaren Kausalbeziehung ist es nicht erlaubt, auf der Basis einer Korrelationsanalyse zu behaupten, dass eine Variable durch die andere kausal bedingt ist. 6 Wir können die Tatsache, dass eine Korrelation nichts über eine Kausalbeziehung aussagt, anhand von zwei Beispielen illustrieren. Beispiel eins: Es gibt eine Korrelation zwischen der Anzahl von Störchen in den letzten 30 Jahren (die Anzahl der Störche ist in ganz Europa gesunken) und der Anzahl von Geburten (die auch gesunken ist). Offensichtlich kann man aber nicht sagen, dass das eine Phänomen das andere verursacht hat. Ein zweites Beispiel ist die Beziehung zwischen dem Konsumieren von Fernsehsendungen und dem Maß der Aggressivität bei Kindern. Es gibt eine Korrelation zwischen diesen zwei Phänomenen, aber das bedeutet nicht notwendigerweise, dass das Fernsehen Aggression bei Kindern verursacht. Man könnte sogar mit einiger Berechtigung sagen, dass aggressive Kinder dazu neigen, die Gewalt, die im Fernsehen gezeigt wird, zu mögen, und daher mehr fernsehen als friedlicher veranlagte Kinder. Es gibt aber noch viele andere Möglichkeiten, die Korrelation zu interpretieren. Um nur noch eine zu nennen: Es könnte sein, dass Kinder, die wenig Zuwendung bekommen, aggressiv werden und dass diese Kinder auch - mangels sonstiger Ansprache - viel fernsehen. Das bringt uns zu einer weiteren Überlegung. Manchmal gibt es eine Korrelation zwischen zwei Erscheinungen, weil diese beiden Erscheinungen mit einer dritten Erscheinung korreliert sind. Nehmen wir zum Beispiel das folgende Phänomen. Es gibt eine positive Korrelation zwischen der Anzahl von Feuerwehrmännern bei einem Feuer und dem Schaden an dem brennenden Eigentum. Im Allgemeinen ist es also so, dass je mehr Feuerwehrmänner involviert sind, desto mehr Schaden entsteht. Wenn viele Feuerwehrmänner zur Stelle sind, ist der Schaden größer, als wenn nur wenige Feuerwehrmänner das Feuer zu löschen helfen. Diese positive Korrelation könnte eine dahingehende kausale Beziehung zwischen den beiden vorgaukeln, dass Feuerwehrmänner Schaden anrichten. Dies ist jedoch nicht (oder nicht notwendigerweise) der Fall. Tatsächlich gibt es nämlich einen weiteren verborgenen Faktor, nämlich die Größe des Feuers. Je größer das Feuer ist, desto mehr Feuerwehrleute sind notwendig. Ebenso gilt, dass je größer das Feuer ist, desto größer der Schaden ist, den es 6 Um Kausalaussagen machen zu können, muss man andere Techniken anwenden wie beispielsweise die Pfadanalyse. Begründungen Korrelation über Dritte Korrelationen 97 anrichtet. In anderen Worten: (1) Je größer das Feuer, desto mehr Feuerwehrleute. Außerdem: (2) Je größer das Feuer, desto mehr Schaden. Daher: (3) Je mehr Feuerwehrleute, desto mehr Schaden. Wenn die Größe des Feuers eine Konstante ist, d.h., wenn wir uns nur mit kleinen Feuern oder nur mit großen Feuern beschäftigen, dann gibt es keine Korrelation zwischen der Anzahl der Feuerwehrleute beim Feuer und dem Schaden am in Brand geratenen Eigentum. Die Korrelation ist dann praktisch 0. Wir nennen eine solche Korrelation, die nicht “real” ist, sondern von einem dritten, verborgenen Faktor abhängt, eine “irreführende Korrelation” (spurious correlation). Wenn wir vermuten, dass eine Korrelation tatsächlich von einem gemeinsamen verborgenen Faktor verursacht wird, können wir dies testen, indem wir eine sogenannte “partielle Korrelation” berechnen, in welcher der Effekt von einem solchen verborgenen Faktor konstant gehalten wird. 7.4 Wie man Korrelationen präsentiert Es gibt mehr oder minder allgemein akzeptierte Arten und Weisen, wie man die Resultate von Korrelationsanalysen präsentiert. Im Folgenden geben wir ein Beispiel, wie man eine Korrelation präsentieren kann. 7 Wir nehmen an, dass es sich bei dem zu präsentierenden Ergebnis um einen Teil eines größeren Forschungsvorhabens über die Effektivität eines neuen und wesentlich objektiveren Weges der Benotung von Aufsätzen handelt, bei dem der Mittelwert der Länge der Sätze und der Mittelwert der Anzahl der Fehler pro Satz in dem zu benotenden Aufsatz gezählt und die Zahl der Fehler durch den Mittelwert der Satzlänge (in Anzahl der Wörter pro Satz) geteilt wird. Um die Ergebnisse unseres neuen und sehr effektiven Weges, Aufsätze zu benoten, mit den traditionellen Arten zu vergleichen, haben wir die Aufsätze an zwei sehr erfahrene Lehrer gegeben, die unabhängig voneinander diese Aufsätze benotet haben. Die gegebenen Durchschnittsnoten waren 6,2 (s=1,93) und 6,7 (s=1,56), und die Korrelation zwischen den gegebenen Noten war 0,83 (p < 0,01). Unser neues Benotungssystem hat sich dem alten gegenüber auf mehrere Arten als überlegen bewiesen. Erstens: Es ist wesentlich objektiver. Dies wird klar durch […] 7 Der Teil des Beispieltextes im Rahmen, der “(p <0,01)” lautet, bedeutet, dass die Korrelation auf der 0,01-Ebene signifikant ist; p steht für die Wahrscheinlichkeit (probability), dass das Resultat zufällig ist. Diese Wahrscheinlichkeit ist hier kleiner als 1%. Korrelationen 98 Aufgaben 1. Sehen Sie sich die folgenden Ergebnisreihen an, die sich auf die Übersetzung in die und aus der Muttersprache beziehen. Die Bewertungen liegen auf einer 10-Punkte-Skala, mit 10 als der besten Note. aus Muttersprache in Muttersprache John 7 7 Peter 4 7 Ellis 7 6 Sara 6 5 Martin 8 7 Matty 3 10 Eve 5 7 Nancy 5 6 Adam 8 6 Mike 7 8 a) Was ist die Korrelation zwischen den zwei Ergebnisreihen? b) Ist sie positiv? Ist sie hoch? Ist sie signifikant? c) Haben Sie eine Erklärung für die merkwürdigen Resultate von Matty? d) Zeichnen Sie ein Streudiagramm der Daten. 2. Angenommen es gibt eine positive Beziehung zwischen den Testresultaten von Schulkindern und der Anzahl von Büchern in den Häusern, in denen sie wohnen. Was sagt Ihnen das? 3. Es gibt eine positive Korrelation zwischen der Taillengröße von Menschen und ihrem Einkommen. Erklären Sie dieses Phänomen, ausgehend von der Annahme, dass es sich wahrscheinlich um eine irreführende Korrelation handelt. 4. Anglistik-Studenten der Vrije Universiteit in Amsterdam sollen in ihrem zweiten Studienjahr zwei Aufsätze schreiben. In der unten stehenden Tabelle sind die Noten für den ersten und zweiten Aufsatz angegeben (Die Daten sind echt, 7 - ist 6,75, 8+ ist 8,25). Das niederländische Benotungssystem hat 10 Noten, wobei 10 die beste Note ist. a) Was ist die Korrelation zwischen den beiden Benotungen? b) Ist sie positiv? Ist sie hoch? Ist sie signifikant? Stimmt sie mit Ihren Erwartungen überein? c) Zeichnen Sie ein Streudiagramm der Daten. Korrelationen 99 Aufsatz 1 Aufsatz 2 Aufsatz 1 Aufsatz 2 8 7,5 5 5 8 7,5 6,5 7,5 6,5 7- 7,5 7 7 6- 6 6- 8 6 8,5 7- 7,5 7,5 7 8+ 6 6 7+ 7,5 5 7,5 5 7- 5 5 7,5 7 6 4,5 6,5 8 5 5 6,5 7- 6,5 7,5 6 7- 7,5 7 7,5 6,5 5. Gibt es eine positive oder negative Korrelation zwischen Bettnässen und Alter der Kinder? 6. Ist eine Korrelation zwischen zwei Dingen von -0,65 größer oder kleiner als eine Korrelation von +0,45 im Sinne einer “Stärke” der Korrelation? 7. Es gibt eine positive Korrelation zwischen der Anzahl Zigaretten, die man raucht, und dem Auftreten von Herzkrankheiten. Können wir deshalb sagen, dass Rauchen schlecht für die Gesundheit ist? 8. Welches der Streudiagramme unten zeigt die höchste Korrelation? Welches die niedrigste? A B C 100 8 Das Testen des Tests Sprachtests können verschiedene Formate haben. Diese Formate kann man nach der Form der gestellten Frage (offen oder geschlossen) klassifizieren, nach der Art des Tests (mündlich oder schriftlich) und der Art und Weise, in der der Test durchgeführt wird (individuell oder kollektiv). In diesem Kapitel werden wir uns auf das durch die Form der Frage klassifizierte Format konzentrieren. Zuerst werden wir geschlossene Fragen, dann offene Fragen behandeln. Geschlossene Fragen sind Fragen, die eine begrenzte Anzahl von möglichen Antworten haben, aus denen man eine aussuchen kann. Sie sind mit geringem Zeitaufwand zu korrigieren und deshalb sehr beliebt. Offene Fragen sind Fragen, die Antworten verlangen, die nicht vollkommen vorhersagbar sind. Offene Fragen sind die gewöhnliche Frageform in mündlichen und in Schreibfertigkeitstests. Wir beschäftigen uns jedoch im Folgenden vorwiegend mit geschlossenen Fragen, denn bei ihnen kann man im Unterschied zu offenen Fragen, statistisch fundierte Aussagen machen über die einzelnen Teile des Tests und über den aus geschlossenen Fragen bestehenden Test insgesamt. Bei offenen Fragen ist das kaum oder nicht möglich. 8.1 Geschlossene Tests Geschlossene Tests sind normalerweise Multiple-choice-Tests, die aus Fragen bestehen, die beantwortet werden, indem man eine aus einer Reihe von möglichen Antworten auswählt. Hier ist ein Beispiel: Was bedeutet "vakuös"? a) frei b) ziemlich fett c) leer d) injiziert Die Frage wird häufig der Stamm genannt, die angegebenen Möglichkeiten enthalten die korrekte Antwort (in diesem Falle c)) und eine Reihe von Distraktoren, d.h. inkorrekten Antworten (in diesem Falle a), b) und d)). Der Stamm muss keine Frage sein. Er kann auch eine Aussage sein, über die der Schüler sagen soll, ob sie wahr oder falsch ist, oder ein unvollständiger Satz, in den der Schüler eines von mehreren gegebenen Wörter einsetzen soll. Alternative Testarten sind solche, die vom Schüler verlangen, eine Reihe Multiple-choice- Tests Das Testen des Tests 101 von Wörtern mit einer anderen Reihe von Wörtern in Beziehung zu setzen oder das unpassende Wort in einer Reihe von Wörtern zu finden. Ein Multiple-choice-Test besteht aus mehreren Einheiten (Fragen). Einige dieser Einheiten können “besser” als andere sein. Zum Beispiel kann eine bestimmte Einheit sehr schwierig sein in dem Sinne, dass praktisch niemand die richtige Antwort ankreuzt, oder so einfach, dass jeder die richtige Antwort ankreuzt (vielleicht weil die Distraktoren so unwahrscheinlich sind, dass niemand sie auswählt). Es kann auch passieren, dass eine Einheit etwas anderes testet als die anderen Einheiten oder dass der Test als Gesamtheit nicht das testet, was man testen möchte. Dies ist das Problem, mit dem wir uns in diesem Kapitel beschäftigen wollen. Wir werden allerdings nicht behandeln, wie man einen Multiple-choice-Test entwirft oder wie man bestimmt, welches Ergebnis gut genug ist für ein Bestehen des Tests. 1 8.1.1 Einheitenanalyse (item analysis) Wenn man seinen Test so gut wie irgend möglich entworfen haben möchte, muss man sich jeden einzelnen Teil bzw. jede einzelne Einheit des Tests separat ansehen. Man muss also, anders ausgedrückt, eine Einheitenanalyse durchführen, mit der man entscheidet, ob eine bestimmte Einheit gut genug ist in dem Sinne, dass eine korrekte Antwort wahrscheinlich einen Überblick darüber geben wird, was der Getestete weiß oder was er kann. Diese Art von Einheitenanalyse wird normalerweise gemacht n a c h d e m ein Test durch-geführt wurde und die Ergebnisse vorhanden sind. Natürlich muss auch eine Art von Einheitenanalyse durchgeführt werden bevor ein Test durchgeführt wird. Das bedeutet ganz einfach, dass man sorgfältig alle Einheiten überprüfen sollte, bevor man den Test verwendet, und sich dabei fragen sollte, ob jede Einheit wirklich repräsentativ ist für das, was man testen möchte, und ob sie nicht zu leicht oder zu schwer ist. Eine Einheit ist wahrscheinlich zu schwierig, wenn man das Gefühl hat, dass selbst gute Schüler, also Schüler mit viel Wissen oder solche, die viele Stunden geübt haben, sie nicht richtig beantworten könnten. Gleichermaßen ist eine Frage, die allein schon auf der Grundlage von gesundem Menschenverstand beantwortet werden kann, wahrscheinlich keine gute Frage, es sei denn, man testet den “gesunden Menschenverstand”. Es ist jedoch nicht möglich, sich sicher zu sein, ob ein Test wirklich ein guter Test ist und ob die Einheiten gut gewählt sind, bevor man nicht die Daten von Personen hat, die ihn tatsächlich absolviert haben. 1 Siehe hierzu: R. E. Ebel, 1972. Essentials of Educational Measurement. Engelwood Cliffs, New York: Prentice-Hall. Das Testen des Tests 102 Eine Einheit kann sehr leicht sein. Wenn alle Schüler die korrekte Antwort auswählen, haben wir ein 100%-korrekt-Ergebnis. Das niedrigste Prozentkorrekt-Ergebnis wird durch die Wahrscheinlichkeit, dass jeder eine der Optionen zufällig ankreuzt, zum Beispiel durch Raten, bestimmt. 2 Wenn es vier Möglichkeiten gibt (eine korrekte Antwort und drei Distraktoren), bekommen wir wahrscheinlich ein 25%-korrekt-Ergebnis, wenn es drei Möglichkeiten gibt, haben wir wahrscheinlich 33,3% korrekte Antworten. Falls überhaupt keine Möglichkeiten gegeben werden (also im Falle von offenen Fragen), sollte im Falle des Ratens das Prozent-korrekt-Ergebnis bei 0% liegen. Wann ist eine Einheit schwierig oder leicht? Je mehr Schüler eine Einheit korrekt beantworten, desto leichter ist sie. Der Grund muss kein schlechter Test sein; vielleicht gibt es so viele richtige Antworten, weil die Getesteten sich sehr gut auf den Test vorbereitet haben oder weil sie besonders intelligent sind oder weil sie einen exzellenten Lehrer hatten. Andere Gründe wären, dass die Distraktoren nicht attraktiv genug waren oder dass die Einheit korrekt zu beantworten nichts weiter als gesunden Menschenverstand erforderte. In den letzten beiden Fällen ist die Einheit nicht gut konstruiert. Der Anteil der Personen, die eine Einheit korrekt beantworten, wird p- Wert (von “proportion”) genannt. 3 Wenn 90% aller Getesteten die korrekte Antwort auswählen, ist der p-Wert dieser Einheit 0,90. Der maximale p- Wert ist 1 (was der Fall ist, wenn jeder die korrekte Antwort weiß), und der minimale ist 0 (wenn niemand die richtige Antwort weiß). Bei Multiplechoice-Tests mit vier Möglichkeiten versucht man, einen p-Wert zwischen 0,50 und 0,75 zu erreichen, obwohl es natürlich Gründe geben kann, eine Einheit in einem Test zu haben, deren p-Wert in diesem Fall größer als 0,75 wäre. Zum Beispiel kann man die erste Frage in einem Test mit Absicht leicht gestalten, um bei den Prüfungsteilnehmern Stress abzubauen. Es ist nicht sinnvoll, besonders schwierige Fragen in einen solchen Test aufzunehmen, in der Absicht, die hervorragenden von den besonders guten Schülern unterscheiden zu können, denn die hervorragenden Schüler werden (fast) alle Fragen richtig beantworten können, und sogar von den schlechten Schülern werden bei einer Frage mit vier Antwortalternativen ein Viertel die Frage durch Raten richtig beantworten. Wenn zu viele Personen einen Distraktor statt der korrekten Antwort auswählen, kann auch etwas an der Einheit falsch sein. Man kann die Anzahl der Schüler berechnen, die einen bestimmten Distraktor gewählt haben. 2 Sehr häufig sind nicht alle Distraktoren gleich attraktiv oder plausibel. Wenn zwei der vier Optionen sofort von der Hand gewiesen werden können, wird die Wahrscheinlichkeit, die richtige Antwort anzukreuzen, drastisch höher. 3 Damit der p-Wert eine sinnvolle Information liefert, sollte die Anzahl der Getesteten größer als 25 sein. Dieser p-Wert (von “proportion”) sollte nicht mit dem p aus dem Bereich der Signifikanz (von “probability”) verwechselt werden. p-Wert Das Testen des Tests 103 Dieser Wert, den wir den d-Wert nennen (d steht für Distraktor), sollte kleiner als der p-Wert der dazugehörigen Einheit sein. Wenn er höher ist, dann ist wahrscheinlich etwas mit der Einheit nicht in Ordnung. Neben dem p-Wert einer Einheit ist wichtig, wie gut diese Einheit zwischen guten und schlechten Schülern differenziert. Diese Differenzierung wird der D-Index genannt. Idealerweise würde man erwarten, dass das Durchschnittsergebnis derjenigen, die eine bestimmte Einheit korrekt beantworten, besser ist als das Durchschnittsergebnis derjenigen, die sie falsch beantworten. Wenn dies nicht der Fall sein sollte, befindet man sich in der unbequemen Lage, beantworten zu müssen, warum eine bestimmte Einheit von schlechten Schülern richtig beantwortet wird, während gute Schüler sie falsch beantworten. Tabelle 1 beste Schüler schlechteste Schüler Schüler Ergebnis bei Einheit x Schüler Ergebnis bei Einheit x 1 1 16 1 2 1 17 0 3 0 18 1 4 1 19 0 5 1 20 0 Summe 4 Summe 2 p-Wert 0,80 p-Wert 0,40 Die Berechnung des D-Index ist recht einfach. Nehmen wir an, dass wir eine Gruppe von 20 Testteilnehmern haben und herausfinden möchten, ob Einheit x gut genug zwischen guten und schlechten Schülern differenziert. Dazu gehen wir wie folgt vor: Wir bringen die Ergebnisse aller Getesteten in eine Rangordnung von gut nach schlecht. Man nimmt die besten 25% und die schlechtesten 25%, d.h. in unserem Fall die fünf besten und die fünf schlechtesten Schüler. Tabelle 1 sagt uns, ob die fünf besten Schüler (1 bis 5) und die fünf schlechtesten Schüler (16 bis 20) eine bestimmte Einheit richtig oder falsch beantwortet haben (1 = richtig, 0 = falsch). Man berechnet in jeder Gruppe den Anteil der Schüler, die die Einheit korrekt beantwortet haben (hier liegen die p- Werte bei 0,80 und 0,40), und subtrahiert den p-Wert der Gruppe der schlechten von dem der guten Schüler. Der erzielte Wert ist der D-Index, in unserem Fall 0,80 - 0,40 = 0,40. Wir können sehen, dass der D-Index zwischen +1 und -1 schwanken kann, wobei ersteres eine perfekte Differenzierung und letzteres eine Einheit mit einer völlig falschen Differenzierung zwischen guten und schlechten d-Wert D-Index Das Testen des Tests 104 Schülern bedeutet. Ein D-Index von ungefähr 0 bedeutet, dass die Einheit überhaupt nicht zwischen guten und schlechten Schülern differenziert. Wenn ein Test aus vielen verschiedenen Teilfragen besteht, ist es unpraktisch, für jede Teilfrage “von Hand” auszurechnen, ob sie zu den anderen passt. Es ist sinnvoller, dafür ein Statistikprogramm zu benutzen. Zum Beispiel mit SPSS kann man sehr einfach mit dem Verfahren Cronbach´s alpha ausrechnen lassen, wie hoch die Verlässlichkeit eines Tests insgesamt ist (zur “Verlässlichkeit” von Tests s. 8.4 im Folgenden), wobei für jede Teilfrage angegeben wird, wie gut sie mit den anderen korreliert. Das gibt der Forscherin die Möglichkeit, weniger gute Teile aus dem Test zu entfernen. Da das eine recht spezielle Methode ist, können wir sie hier allerdings nicht im Detail behandeln. 8.2 Offene Tests In offenen Tests muss der Schüler die Antwort selbst formulieren. Mündliche Tests sind dafür sehr typisch und eignen sich nicht besonders gut für statistische Analysen, weil jeder mündliche Test ein einzigartiges Gespräch mit einer individuellen Interaktion zwischen Prüfer und Prüfling darstellt. Diese Einzigartigkeit macht es unmöglich, einen bestimmten Test mit den Tests anderer Schüler zu vergleichen, weil man keine Einheitenanalyse anwenden oder die Verlässlichkeit berechnen kann, wie dies in geschlossenen Tests möglich ist. Es wurden Versuche unternommen, selbst Prüfungsgespräche so zu strukturieren, dass eine objektive Bewertung möglich ist - denn objektive Bewertung ist die erste Notwendigkeit, um Tests zu analysieren -, aber die Ergebnisse dieser Versuche in der Praxis waren nicht beeindruckend. Einige offene Tests jedoch sind in gewisser Weise geschlossenen Tests sehr ähnlich. Ein Beispiel ist ein Grammatiktest, in dem der Schüler Sätze vervollständigen muss. Nehmen wir an, der Schüler soll einen Satz vervollständigen, der mit Kaum jemals _________________________ beginnt, und der Forscher möchte wissen, ob der Schüler weiß, dass nach dieser Wendung eine Inversion von Subjekt und Prädikat stattfindet. Das Ergebnis kann mit 1 (korrekt) bewertet werden, wenn der Schüler folgendes schreibt: Kaum jemals kam er im Abend ans Haus Offene Tests Satzergänzungstests Das Testen des Tests 105 weil “kam er” die geprüfte Inversion darstellt. Dass der Schüler ansonsten einige Fehler gemacht hat, wäre hier irrelevant. Das Ergebnis wäre jedoch 0 (falsch), wenn der Schüler: Kaum jemals er kam vor Mitternacht nach Hause schreibt, weil die Inversion nicht erfolgt ist. Bei einem offenen Test mit dieser Art von Einheiten kann die Umsetzung in Zahlen ebenso wie bei geschlossenen Fragen erfolgen. Ähnlich verhält es sich mit den gebräuchlichen Cloze-Tests, bei denen nach einem festgelegten Verfahren in - meist vier - kurzen Texten mit steigendem Schwierigkeitsgrad Teile der Wörter zu ergänzen sind. Wenn eindeutige Korrekturvorschriften verwendet werden, sind diese Tests auch wie geschlossene auszuwerten. 8.3 Gemischte Tests Bei Sprachtests ist es nicht ungewöhnlich, Testreihen zu benutzen, die aus geschlossenen und offenen Tests bestehen. Solch eine Reihe kann zum Beispiel aus zwei geschlossenen Tests (einem Vokabeltest mit 60 Einheiten und einem Satzergänzungstest mit 100 Einheiten) und zwei offenen Tests (einem Aufsatz und einer mündlichen Prüfung) bestehen. Die Endnote des Schülers, der alle vier Tests absolviert hat, kann der Mittelwert aus allen vier Tests, dargestellt in Prozenten, sein, oder sie kann das Ergebnis einer anderen Art von Berechnung sein. Man kann beispielsweise einen Test stärker gewichten wollen, beispielsweise wenn man die Note für den mündlichen Test als wichtiger erachtet als die Note für den Vokabeltest. Für die beiden geschlossenen Tests kann man die Verlässlichkeit schätzen; dies wäre bei den offenen Tests sinnlos. Man kann allerdings die Korrelationen zwischen den vier Einzeltests berechnen. Diese Korrelationen wären aber wahrscheinlich nicht sehr hoch. 8.4 Validität Selbstverständlich gelten auch für Sprachtests die Gütekriterien, die generell für empirische Verfahren gelten. 1985 wurden von der American Psychological Association Standards für erzieherisches und psychologisches Testen publiziert, die sehr explizit feststellen: Validitätsbeweise sollten für die Haupttypen von Schlussfolgerungen gegeben werden, für die die Benutzung eines Tests empfohlen wird. Diese Aussage betrifft die Notwendigkeit der Validierung eines Tests. Ein Test hat Validität, wenn er testet, was er testen soll. Dies erscheint auf den ersten Blick trivial, aber es ist häufig sehr Gemischte Tests Validität Das Testen des Tests 106 schwierig, sich wirklich sicher zu sein, dass ein Test tatsächlich das testet, was man mit ihm testen möchte. Ein Beispiel: Ein Lesetest wurde entworfen, um das Lesevermögen der eigenen Schüler zu testen, aber in Wirklichkeit testet er womöglich nur Vokabelkenntnisse oder, noch schlimmer, Weltwissen oder die Übereinstimmung der Schüler mit dem, was der Lehrer über den Text denkt. Gerade bei multiple-choice-Hörverständnistests hat man sich öfters den Scherz erlaubt, sie von Personen ausfüllen zu lassen, die den Text überhaupt nicht gehört hatten, und bei vielen Tests erreichten sie mehr als 50 % richtige Antworten. Diese Tests haben also ganz offensichtlich nicht das Hörverständnis gemessen, sondern die Intelligenz und das Weltwissen. 8.5 Verlässlichkeit (Reliabilität) Verlässlichkeit bezieht sich auf die Stimmigkeit des Messverfahrens. Im Prinzip sollte ein Schüler, wenn alle Störfaktoren ausgeschlossen werden, bei einem Test immer das gleiche Ergebnis erzielen, wenn der Test unzählige Male durchgeführt wird. Wenn die meisten Schüler montags ein Ergebnis von 60 richtigen Antworten bei einem 100-Einheiten-Test erreichen und bei dem gleichen Test eine Woche später nur ein Ergebnis von 30 richtigen Antworten, dann ist es sehr wahrscheinlich, dass irgendetwas nicht stimmt. Man kann einen Test mit einem Lineal vergleichen. Wenn man eine Anzahl Schuhe mit einem Lineal mehrere Male misst, dann erhält man jedes Mal die gleichen Ergebnisse, weil das Lineal aus Holz oder Metall oder einem anderen nicht verformbaren Material gemacht ist. Es ist “verlässlich”. Wenn es aus einem elastischen Material hergestellt wäre, wäre es möglich, dass man verschiedene Ergebnisse bei verschiedenen Messversuchen erhält, und das Lineal hätte keine besonders hohe “Verlässlichkeit”. Es gibt mindestens drei Arten, die Verlässlichkeit eines Tests einzuschätzen: Die Doppeltestmethode (test-retest), parallele Tests, und Methoden, die interne Stimmigkeit festzustellen. Die Doppeltestmethode nimmt an, dass ein Test verlässlich ist, wenn die Ergebnisse des Tests eine hohe Korrelation mit den Ergebnissen des gleichen Tests (retest) aufweisen, wenn dieser denselben Schülern einige Zeit später vorgelegt wird. Der Korrelationskoeffizient ist in diesem Falle der Verlässlichkeitskoeffizient. Dieser Koeffizient sollte bei 0,85 oder höher liegen. Ein Nachteil dieser Methode ist der, dass die Getesteten dazu neigen, beim Ausfüllen des Tests zu lernen und somit ihr Ergebnis beim zweiten Testdurchgang vom ersten abweicht. Wenn man parallele Tests benutzt, berechnet man den Korrelationskoeffizienten (der hier wiederum der Verlässlichkeitskoeffizient genannt wird) von zwei parallelen Tests. Beispielsweise kann man zwei Grammatik- Drei Arten Das Testen des Tests 107 tests konstruieren, die sich sehr ähneln und die gleiche Anzahl von Einheiten (sagen wir: 100) mit der gleichen Aufteilung in Kategorien (zum Beispiel 10 Einheiten Wortreihenfolge, 8 Einheiten Präsens etc.) besitzen und in denen jede Einheit des einen Tests eine entsprechende Einheit mit dem gleichen Schwierigkeitsgrad im anderen Test findet. Auch hier sollte der Verlässlichkeitskoeffizient bei 0,85 oder höher liegen. Obwohl man meinen könnte, dass es einfach ist, einen parallelen Test zu entwerfen, ist es in der Praxis dann doch sehr schwierig, zwei Tests vollkommen parallel zu machen. Weil sowohl Doppelals auch parallele Tests ihre Nachteile haben, werden normalerweise Tests der internen Stimmigkeit benutzt, um die Verlässlichkeit einzuschätzen. Das Split-half-Verfahren wird durchgeführt, indem man einen Test in zwei Hälften aufteilt. Diese Hälften können aus der ersten und zweiten Hälfte des Tests bestehen oder, und dies ist meist besser, jeweils aus den ungeraden und den geraden Einheiten des Tests. Auf diese Weise kann man die Korrelation zwischen den Ergebnissen der beiden Testhälften errechnen. Der errechnete Korrelationskoeffizient gibt einem die Verlässlichkeit für den halben Test. Um den Verlässlichkeitskoeffizienten für den gesamten Test (r k ) zu erhalten, muss man die Spearman-Brown-Formel benutzen: r k = 2 1 1 1 r r + in der r 1 der Korrelationskoeffizient ist, den man erhält, wenn man die zwei Testhälften korreliert. Ein Beispiel: Nehmen wir an, wir haben einen Grammatiktest, der aus 100 Einheiten besteht, durchgeführt. Wir teilen nun den Test in zwei Hälften, jede mit 50 Einheiten. Nun berechnen wir die Korrelation zwischen den zwei Testhälften. Nehmen wir an, die Korrelation (r 1 ) ist 0,86. Setzen wir dies in die Formel ein, so erhalten wir: r k = ( ) ( , ) , 2 0 86 0 86 1 + = 1 72 1 86 , , = 0,92 Ein Verlässlichkeitskoeffizient von 0,92 zeigt uns, dass der Test sehr verlässlich ist. Man kann die Verlässlichkeit eines Tests außerdem noch mit Hilfe der Cronbach alpha- (hier nicht behandelt) oder der KR-21-Formel einschätzen. 4 Die KR-21-Formel nutzt die Anzahl von Einheiten in einem Test (K), die Mittelwerte des Tests ( X = 30) und die Standardabweichung (s). Sie lautet wie folgt: r = K K 1 (1 X(K X) Ks ) 2 − − − 4 “KR” steht für Kuder und Richardson, die diese Formel entwickelt haben. Split-half- Verfahren KR-21 Das Testen des Tests 108 Angenommen, wir haben einen Test mit 50 Einheiten, dann ist K = 50, und angenommen, der Mittelwert des Tests ist X _ = 30 und die Standardabweichung ist s = 5, dann erhalten wir, wenn wir diese Werte in die Formel einsetzen: r = 50 50 1 1 30 50 30 505 2 − − − ( ( ) ) = 1,02 ( 1 - 600 1250 ) = 1,02 (1 - 0,48) = 0,53. Dies ist zwar nicht sehr hoch, aber wenigstens auch nicht sehr niedrig. Der Test ist also “so mittel” in Bezug auf die Verlässlichkeit. Die Verlässlichkeit eines Tests wird von einigen Faktoren beeinflusst: • Testlänge (je länger ein Test ist, desto verlässlicher ist er) • Zusammensetzung der Gruppe der Getesteten (wenn alle Schüler praktisch die gleiche Wissensbasis haben, gleich klug sind und ungefähr das gleiche Ergebnis erzielen, ist die Verlässlichkeit niedrig) 5 • Zeit, die für den Test zur Verfügung steht (wenn die Schüler nicht genug Zeit zur Verfügung haben, ist die Verlässlichkeit im Allgemeinen niedrig) • Homogenität der Einheiten (wenn die Einheiten den gleichen Aspekt testen, ist die Verlässlichkeit höher, als wenn sie dies nicht tun) • Objektivität der Bewertung (diese ist bei Multiple-choice-Tests normalerweise gegeben, aber selten bei offenen Tests) • D-Index der Einheiten (wenn die Einheiten gut zwischen gut und schlecht differenzieren, ist die Verlässlichkeit höher, als wenn sie dies nicht tun). Der wichtigste Faktor ist die Testlänge. Im Großen und Ganzen kann man sagen, dass ein Test um so verlässlicher ist, je länger er ist (d.h., je mehr Einheiten er hat). Es ist tatsächlich so, dass man, wenn man eine nicht besonders hohe Verlässlichkeit bei einem Test hat (in etwa 0,50) und man gerne eine Verlässlichkeit von 0,80 erreichen möchte, den Test viermal so lang machen muss. Eine Berechnung der benötigten Testlänge zum Erzielen eines bestimmten Verlässlichkeitskoeffizienten - von zum Beispiel 0,90 statt der bisher erreichten 0,50 - erfordert die Benutzung der Spearman-Brown- Korrekturformel. Nehmen wir also an, ein Test hat 30 Einheiten und einen Verlässlichkeitskoeffizienten von 0,50. Die Formel, die hierbei anzuwenden ist, lautet: 5 Dass das so ist, kann man leichter nachvollziehen, wenn man an die Konsequenzen einer geringen Varianz für eine eventuelle Testwiederholung denkt. Wenn alle Ergebnisse ganz dicht beieinander liegen, kann es gut sein, dass bei einer Wiederholung diejenigen schlechter abschneiden, die vorher besser abgeschnitten haben. Testlänge Das Testen des Tests 109 M = r r r r a o o a ( ) − − 1 1 wobei M für den Multiplikationsfaktor steht und r a die Verlässlichkeit, die man mit dem Test erreichen möchte (in diesem Fall 0,90), und r o die Verlässlichkeit ist, die der Test in seiner jetzigen Länge hat (bei uns 0,50). Setzen wir diese Werte in die Formel ein, so erhalten wir: M = 0 90 0 50 0 50 1 0 90 1 , , ( , , ) − − = (1,8) (5) = 9 Dies bedeutet, dass der Test 9-mal so lang sein muss, um einen Verlässlichkeitskoeffizienten von 0,90 zu erreichen. Unser Test hatte 30 Einheiten; wir müssten ihn also auf 270 Einheiten aufblähen (und dabei beachten, dass die zusätzlichen Einheiten die gleichen Aspekte testen…). Es ist offensichtlich, dass ein derart langer Test andere Probleme wie beispielsweise Erschöpfung bei den Schülern verursacht, die dann wiederum die Verlässlichkeit senken würden. Das Testen des Tests 110 Aufgaben 1. Nehmen Sie die folgenden Ergebnisse eines Grammatiktests und das Ergebnis jedes einzelnen Schülers bei einer bestimmten Einheit (Einheit x; in Spalte 4 bedeutet 1, der Schüler wusste die richtige Antwort, 0 bedeutet eine falsche Antwort). Spalte 5 gibt Noten an auf einer Skala von 1 bis 100. Für diese Aufgabe ist die letzte Spalte irrelevant. Ergebnis beim Grammatiktest 1 Einheit x richtig beantwortet Ergebnis beim Grammatiktest 2 1 Theo 6 1 55 2 Herbert 5 1 60 3 Martin 8 1 70 4 Kay 7 0 50 5 Vera 7 1 50 6 Lynn 6 0 75 7 Maggie 6 0 60 8 Geoff 8 1 65 9 Rod 2 0 35 10 Petra 3 0 35 11 John 7 1 70 12 Peter 4 0 45 13 Ellis 7 0 75 14 Sara 6 1 60 15 Martin 8 1 90 16 Matty 3 1 60 17 Eve 5 0 60 18 Nancy 5 0 40 19 Adam 8 1 75 20 Mike 7 0 65 a) Berechnen Sie den p-Wert von Einheit x und ihren D-Index. b) Berechnen Sie den punktbiserialen-Korrelationskoeffizienten der Einheit. Wären Sie dafür, die Einheit im Grammatiktest beizubehalten? 2. Bestimmen Sie die Verlässlichkeit des Grammatiktests, indem Sie die Daten in der letzten Spalte benutzen. Dieser Test bezog sich auf eine Skala von maximal 100 Punkten, die zu erreichen waren. 3. Nehmen wir an, wir wollen, dass die Verlässlichkeit des Grammatiktests mindestens 0,86 beträgt. Wie könnten wir das erreichen? 111 9 Wann sind Unterschiede bedeutsam? Wenn wir ein Experiment durchführen, vergleichen wir die Daten verschiedener Zustände oder Ausprägungen der abhängigen Variablen. Tabelle 1 ist ein Beispiel für eine Reihe von Daten, die aus verschiedenen Experimenten stammen können. Tabelle 1 Forschungsfrage Zustand X Zustand Y (1) Beeinflusst Alkohol die Fahrtüchtigkeit? umgefahrene Verkehrshütchen in nüchternem Zustand umgefahrene Verkehrshütchen in “betrunkenem” Zustand (2) Gibt es einen Unter- schied zwischen Vokabellehrmethode X und Y? Ergebnisse bei einem Vokabeltest nach Lehrmethode X Ergebnisse bei einem Vokabeltest nach Lehrmethode Y (3) Gibt es eine Beziehung zwischen Hör- und Leseverständnis? Ergebnisse bei einem Hörverständnistest Ergebnisse bei einem Leseverständnistest Testpersonen X Y Ellis 4 5 Sara 4 8 Martin 2 7 Matty 2 6 Eve 7 8 Nancy 5 8 Mittelwert 4 7 s 1,73 1,15 Die Daten aus Tabelle 1 legen ein Wiederholte-Messungen-Design nahe, weil jeder der Testpersonen zwei Ergebnisse zugeordnet werden. Angenommen, diese Daten wären so entstanden, dass wir nicht eine Gruppe von 6 Personen zweimal, sondern zwei Gruppen von je 6 Personen, also 12 Personen, unabhängig voneinander die Aufgaben lösen lassen (also 6 nüchterne und 6 andere, betrunkene Personen fahren den Parcours mit den Verkehrshütchen im 1. Fall), dann haben wir ein Unabhängige-Gruppen- D e s i g n . Neben der Identifizierung des Forschungsdesigns (bzw. Forschungsentwurfs) ist es auch wichtig festzustellen, mit welcher Art von Inferentielle Statistik Wann sind Unterschiede bedeutsam? 112 Daten wir es zu tun haben, d.h., auf welcher Art von Skala sie angeordnet sind: Ordinal-, Nominal- oder Intervallskala. Wir werden annehmen, dass die Daten in Tabelle 1 und 2 auf einer Intervallskala angeordnet sind (in unserem Beispiel auf einer Skala von 0 bis 10). Wenn wir uns die Durchschnittswerte für die zwei Zustände (4 und 7) ansehen, stellen wir einen Unterschied fest. Nun stellt sich die Frage, ob wir sagen können, dass sich Zustand X wirklich von Zustand Y unterscheidet, denn wir finden natürlich immer Unterschiede, wenn wir die Ergebnisse von zwei Gruppen oder zwei Tests vergleichen: Ergebnisse sind nie exakt gleich. Wir müssen also sagen können, ob die Unterschiede signifikant sind, d.h., nicht durch Zufall entstanden sind, sondern durch den Unterschied der Zustände. Und so kommen wir zur inferentiellen Statistik. Die inferentielle Stastitik gibt uns die Möglichkeit zu testen, ob die von uns gefundenen Unterschiede signifikant sind. Welchen statistischen Test wir verwenden müssen, hängt ab von unserem Forschungsdesign und der Art der Daten, die wir haben. Im Falle von Forschungsfrage (2): “Gibt es einen Unterschied zwischen Vokabellehrmethode X und Y? ”, deren Ergebnisse wir in Tabelle 1 finden, haben wir ein Wiederholte-Messungen-Design mit intervallskalierten Daten (beispielsweise die Anzahl der richtig übersetzten Wörter). In diesem Fall können wir einen t-Test 1 für ein Wiederholte- Messungen-Design verwenden, den t-Test für korrelierende Stichproben. Von jetzt an benutzen wir das Wort “Test” für einen statistischen Test, nicht für einen Test, der Teil eines Experiments ist. 9.1 Der t-Test 9.1.1 t-Test für korrelierende Stichproben Der Test wird wie folgt durchgeführt: Schritt 1: Man schreibt die Ergebnisse jeder Testperson nebeneinander in zwei Spalten (Spalte 1: Zustand X, Spalte 2: Zustand Y), berechnet die Differenz zwischen den zwei Ergebnissen jeder Person (D) und quadriert diese Differenz (D 2 ). Dann berechnet man die Summe der Werte in Spalte D ( Σ D) und in Spalte D 2 ( Σ D 2 ). Dies ist in Tabelle 2 beschrieben. Die Formel für den t-Test enthält einige Symbole (SDD und SED), die wir separat auflösen müssen. Beim Benutzen der Formel für den t-Test verfahren wir, nachdem wir Schritt 1 ausgeführt haben, wie folgt: 1 Ein t-Test wird manchmal auch “Student's t-test” genannt nach dem Pseudonym des Mathematikers, der ihn entwickelt hat. Korrelierende Stichproben Wann sind Unterschiede bedeutsam? 113 Schritt 2: Berechnung von SDD, Schritt 3: Berechnung von SED, Schritt 4: Einsetzen der Ergebnisse der Schritte 1 bis 3 in die Formel für den t-Test. Tabelle 2 Versuchsteilnehmer Zustand X Zustand Y D D 2 Ellis 4 5 -1 1 Sara 4 8 -4 16 Martin 2 7 -5 25 Matty 2 6 -4 16 Eve 7 8 -1 1 Nancy 5 8 -3 9 Summe Σ D = -18 Σ D 2 = 68 Mittelwert X = 4 Y = 7 n 6 (n ist die Anzahl der gepaarten Ergebnisse, was hier der Anzahl der Testpersonen entspricht.) Schritt 2: Berechnung von SDD (der Standardabweichung der Differenzen, standard deviation of differences). ( ) ( ) 67 , 1 8 , 2 5 14 1 6 18 6 1 68 1 1 2 2 2 ≈ = = − − − = − − = ∑ ∑ n D n D SDD Schritt 3: Berechnung von SED (der Standardfehler des Mittelwertes, standard error of deviation). 68 , 0 45 , 2 67 , 1 6 67 , 1 ≈ ≈ ≈ = n SDD SED Schritt 4: Einsetzen der Ergebnisse der Schritte 1 bis 3 in die Formel für den t-Test. Die Formel für den t-Test lautet: SED Y X t − = Wann sind Unterschiede bedeutsam? 114 Das Einsetzen 2 der Werte ergibt: 39 , 4 68 , 0 3 68 , 0 7 4 − ≈ − = − ≈ t Um herauszufinden, ob dieser Wert (- 4,39) signifikant ist, benutzen wir Anhang 2. Zunächst müssen wir aber noch einen anderen Wert ermitteln, um die Tabelle benutzen zu können, den df-Wert (degrees of freedom, Freiheitsgrade). In einem t-Test für korrelierende Stichproben ermitteln wir df durch Subtrahieren von 1 von der Anzahl der gepaarten Ergebnisse: df = n - 1 = 6 - 1 = 5). In diesem Fall gibt es also 5 df. Wir gehen jetzt in die mit df beschriftete Zeile im Anhang 2. In dieser Zeile finden wir drei Angaben: 2,57, 4,03, 6,86. Wir beachten das Minuszeichen vor unserem Wert von -4,39 nicht und erhalten 4,39. Dieser Wert liegt zwischen dem zweiten (4,03) und dritten (6,86) Wert in der Tabelle. Wir nehmen nun den niedrigeren (linken) Wert der beiden, also 4,03. Dann gehen wir in der Spalte nach oben und entnehmen dort das Signifikanzniveau: 0,01. Das bedeutet, dass unser t-Wert signifikant auf dem 0,01-Niveau ist. Mit anderen Worten: Die Wahrscheinlichkeit, dass die Differenz zufällig ist, ist geringer als 0,01 bzw. 1%; die Differenz ist also mit 99%-iger Wahrscheinlichkeit nicht durch Zufall bedingt. 9.1.2 t-Test für unabhängige Gruppen Wenn ein Unabhängige-Gruppen-Design vorliegt, kann der t-Test ebenfalls verwendet werden, hat aber eine andere Form. Überdies ist er dann einfacher anzuwenden. Nehmen wir an, wir haben zwei (zufällig ausgewählte) Gruppen von Schülern und lehren das Leseverständnis auf zwei unterschiedliche Arten - zum Beispiel mit einer traditionellen Methode (Methode Y) und einer 2 Wenn Zwischenergebnisse ausgerechnet werden, die später noch für weitere Berechnungen benutzt werden, sollten diese mit der maximal möglichen Genauigkeit weiterverwendet werden. Sinnvollerweise rundet man erst beim Endergebnis auf eine “handliche” Stellenzahl. So ist es auch bei den Beispielrechnungen in diesem Kurs geschehen; die Zwischenergebnisse wurden zwar der Übersichtlichkeit halber “handlich” gerundet angegeben, für die weiteren Berechnungen wurde aber jeweils das ungerundete Ergebnis mit der maximal möglichen Stellenzahl verwendet. Wenn zum Beispiel zwei Nachkommastellen in einem Ergebnis angegeben sind (zum Beispiel 1,00), bedeutet das, dass dieses Ergebnis auch tatsächlich mit einer Genauigkeit von zwei Nachkommastellen errechnet wurde. Soll aber das Endergebnis auf zwei Nachkommastellen genau sein, müssen vorherige Zwischenergebnisse mit entsprechend höherer Genauigkeit als zwei Nachkommastellen berechnet worden sein, um eine Erhöhung des Rundungsfehlers zu vermeiden. Unabhängige Gruppen Wann sind Unterschiede bedeutsam? 115 solchen Methode, die die Schüler anregt, die Bedeutung der unbekannten Wörter zu erraten (Methode X). Tabelle 3 Experimentalgruppe Kontrollgruppe Methode X Methode Y Testpersonen Ergebnisse X Ergebnisse zum Quadrat X 2 Ergebnisse Y Ergebnisse zum Quadrat Y 2 1 8 64 5 25 2 7 49 6 36 3 7 49 6 36 4 9 81 4 16 5 8 64 6 36 6 8 64 5 25 7 9 81 3 9 8 8 64 Summe Σ X = 64 Σ X 2 = 516 Σ Y = 35 Σ Y 2 = 183 Mittelwert X = 8 Y = 5 n n1 = 8 n2 = 7 Differenz zwischen den Mittelwerten X - Y = 3 Am Ende des Schuljahres lassen wir sie einen Test absolvieren; dessen Resultate finden sich in Tabelle 3. Obwohl wir mit jeweils zehn Schülern pro Gruppe anfingen, gehören den beiden Gruppen eine unterschiedliche Anzahl von Schülern an, da zwei Schüler aus Gruppe X und drei Schüler aus Gruppe Y im Laufe des Experiments absprangen. Das ist ärgerlich, aber hindert uns nicht daran, statische Berechnungen durchzuführen. Um herauszufinden, ob die ermittelten Differenzen signifikant sind, führen wir einen t- Test für unabhängige Gruppen mit folgenden Schritten durch. Schritt 1 Erstellen einer Tabelle mit den Ergebnissen der Testpersonen der beiden Gruppen (s. Tabelle 3); Quadrieren jedes Ergebnisses in einer separaten Spalte. Berechnen der Mittelwerte der X- und Y-Ergebnisse sowie von deren Differenz ( X - Y ). Wann sind Unterschiede bedeutsam? 116 Schritt 2 Berechnen von SSx (Summe der Quadrate (sum of squares) von X) und SSy (Summe der Quadrate (sum of squares) von Y). Zu beachten ist, dass die Summen der Quadrate nicht direkt der Tabelle entnommen werden können, sondern nach den folgenden Formeln berechnet werden müssen: ( ) ∑ − = 1 2 n X X SSx ∑ 2 2 und ( ) ∑ − = 1 2 n Y Y SSx ∑ 2 2 . Das Einsetzen der Daten ergibt: SSx = 516 - 642/ 8 = 4 und SSy = 183 - 352/ 7 = 8. Schritt 3 Einsetzen der Werte aus Schritt 1 und 2 in die Formel für den t-Test: ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ + − + + − = 2 1 2 1 1 1 2 n n n n SSy Y SSx X t Das Einsetzen der Daten ergibt: ( ) 143 , 0 125 , 0 13 12 3 7 1 8 1 2 7 8 8 4 5 8 ≈ + ≈ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + − + + − = t 03 , 6 497 , 0 3 247 , 0 3 268 , 0 923 , 0 3 ≈ ≈ ≈ ⋅ Schritt 4 Wir schlagen den t-Wert 6,03 im Anhang 2 nach, um zu sehen, ob dieser Wert signifikant ist. Dazu müssen wir erst feststellen, in welcher Reihe wir nachsehen müssen, d.h., welche Freiheitsgrade (df) wir haben. In einem t- Test für unabhängige Gruppen ist df = n1 + n2 - 2. In unserem Fall ergibt dies 8 + 7 - 2 = 13. Wir sehen also in Reihe 13 nach und finden dort drei Angaben (2,16, 3,00 und 4,22). Unser Wert von 6,03 ist größer als der am weitesten rechts stehende der drei Angaben in der Tabelle. Wir gehen also zur obersten Reihe der ganz rechts gelegenen Spalte und erhalten so unser Signifikanzniveau von 0,001. Das bedeutet, dass unser t-Wert signifikant im 0,001-Niveau ist. Mit anderen Worten: Die Wahrscheinlichkeit, dass die Differenz zufällig ist, ist geringer als 0,001 bzw. 0,1% (ein Tausendstel) - Wann sind Unterschiede bedeutsam? 117 die Differenz ist also mit 99,9%-iger Wahrscheinlichkeit nicht durch Zufall bedingt. 9.1.3 Annahmen, die der t-Test voraussetzt Wir können den t-Test nur benutzen, wenn bestimmte Bedingungen erfüllt sind. Unter den wichtigsten sind die folgenden: 3 Die Ergebnisse, mit denen wir arbeiten, sind intervallskaliert. Die Ergebnisse sind “normalverteilt”, d.h., wir sollten niedrige und hohe Werte haben, und die meisten Werte sollten in der Mitte dazwischen liegen (wie in Abb. 1). Weil wir nur selten eine “Normalverteilung” erhalten, wenn wir (viel) weniger als 20 Testergebnisse haben, sollten wir den t-Test nicht bei kleinen Testgruppen einsetzen. .4 Stattdessen verwendet man für kleine Gruppen den Mann-Whitney-U-Test. Da es selten vorkommt, dass man so kleine Gruppen untersucht, und der t-Test auch relativ stabil ist selbst bei etwas kleineren Gruppen, gehen wir auf den Mann-Whitney-U-Test im Folgenden nicht ein, empfehlen ihn aber, falls Sie wirklich ganz kleine Gruppen untersucht haben. Die unabhängige Variable kann nur zwei Ebenen haben, d.h., einen t- Test kann man nur benutzen, um zwei Gruppen zu vergleichen. Wenn man statt der zwei Ergebnislisten drei hat (dies wäre der Fall, wenn wir drei Ebenen der Variablen “Methode” hätten, Methode X, Methode Y und Methode Z), kann man den t-Test nicht benutzen. Wir dürfen auch nicht so vorgehen, dass wir X mit Y vergleichen, und Y mit Z und X mit Z. Wenn es mehr als eine Variable gibt oder mehr als zwei Ebenen einer Variablen, müssen wir eine Varianzanalyse (ANOVA, analysis of variance) durchführen. Wenn Sie t-Tests vom Computer rechnen lassen, werden Sie immer gefragt, ob Sie ein- oder zweiseitige Tests rechnen wollen (“one-tailed” oder “two-tailed”). Benutzen Sie vorzugsweise das Rechenverfahren für den zweiseitigen Test. Kurz gesagt, man benutzt einseitige t-Tests, wenn man sehr gute Gründe dafür nachweisen kann, dass der Unterschied nur in eine bestimmte Richtung gehen kann, dass also z.B. eine bestimmte Gruppe bessere Ergebnisse haben muss als die andere. 3 Genauere Hinweise auf die dem t-Test zugrunde liegenden Annahmen finden Sie in J. Bortz, N. Döring, 1995. Forschungsmethoden und Evaluation. Berlin u.a.: Springer (2. Aufl., S. 464-466). 4 Im Vorangehenden haben wir bei unseren t-Test-Beispielen immer nur eine kleinere Anzahl Ergebnisse verwendet, damit die Berechnung nicht zu verwirrend wird. Voraussetzungen Wann sind Unterschiede bedeutsam? 118 9.1.4 Wie man die Ergebnisse eines t-Tests präsentiert Nehmen wir an, wir haben wieder das Beispiel der zwei (zufällig ausgewählten) Gruppen von Schülern, deren Leseverständnis auf zwei unterschiedliche Arten gefördert wurde - zum Beispiel mit einer traditionellen Methode (Methode X) und einer solchen Methode, die die Schüler anregt, die Bedeutung von Worten zu erraten (Methode Y), und wir erhalten die oben beschriebenen Ergebnisse. Wir können dies nun wie folgt im “Ergebnisteil” unseres Artikels oder unserer Arbeit präsentieren: Tabelle 4: Ergebnisse bei der Abschlussprüfung bei Schülern mit Lehrmethode X und Y (Skala 0-10 mit 10 als bestem Ergebnis) Methode X Methode Y Mittelwert der Noten 8 5 Die Ergebnisse für die zwei experimentellen Bedingungen wiesen signifikante Differenzen auf. Wie Tabelle 4 zeigt, erreichten Schüler, die nach Methode X unterrichtet wurden, wesentlich höhere Ergebnisse als die nach Methode Y unterrichteten (t=6,03, df=13, p<0,001). Dies legt nahe, dass Methode Y für all die Fremdsprachenlerner bevorzugt werden sollte, die die Anfangsphase des Sprachlernens schon hinter sich haben. Eine alternative Art, die oben in Klammern angegebenen Ergebnisse darzustellen, wäre: (t(13)=6,03, p<0,001). 9.2 Der Chi-Quadrat-Test Die oben beschriebenen t-Tests werden für intervallskalierte Daten verwendet. Bei nominalskalierten Daten verwenden wir häufig den Chi- Quadrat-Test. Chi ist der kleine griechische Buchstabe χ ; Chi zum Quadrat wird dann also χ 2 geschrieben. Der Chi-Quadrat-Test wird verwendet, um herauszufinden, ob zwei Variablen in Beziehung zueinander stehen, und er wird gewöhnlich dazu benutzt, um aus Befragungen gewonnene Daten zu analysieren. Weil Geisteswissenschaftlerinnen häufig mit nominalskalierten Daten zu tun haben und weil man diesen Test tatsächlich sehr einfach mit einem Taschenrechner selbst rechnen kann, behandeln wir ihn ausführlich. Der Chi-Quadrat-Test wird sehr oft gebraucht, wenn wir mit Häufigkeitsdaten zu tun haben, z.B. wenn wir gezählt haben, wie oft etwas vorkommt oder wie viele Personen eine bestimmte Ansicht vertreten. Auf diese Weise Ergebnispräsentation Chi-Quadrat Test Wann sind Unterschiede bedeutsam? 119 stellt man zum Beispiel fest, ob es eine Beziehung zwischen einer politischen Partei, die die Leute wählen, und ihrer Einstellung zur Euthanasie oder der Drogenpolitik der Regierung gibt. Man kann so zu Aussagen wie: “SPD-Wähler befürworten die Legalisierung weicher Drogen eher als CDU- Wähler” gelangen. Man kann natürlich einfach die Anzahl von Leuten zählen, die eine bestimmte politische Partei wählen, und dann herausfinden, wie ihre Einstellung zur Drogenlegalisierung ist, um zu berichten, dass 55% der SPD-Wähler für eine Legalisierung sind, aber nur 45% der CDU- Wähler. In diesem Fall könnte man aber nicht sicher sein, dass es eine signifikante Beziehung zwischen den zwei Variablen “Vorliebe für eine politische Partei” und “Einstellung zur Drogenlegalisierung” gibt. Der Chi- Quadrat-Test erlaubt uns zu sagen, ob eine solche Beziehung signifikant ist. Ein weiteres Beispiel für eine Forschungsfrage, bei der wir den Chi-Quadrat- Test anwenden, ist die Frage, ob es eine Beziehung zwischen dem Bildungsstand der Eltern und der Schulart, die ihre Kinder besuchen, gibt. Auch unsere Frage aus dem Anfangskapitel wäre ein Beispiel für den Chi- Quadrat-Test. Angenommen, wir hätten in je 1000 vergangenheitsbezogenen Sätzen von Evangelischen 653 Perfektformen gefunden und nur 597 von Katholischen, dann könnte uns der Chi-Quadrat-Test darüber Aufschluss geben, ob das wahrscheinlich auf den Zufall zurückzuführen ist, oder ob Katholiken tatsächlich weniger Perfektformen benutzen als Protestanten. Aus den oben genannten Beispielen können wir ersehen, dass wir den Chi-Quadrat-Test verwenden, um eine Beziehung zwischen zwei Variablen auf Nominalskalenniveau zu untersuchen, für die wir die Häufigkeit des Vorkommens gezählt haben. Bei intervallskalierten Daten verwenden wir normalerweise Korrelationen. Versuchen wir uns nun an einem Beispiel. Wir nehmen an einem Abendessen bei einem Familientreffen teil, und der erste Gang besteht aus Suppe, Suppe mit Fleischklößchen. Die Mutter schöpft die Suppe aus, und ihre drei Söhne vergleichen die Anzahl von Fleischklößchen, die sie in ihrer Suppe finden. Der älteste Sohn hat zwei Fleischklößchen, der mittlere hat eines und der jüngste sechs. Die zwei älteren Söhne beschweren sich über diese Ungerechtigkeit. Sie sollten genauso viele Klößchen wie ihr kleiner Bruder bekommen. Die ungleiche Anzahl der Klößchen legt nahe, dass die Mutter sie mit Absicht so verteilt hat, zum Beispiel, wie der älteste Sohn behauptet, weil sie den jüngsten Sohn schon immer am liebsten mochte. Die Mutter sagt natürlich, dass die Kinder ungefähr die gleiche Anzahl von Klößchen bekommen sollten und dass die Ungleichheit ein Unfall (“zufällig”, würden wir sagen) ist. Sie behauptet, dass sie all ihre Söhne gleich lieb hat, und besteht darauf, dass sie die Klößchen nicht gezählt hat, als sie die Suppe austeilte. Ihr könne also keine Schuld zugewiesen werden. Nun stellt sich die Frage, ob die Mutter recht hat. Es könnte Zufall gewesen sein, aber vielleicht steckt doch mehr dahinter. Vielleicht gibt es eine Beziehung zwischen der Anzahl der Klößchen und der Liebe, die sie für ihre Söhne empfindet. Um Beispiel Wann sind Unterschiede bedeutsam? 120 diese überaus konfliktträchtige Frage zu beantworten, führen wir einen Chi- Quadrat-Test durch. Wir “beobachten”, dass es eine unterschiedliche Anzahl von Fleischklößchen gibt, nämlich 2, 1 und 6. Wir nennen dies die beobachtete Häufigkeit. Wenn die Mutter nicht voreingenommen ist, würden wir bei dieser Anzahl verteilter Klößchen “erwarten”, dass jeder Sohn drei Klößchen in seiner Suppe hat. 5 Die erwartete Häufigkeit ist also 3, 3 und 3. Anders dargestellt, haben wir die folgende beobachtete Häufigkeit: Sohn A Sohn B Sohn C beobachtete Häufigkeit 2 1 6 Die erwartete Häufigkeit wäre: Sohn A Sohn B Sohn C erwartete Häufigkeit 3 3 3 Die Frage ist nun, ob die Differenz zwischen der beobachteten und der erwarteten Häufigkeit groß genug ist, damit wir sagen können, dass die ungleiche Verteilung auf böswillige Absicht zurückzuführen ist oder ob sie rein zufällig ist. Die Formel für den Chi-Quadrat-Test lautet: χ 2 = ∑ (beobachtet erwartet) erwartet 2 Setzen wir unsere Werte in die Formel ein, erhalten wir für Sohn A (2 - 3) 3 2 = ≈ 1 3 0,33 für Sohn B (1 - 3) 3 2 = ≈ 4 3 1,33 für Sohn C (6 - 3) 3 2 = ≈ 9 3 3,00 χ 2 = Summe 4,66 Wir müssen jetzt wieder in der Tabelle in Anhang 3 nachsehen, ob der Wert signifikant ist. Wir benötigen hierzu wieder die Freiheitsgrade. Die berechnen wir, indem wir 1 von der Anzahl der Gruppen (hier: Söhne) subtrahieren: df = 3 - 1 = 2. Nun sehen wir in Anhang 3 nach, gehen dort in Zeile 2 (df = 2) und stellen fest, dass unser Wert 4,66 kleiner ist als der am 5 Insgesamt wurden 9 (2 + 1 + 6) Klößchen verteilt; im Mittel also 3 (9 : 3). Wann sind Unterschiede bedeutsam? 121 weitesten links stehende Wert in dieser Zeile. Somit ist unser Ergebnis nicht signifikant. Mit anderen Worten: Es gibt keinen ausreichenden Grund zu behaupten, dass die Anzahl der Klößchen in der Suppe von irgendetwas außer dem Zufall beeinflusst wurde. Die Mutter hat die Wahrheit gesagt. Wahrscheinlich … Den Chi-Quadrat-Test kann man auch verwenden, wenn die zwei Variablen mehrere Ebenen haben. Nehmen wir als Beispiel die Forschungsfrage, ob man lange Kommentare über die Fehler in Schulaufsätzen schreiben sollte oder lieber sehr kurze. Lehrer korrigieren Aufsätze häufig so, dass sie Kommentare an den Rand schreiben, wenn der Schüler einen Fehler gemacht hat. Diese Rückmeldung kann “kurz” oder “ausführlich” sein. Nehmen wir an, ein Schüler schreibt: Beide Maler produzierten Selbstportraits, aber es sah gar nicht nach ihm selbst aus. Ein “kurzer” Kommentar wäre: “Falsch; 'es' ist unklar.” Ein “ausführlicher” Kommentar könnte ungefähr so lauten: “Inkorrekte Referenz von 'es' und 'ihm selbst'. Im ersten Teil des Satzes beziehst du dich auf zwei Maler; auf was beziehen sich also 'es' und 'ihm selbst'? ” Wir könnten die Aufsätze auch ohne jeden geschriebenen Kommentar zurückgeben und den Schülern sagen, dass in ihren Aufsätzen sehr viele Fehler sind und sie sie neu schreiben müssen. In diesem Fall haben wir zu den verschiedenen Fehlern gar keinen Kommentar gegeben. Die Frage ist nun, welcher der drei Ansätze der effektivste ist. Tabelle 5: Beobachtete Häufigkeiten neugeschriebener Satz kein Kommentar kurzer Kommentar ausführlicher Kommentar gesamt inkorrekt 18 13 29 60 korrekt 2 67 55 124 gesamt 20 80 84 184 Nachdem die Schüler ihre Aufsätze ohne Kommentare oder mit kurzen oder mit ausführlichen Kommentaren zurückerhalten haben, schreiben sie sie neu und geben sie wieder ab. Einige der überarbeiteten Sätze sind nun korrekt, andere nicht. Wir wollen nun herausfinden, ob “kein Kommentar”, “kurzer Kommentar” oder “ausführlicher Kommentar” zu mehr korrekten Sätzen geführt hat, d.h., wir wollen wissen, ob es eine Beziehung zwischen der Art der Rückmeldung und der Verbesserung gibt. Wir untersuchen alle Sätze in der überarbeiteten Version, die in der Originalfassung einen Fehler enthielten, stellen fest, wie viele jetzt korrekt sind und wie viele immer noch Mehrere Ebenen Wann sind Unterschiede bedeutsam? 122 inkorrekt, und erhalten (bei ungefähr 80 Aufsätzen) die Verteilung in Tabelle 5. Aus Tabelle 5 entnehmen wir, dass kurze Kommentare zu mehr korrekten Sätzen führen als ausführlichere Kommentare und dass die Methode, Aufsätze ohne Kommentar zurückzugeben, nicht funktioniert. Stellen wir nun fest, ob dies wirklich stimmt, d.h., ob es tatsächlich eine Beziehung zwischen der Art der Rückmeldung und den Ergebnissen der Schulaufsätze gibt, also die Unterschiede nicht auch durch Zufall zu erklären sein könnten. Zu diesem Zweck berechnen wir die erwarteten Häufigkeiten, wobei wir annehmen, dass es keinen Unterschied zwischen den drei Arten der Rückmeldung gibt. Die erwarteten Häufigkeiten berechnen wir wie folgt: Wir berechnen die Gesamtsumme für jede Zeile und jede Spalte (s. Tabelle 5). Die erwartete Häufigkeit (E) in jeder Zelle wird mit der folgenden Formel berechnet: E = (Zeile gesamt) (Spalte gesamt) Gesamtsumme wobei sowohl “Zeile” als auch “Spalte” sich auf die Zeile und Spalte der Zelle beziehen, deren erwartete Häufigkeit man berechnen möchte. Wenn wir dies für die Zelle durchführen, in der in Tabelle 5 18 steht, erhalten wir: E = (60) (20) 184 = 1200 184 = 6,5 Bei der Zelle, in der 55 steht, erhalten wir: E = (124) (84) 184 = 10416 184 = 56,5 Wenn wir alle erwarteten Häufigkeiten für die sechs Zellen in Tabelle 5 errechnen, erhalten wir die Daten in Tabelle 6. Tabelle 6: Erwartete Häufigkeiten kein Kommentar kurzer Kommentar ausführlicher Kommentar neu geschriebener Satz inkorrekt 6,5 26,1 27,4 neu geschriebener Satz korrekt 13,5 53,6 56,6 Nun können wir die Formel des Chi-Quadrat-Tests verwenden: χ 2 = ∑ (Zeile gesamt) (Spalte gesamt) Gesamtsumme Wir wenden diese Formel an, indem wir für jede Zelle das Quadrat der Differenz zwischen beobachteter Häufigkeit und erwarteter Häufigkeit durch Wann sind Unterschiede bedeutsam? 123 die erwartete Häufigkeit dividieren. So erhalten wir für jede Zelle einen Wert. Schließlich addieren wir die sechs Werte. Wir führen dies jetzt für jede Zelle durch und addieren die Werte. Die Zelle aus Tabelle 5, die 18 enthält: (18 6, 5) 6, 5 1 6, 5 1 6, 5 2 2 − = ≈ ≈ 1 5 31 8 20 2 , , , Die Zelle aus Tabelle 5, die 13 enthält: (13 26,1) 26,1 26,1 1 26,1 2 2 − = − ≈ ≈ 13 1 71 3 6 6 , , , Die Zelle aus Tabelle 5, die 29 enthält: (29 27, 4) 27, 4 27, 4 27, 4 2 2 − = ≈ ≈ 1 6 2 6 0 1 , , , Die Zelle aus Tabelle 5, die 2 enthält: (213, 5) 13, 5 13, 5 13, 5 2 2 = − ≈ ≈ 11 5 131 6 9 8 , , , Die Zelle aus Tabelle 5, die 67 enthält: (67 53, 6) 53, 6 53, 6 53, 6 2 2 − = ≈ ≈ 13 4 179 56 3 2 , , , Die Zelle aus Tabelle 5, die 55 enthält: (55 56, 6) 56, 6 56, 6 56, 6 2 2 − = − ≈ ≈ 1 6 2 6 0 0 , , , _____ χ 2 = 39,9 Nun sehen wir in Anhang 3 nach, ob dieser Chi-Quadrat-Wert signifikant ist. Dafür müssen wir wissen, wie viele Freiheitsgrade (df) wir haben. Diese berechnen wir, indem wir unsere Matrix von beobachteten Häufigkeiten ansehen und von der Anzahl der Zeilen 1 subtrahieren und diesen Wert mit der um 1 verringerten Anzahl der Spalten multiplizieren. 6 Wir haben in Tabelle 5 zwei Reihen und 3 Spalten. So erhalten wir: df = (2 - 1) (3 - 1) = 2. In Anhang 3 sehen wir also in der Reihe für df = 2 nach. Dort finden wir drei Werte: 5,99, 9,21 und 13,82. Unser Chi-Quadrat-Wert war 39,9, was sogar noch wesentlich größer ist als der Wert in der am weitesten rechts stehenden Spalte (13,82). Wir gehen in der Spalte nach oben und entnehmen dort das Signifikanzniveau: 0,001. Das bedeutet, dass unser Chi-Quadrat-Wert signifikant auf dem 0,001-Niveau ist. Mit anderen Worten: Die Wahrscheinlichkeit, dass die Differenz zufällig ist, ist geringer als 0,001 bzw. 0,1%; die Differenz ist also mit 99,9%-iger Wahrscheinlichkeit nicht durch Zufall bedingt. Daher können wir sagen, dass es eine Beziehung zwischen der Art der Rückmeldung und der erzielten Verbesserung bei den Aufsätzen der Schüler gibt. Die Formel zur Berechnung des Chi-Quadrat-Werts, die wir bisher benutzt haben, muss leicht verändert werden (unter Benutzung der Yates- Korrektur), wenn wir nur einen Freiheitsgrad haben (df = 1). Dies wäre der Fall, wenn wir nur eine Reihe mit zwei Zellen haben - beispielsweise wenn 6 Wenn unsere Matrix der beobachteten Häufigkeiten nur eine Zeile hat, ist die Anzahl der Freiheitsgrade die Anzahl der beobachteten Häufigkeiten minus 1. Daher haben wir im Beispiel mit den Fleischklößchen df = 3 - 1 = 2. Wann sind Unterschiede bedeutsam? 124 wir Menschen befragen, ob sie für oder gegen etwas sind. Wenn wir zwei Reihen und zwei Spalten haben, ist die Zahl der Freiheitsgrade also 1. Dann müssen wir folgende Formel benutzen: χ 2 = ∑ − − ( beobachtet erwartet 0, 5) erwartet 2 die sich von der normalen Formel dadurch unterscheidet, dass von der absoluten Differenz (d.i. die Differenz ohne Vorzeichen bzw. der Betrag der Differenz) der beobachteten und erwarteten Werte 0,5 subtrahiert wird. Wenn wir unsere Forschung über die Effektivität der Rückmeldung bei Schulaufsätzen mit nur zwei Alternativen (“kurzer Kommentar” und “ausführlicher Kommentar”) durchgeführt hätten (wie in Tabelle 7), wäre unser df = 1 gewesen. Tabelle 7: Beobachtete Häufigkeiten kein Kommentar kurzer Kommentar neu geschriebener Satz inkorrekt 13 29 neu geschriebener Satz korrekt 67 55 Der Chi-Quadrat-Test wird oft benutzt, um bei Korpusanalysen die Häufigkeit des Vorkommens von Erscheinungen zu vergleichen. Wir betrachten ein Beispiel aus dem Englischen: Das Adjektiv pretty kann als adjektivisches Attribut zu Substantiven gebraucht werden (a pretty flower), als intensivierender Modifikator in Nominalgruppen (pretty horrible weather) oder als intensivierender Modifikator von Adverbien (pretty clearly seen). Unsere Frage ist jetzt: Kommt das Wort in allen diesen Funktionen gleich häufig vor? Wir betrachten das anhand eines Korpus. Das Wort pretty kommt im London-Lund-Korpus 120 mal vor, und zwar wie folgt: adjektivisch als Intensivierer in NPs als Intensivierer vor Adverbien 5 95 20 Wenn die drei Funktionen gleichmäßig verteilt wären, dann wäre die zu erwartende Verteilung: adjektivisch als Intensivierer in NPs als Intensivierer vor Adverbien 40 40 40 Korpusanalysen Wann sind Unterschiede bedeutsam? 125 Wenn wir die Formeln anwenden, erhalten wir einen Chi-Quadrat-Wert von 116,25. Wenn wir im Anhang nachschlagen, sehen wir, dass dieser Wert höher ist als der am weitesten rechts stehende in der Reihe für 2 Freiheitsgrade. Das bedeutet, dass es einen signifikanten Unterschied in der Verteilung der drei Funktionen gibt (p<0,001). Wichtig ist, dass beim Chi-Quadrat-Test die tatsächlich beobachteten Häufigkeiten verwendet werden müssen, nicht etwa Prozentzahlen. Sie können es ausprobieren: Wenn Sie das Ganze in Prozentzahlen umsetzen und dann den Test mit Prozentzahlen rechnen, bekommen Sie einen anderen Wert für Chi-Quadrat. Chi-Quadrat kann man auch benutzen, um zwei Korpora miteinander zu vergleichen. Wir vergleichen jetzt den Gebrauch von pretty in zwei Korpora, dem London-Lund Korpus und dem LOB Korpus. 7 Die Daten sind wie folgt: adjektivisch als Intensivierer in NPs als Intensivierer vor Adverbien LL 5 95 20 LOB 45 37 21 Daraus erhebt sich die Frage: Gibt es eine Beziehung zwischen dem Gebrauch von pretty und der Art des Korpus? Oder anders formuliert: Gibt es einen Unterschied im Gebrauch von pretty in den beiden Korpora? Oder noch einmal anders formuliert: Gibt es einen Unterschied in der Distribution der einzelnen Funktionen von pretty in den beiden Korpora? Wir berechnen die erwarteten Häufigkeiten wie oben erläutert, indem wir von den beobachteten Häufigkeiten ausgehen. Die erwarteten Häufigkeiten, berechnet wie oben ausgeführt, sind: beobachtete Häufigkeit Adjektivisch als Intensivierer in NPs als Intensivierer vor Adverbien gesamt LL 26,9 71,0 22,1 120 LOB 23,1 61,0 18,9 103 gesamt 50 132 40,9 223 Somit haben wir die nötigen Zahlen, um den Chi-Quadrat-Test anzuwenden: χ 2 = ∑ − (beobachtet erwartet) erwartet 2 7 LOB steht für Lancaster, Oslo, Bergen Korpus von Texten in britischem Englisch. Keine Prozentzahlen Wann sind Unterschiede bedeutsam? 126 Wenn wir das berechnen, erhalten wir einen Chi-Quadrat-Wert von 56,5. Die Freiheitsgrade sind: 2 Reihen mit Daten - 1 (=1) x 3 Spalten mit Daten - 1 (=2), also 1 x 2, ergibt insgesamt 2 Freiheitsgrade. Wenn wir anhand von Tabelle 3 im Anhang überprüfen, ob unser Wert signifikant ist, sehen wir in der Reihe für 2 Freiheitsgrade 3 Zahlen: zuerst 5,99, dann 9,21 und schließlich 13,82. Unser Chi-Quadrat-Wert ist 56,5, was sogar höher ist als der am weitesten rechts stehende Wert (13,82). Über der am weitesten rechts stehenden Spalte steht “0,001”. Das bedeutet, die Wahrscheinlichkeit, dass die gefundenen Unterschiede zufällig sind, ist sehr gering (p<0,001, also 0,1%); unser Chi-Quadrat ist auf dem 0,001-Niveau signifikant. Folglich können wir sagen, dass es eine Beziehung gibt zwischen der Art des Korpus und dem Gebrauch des Worts pretty. Anders gesagt, der Gebrauch des Wortes pretty ist verschieden in den beiden Korpora. Ein weiteres Beispiel aus einer Korpusuntersuchung, in der wir die Yates-Korrektur anwenden (oder continuity correction, wie dasselbe in SPSS genannt wird): Jemand hat untersucht, wie Fragen gestellt wurden in zwei verschiedenen Fernsehsendungen, in der Talkshow “Oprah” und in der politischen Diskussionssendung “On the Record”. Dabei fand sie heraus, dass von allen gestellten Fragen insgesamt 15,3 % eine angehängte “tagquestion” hatten (“You agree that this is wrong, don't you? ”), 8 dass aber die Verteilung so war, dass von den gesamten Fragen mit einer angehängten tagquestion sich nur 0,9% im Oprah-Korpus fanden, und 14,4% in “On the Record” (OTR). Wenn wir mit einem Chi-Quadrat-Test ermitteln wollen, ob der Unterschied signifikant ist, müssen wir statt der Prozentzahlen die tatsächlichen Zahlen verwenden. Diese waren 4 beziehungsweise 67. adjektivisch Oprah OTR Fragen mit tag 4 67 Mit diesen Daten können wir aber wenig anfangen. Wir wissen nicht, ob 67 wirklich viel mehr als 4 ist, wenn wir nicht wissen, wieviele Fragen denn in den beiden Programmen betrachtet wurden. Unterstellen wir einmal, dass in “On the Record” (OTR) 16 mal so viele Fragen untersucht wurden wie in “Oprah”. Dann wäre die Differenz zwischen 4 und 67 nicht sonderlich beeindruckend. Wir müssen also die Korpusgrößen in irgendeiner Weise vergleichbar machen in Bezug auf die Anzahl der Fragen. Das geht z.B. so, dass wir die Anzahl der Fragen mit und ohne “tag question” in Betracht ziehen. Dabei stellte sich heraus, dass die Rohdaten wie folgt lauteten: 8 Die deutsche Entsprechung “Frageanhängsel” ( nicht wahr? , ne? , woll? ) ist nicht exakt dasselbe; deshalb bleiben wir beim englischen Terminus. Ein komplizierteres Beispiel Wann sind Unterschiede bedeutsam? 127 Oprah OTR Fragen mit tag 4 67 Fragen ohne tag 234 160 Wir könnten übrigens die Spalten und Reihen auch austauschen, so wie in der Tabelle unten. Das spielt für die Chi-Quadrat-Berechnung keinerlei Rolle. Fragen mit tag Fragen ohne tag Oprah 4 67 OTR 234 160 Wenn wir den Chi-Quadrat-Test auf diese Daten anwenden (mit der Yates- Korrektur, denn es gibt nur 1 Freiheitsgrad), dann ergibt die Rechnung ein Chi-Quadrat von 0,44. Wenn wir den Wert in der Tabelle im Anhang nachschlagen, sehen wir, dass er auf dem 0,001-Niveau signifikant ist. Mit anderen Worten, es gibt tatsächlich einen Unterschied im Gebrauch der tagquestions, der nicht auf den Zufall zurückzuführen ist. Zusammenfassend noch einmal die Dinge, die man beachten muss, wenn man einen Chi-Quadrat-Test benutzt. Erstens: Die beobachteten Häufigkeiten in den verschiedenen Zellen müssen tatsächlich Häufigkeiten und dürfen keine Prozentwerte sein. Zweitens: Die Häufigkeiten müssen unabhängig sein, d.h., “Erscheinungen” oder “Personen” oder “Antworten” müssen genau einer Zelle zugeordnet werden (und nicht mehreren). Drittens: Die Größe der erwarteten Häufigkeit (nicht beobachteten Häufigkeit) für jede Zelle darf nicht kleiner als 5 sein. 9.2.1 Wie man Chi-Quadrat-Ergebnisse präsentiert Nehmen wir als Beispiel die Forschungsfrage, ob man lange Kommentare über die Fehler in Schulaufsätzen schreiben sollte oder lieber sehr kurze (siehe oben). Die Daten in Tabelle 6 stammen aus einer tatsächlich durch-geführten Studie und sind echte Daten. 9 Man könnte die Ergebnisse der Chi-Quadrat Analyse wie folgt beschreiben: Ein bei den Daten in Tabelle 6 angewandter Chi-Quadrat-Test zeigte, dass kurze Kommentare zu signifikant besseren Ergebnissen führten als 9 Die hier angegebenen Werte sind die tatsächlich erzielten Resultate von U. Schuurs und H. van den Berg, 1991. Geleide revisie: de effecten van twee soorten feedback. Toegepaste Taalwetenschap in Artikelen 40-2, 92-101. Die Autoren haben die Yates-Korrektur nicht angewandt. Wenn sie es getan hätten, wäre ihr Chi-Quadrat = 6,26 auf einem Signifikanzniveau von nur 0,025 statt 0,01 gewesen. Anwendungsbereich Präsentation Wann sind Unterschiede bedeutsam? 128 ausführliche Kommentare ( χ 2 =6,26, df=1, p<0,025). Dies ist ein erstaunliches Ergebnis, weil […] 9.3 ANOVA: Varianzanalyse (analysis of variance) Bisher haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die eine unabhängige Variable und zwei Gruppen hatten. Oftmals liegen jedoch mehr als eine unabhängige Variable und/ oder mehr als zwei Gruppen vor. In diesen Fällen muss eine ANOVA durchgeführt werden, eine Varianzanalyse. Obwohl die Durchführung einer ANOVA nicht sehr schwierig ist, benötigt man hierzu eine große Anzahl von Berechnungen, bei denen sich dann natürlich leicht Flüchtigkeitsfehler einschleichen können. Deshalb ist es besser, die Analyse von einem Computer durchführen zu lassen. Wie man das macht, besprechen wir im nächsten Kapitel. Wir werden im Folgenden zwei Beispiele für die Verwendung einer ANOVA besprechen. 9.3.1 ANOVA: Beispiel 1 Nehmen wir an, wir wollen herausfinden, ob Studenten mit den Hauptfächern Geschichte, Politik und Medienwissenschaft die gleichen Englischkenntnisse besitzen. In unserem Beispiel messen wir “Englischkenntnisse”, indem wir drei Gruppen mit je zehn Studenten einen Vokabeltest mit 50 Fragen absolvieren lassen. Wir haben eine unabhängige Variable, nämlich “Hauptfach”, mit drei Ebenen: Geschichte, Politik und Medienwissenschaft. Die abhängige Variable ist das Ergebnis im Vokabeltest. Die Ergebnisse unserer fiktiven Forschung finden sich in Tabelle 8. Wann sind Unterschiede bedeutsam? 129 Tabelle 8 Testpersonen Geschichte Politik Medienwissenschaft 1 22 22 30 2 30 36 29 3 26 28 29 4 35 31 46 5 20 23 47 6 27 25 31 7 26 32 47 8 32 30 49 9 17 39 33 10 22 29 37 Mittelwert 25,7 29,5 37,8 Wenn wir uns nur die Mittelwerte der drei Gruppen ansehen, stellen wir fest, dass die Medienwissenschaftsgruppe den höchsten Mittelwert (37,8) und die Geschichtsgruppe den niedrigsten Mittelwert (25,7) hat, während die Politikgruppe in der Mitte liegt (Mittelwert: 29,5). Nun stellt sich wie immer die Frage: Sind diese Unterschiede signifikant? Anders ausgedrückt: Können wir behaupten, dass die Variable “Hauptfach” einen Effekt hat? Weil wir mehr als zwei Gruppen haben, können wir keinen t-Test benutzen. Stattdessen müssen wir eine ANOVA durchführen, um diese Frage zu beantworten. Weil wir eine unabhängige Variable haben, ist dies eine einfache Varianzanalyse. (Hätten wir zwei unabhängige Variablen, würden wir eine zweifache Varianzanalyse durchführen, bei drei unabhängigen Variablen eine dreifache Varianzanalyse, etc.) Tabelle 9: ANOVA-Ergebnistabelle Beispiel 1 Variabilität Summen der Quadrate df mittlere Quadratsummen F p Zwischen Gruppen 765,8 2 382,90 8,67 0,0012 Innerhalb Gruppen 1192,2 27 44,156 Gesamt 1994,67 29 Die Ausgabe eines ANOVA-Programms auf einem Computer enthielte wahrscheinlich eine Tabelle wie unsere Tabelle 9. Der wichtigste Wert dieser Ergebnistabelle ist der F-Wert, hier 8,67. Der F-Wert ist signifikant, wie wir aus seinem zugeordneten p-Wert (hier 0,0012) entnehmen können. Das bedeutet, dass die Variable “Hauptfach” in dem Sinne einen Effekt hat, Wann sind Unterschiede bedeutsam? 130 dass die drei Gruppen nicht gleich sind. Vorerst sind die anderen Daten in der Tabelle für uns nicht relevant - bis auf zwei andere Werte, die in einer Forschungsstudie normalerweise erwähnt werden, nämlich die df-Werte (in der ersten Reihe der Tabelle finden wir dort die Zahl 2, nämlich die Anzahl unserer Gruppen minus 1, und in der zweiten Reihe die Zahl 27, die für die Anzahl der Testpersonen minus der Anzahl der Gruppen steht). 10 Die Tabelle wird im Forschungsbericht normalerweise nicht wiedergegeben, sondern wie folgt zusammengefasst: “F(2,27)=8,67, p=0,0012”, wobei die zwei Zahlen in den Klammern die Freiheitsgrade (df) angeben. Statt p=0,0012 schreiben wir p<0,01. 11 Ein signifikanter F-Wert sagt uns nur, dass unsere Gruppen nicht gleich sind. Er sagt uns sogar nur, dass die Gruppe mit dem höchsten Mittelwert von der Gruppe mit dem niedrigsten signifikant verschieden ist; der signifikante F-Wert kann uns nicht sagen, ob alle drei Gruppen voneinander signifikant verschieden sind. Um dies herauszufinden, müssen wir eine Folgeanalyse durchführen (die auch Post-hoc-Analyse genannt wird), wie beispielsweise den Newman-Keuls-Test oder den Scheffé-Test. Wir werden diese Analysen nicht behandeln, 12 sondern einfach nur annehmen, dass eine solche Analyse bei den oben genannten Daten durchgeführt wurde mit dem Ergebnis, dass die Medienwissenschaftsgruppe (die Gruppe mit dem höchsten Mittelwert) von der Politik- und Geschichtsgruppe verschieden ist, aber die Politikgruppe sich von der Geschichtsgruppe nicht signifikant unterscheidet. Diese Ergebnisse könnte man wie folgt präsentieren: Eine einfache ANOVA ergab, dass es einen Effekt von “Hauptfach” (F(2,27)=8,67, p<0,01) gibt. Ein anschließend angewandter Newman- Keuls-Test zeigte, dass die Medienwissenschaftsstudenten besser waren (p<0,01) als die Geschichtsstudenten und besser (p<0,01) als die Politikstudenten. Die Ergebnisse der beiden letztgenannten Gruppen waren jedoch nicht signifikant voneinander verschieden. 10 Bei einer ANOVA finden wir immer zwei Freiheitsgrad-Angaben, während wir zum Beispiel bei einem t-Test nur einen Wert für die Freiheitsgrade haben. Das liegt daran, dass wir bei einem t-Test wissen, dass wir nur zwei Gruppen haben; das müssen wir also nicht extra angeben. Bei Varianzanalysen hat man es mit mehr als zwei Gruppen zu tun; es muss angegeben werden um wieviele Gruppen es sich handelt; die Anzahl der Freiheitsgrade ist dann die Anzahl der Gruppen minus eins (hier 3-1=2). Der zweite Wert ergibt sich wie beim t-Test aus der Zahl der Versuchsteilnehmer minus der Anzahl von Gruppen (hier 30-3=27). 11 Ein Rechnerprogramm gibt für p den exakten Wert; in einem Satz gibt man aber meist an, ob der p-Wert kleiner ist als 0,001, 0,01 oder 0,05; hier also p<0,01. Dabei bedeutet <0,01 zwar kleiner als 0,01, aber größer als 0,001. 12 Eine einfache Beschreibung des Newman-Keuls-Test findet man in R. R. Pagano, 1981. Understanding Statistics in the Behavioral Sciences . St. Paul: West Publishing Company, Seite 386ff. Wann sind Unterschiede bedeutsam? 131 Tabelle [Nr.]: Ergebnisse des Englischkenntnis-Tests von Studenten mit einem von drei Hauptfächern (höchste erreichbare Punktzahl 50) Geschichte Politik Medienwissenschaft Mittelwert 25,7 29,5 37,8 9.3.2 ANOVA: Beispiel 2 Nehmen wir an, wir haben die gleiche Situation wie in Beispiel 1, nur dass wir jetzt eine zweite Variable “Geschlecht” mit zwei Ebenen (männlich und weiblich) haben. Dies bedeutet, dass wir nun sechs statt der ursprünglichen drei Gruppen haben, da jede Gruppe in weibliche und männliche Studenten geteilt wird. Die Ergebnisse sind beispielhaft in Tabelle 10 dargestellt. Tabelle 10: Ergebnisse eines Englisch-Vokabeltests von sechs Gruppen Testpersonen Geschlecht Geschichte Politik Medienwissenschaft 1 männlich 22 22 30 2 männlich 30 36 29 3 männlich 26 28 29 4 männlich 35 31 46 5 männlich 20 23 47 Mittelwert 30,3 25,7 29,5 37,8 6 weiblich 27 25 31 7 weiblich 26 32 47 8 weiblich 32 30 49 9 weiblich 17 39 33 10 weiblich 22 29 37 Mittelwert 32,3 24,8 32,5 41,5 gemeinsamer Mittelwert 31,0 25,7 29,5 37,8 Wenn wir den Computer eine zweifache ANOVA durchführen lassen (zweifach, weil es nun zwei unabhängige Variablen gibt), erhalten wir die folgende Tabelle (Tabelle 11): Wann sind Unterschiede bedeutsam? 132 Tabelle 11: ANOVA-Ergebnistabelle Beispiel 2 Variabilität Summen der Quadrate df mittlere Quadratsummen F p “Hauptfach” 765,800 2 382,900 8,089 0,002 “Geschlecht” 16,133 1 16,133 0,341 0,565 “Hauptfach nach Geschlecht” 40,067 2 20,033 0,423 0,660 gesamt 1136,000 24 47,333 Wir sehen uns nun mit 3 F-Werten konfrontiert, einem für die unabhängige Variable “Hauptfach”, einem für die unabhängige Variable “Geschlecht” und einem für die Interaktion 13 zwischen “Geschlecht” und “Hauptfach”. Der erste ist signifikant (F=8,089, p=0,002), der zweite und der dritte sind es nicht, denn sie sind größer als 0,05. Dies bedeutet, dass die Variable “Hauptfach” einen Effekt hat, nicht jedoch “Geschlecht” oder “Hauptfach nach Geschlecht”. Man kann also sagen, dass (wie in Beispiel 1) es einen Unterschied zwischen den Gruppen gibt, wenn man sie sich nur unter dem Gesichtspunkt “Hauptfach” ansieht. Wir wissen aber noch nicht, ob alle Gruppen wirklich voneinander verschieden sind, sondern nur, dass auf jeden Fall zwei Gruppen differieren. Der F-Wert für “Geschlecht” ist nicht signifikant, was bedeutet, dass es im Großen und Ganzen keinen Unterschied zwischen männlichen und weiblichen Studenten gibt. Der F-Wert für die Interaktion schließlich ist auch nicht signifikant, obwohl es, wie wir in Abb. 1 sehen können, 14 eine gewisse Interaktion gibt. Weil man eine Folgeanalyse nur durchführen darf, wenn der F-Wert signifikant ist, können wir nur einen Folgetest für die Variable “Hauptfach” vornehmen. Wir tun dies, wenn wir herausfinden möchten, ob die Geschichtsgruppen sich von den Politik- oder den Medienwissenschaftsgruppen unterscheiden. 13 Der Begriff “Interaktion” wurde kurz beschrieben in 4.3. 14 Das können wir daran sehen, dass die Linien nicht parallel verlaufen. Wann sind Unterschiede bedeutsam? 133 0 10 20 30 40 50 Geschichte Politik Medienwissenschaft männlich weiblich Abb. 1: Graph der Mittelwerte von sechs Gruppen in Beispiel 2 Unsere Ergebnisse können wie folgt für einen Forschungsbericht zusammengefasst werden: Tabelle [Nr.]: Ergebnisse des Englischkenntnis-Tests von männlichen und weiblichen Studenten mit einem von drei Hauptfächern (höchste erreichbare Punktzahl 50) Geschichte Politik Medienwissenschaft Mittelwert männliche Studenten 26,6 28,0 36,2 30,3 weibliche Studenten 24,8 32,5 41,5 32,2 Mittelwert 25,7 29,5 37,8 31,0 Eine zweifache ANOVA ergab einen Effekt von “Hauptfach” (F(2,24)=8,09, p<0,01); siehe Tabelle 12. Kein Effekt wurde für die Variable “Geschlecht” (F<1) oder für eine Interaktion zwischen “Hauptfach” und “Geschlecht” (F<1) gefunden. Ein anschließend durchgeführter Newman-Keuls-Test zeigte, dass die Medienwissenschaftsstudenten besser waren (p<0,01) als die Geschichtsstudenten und besser (p<0,05) als die Politikstudenten. Die Ergebnisse der beiden letztgenannten Gruppen waren jedoch nicht signifikant voneinander verschieden. Wann sind Unterschiede bedeutsam? 134 9.4 Wann man welchen Test benutzt Wir haben in diesem Kapitel den t-Test für korrelierende Stichproben, den t- Test für unabhängige Gruppen, den Chi-Quadrat-Test, und - recht kurz - die Varianzananalyse besprochen. In Kapitel 7 haben wir Korrelationen behandelt. 15 Es gibt noch viele andere statistische Tests wie den Zahlenfolgentest, die lineare Regression, den Wilcoxon-Test, etc. Weil es nicht immer einfach ist zu entscheiden, welchen statistischen Test man verwenden sollte, ist es empfehlenswert, dass Studenten, die quantitative Forschung betreiben wollen, die Sache mit jemandem, der über Statistikkenntnisse verfügt, besprechen, bevor sie ihre Daten sammeln. Es passiert nur allzu häufig, dass die Daten gesammelt werden, bevor man weiß, wie man sie später auswerten möchte. Wenn Sie keine Person finden, die sich wirklich auskennt, können Sie natürlich auch Hilfe in Büchern suchen. Am Ende des Kapitels finden Sie Hinweise zu empfehlenswerten Büchern. In vielen Fällen hilft es zur Auswahl des richtigen Testverfahrens, sich von den untenstehenden Fragen leiten zu lassen. 1. Mit welcher Art von Forschung haben Sie es zu tun? a. qualitative Forschung (kein statistisches Verfahren anwendbar) b. nicht-experimentell (man zählt lediglich Dinge) c. experimentelle Forschung (man manipuliert eine Variable) 2. Mit welcher Art von Fragestellung haben Sie es zu tun? a. ich will die Beziehung zwischen zwei Variablen beschreiben b. ich will eine Hypothese testen, die unabhängige und abhängige Variablen einbezieht. Falls es unabhängige und abhängige Variablen gibt, dann: • gibt es eine oder mehrere unabhängige Variable • gibt es eine oder mehrere abhängige Variablen (In diesem Buch werden nur statistische Analysen für eine abhängige Variable beschrieben) 3. Welche Art von Daten liegen vor? a. Nominalskalierte Daten (Häufigkeiten) b. Ordinalskalierte Daten (Reihenfolge) c. Intervallskalierte Daten 4. Wie viele Gruppen von Versuchspersonen gibt es? a. keine (es gibt keine Personengruppen, sondern Datengruppen) b. eine Gruppe c. zwei jeweils verschiedene Gruppen, und zwar • zwei Gruppen, die sich aus den gleichen Versuchspersonen zusammensetzen (wiederholte-Messungen-Design) 15 Obwohl wir den Korrelationen ein separates Kapitel gewidmet haben, gehören diese ebenso zur inferentiellen Statistik und hätten also auch in diesem Kapitel besprochen werden können. Wann sind Unterschiede bedeutsam? 135 • zwei Gruppen, die sich nicht aus den gleichen Versuchspersonen zusammensetzen (unabhängige-Gruppen-Design) d. mehr als zwei Gruppen. Wenn unsere Daten intervallskaliert sind, wie zum Beispiel die Ergebnisse eines Sprachtests, und wir wissen möchten, ob zwei Variablen (zwei Reihen von Testergebnissen) miteinander in Beziehung stehen, benutzen wir Korrelationen. Wenn wir hauptsächlich daran interessiert sind, ob es einen Unterschied zwischen zwei Gruppen/ Methoden gibt, benutzen wir einen t- Test, allerdings nur, wenn unsere Daten intervallskaliert und mehr oder weniger normalverteilt sind. Wir wenden einen t-Test für korrelierende Stichproben an, wenn wir zwei Datenreihen von einer Gruppe haben (wie beispielsweise bei einer Gruppe von Schülern und deren Ergebnissen bei einem Hörverständnis- und einem Lesetest). Der t-Test für unabhängige Gruppen wird benutzt, wenn unsere Daten von zwei Gruppen stammen. Der Chi-Quadrat-Test wird benutzt, wenn wir es mit Häufigkeiten (nicht mit prozentualen Werten! ) zu tun haben, um herauszufinden, ob es eine Beziehung zwischen zwei oder mehreren nominalskalierten Variablen gibt. Diesen Test wenden wir an, wenn wir beispielsweise mit Daten umgehen, die sich darauf beziehen, wie viele Leute (Häufigkeitsdaten) eine Vorliebe für “Beck's” oder “Lindener Spezial” oder “Stuttgarter Hofbräu” (nominalskalierte Kategorien) haben. Hier sollte angemerkt werden, dass weder ein t-Test noch Korrelationen angewandt werden können, wenn wir mehr als zwei Gruppen haben. In diesem Fall brauchen wir eine Varianzanalyse (ANOVA). 9.5 Signifikanz und Aussagekraft 9.5.1 Interpretation des Signifikanzniveaus Wir haben vier Arten von statistischen Tests besprochen (Korrelationen, t- Tests, Chi-Quadrat und ANOVA), und in jedem Fall bekamen wir einen Wert als Ergebnis unserer Berechnungen, z.B. r=0,83, t=6,03, χ 2 =39,90, F=8,67. Wir haben diesen Wert in Kombination mit der Anzahl der Freiheitsgrade benutzt, um in einer Tabelle nachzuschlagen, ob dieser Wert signifikant ist oder nicht, d.h. ob die Relation oder der Unterschied zwischen zwei oder mehr Variablen auf den Zufall zurückzuführen ist oder nicht. Wenn wir dabei als Ergebnis hatten, dass p kleiner als 0,001 ist (die übliche Schreibweise wäre p<0,001), waren wir sehr zufrieden, weil das bedeutet, dass die Wahrscheinlichkeit, dass unsere gefundene Relation bzw. unser gefundener Unterschied auf den Zufall zurückzuführen sind, sehr klein ist (geringer als 1: 1000). Wir waren auch sehr zufrieden, wenn p kleiner als 0,01 oder kleiner als 0,05 war, denn das bedeutet, dass die Wahrschein- Zufall Wann sind Unterschiede bedeutsam? 136 lichkeit, dass der Zufall die Ursache für unser Resultat ist, nicht sehr groß ist (weniger als 1: 100 bzw. weniger als 1: 20). Manche Anwenderinnen von statistischen Verfahren freuen sich über ein Signifikanzniveau von 0,001 mehr als über eins von 0,05, weil sie denken, dass das erste viel beeindruckender sei als das zweite, in dem Sinne, dass die gefundene Relation oder der gefundene Unterschied bedeutsamer sei. Aber dieser Gedanke entsteht dadurch, dass man zwei unterschiedliche Dinge verwechselt: 1. den Grad an Wahrscheinlichkeit, dass das Ergebnis auf den Zufall zurückzuführen ist (Signifikanz, im Englischen statistical significance genannt) 2. die Relevanz der Ergebnisse (Aussagekraft, im Englischen predictive power genannt). Dies sind zwei ganz verschiedene Aspekte. Ein Ergebnis kann hochsignifikant sein, aber wenig Aussagekraft haben. Nehmen wir den Korrelationskoeffizienten r als Beispiel. Ein r-Wert von 0,33, der auf 100 gepaarten Ergebnissen basiert, ist hochsignifikant (p<0,001). Trotzdem steht ein r-Wert von 0,33 für eine schwache Korrelation, eine “definitive, aber geringe Beziehung” (siehe die Faustregel in 7.2). Nehmen wir jetzt einen r-Wert von 0,66, der auf 10 Wertepaaren basiert. Offensichtlich ist ein r von 0,66 höher als ein r von 0,33; ein r von 0,66 weist auf eine “substantielle Beziehung” hin. Trotzdem, wenn wir diesen Wert in unserer Tabelle im Anhang 1 nachsehen (unter 8 Freiheitsgraden, wie dort angegeben), dann sehen wir, dass er weniger signifikant ist als der vorige, nämlich p<0,05. Wir können also einen niedrigen r-Wert haben und ein hohes Signifikanzniveau und umgekehrt. Das hängt ganz von der Größe der Stichprobe ab, d.h. der Anzahl der Ergebnispaare. Die Aussagekraft einer gefundenen Korrelation hängt stärker davon ab, wie hoch der r-Wert ist als wie niedrig der p-Wert ist. Der p-Wert gibt an, wie hoch die Wahrscheinlichkeit ist, dass unser Ergebnis (dass eine Korrelation besteht) nicht korrekt ist. Wenn r=0,70 ist und p<0,001, dann ist die Wahrscheinlichkeit, dass in Wirklichkeit gar keine Korrelation zwischen den gepaarten Ergebnissen besteht, geringer als 1: 1000. Das heißt, wenn wir die gesamte Messung mit einer neuen Stichprobe derselben Größe wiederholen würden, dann wäre die Wahrscheinlichkeit, dass wir darin keine Korrelation finden, geringer als 1: 1000. Wenn r=0,70 und p<0,01, dann wäre die Wahrscheinlichkeit 1: 100, dass wir eine Stichprobe gewählt haben, die sich stark unterscheidet von dem, was in der Grundgesamtheit zu finden ist. Ob p kleiner als 0,001 oder als 0,01 ist, berührt die Größe von r nicht und sagt wenig über die Stärke der Korrelation. Wann bedeutsam? Wann sind Unterschiede bedeutsam? 137 9.5.2 Erklärte Varianz 9.5.2.1 Korrelation und r-Quadrat Die Aussagekraft einer Korrelation ist das Ausmaß, in dem sie erlaubt, eine Vorhersage auf ihrer Basis zu machen. Nehmen wir an, wir wüssten, dass es eine Korrelation gibt zwischen dem IQ (Intelligenzquotienten, gemessen mit einem der Standard-IQ-Tests) und den Examensnoten von Germanistikstudenten. Selbstverständlich wäre diese Korrelation nicht perfekt, vermutlich ist sie noch nicht einmal besonders hoch. Nehmen wir an, sie sei r=0,30. Die Frage ist jetzt: Hilft uns das, die Examensnoten eines bestimmten Germanistikstudenten vorherzusagen, dessen IQ wir kennen? In anderen Worten: “Erklärt” der IQ Unterschiede in den Examensnoten? Und wenn er das tut, wie groß ist die “erklärte Varianz”? Die Antwort auf die Frage, ob r Aussagekraft hat, ist: Bis zu einem gewissen Grad kann man auf der Basis von r Vorhersagen machen. Um dieses Ausmaß genauer zu bestimmen, müssen wir r zum Quadrat berechnen, dies ergibt den Wert für r 2 . Wenn wir dies mit 100 multiplizieren, erhalten wir die Prozentzahl der erklärten Varianz. Für unser Rechenbeispiel hieße das (weil r=0,30), dass der Prozentsatz der erklärten Varianz also 100 x 0,30 x 0,30 = 9 ist. Das bedeutet für unser Beispiel, dass 9% der Unterschiede in den Examensnoten sich mit der Intelligenz der Examenskandidaten erklären lassen (durch sie verursacht sind). Daraus läßt sich ableiten, dass der IQ zwar ein relevanter Faktor ist für die Examensnoten, dass jedoch andere Faktoren existieren, die die anderen 91% der Varianz erklären. Bei den Korrelationen ist die Formel zum Berechnen der erklärten Varianz recht einfach. Bei anderen statistischen Tests sind die Berechnungen etwas komplizierter; wir führen sie in Tabelle 12 auf . 16 Tabelle 12: Statistische Tests und die entsprechenden Formeln zur Berechnung der Aussagekraft Statistischer Test Wert entsprechende Formel Korrelation r R zum Quadrat (r 2 ) t-Test t Omega zum Quadrat ( ω 2 ) Chi-Quadrat χ 2 Cramér’s V Anova F Eta zum Quadrat ( η 2 ) 16 Nicht alle der hier vorgestellten Formeln basieren auf demselben Konzept; sie geben jedoch alle einen Hinweis auf die Relevanz der Ergebnisse und die Stärke der Verbindung. Aussagekraft Wann sind Unterschiede bedeutsam? 138 9.5.2.2 t-Test und Omega zum Quadrat Omega zum Quadrat darf man nur berechnen, wenn man einen t-Test für unabhängige Gruppen vorliegen hat. Die Formel ist: 17 ω 2 = (t2 - 1) / (t2 + N1 + N2 - 1). Der Prozentsatz der erklärten Varianz ist dann ω 2 x 100. Wir benutzen jetzt diese Formel für das Beispiel, das wir vorher schon gegeben hatten. Wir haben zwei Gruppen von Schülern, deren Leseverständnis auf zwei unterschiedliche Arten trainiert wurde, nämlich mit einer traditionellen Methode (Methode X) und einer Methode, die die Schüler anregt, die Bedeutung der unbekannten Wörter zu erraten (Methode Y). Wir hatten einen t-Wert von 6,03 und 8 Schüler in der einen und 7 in der anderen Gruppe. ω 2 = (6,03 2 - 1) / ( 6,03 2 + 8 + 7 - 1) = 0,70. Der Prozentsatz der erklärten Varianz ist 0,70 x 100 = 70. Das heißt, 70% der Unterschiede in den Ergebnissen werden durch die verwendete Methode erklärt (sind auf die verwendete Methode zurückzuführen). Das sollten wir, wenn wir unsere Ergebnisse formulieren, zusammen mit dem t-Wert angeben. In unserem in Punkt 9.1.4 gegebenen Beispiel würde das so formuliert: Die Ergebnisse für die zwei Versuchsbedingungen wiesen signifikante Unterschiede auf. Wie die Tabelle zeigt, erreichten Schüler, die nach Methode X unterrichtet wurden, wesentlich bessere Ergebnisse als die nach Methode Y unterrichteten (t=6,03, df=13, p<0,001, ω 2 =0,70). In diesem Beispiel ist Omega zum Quadrat sehr hoch. Normalerweise findet man erheblich niedrigere Zahlen. Es ist ziemlich unrealistisch, Werte von 50% oder mehr zu erwarten. Schon bei einer erklärten Varianz von etwas mehr als 15% sprechen wir von einem starken Effekt. Als Interpretationshilfe geben wir Tabelle 14. 18 Tabelle 13: Beurteilung des ωω ω ω 2 -Wertes Wert Interpretation 0,01 ≤ ω 2 < 0,06 geringer Effekt 0,06 ≤ ω 2 < 0,15 mittlerer Effekt ω 2 ≥ 0,15 erheblicher Effekt 17 Dabei ist zu beachten: Wenn das Rechenergebnis einen negativen Wert ergibt, wird der Wert von Omega zum Quadrat auf 0 gesetzt. 18 Die Tabelle basiert auf J.Cohen, 2 1988. Statistical Power Analysis for the Behavioral Sciences. New York: Academic Press. Wann sind Unterschiede bedeutsam? 139 9.5.2.3 Chi-Quadrat und Cramér’s V Wie oben besprochen, wird der Chi-Quadrat-Test benutzt, um herauszufinden, ob zwei Variablen in Beziehung zueinander stehen. Wenn χ 2 signifikant ist, dann können wir davon ausgehen, dass eine Beziehung besteht. Aber auch in diesem Fall können wir uns fragen, wie stark diese Beziehung ist. Der p-Wert sagt überhaupt nichts über die Stärke der Beziehung; wir können ein hohes Signifikanzniveau und eine eher schwache Beziehung haben und umgekehrt. Auch in diesem Fall hängt das Signifikanzniveau vom Umfang der benutzten Stichprobe ab. Cramér’s V dagegen ist ein Wert, der einen Hinweis auf die Stärke der Beziehung gibt. Er wird wie folgt berechnet: Cramér’s V = χ 2 1 N k ( ) − wobei N die Gesamtzahl der beobachteten Werte ist und k die kleinere Zahl der Spalten oder Reihen in der Kreuztabelle. Wir wenden diese Formel auf die Daten in unserem Beispiel in Tabelle 5 aus Punkt 9.2.1 an. (Tabelle 5): Beobachtete Häufigkeiten neugeschriebener Satz kein Kommentar kurzer Kommentar ausführlicher Kommentar gesamt inkorrekt 18 13 29 60 korrekt 2 67 55 124 gesamt 20 80 84 184 Wir haben 3 Spalten und 2 Reihen bei unseren Originaldaten; 19 insgesamt haben wir 184 beobachtete Werte, und Chi-Quadrat ist 6,26. Wenn wir diese Werte in die Formel einsetzen, ergibt sich Cramér’s V = 6.26 184(2-1) = 0,18 Die Frage ist nun, ist dieser Wert hoch? Die Antwort ist nein; es ist ein recht geringer Wert, wenn man die normale Interpretation von Cramér’s V berücksichtigt. Siehe Tabelle 15. 19 Die Zahlen am Rand sind ja Rechenergebnisse. Wann sind Unterschiede bedeutsam? 140 Tabelle 14: Bewertung von Cramér’s V Wert Interpretation 0,10 ≤ Cramér’s V < 0,30 geringer Effekt 0,30 ≤ Cramér’s V < 0,50 mittlerer Effekt Cramér’s V ≥ 0,50 erheblicher Effekt In den Text nimmt man Cramér’s V so auf, dass man ihn gleich nach dem Chi-Quadrat-Wert anführt: Ein bei den Daten in Tabelle 5 angewandter Chi-Quadrat-Test zeigte, dass kurze Kommentare zu signifikant besseren Ergebnissen führten als ausführliche Kommentare ( χ 2 =6,26, df=1, p<0,025; Cramér’s V=0,18). Dies ist ein erstaunliches Ergebnis, weil […] 9.5.2.4 ANOVA und Eta zum Quadrat Eine Maßzahl für die erklärte Varianz, d.h. ein Hinweis auf die Stärke des Effekts bei einer Varianzanalyse, ist der Eta-Quadratwert ( η 2 ). Man berechnet ihn wie folgt: η 2 = Summe der Quadrate zwischen Gruppen Summe der Quadrate gesamt Die Summe der Quadrate zwischen Gruppen und die Summe der Quadrate gesamt stammen aus der bereits durchgeführten ANOVA. Wir geben hier noch einmal die Tabelle wieder. (Tabelle 8): ANOVA-Ergebnistabelle Beispiel 1 Variabilität Summen der Quadrate df mittlere Quadratsummen F p Zwischen Gruppen 765,8 2 382,90 8,67 0,0012 Innerhalb Gruppen 1192,2 27 44,156 Gesamt 1994,67 29 Der entsprechende Eta-Quadratwert ist als η 2 = 742.47 1994.67 = 0,37 Wenn man diesen Wert mit 100 multipliziert, erhält man den Prozentsatz der erklärten Varianz, also in diesem Fall 37%. Die Interpretation von η 2 ist ähnlich wie die von ω 2 beim t-Test, also: Wann sind Unterschiede bedeutsam? 141 Tabelle 15: Bewertung von ηη η η 22 2 2 Wert Interpretation 0,10 ≤ η 2 < 0,30 geringer Effekt 0,30 ≤ η 2 < 0,50 mittlerer Effekt η 2 ≥ 0,50 erheblicher Effekt Wenn wir darüber berichten, dann zusammen mit dem F-Wert, z.B. so: Eine einfache ANOVA ergab, dass es einen Effekt von “Hauptfach” gibt (F(2,27)=8,67, p<0,01; η 2 =0,37). 9.6 Weiterführende Literatur Ein gutes Statistikbuch ist: A. Woods, P. Fletcher, A.Hughes, 1986. Statistics in Language Teaching. Cambridge: Cambridge University Press. Zwei sehr gute Bücher sind - wenn sie auch nicht primär für StudentInnen der Sprachwissenschaften oder Lehrpersonen gedacht sind - die folgenden: R. R. Pagano, 1981. Understanding Statistics in the Behavioral Sciences. St. Paul: West Publishing Company. D. J. Sheskin, 1997. Handbook of Parametric and Nonparametric Statistical Procedures. Boca Raton: CRC Press. Eine gute deutsche Einführung gibt: P. Atteslander, 1995. Methoden der empirischen Sozialforschung. Berlin/ New York: Sammlung Göschen: Walter de Gruyter. J. Bortz und N. Döring, 1995. Forschungsmethoden und Evaluation. Berlin/ Heidelberg: Springer. Wann sind Unterschiede bedeutsam? 142 Aufgaben 1. Sehen Sie sich die Daten in der unten stehenden Tabelle an. Sie beziehen sich auf die Ergebnisse von zwei zufällig ausgewählten Schülergruppen bei einem Sprachtest. Die Ergebnisse sind auf einer 10-Punkte-Skala abgebildet. Eine Gruppe (Gruppe A) wurde von jungen, enthusiastischen, aber unerfahrenen Lehrern unterrichtet, die andere Gruppe (Gruppe B) wurde von einem seit 1965 an der Schule befindlichen Lehrer unterrichtet. Finden Sie heraus, ob der alte Lehrer vielleicht darüber nachdenken sollte, in den Ruhestand zu gehen. Testperson Gruppe A Gruppe B 1 8 7 2 10 4 3 8 6 4 6 8 5 7 6 6 6 7 7 6 6 8 8 6 9 4 5 10 3 3 11 7 5 12 4 5 13 7 3 14 8 7 15 5 6 16 3 2 17 9 7 18 10 6 19 8 2 20 5 6 2. Die zwei Schülergruppen aus Aufgabe 1 haben einen Fragebogen erhalten. Eine der Fragen war: “Glauben Sie, dass Lehrer, die älter als 50 Jahre sind, über den Vorruhestand nachdenken sollten? ” Es ergab sich, dass alle Schüler, die fünf oder mehr Punkte in Gruppe A erreicht hatten, diese Frage bejahten, wohingegen dies in Gruppe B nur bei den Schülern der Fall war, die sechs oder mehr Punkte hatten. Finden Sie heraus, ob es eine Beziehung zwischen der Einstellung der Schüler und dem Alter des Lehrers, der sie unterrichtete, gibt. 3. Sie entscheiden sich, ein Forschungsprojekt zu beginnen, um herauszufinden, ob es einen Unterschied in der Satzlänge bei Artikeln über Politik in Boulevard-Zeitungen und seriösen Zeitungen gibt. Sie Wann sind Unterschiede bedeutsam? 143 berechnen dazu den Mittelwert der Anzahl der Wörter in den Artikeln von sechs Boulevardzeitungen und sieben seriösen Zeitungen und erhalten die folgenden Resultate: Boulevard-Zeitungen seriöse Zeitungen Zeitung 1 9 22 Zeitung 2 14 30 Zeitung 3 17 28 Zeitung 4 20 27 Zeitung 5 10 40 Zeitung 6 14 16 Zeitung 7 21 Führen Sie einen geeigneten statistischen Test durch um herauszufinden, ob die Unterschiede wahrscheinlich vom Zufall abhängen oder signifikant sind, und schreiben Sie einen kurzen Forschungsbericht, in dem Sie auch Ihre Schlussfolgerungen ziehen. 144 10 Statistik- und Tabellenkalkulationsprogramme Kaum jemand führt heutzutage statistische Berechnungen noch “von Hand” durch, weil es sehr viele Computerprogramme gibt, die diese Berechnungen wesentlich schneller und zudem fehlerfrei ausführen. Das am häufigsten benutzte Statistikprogramm ist SPSS (Statistical Package for the Social Sciences), das es für Macintosh- und Windows-Rechner gibt. Leider ist SPSS so vollständig und daher so komplex, dass es einige Tage dauert, bis man das Programm beherrscht. Es gibt aber an den meisten Universitäten spezielle SPSS-Kurse. Für all jene, die keinen Zugang zu SPSS oder ähnlich professionellen Programmen haben, gibt es verschiedene Optionen. Wir werden zuerst kurz Freeware-/ Shareware-Statistikprogramme besprechen und dann die Möglichkeiten, die Tabellen-kalkulationsprogramme wie Excel bieten. Wenn man größere Datenmengen (Stichprobengrößen von 300 und mehr) bearbeiten möchte, empfiehlt sich allerdings wirklich ein professionelles Programm wie SPSS; ansonsten kann es einem passieren, dass einen häufige Computerabstürze in die Verzweiflung treiben. Wenn man seine Daten einmal in ein bestimmtes Programm eingegeben hat, sollte man davon unbedingt eine Sicherheitskopie anfertigen, bevor man mit der Auswertung beginnt. 10.1 Freeware-/ Shareware-Statistikprogramme Freeware- oder Shareware-Statistikprogramme sind über das Internet leicht erhältlich. Benutzer mit Internet-Zugang können Seiten im Internet aufrufen, die der Statistik gewidmet sind, indem sie eine Suchmaschine benutzen und Begriffe aus diesem Buch eingeben (z.B. “Statistik”, “Varianz”, oder “Normalverteilung”) oder englische Begriffe wie “Online Statistical teaching material”, “Statistics and research”, oder “Statistics on the Web”. Tabellenkalkulationsprogramme wie Microsoft Excel (Teil des Microsoft Office-Pakets) bieten heutzutage viele statistische Funktionen für die Datenanalyse. Excel kann fast alle statistischen Tests durchführen, die hier besprochen wurden, obwohl der Chi-Quadrat-Test oder die ANOVA mit zwei Faktoren in Excel recht kompliziert ist. Im Folgenden geben wir einige Beispiele für Excel-Anwendungen anhand von Daten, die schon vorher behandelt wurden. Statistik- und Tabellenkalkulationsprogramme 145 10.2 Das Tabellenkalkulationsprogramm Excel Excel ist ein Programm, mit dem man rechnen kann. Es besteht aus einer Anzahl von Zellen, die aus verschiedenen Spalten (bezeichnet mit Buchstaben) und Reihen (bezeichnet durch Zahlen) bestehen, so wie in der unten aufgeführten Abbildung. Wir beginnen mit ein paar einfachen Übungen, um Excel kennenzulernen. Öffnen Sie das Excel-Programm unter Windows. Auf dem Bildschirm erscheint eine leere Seite mit Spalten und Reihen. Tippen Sie die Daten ein, die unten in A1 bis C6 stehen. 1 Tippen Sie auch die Daten aus Zelle A8, A9 und A10 ein. Gehen Sie mit dem cursor in Zelle B8, danach mit dem Pfeil auf ∑ in den oberen Zeilen (etwa unter “? ”) und klicken Sie darauf. Excel setzt automatisch die Summe in Zelle B8. Machen Sie dasselbe noch einmal für C9. Danach berechnen wir die Standardabweichung. Gehen Sie mit dem Cursor in Zelle B9, mit dem Pfeil nach ff f f xx x x (neben ΣΣ Σ Σ in den Zeilen oben). Es erscheint das Fenster “Funktion einfügen”. Wählen Sie dann die Funktionskategorie Alle und den Funktionsnamen Stabw. 1 Ein genereller Tipp zum Arbeiten mit Excel: Fangen Sie nicht in der obersten Zeile links an, sondern lassen Sie sich ein paar Zeilen und Spalten Platz zum Beschriften Ihrer Tabellen. Es kann sein, dass Sie später Ihre Beschriftung noch ergänzen wollen, das geht dann einfacher. Excel Einführung Statistik- und Tabellenkalkulationsprogramme 146 Sie bekommen dann die Frage, für welche Zahlen Sie die Standardabweichung berechnen wollen. Mit der Maus wählen Sie die Daten in B2 bis B6. (Es kann sein, dass das Dialogfeld genau auf Ihren Daten liegt. Dann müssen Sie erst das Fenster wegklicken, dann markieren, und dann wieder in Ihr Fenster gehen.) Der ausgewählte Bereich erscheint dann nach Zahl 1. Klicken Sie auf Ende. Sie bekommen das Resultat: 1,224745. Gehen Sie nun genauso vor, um die Standardabweichung für die Zahlen in Spalte C zu berechnen. Danach füllen Sie auf ähnliche Weise Zelle B10 und C10 mit dem Mittelwert. Jetzt machen wir eine Graphik aus unseren Zahlen. Wählen Sie A1 bis C6. Gehen Sie dann in die Symbolleiste und klicken Sie auf das Graphiksymbol (in der obereren Excel-Ansicht ist es das fünfte Icon von rechts der mittleren Statistik- und Tabellenkalkulationsprogramme 147 Symbolleiste) und folgen Sie dann den Instruktionen, die das Programm Ihnen gibt. Dann bekommen Sie eine Graphik wie die, die Sie hier sehen. 0 1 2 3 4 5 6 7 8 9 Jan Piet Carmen Marie Karel Test 1 Test 2 10.3 Berechnung von Korrelationen Wir benutzen hier als Beispiel die Berechnung einer Korrelation aus zwei Zahlenserien. Tippen Sie die rechts angegebenen Zahlen ein (es sind dieselben Zahlen, die schon in einem Beispiel im Kapitel zu den Korrelationen benutzt wurden). Gehen Sie dann auf Extra/ Analyse-Funktionen und klicken Sie auf Korrelation. 2 Sorgen Sie dann dafür, dass der Eingabebereich die Zahlen enthält, die Sie in Excel eingetippt haben (setzen Sie dazu den Cursor in das Fach Eingabebereich und wählen Sie die Zellen A1 bis B10). Setzen Sie den Cursor auf das Fach Ausgabebereich und dann auf Zelle D1, so wie unten angeführt. Das Resultat steht hierunter. Es bedeutet, dass die Korrelation zwischen den beiden Ziffernreihen 0,8294 (also ungefähr 0,83) ist, genau das, was wir auch von Hand berechnet hatten. 2 Wenn “Analyse-Funktionen” nicht auf Ihrem Computer zu finden ist, müssen Sie es selbst installieren. Gehen Sie auf “Extras/ Add-In-Manager” und klicken Sie auf “Analyse-Funktionen”. Klicken Sie dann auf “OK”, und es ist bei “Extras” unten installiert. Sollte das nicht funktionieren, ist bei der Installation des Programms auf Ihrem Computer auf das Installieren der elaborierteren Statistik-Funktionen verzichtet worden. Dann müssen Sie zunächst noch einmal Ihre Installationsdisketten heraussuchen und sie noch installieren. Statistik- und Tabellenkalkulationsprogramme 148 10.4 t-Test für korrelierende Stichproben Wir versuchen uns nun an einem t-Test für korrelierende Stichproben mit den Daten aus Kapitel 8. Tippen Sie diese Daten ein (in einer neuen Tabelle), das sieht dann etwa so aus: t-Test Statistik- und Tabellenkalkulationsprogramme 149 Gehen Sie dann auf Extras/ Analyse-Funktion, und klicken Sie auf Zweistichproben t-Test bei abhängigen Stichproben: Klicken Sie auf OK. Sie sehen dann einen Bildschirm, in den Sie einfügen sollen, was der “Bereich Variable A” ist (das ist Ihre erste Spalte mit Zahlen: A1-A6) und was der “Bereich Variable B” ist (das ist Ihre zweite Spalte mit Zahlen: B1-B6). Klicken Sie dann in den Kreis vor “Ausgabebereich”, setzen Sie den Cursor in diesen “Ausgabebereich” und klicken Sie auf Zelle D1 in Ihrem Excel-Dokument. Dann wird $D$1 ausgefüllt, wie Sie es im folgenden Bild sehen. Sie bekommen dann einen Bildschirm wie den folgenden. (Es kann sein, dass Sie die Spaltenbreite etwas verändern müssen. Das macht man so: Man geht mit dem Cursor nach oben in die Reihe, in der die Zahlen für die Spalten stehen: A, B, C usw. Dann setzt man den Cursor auf die Grenze zwischen zwei Spalten. Dadurch verändert er sich in ein neues Cursorsymbol (dünnes Statistik- und Tabellenkalkulationsprogramme 150 schwarzes Kreuz mit Pfeilspitzen am horizontalen Balken), und man kann die Spalten nach rechts zusammenschieben. In diesem Abdruck vom Bildschirm ist Folgendes wichtig: Mittelwert (4 für die Variable 1 [d.h. für die ursprüngliche Spalte A] und 7 für Variable B [d.h. für die Zahlen aus Spalte B]) Freiheitsgrade (degrees of freedom): 5 t-Statistik: -4,391550328. Das ist der Wert, den wir in Kapitel 8 von Hand berechnet hatten. P(T<=t) zweiseitig: 0,0070776. Das Letzte bedeutet, dass die Wahrscheinlichkeit, dass die gefundenen Unterschiede auf den Zufall zurückzuführen sind, 0,007 ist, d.h. 7 von 1000. Das ist ein sehr signifikanter Unterschied. (In Kapitel 9.1.1 hatten wir als Ergebnis festgehalten, nachdem wir den t-Wert in der Tabelle nachgeschlagen hatten: “Das bedeutet, dass unser t-Wert auf dem 0,01-Niveau ist. Mit anderen Worten: Die Wahrscheinlichkeit, dass die Differenz zufällig ist, ist geringer als 0,01 bzw. 1%; die Differenz ist also mit 99%iger Wahrscheinlichkeit nicht durch Zufall bedingt.” Nun stellt sich bei der genauen Berechnung des Computers heraus, dass die Wahrscheinlichkeit eines Zufalls noch kleiner ist, nicht nur kleiner als 1%, sondern sogar - um ganz genau zu sein - 0,7 Promille. Statistik- und Tabellenkalkulationsprogramme 151 10.5 t-Test für zwei unabhängige Stichproben In Kapitel 8 haben wir die nebenstehenden Daten benutzt. Tippen Sie sie in Excel ein. Wenn Excel berechnen soll, was der t- Wert ist, wenn wir diese zwei “unabhängigen Stichproben” miteinander vergleichen, gehen wir so vor: Auf Extra/ Analyse-Funktionen gehen und auf Zweistichproben t-Test: Gleicher Varianz gehen. Geben Sie wieder wie im vorigen Beispiel an, was der “Bereich Variable A” ist (das ist die erste Spalte Zahlen: A1-A8) und den “Bereich Variable B” (die zweite Spalte Zahlen: B1-B7). Klicken Sie in den Kreis vor “Ausgabebereich”, und klicken Sie auf die Zelle D1 in Ihrem Excel-Dokument. Dann wird $D$1 ausgefüllt. Klicken Sie auf OK, und Sie bekommen das folgende Ergebnis. Die Interpretation wird Ihnen inzwischen leichtfallen: Der t-Wert (hier: t-Statistik) ist 6,03. Die Anzahl Freiheitsgrade ist 13. Das Signifikanzniveau (hier P(T<=t) zweiseitig) ist für den zweiseitigen Test 4,21201E-05. Das ist eine mathematische Art, den Wert anzugeben. E-05 Statistik- und Tabellenkalkulationsprogramme 152 bedeutet, dass man das Komma um 5 Ziffern nach links verschieben muss. Wenn man das tut, ist das Ergebnis 0,0000421201, oder auch 0,0000, weil man so viele Kommastellen meist nicht angibt. Also: das Ergebnis ist hoch signifikant. 10.6 Chi-square Excel kann auch Chi-Quadrat berechnen, aber das Verfahren ist ziemlich kompliziert. Wenn Sie einen Internet-Zugang haben, gibt es eine bessere Lösung: Tippen Sie in eine Suchmaschine (wie z.B. Google) ein “chi-square calculator”, und Sie erhalten verschiedene Adressen, die ein Rechenprogramm für Chi-Quadrat anbieten. In den meisten Fällen werden Sie dann gefragt, wie viele Spalten und Reihen Sie brauchen, wie in dem Beispiel unten (aus http: / / www.georgetown.edu/ cball/ webtools/ web_chi.html). Sie können dann eine Tabelle erstellen mit der Funktion “Generate table”, Ihre Daten einfügen und Chi-Quadrat berechnen, indem Sie “calculate chi-square” anklicken. Chi-square calculator Statistik- und Tabellenkalkulationsprogramme 153 10.7 ANOVA Excel kann sogar Varianzanalysen ausführen. Als Beispiel nehmen wir Daten aus Kapitel 9 Tabelle 7. (Tabelle 7) Testpersonen Geschichte Politik Medienwissenschaft 1 22 22 30 2 30 36 29 3 26 28 29 4 35 31 46 5 20 23 47 6 27 25 31 7 26 32 47 8 32 30 49 9 17 39 33 10 22 29 37 Mittelwert 25,7 29,5 37,8 Wir fügen die Werte in Excel so ein, wie unten gezeigt. Dann gehen wir zu Extra/ Analyse-Funktionen und wählen einfaktorielle Varianzanalyse. Danach geben wir bei Eingabebereich an, welche Daten wir haben (A1-C10) und wo der “Output” erscheinen soll (in E1), ungefähr so: Varianzanalyse Statistik- und Tabellenkalkulationsprogramme 154 Klicken Sie auf OK, dann erhalten Sie das Resultat: Dieser Output ähnelt dem, den wir in Kapitel 9 in Tabelle 8 hatten: Statistik- und Tabellenkalkulationsprogramme 155 (Tabelle 8): ANOVA-Ergebnistabelle Beispiel 1 Variabilität Summen der Quadrate df mittlere Quadratsummen F p Zwischen Gruppen 765,8 2 382,90 8,67 0,0012 Innerhalb Gruppen 1192,2 27 44,156 Gesamt 1994,67 29 156 11 Lösungen der Aufgaben Wir können auf Grund der Komplexität der Fragestellungen hier nur einige Lösungen anbieten; es bestehen jedoch oft weitere Möglichkeiten. Kapitel 0: Zur Einführung Aufgabe: a . Der Einfluss eines Partybesuchs in der Nacht vor einer Prüfung auf diese Prüfung. Experimentelle Forschung. Man könnte zwei Gruppen von Versuchspersonen miteinander vergleichen. Die eine Gruppe würde eine Party besuchen und die andere nicht. Die unabhängige Variable wäre damit Party mit zwei Varianten: “Kein Partybesuch” und “Partybesuch”. Die abhängige Variable wären die Ergebnisse der Prüfungen. b. Die Beziehung zwischen Sprachlaborübungen und Aussprache Experimentelle Forschung. Man könnte zwei Lernergruppen untersuchen. Lerner der einen Gruppe (der Versuchsgruppe) kommen in den Genuss von Sprachlaborübungen, die anderen Lerner (die Kontrollgruppe) nicht, dafür jedoch werden ihnen andere Übungsformen angeboten, natürlich ebenfalls speziell zur Verbesserung der Aussprache gedachte Übungen, z.B. Chorsprechen u.a.m. Sollte die Versuchsgruppe Ausspracheübungen machen, müsste die Kontrollgruppe ebenfalls ebenso viel Zeit für Ausspracheübugen verwenden, jedoch nicht im Sprachlabor. Am Ende würde beiden Gruppen ein (Aussprache-)Test abgenommen und die Ergebnisse miteinander verglichen. c. Die Bedeutung von Farben in den Werken von Chaucer (ein englischer Dichter des 14. Jahrhunderts) Qualitative Forschung. Die Hypothese würde wahrscheinlich lauten “Farben im Werk Chaucers haben eine bestimmte Bedeutung”. Man müsste dann alle Textstellen aus Chaucers Gesamtwerk heraussuchen, in denen Farben eine Rolle spielen und jeder dieser Textstellen eine konkrete Bedeutung zuordnen (wie z. B. Weiß steht für Reinheit, Rot für Wollust, etc.). Diese würden gezählt, und die Zahlen könnten dann darstellen, ob und wie oft die Farbe Weiß Reinheit symbolisiert und wie oft nicht. Trotz der Zählmöglichkeiten handelt es sich hier doch vor allem um qualitative Forschung. d. Die Fremdsprachenkenntnisse niederländischer Geschäftsleute Quantitative nicht-experimentelle Forschung. Diese Forschungsfrage könnte auf verschiedene Weise angegangen werden. Eine Möglichkeit wäre die nicht-experimentelle Forschung in Form einer Befragung, in der die Versuchspersonen (die Geschäftsleute) gefragt würden, welche Lösungen der Aufgaben 157 Sprachen sie gebrauchen, ob sie diese Sprachen selbst beherrschen und falls ja, wie gut. Möglich wäre aber auch, die Fremdsprachenkenntnisse tatsächlich mit Sprachtests zu testen, was komplizierter wäre, aber genauere Informationen ergäbe. Dies ist - wie Sie sich vorstellen können - aber schwer zu erreichen bei dieser Zielgruppe. e. Der Nutzen von Korrekturen der Grammatikfehler von Fremdsprachenlernern Experimentelle Forschung. In der Regel würde man zwei Lernergruppen haben und jede Gruppe einige Male unterrichten, vorzugsweise indem man sich auf ein oder zwei grammatische Strukturen konzentriert. In der Versuchsgruppe würden die Fehler der Lerner korrigiert, in der anderen nicht. Die unabhängige Variable wäre hiermit “Korrektur” mit zwei Varianten: “Korrektur angeboten” und “keine Korrektur angeboten”. Die abhängige Variable wären die Ergebnisse eines Tests, der die entsprechenden Grammatikstrukturen abfragt. f. Verwendung von Höflichkeitsformen bei internationalen Verhandlungen Da es schwierig ist, Höflichkeit in einer mehr oder weniger realistischen Situation zu beeinflussen, könnte man erfahrene Verhandlungsführer bitten, ein Rollenspiel zu leiten, in der sich die eine Seite sehr höflich bzw. sehr unhöflich verhält. Diese Rollenspiel müsste anschließend analysiert werden. Das wäre quasi-experimentelle Forschung. Man muss jedoch dabei beachten, dass Rollenspiel-Gespräche meist stark von den tatsächlichen Gesprächen derselben Personen abweichen (vgl. Brons- Albert 1994 zu Rollenspiel-Artefakten). Eine nicht-experimentelle Variante wäre, einige Sätze und Redewendungen unterschiedlicher Höflichkeits-Grade einigen erfahrenen Verhandlungsführern vorzulegen und diese zu bitten, die Wirksamkeit bzw. Angemessenheit dieser Sätze zu beurteilen. g. Arten der Selbstkorrektur beim L1- und L2-Spracherwerb Typischerweise würden Bespiele von Selbstkorrektur gesammelt, z.B. Selbstkorrektur der Äußerung, Neuanfang des Satzes und Zögern (wie z.B. ich liebe es - ich hasse es, morgens aufzustehen) in L1 und in L2. Man könnte diese Daten mit Hilfe von Tonaufnahmen von Gesprächen in beiden Sprachen sammeln und bei der Analyse jeder Selbstkorrektur eine Kategorie zuweisen. Dies wäre nicht-experimentelle Forschung. h. Ein Vergleich des stillen und des lauten Lesens bei der Entwicklung der Lesefähigkeit. Experimentelle Forschung. Man würde Lesen nach zwei Methoden unterrichten: leises Lesen und lautes Lesen. Nach einer Weile würde beiden Versuchsgruppen ein Test vorgelegt, um so z.B. Aussprache und Richtigkeit zu überprüfen. Damit würde es sich um experimentelle Forschung handeln. Lösungen der Aufgaben 158 Kapitel 1: Gütekriterien für empirische Untersuchungen Aufgabe 1: Sie suchen Kombinationen aus einer finiten Form von sein und haben und einem Partizip II (das geht sogar maschinell in Textkorpora). Nur müssen Sie dann noch bei den finiten Formen von sein abgleichen (lassen), ob das Partizip II von einem Verb stammt, das sein Perfekt mit sein bildet, sonst werden Sätze wie Die Tür ist geschlossen mitgezählt. Erheblich schwieriger ist es, die - seltenen - Zustandsformen mit haben auch auszuschließen (Er hat die Haare in die Stirn gekämmt, Das Pferd hat die Fesseln bandagiert). Auch das ist möglich, dann müssen Sie allerdings die Syntax der Sätze mit einbeziehen: Sie berücksichtigen nur Sätze, die nicht valenzreduziert sind, d.h. bei der nicht der Handelnde weggelassen ist. Ein weniger automatisch vorgehendes Verfahren, das aber auch eine klare Operationalisierung bietet, wäre, dass Sie überprüfen, ob die als Perfekt vermuteten Formen sich ohne wesentliche Bedeutungsveränderung ins Präteritum umformen lassen. Dabei kommt das selbe Ergebnis heraus: Das Pferd hat die Fesseln bandagiert ist eindeutig valenzreduziert, das Agens fehlt offensichtlich (Das Pferd selbst hat niemandem die Fesseln bandagiert), und es entspricht in der Bedeutung auch nicht Das Pferd bandagierte die Fesseln. Nach beiden Verfahren ist dies also eindeutig nicht als Perfekt zu zählen. Auch mit sein als Hilfsverb funktioniert das Verfahren: Die Tür ist geschlossen ist valenzreduziert und nicht identisch mit *Die Tür schloss. Aber bei echten Perfektformen wie Er hat gearbeitet geht die Umformung in Er arbeitete problemlos, und in der Valenz ändert sich auch nichts. Aufgabe 2: a) Auswahl der Informanten: Wir haben mit Absicht ein etwas kurioses Beispiel gewählt, insofern können Sie auch kuriose Lösungsverfahren anbieten. Ein Problem ist nämlich die Auswahl der Informanten. Sie könnten sich z.B. überlegen, dass Sie per Zeitungsannonce Personen suchen, die planen, in nächster Zeit zu konvertieren. Dann nehmen Sie diese Personen vor und nach dem Wechsel der Konfession auf und vergleichen ihren Gebrauch der Vergangenheitstempora. In diesem Fall wären Sie ganz sicher, dass nur die Konfessionszugehörigkeit die Ursache sein kann, falls Sie eine Veränderung im Gebrauch der Vergangenheitstempora finden. Wenn Sie weniger kuriose Lösungen suchen, dann müssen Sie auf jeden Fall darauf achten, dass Sie bei den Informanten beider Konfessionen die Schulbildung und die Verteilung auf Dialektgebiete so konstant wie möglich halten. b) Form der Erhebung: Umständlich wäre eine ungesteuerte Beobachtung, bei der Sie einfach Aufnahmen von natürlicher Sprache bei Sprechern unterschiedlicher Konfessionen machen und auswerten. Lösungen der Aufgaben 159 Eine direkte Befragung “Gebrauchen Sie mehr Perfekt oder mehr Präteritum...? ” scheidet aus, man ist sich nicht bewusst, welche Tempora man benutzt. In einer solchen Befragung würden die Sprecher vermutlich nach Normen, die sie irgendwo aufgeschnappt haben, antworten. Was Sie aber tun können, ist die Versuchspersonen so steuern, dass sie von Vergangenem sprechen müssen, damit Sie nicht so lange Texte produzieren, in denen Sie kaum Vergangenheitstempora finden. Sie können also z.B. auffordern: “Erzählen Sie mir von Ihrem letzten Urlaub! ” (natürlich sollten Ihre Aufforderungen kein Vergangenheitstempus enthalten! ). Experimente, die dazu führen, dass ganze Sätze in einer gewünschten Form geäußert werden, sind nicht einfach zu erstellen. Vermutlich lohnt der Aufwand sich nicht, weil die Beobachtung relativ einfach möglich ist. Aufgabe 3: Zunächst einmal haben Sie die Konfession nicht erhoben, sondern die mumaßliche Konfession, wenn Sie so vorgegangen sind, wie es in der Aufgabenstellung beschrieben ist. (Natürlich würden Sie so etwas nie tun, aber dies ist ein hypothetisches Beispiel zum Üben! ) Dann fragt sich, ob die Gruppen der untersuchten Dorfbewohner demographisch hinreichend gleich sind, was bei der kleinen Zahl von untersuchten Sprechern eine große Rolle spielt. Aber der Grund, warum diese Untersuchung überhaupt nicht zu gebrauchen ist, ist, dass Sie Sprecher aus verschiedenen Dialektgebieten untersucht haben. Die Daten könnten durchaus so aussehen, wie in der Aufgabenstellung beschrieben, aber der Grund ist, dass man im Süddeutschen kaum Präteritum verwendet. Dieses “Oberdeutscher Präteritumschwund” genannte Phänomen beruht keineswegs auf der Konfession, sondern auf Dialektunterschieden. Aufgabe 4: Ihr Test enthält unterschiedlich schwer zu lösende Aufgaben, Sie können also damit rechnen, dass bestimmte Aufgaben fast von allen Schülern richtig gelöst werden, andere nur von den allerbesten Schülern. Das macht Probleme bei der Konsistenzprüfung (es wird unterschiedliche Ergebnisse für die Einzelfragen geben). Wenn Sie das Testhalbierungsverfahren anwenden, dann sollten Sie auf keinen Fall so halbieren, dass Sie die erste Hälfte des Tests mit der zweiten vergleichen, sondern Sie sollten die ungeraden Fragen mit den geraden vergleichen. Kapitel 2: Die Beobachtung Aufgabe 1: Sie müssen festlegen, was Sie als Korrektur ansehen wollen. Das ist gar nicht so einfach, wenn es nicht auf “Korrektur ist das, was ich als Korrektur Lösungen der Aufgaben 160 empfinde” hinauslaufen soll. Eine Möglichkeit wäre eine solche Festlegung: Als Korrektur werte ich jede Wiederholung eines falsch ausgesprochenen Wortes in der unmittelbar darauf folgenden Lehreräußerung mit korrekter Aussprache und jede explizit von der Lehrperson als Korrektur markierte Äußerung. Dann haben Sie nur noch zu operationalisieren, wie Sie “falsche Aussprache” und “korrekte Aussprache” feststellen. Für das Deutsche könnten Sie z.B. festlegen, dass Sie jede Aussprache als falsch ansehen, die im “Ausspracheduden” nicht aufgeführt ist, und jede als korrekt, die im Ausspracheduden (ohne Markierung “regional” o.ä.) aufgeführt ist. Natürlich können Sie auch ein anderes Aussprachewörterbuch zugrundelegen, aber möglichst nicht mehrere, denn sie sind sich oft nicht einig, was neue Probleme schafft. Auch mit dieser Operationalisierung kann es sein, dass einige Dinge, die Sie spontan als Korrektur empfinden, nicht als Korrektur gezählt werden dürfen, z.B. wenn eine von zwei erlaubten Aussprachen durch die andere korrigiert wird oder wenn eine erlaubte Aussprache durch eine nicht erlaubte oder als regional gekennzeichnete korrigiert wird. Sie müssen auch festlegen, welche Fälle Sie als ähnlich genug ansehen wollen, um sie unter einer Kategorie zusammenzufassen. Eine Möglichkeit wäre z.B.: • erbetene Korrekturen Darunter würden Fälle von expliziten Fragen fallen (“spricht man das so aus? ”, “oder wie spricht man das aus? ”), aber auch die versuchsweise Aussprache des Worts mit fragendem Blick, fragender Intonation usw. • beiläufige Korrekturen durch die Lehrperson Das falsch ausgesprochene Wort wird von der Lehrperson richtig ausgesprochen in ihren nächsten Satz eingebaut, ohne dass sie auf den Fehler hinweist. • explizite Korrekturen durch die Lehrperson Hier würde die Lehrperson ihre “Verbesserung” als solche markieren, durch besonders lautes Aussprechen oder durch den expliziten Hinweis auf die falsche Aussprache. • Aufforderungen zur Selbstkorrektur Hier würde die Lehrperson die Lerner auffordern, den Fehler zu verbessern. Da verschiedene Möglichkeiten dazu bestehen, können Sie sich fragen, ob Sie den Punkt weiter untergliedern, z.B. “Vorsprechen und Nachsprechen lassen” als einen anderen Fall ansehen als “Da stimmt was nicht mit dem 3. Wort, versuch es noch einmal.” • Aufforderungen zur Korrektur durch andere Schüler (weiter unterteilt oder nicht) • Umfangreiche Korrektursequenz Auch hier gibt es ganz viele verschiedene Möglichkeiten, so dass Sie eventuell noch einmal Fallgruppen unterscheiden wollen, z.B. solche, bei denen der Fehler zum Anlass für eine lange Übungssequenz des zu- Lösungen der Aufgaben 161 grundeliegenden Phänomens bei der ganzen Lernergruppe genommen wird. Sie können auch unterschiedliche Kategorien bei den Lerner-Reaktionen in Ihre Auswertung aufnehmen. Ein mögliches Verfahren der Operationalisierung wäre auch, dass Sie danach gehen, wie die Lerner sich verhalten. Z.B. würden Sie das als Korrektur zählen, worauf die Schüler wie auf eine Korrektur reagieren (z.B. versuchen, es mit der richtigen Aussprache zu wiederholen, ärgerlich erklären “hab ich doch gesagt” usw.). Was die Überprüfung, ob es nicht auch andere Interpretationsmöglichkeiten gibt, angeht, so ist eine wichtige Überlegung, ob die von der Lehrperson in einer anderen, ihrem Nachschlagewerk nach besseren, Aussprache nicht auch ein sogenanntes “Lehrerecho” sein könnte. Lehrpersonen wiederholen Schüleräußerungen z.B., weil sie zu leise waren, damit die ganze Gruppe von Lernern sie in der Wiederholung hört und beachtet, um den Inhalt zu bestätigen usw. Aufgabe 2: Beide Möglichkeiten erkaufen einen Vorteil mit einem Nachteil. Im ersten Fall untersuchen Sie gar kein natürliches Gespräch, d.h. das Gespräch findet nur zum Zweck der Aufnahme statt, und einer der beiden Gesprächspartner weiß das. Dafür ist der Verkäufer allerdings nicht informiert, dass die erwartete Aufnahme genau im augenblicklichen Gespräch stattfindet. Im zweiten Fall weiß der Verkäufer während des Gesprächs auf jeden Fall, dass er beobachtet wird, was sein Verhalten beeinflussen wird. Zudem ist das Vorgehen im zweiten Fall gegenüber dem Kunden problematisch, er wird ja ohne seine Zustimmung beobachtet. Andererseits liegt ein natürliches Gespräch vor, d.h., die Kunden haben wirklich ein Interesse an einem Kauf und der Verkäufer hat dieselbe Chance, ihnen ein Auto zu verkaufen, wie in der unbeobachteten Situation. Früher hat man sich in vielen Fällen für die erste Möglichkeit entschieden; man hat also eingeweihte Personen die Rolle des Kunden spielen lassen, oder die Forscherinnen haben selbst die Kundenrolle gespielt in der Annahme, das sei unschädlich, denn es solle ja das Verhalten des Verkäufers beobachtet werden, nicht das des Kunden. Diese Annahme hat sich jedoch als irreführend erwiesen. Die Personen in der Kundenrolle konnten sich nicht wie normale Kunden benehmen. Dadurch verlief das Gespräch überhaupt nicht wie ein normales Verkaufsgespräch, und insofern konnte auch der Verkäufer nicht sein normales Verhalten zeigen. Nun könnte man einwenden, dass das ja eventuell für den Beginn des Gesprächs, die Phase der Kontaktaufnahme, noch nicht wichtig ist, sondern erst später, wenn sich zeigt, dass der Kunde gar kein Auto kaufen will. Dies ist aber sicher nicht der Fall, da die eingeweihte Person sich ja auch noch Merkmale des nichtverbalen Verhaltens für das spätere Ausfüllen des Beobachtungsbogens merken muss. Das verlangt so viel Aufmerksamkeit, dass sie sich auf der Lösungen der Aufgaben 162 Ebene der Kontaktaufnahme, der Herstellung einer einvernehmlichen Beziehung, sicher so unnatürlich verhalten wird, dass auch der Verkäufer sich nicht so verhalten wird, wie er es im Gespräch mit einem echten Kunden, der “bei der Sache” (und nicht bei der Beobachtung) ist, verhalten würde. Alles in allem gesehen ist also die zweite Möglichkeit vorzuziehen. Hier ist die beobachtende Person nicht am Gespräch beteiligt und kann also weit weniger durch ihr Verhalten das Gespräch beeinflussen. Vor jeder Verwendung der Gespräche müsste allerdings das Einverständnis der aufgenommenen Kaufinteressenten eingeholt werden. Kapitel 3: Die Befragung Aufgabe 1: Kreuztabellen in absoluten Zahlen: 1a1 Votum 18-30 31-44 45-60 61+ Insgesamt Ja 2 1 3 1 7 Nein 3 0 0 0 3 Weiß Nicht 1 0 0 0 1 Insgesamt 6 1 3 1 11 1a2 Geschlecht Abitur Fachhochschulabschluss Universitäts diplom Insgesamt Männer 3 2 2 7 Frauen 1 3 1 5 Insgesamt 4 5 3 12 1a3 Einkommen 18-30 31-44 45-60 61+ Insgesamt € 50.00 1 0 0 1 2 € 50.001 - 80.000 3 1 1 0 5 ≥ € 80.001 1 0 2 0 3 Insgesamt 5 1 3 1 10 Lösungen der Aufgaben 163 In Prozentwerten: 1a1 1b1 Votum Alter 18-30 31-44 45-60 61+ Insgesamt Ja Ja 33% 100% 100% 100% 64% Nein Nein 50% 0% 0% 0% 27% Weiß Nicht Weiß Nicht 17% 0% 0% 0% 9% Insgesamt Insgesamt 100% 100% 100% 100% 100% 1a2 1b2 Geschlecht Alter Alter Abitur Fachhochschulabschluss Insgesamt Männer Männer 75% 40% 67% 58% Frauen Frauen 25% 60% 33% 42% Insgesamt Insgesamt 100% 100% 100% 100% 1a3 1b3 Einkommen Alter 18-30 31-44 45-60 61+ Insgesamt € 50.00 € 50.00 20% 0% 0% 100% 20% € 50.001 - 80.000 € 51.000 - 80.000 60% 100% 33% 0% 50% ≥ € 80.001 ≥ € 80.00 20% 0% 67% 0% 30% Insgesamt Insgesamt 100% 100% 100% 100% 100% Aufgabe 2: Zunächst einmal ist Ihre Stichprobe eine Stichprobe der Mensa-Benutzer, nicht der Studierenden. Unter den Mensabenutzern sind auch Nicht- Studierende (Lehrpersonal und einige Personen, die die Mensa wegen des preiswerten Essens aufsuchen), und es könnte sein, dass sich die Studierenden, die die Mensa benutzen, von denen, die sie nicht benutzen, doch so erheblich unterscheiden, dass man gar nicht sagen kann, es handele sich um dieselbe Grundgesamtheit. Das eine Problem könnte man angehen, indem man sich vornimmt, die Fragebögen nur an Personen auszuteilen, die “nach Studenten aussehen”, mit der Gefahr, dass man einige ältere Studenten auslässt und einige jüngere Dozenten einbezieht. Auf jeden Fall ist sehr offensichtlich, dass wir hier nicht behaupten können, wir hätten eine Zufallsauswahl getroffen. Ein Problem bei der Art der Wahl der Stichprobe durch Verteilen am Eingang ist auch das Wieder-Einsammeln. Vermutlich würden recht viele Fragebögen auf den Tischen liegen bleiben, und zwar bearbeitet, halb bearbeitet oder leer. Auf diese Weise werden Sie kaum 50% Ihrer Fragebögen zurückbekommen. Lösungen der Aufgaben 164 Ein solches Verfahren hat also eine Menge Nachteile, aber es ist handhabbar, vor allem, wenn Sie die Fragebögen an den Tischen verteilen und wieder einsammeln. Für eine Magisterarbeit ist es völlig akzeptabel, ein solches oder ähnliches Verfahren (z.B. eine gut zusammengestellte Quote von Seminarbesuchern vor oder nach dem Seminar zu befragen) zu benutzen, jedoch in der Arbeit darauf hinzuweisen, welche Tücken die Wahl der Stichprobe hat. Die Auswahl der Stichprobe wäre ganz einfach möglich, falls Sie die Verwaltung überzeugen könnten, die Kartei der eingeschriebenen Studierenden der Philipps-Universität benutzen zu dürfen. Dann könnten Sie daraus eine Zufallsauswahl treffen und die entsprechenden Personen anschreiben. Eventuell hätten Sie eine geringe Unterrepräsentation von älteren Studierenden, weil Adressenwechsel nicht immer beim Studentensekretariat gemeldet werden und diejenigen, die umgezogen sind, für Sie nicht mehr auffindbar sind. Dieses Verfahren, das aus Datenschutzgründen an deutschen Universitäten nicht realisierbar ist, ist natürlich erheblich teurer (Sie brauchen Porto und Rückporto), und Sie hätten das im Text erwähnte Problem der “Selbstselektion der Stichprobe”. Wenn Sie aber so nicht vorgehen können, sollten Sie besser nach dem Quotenverfahren vorgehen. Dabei wäre wichtig, dass Sie die einzelnen Fachbereiche entsprechend ihrer Studentenzahl berücksichtigen, ebenso Geschlecht, Alter und Nationalität der Studierenden. Nun zum eigentlichen Fragebogen: Gut ist das Folgende: Es handelt sich um eine Fragestellung, bei der eine sprachliche Norm eine Rolle spielt; direkte Fragen sind also ausgeschlossen. Dies ist gewährleistet. Das offizielle Papier und der “ausgeliehene” Titel der betreuenden Professorin erhöhen den Eindruck eines seriösen Fragebogens. Ihre Professorin wird Ihnen auch dankbar sein, wenn Sie Ihre eigene E-mail-Adresse und nicht ihre in den Fragebogen schreiben. Gut ist auch, dass eine Möglichkeit gegeben wird, die Ergebnisse der Befragung zu erfahren, ohne die eigene Anonymität aufzuheben. Wenn es sich um heiklere Fragen handeln würde, wäre es übrigens angebracht, dies gar nicht auf demselben Blatt zu erfragen, sondern auf einem Beiblatt. Es gibt einen ablenkenden Titel, der zwar schnell durchschaubar sein dürfte, aber bei der Kürze des Fragebogens fällt das vermutlich erst gegen Ende auf, zumal die erste Frage deutlich dialektbezogen ist. Schlecht oder weniger gut ist das Folgende: Es gibt zu wenig korrekte Sätze in der Liste; man kommt schnell auf die Idee, alles müsse falsch sein. Lösungen der Aufgaben 165 Insgesamt kommen die infrage stehenden Phänomene zu selten vor. Es sollten für die einzelnen Typen (Doppelperfekt/ Doppelplusquamperfekt; mit sein und mit haben gebildet) mindestens je 3 Sätze vorkommen. Dadurch müssen aber auch erheblich mehr Ablenker-Sätze aufgenommen werden, also Sätze, die gar kein Doppelperfekt oder Doppelplusquamperfekt enthalten. Die vorgegebenen Antwortkategorien vermischen 2 Aspekte. Einerseits geht es um die Beurteilung als korrekt oder unkorrekt (besser als falsch, was auch als “inhaltlich falsch” aufgefasst werden kann - in diesem Fall würde z.B. Heute ist schönes Wetter an einem Regentag mit falsch beurteilt), andererseits darum, ob man etwas kennt und gebraucht. Das muss nicht übereinstimmen, denn man kann wissen, dass man Dinge sagt, die man trotzdem als unkorrektes Deutsch ansieht. Kapitel 4: Das Experiment Aufgabe 1: Eine deutlich intervenierende Variable ist die Worthäufigkeit. Bei jeder Benennaufgabe sind Versuchspersonen deutlich schneller bei häufig vorkommenden Wörtern. Sie müssten also darauf achten, dass die Wörter in allen Gruppen dieselbe durchschnittliche Häufigkeit haben (anhand von Korpora zur Vorkommenshäufigkeit, z.B. der CELEX-Datenbank). Eine weitere intervenierende Variable ist die Wortlänge. Je länger das Wort ist, um so länger dauert das Lesen (abhängig von der Zahl der Buchstaben) und dauert die Ausspracheplanung (wohl abhängig von der Zahl der Silben). Auch Silbenzahl und Anzahl der Buchstaben müssten also über die Gruppen konstant gehalten werden. Zu befürchten ist auch, dass der Grad der vorzunehmenden Veränderungen eine Rolle spielt. Insofern wäre es weise, Fälle mit Umlauten getrennt zu betrachten, denn beim -s-Plural gibt es keine Umlaute. Aufgabe 2: So formuliert ist die Frage nicht experimentell überprüfbar, denn hier geht es ja gar nicht um die Überprüfung einer Hypothese. Aber auch bei einer Umformulierung der Art, “Lerner des Deutschen als Fremdsprache lernen mit dem Valenz-/ Dependenzmodell besser als mit der traditionellen Grammatik, korrekte Akkusativ-Markierungen zu gebrauchen” hätten Sie verschiedene Probleme. Ein sehr großes Problem ist es, den beiden infrage stehenden Grammatikmodellen “gleiche Chancen” zu geben. Während Lerner des Deutschen als Fremdsprache fast immer die traditionelle Grammatik bereits kennen, lernen sie das Valenz-/ Dependenzmodell zur Grammatikbeschreibung meist erst durch ihr Deutschlehrbuch kennen. Lösungen der Aufgaben 166 Insofern ist zu erwarten, dass sie einfach (richtig oder falsch! ) die ungewohnt präsentierten grammatischen Erklärungen in ihrem Lehrbuch in ihr vertrautes Modell “übersetzen”, das angebotene Modell also gar nicht nutzen. Ein zweites Problem ist, dass das verwendete Modell nur bis zu einem bestimmten Punkt auf dem Weg zur richtigen Markierung bei der Sprachproduktion helfen kann, nämlich bis dahin, wo der Lerner weiß, dass ein Akkusativ stehen muss. Dass er dann auch noch die Markierung tatsächlich (und die korrekte Markierung) verwendet, ist ein weiterer Schritt. Zwischen den beiden Schritten kann sehr viel passieren, also ist es sinnvoll, nur das zu überprüfen, wobei das verwendete Modell überhaupt eine Rolle spielen kann. D.h., wenn wir experimentieren, sollten wir für verschiedene Kontexte abfragen, welcher Kasus stehen muss, aber nicht die konkrete Markierung erfragen. Wir setzen also die Fragestellung erst in eine experimentell beantwortbare um, indem wir uns die Aufgabe stellen, die folgende Hypothese zu unterstützen: Deutschlerner profitieren beim Lernen des Unterschieds zwischen Nominativ und Akkusativ davon, dass man ihnen Grammatikerklärungen im Valenz-/ Dependenzmodell bietet. Bei der praktischen Durchführung des Experiments müsste man zwei vergleichbare Gruppen von Lernern haben und mit jeweils demselben modernen Lehrbuch unterrichten, wobei jedoch für eine der beiden Gruppen alle relevanten Grammatikdarstellungen in die traditionelle Grammatik umgeschrieben werden müssten. Nachdem die Einführung des Akkusativs abgeschlossen ist, würde man dann beiden Gruppen einen schriftlichen Test vorlegen, in dem für verschiedene Sätze bei den nominalen Elementen abgefragt wird, welcher Kasus jeweils richtig ist. Kapitel 5: Arbeiten mit Textkorpora Aufgabe: Wir haben einerseits das Problem, das wir auch bei geschriebenen Texten hätten: Wie zählen wir grammatische Formen ein- und desselben Worts? Das ist ganz besonders für die automatische Zählung ein großes Problem, denn alles, was gleich geschrieben wird, ist für den Computer derselbe type. Also kann nur eine Zählung “von Hand” unterscheiden, ob die grammatische Form arbeitet 3. Person Singular Präsens oder 2. Person Plural Präsens von arbeiten ist. Dies ist für die gesprochene Sprache nicht anders, aber hier kommt ein zusätzliches Problem hinzu, nämlich die Zählung von Aussprache-Varianten ein- und derselben grammatischen Form. Selbst wenn wir uns entscheiden würden, dass wir jede einzelne grammatische Form als Extra-type zählen würden, stehen wir vor weiteren Problemen. Ist alles, was in der Standardschreibung als da s auftreten würde, dasselbe type? Wir finden in Feld 4 und 13 das und in den Feldern 5, 14 und 16 dat. Für es Lösungen der Aufgaben 167 finden wir ´s in Feld 7 und 10 und in Feld 18 sogar et in nützet. Dies macht nicht nur die automatische Suche schwierig, sondern stellt uns auch vor methodische Probleme. Wir können davon ausgehen, dass es noch erheblich mehr Aussprachevarianten von das gibt, jedoch nicht alle sind mit den Mitteln der Normalschrift (noch nicht einmal mit der IPA-Umschrift) zu unterscheiden. Wenn also alle Aussprache-Varianten verschiedene types sein sollen, wo wollen wir die Grenzen legen? Kapitel 6: Beschreibende Statistik Aufgabe 1: 1.1 Nationalität: Sie können die einzelnen Länder jeweils aufführen, Sie können aber auch, wenn die erhaltenen Ergebnisse Ihnen ausreichend ähnlich erscheinen, Länder zusammenfassen, z.B. werden manchmal die BENELUX-Länder zusammengefasst oder Spanien und Portugal. In jedem Fall geht es um Nominalskalenniveau. 1.2 Muttersprache: Hier werden Sie eventuell einige weniger verbreitete Muttersprachen als “andere” zusammenfassen wollen: Nominalskalenniveau. 1.3 Alter: Sie haben Intervallskalenniveau, wenn Sie das tatsächliche Alter festhalten. Das macht die Darstellung allerdings sehr unübersichtlich, insofern werden Sie sicher eine überschaubare Zahl von Gruppen in Bezug auf das Alter zusammenfassen, z.B. <21, 21-35, 36-50, 51-65, >65, und damit kommen Sie auf Ordinalskalenniveau. 1.4 Ausbildung: Auch hier werden Sie Gruppen bilden, damit alle Möglichkeiten erfasst werden können, z.B. wenn Sie sich nur um die Schulausbildung kümmern, wäre das folgende eine Möglichkeit: Hauptschulabschluss oder geringer; Realschul-/ Fachoberschulabschluss; Abitur oder Äquivalent, begonnenes Studium; Abgeschlossenes Studium. Hier hätten Sie eine Nominalskala, denn es ist vielleicht in der Wahrnehmung vieler Menschen so, dass ein abgeschlossenes Studium “mehr” ist als ein Hauptschulabschluss, aber im statistischen Sinne ist das nicht so. Eine Intervallskala könnten Sie haben, wenn Sie einfach die Anzahl der aufsteigenden Schul- und Ausbildungsjahre zusammenrechnen, ohne den Schulbzw. Ausbildungstyp zu berücksichtigen, also nur “6, 7, 8 ... Ausbildungsjahre” angeben. Das ist jedoch unüblich. 1.5 Beruf: Die Berufe werden auch üblicherweise zusammengefasst, z.B. nach der Art des Arbeitsvertrags in Arbeiter, Angestellte, leitende Angestellte, Beamte, nicht berufstätig. Oder auch ganz anders, wie Wissenschaftler, Handwerker, Geschäftsmann usw. Für eine bestimmte Untersuchung kann aber eine andere Einteilung viel sinnvoller sein. Auf jeden Fall haben wir ein Nominalskalenniveau. Lösungen der Aufgaben 168 1.6/ 7: Für 6 und 7 ist die Kategorisierung vorgegeben. Strikt genommen haben wir hier Rangskalenniveau, weil die “Intervalle” hier nicht gleich sind. In der Praxis aber betrachtet man eine solche Skala aber oft als (semi-)Intervallskalenniveau, und berechnet man Mittelwerte, was bei einer Rangskala nicht möglich wäre. 1.8/ 9: Für 8 und 9 wurde unglücklicherweise vorgesehen, dass offene Antworten gegeben werden können; das stellt Sie vor die Aufgabe, im Nachhinein den gegebenen Antworten Kategorisierungen zuzuweisen, was vermutlich nicht mehr einbringt, als wenn Sie gleich etwas wie “sehr gering 1 - 2 - 3 - 4 - 5 äußerst groß” vorgegeben hätten. Aufgabe 2: ohne William Streuung 8 4 Mittelwert 6,20 6,78 s 2,15 1,21 Varianz 4,62 1,44 Aufgabe 3: Ergebnis Häufigkeit kumulative Häufigkeit Percentil 9 1 10 100 8 1 9 90 7 3 8 80 6 3 5 50 5 1 2 20 4 0 1 10 3 0 1 10 2 0 1 10 1 1 1 10 Gesamt 10 Wenn die Häufigkeit null ist, macht es keinen Sinn, das Percentil anzugeben. Deshalb kann man die letzten beiden Spalten leer lassen, wenn die Häufigkeit null ist. Aufgabe 4: Nancy: 80, Adrian: 50. Aufgabe 5: Durchschnitt für Männer und Frauen: 5,8 bzw. 6,6. Durchschnitt für Männer und Frauen ohne William: 7,0 bzw. 6,6. Lösungen der Aufgaben 169 Aufgabe 6: a) Geschlecht: Nominalskala b) Gesprochener Dialekt: Nominalskala c) Verschiedene Arten von Relativsätzen im Englischen: Nominalskala d) Benotung derselben Aufsätze: Intervallskala e) Reaktionszeit: Intervallskala f) Didaktische Fähigkeiten: Intervallskala g) Länge der Schlagzeilen: Intervallskala. Aufgabe 7: Die Daten in Abb. A z.B. könnten sich beziehen auf die Fremdsprachenkenntnisse einer Gruppe von Personen wie in der folgenden Tabelle (die Trennung der Balken im Diagramm zeigt Ihnen, dass es sich um eine Nominalskala handeln muss). Wir hätten also 22 Personen, die die englische Sprache beherrschen, 12 für die französische usw. Englisch Französisch Spanisch Italienisch Niederländisch 22 12 3 1 0 Die Daten in Abb. B könnten sich z.B. beziehen auf die Bewertungen bei einer Gruppe von Studenten für ihre Aktivitäten in einem Seminar, wobei 1 auf der X-Achse “sehr schlecht” wäre, und 5 “sehr gut” (Intervallskala). Damit wären also 4 “sehr schlecht” usw. Kapitel 7: Korrelationen Aufgabe 1: Student aus Mutterspr. in Mutterspr. X 2 Y 2 XY 1 7 7 49 49 49 2 4 7 16 49 28 3 7 6 49 36 42 4 6 5 36 25 30 5 8 7 64 49 56 6 3 10 9 100 30 7 5 7 25 49 35 8 5 6 25 36 30 9 8 6 64 36 48 10 7 8 49 64 56 Summe 60 69 386 493 404 Quadratsumme 3600 4761 Lösungen der Aufgaben 170 a) r = - 0,48 b) Die Korrelation ist negativ, wie auch durch die negative Steigung der Geraden des Graphen in der folgenden Abbildung ersichtlich ist. Sie ist nicht hoch, sondern eher bescheiden. Sie ist auch nicht signifikant. (Das Minuszeichen kann für das Nachsehen in der Tabelle ignoriert werden.) Der Minimalwert für df = 8 liegt bei 0,632. Die negative Korrelation ist durch Mattys Ergebnis entstanden. Falls Matty ein Ergebnis von drei statt zehn in der Kategorie “in Muttersprache” erreicht hätte, wäre die Korrelation 0,51 gewesen. c) Vielleicht hat Matty sich nicht gut gefühlt, als sie aus der Muttersprache übersetzte. Vielleicht hat sie eine andere Muttersprache als die anderen Schüler. d) 3 4 5 6 7 8 9 1 0 3 4 5 6 7 8 9 1 0 Aufgabe 2: Die Korrelation zwischen den Ergebnissen von Schulkindern und der Anzahl der Bücher in den Häusern, in denen sie wohnen, sagt nicht viel aus. Man kann nicht sagen, dass die Anzahl der Bücher bessere Noten verursacht habe (einmal angenommen, dass die Beziehung positiv ist). Aufgabe 3: Wenn es eine positive Korrelation zwischen der Taillengröße von Menschen und ihrem Einkommen gibt (und dies ist in den meisten europäischen Ländern der Fall), ist wahrscheinlich ein verborgener Faktor mit im Spiel, wie beispielsweise das Alter. Es gibt eine positive Korrelation zwischen Alter und Taillengröße (Menschen werden ein bisschen dicker, wenn sie älter werden) und zwischen Alter und Einkommen (mit höherem Alter steigt das Einkommen). Daher gibt es konsequenterweise auch eine positive Korrelation zwischen Taillengröße und Einkommen. Dies nennt man eine irreführende Korrelation. Gleichfalls gibt es eine irreführende Korrelation zwischen Anzahl der Geburten und Anzahl der Störche in den letzten 30 Jahren - beide sind zurückgegangen, vielleicht wegen eines “beides verursachenden” Faktors “Industrialisierung” oder etwas ähnlichem. Lösungen der Aufgaben 171 Aufgabe 4: a) r=0,46 b) Die Korrelation ist positiv, nicht sehr hoch, zeigt aber eine substantielle Beziehung (p<0,001). c) 4 4 . 5 5 5 . 5 6 6 . 5 7 7 . 5 8 8 . 5 9 4 4 . 5 5 5 . 5 6 6 . 5 7 7 . 5 8 8 . 5 9 Aufgabe 5: Wahrscheinlich gibt es eine negative Korrelation: je älter die Kinder werden, desto weniger Probleme haben sie mit Bettnässen. Aufgabe 6: Eine Korrelation von -0,65 ist eine stärkere Korrelation als +0,45. Das hat nichts damit zu tun, dass die eine positiv und die andere negativ ist. “Positiv” und “negativ” bei einer Korrelation sagt nur aus, ob die beiden Phänomene gleichzeitig zunehmen oder ob das eine zunimmt, wenn das andere abnimmt. Aufgabe 7: Natürlich ist Rauchen schlecht, aber wir können keine Kausalaussagen aufgrund von Korrelationen treffen. Die Korrelation kann auf einem Faktor beruhen, der beides verursacht, z.B. Stress. Aufgabe 8: B zeigt die höchste Korrelation, C die niedrigste. Lösungen der Aufgaben 172 Kapitel 8: Das Testen des Tests Aufgabe 1: Test 1 x richtig 1 Theo 6 1 2 Herbert 5 1 3 Martin 8 1 4 Kay 7 0 5 Vera 7 1 6 Lynn 6 0 7 Maggie 6 0 8 Geoff 8 1 9 Rod 2 0 10 Petra 3 0 11 John 7 1 12 Peter 4 0 13 Ellis 7 0 14 Sara 6 1 15 Martin 8 1 16 Matty 3 1 17 Eve 5 0 18 Nancy 5 0 19 Adam 8 1 20 Mike 7 0 p Anteil Schüler in erfolgreicher Gruppe 0,50 q Anteil Schüler in nicht erfolgreicher Gruppe 0,50 a) Der p-Wert von Einheit x ist 0,50 (Anteil derjenigen, die die Einheit richtig beantworten). D-Index = 0,80 0,20 = 0,60. Die Berechnung erfolgt so: Man nimmt die obersten und die untersten 25%. (In unserem Fall gibt es ein Sortierproblem: Unsere untere Gruppe beinhaltet einen der 3 Schüler mit einer “5”, von denen zwei Einheit X falsch haben und einer sie korrekt hat. Wir sehen die Einheit daher als inkorrekt an. Ähnlich verhält es sich bei der oberen Gruppe.) Lösungen der Aufgaben 173 Obere 25% Test 1 x richtig Martin 8 1 Geoff 8 1 Martin 8 1 Adam 8 1 Kay 7 0 Summe 4 Anteil 0,80 (= 4/ 5) Untere 25% Test 1 x richtig Nancy 5 0 Peter 4 0 Petra 3 0 Matty 3 1 Rod 2 0 Summe 1 Anteil 0,20 (= 1/ 5) b) Der punktbiseriale-Korrelationskoeffizient der Einheit ist = 0,38813, was recht niedrig ist. Die Einheit sollte ersetzt werden. Aufgabe 2: Berechnung der Korrelation zwischen den Ergebnissen der Spalten 2 und 4 der Aufgabe: r=0,72. Dieser Verlässlichkeitskoeffizient (0,72) ist signifikant (df=18, p<0,001). Er ist jedoch nicht sonderlich hoch. Aufgabe 3: Um eine Verlässlichkeit über 0,85 zu erreichen, muss der Test länger sein. Benutzen Sie die Spearman-Brown-Korrekturformel, um 0,86 zu erreichen: r a =0,86 r o =0,72, M= 1,1946127 * 2,000724 = 2,3901. Der Test muss also mehr als doppelt so lang sein. Lösungen der Aufgaben 174 Kapitel 9: Wann sind Unterschiede bedeutsam? Aufgabe 1: Ein t-Test für unabhängige Gruppen ergibt, angewendet auf Gruppe A und B: X X 2 Y Y 2 Summe 132 956 107 629 Mittelwert 6,60 5,35 n n1=8 n2=7 Differenz zwischen den Mittelwerten: 1,25 SSx (Quadratsumme von x): 84,80 SSy (Quadratsumme von y): 56,55 t=2,05, df=38, p=0,0474 Die obigen t- und p-Werte sind exakte Werte. Wenn wir nur die Tabelle in Anhang 2 benutzen, sehen wir, dass es keine Reihe für df=38 gibt; das bedeutet, dass wir die Reihe mit dem nächstkleineren df-Wert benutzen müssen, also den “konservativeren” Wert verwenden. In der Reihe für df=30 ist der minimale t-Wert 2,04; unser t-Wert von 2,05 ist also gerade eben noch signifikant. Das Resultat kann wie folgt präsentiert werden: Die Ergebnisse für die zwei experimentellen Bedingungen waren signifikant verschieden, wobei die Schüler in Gruppe A höhere Ergebnisse erreichten als die Schüler in Gruppe B (t=2,05, df=38, p<0,05). Dies legt nahe, dass der ältere Lehrer trotz seiner größeren Erfahrung weniger erfolgreich im Vermitteln des Lehrstoffs war als sein junger Kollege. Aufgabe 2: Es ergeben sich die folgenden Daten: Beobachtete Häufigkeit: A B Gesamt Ja 16 12 28 Nein 4 8 12 Gesamt 20 20 40 Erwartete Häufigkeit: A B Ja 14 14 Ja 6 6 Lösungen der Aufgaben 175 Berechnung für jede Zelle (mit Yates-Korrektur): A B Ja 0,16 0,16 Ja 0,38 0,38 χ 2 =1,07, df=1. Der Chi-Quadrat Wert muss mindestens 3,84 betragen. Unserer ist also zu niedrig. Ein möglicher Ergebnisbericht: Ein Chi-Quadrat Test ergab keinen Unterschied zwischen den zwei Gruppen in der Frage der frühzeitigen Pensionierung von Lehrern über 50 ( χ 2 =1,07, df=1, n.s). Aufgabe 3: Eigentlich gibt es zu wenig Daten, um einen t-Test benutzen zu können. Besser wäre einer Mann-Whitney-U-Test, der aber nicht in diesem Buch besprochen wird. Man könnte das Resultat der Analyse ganz kurz wie folgt aufschreiben: Es zeigte sich, dass in Boulevard-Zeitungen kürzere Sätze verwendet werden als in seriösen Zeitungen (t=-3,48, df=11,p<0,01). Der Mittelwert war jeweils 14,1 und 26,3 Wörter. 177 Anhang 1 Signifikanzniveaus beim Korrelationskoeffizienten (zweiseitiger Test) df=(N2) 0,05 0,01 0,001 1 0,997 0,999 1,000 2 0,950 0,990 0,999 3 0,878 0,959 0,991 4 0,811 0,917 0,974 5 0,754 0,874 0,951 6 0,707 0,834 0,925 7 0,666 0,798 0,898 8 0,632 0,765 0,872 9 0,602 0,735 0,847 10 0,576 0,708 0,823 11 0,553 0,684 0,801 12 0,532 0,661 0,780 13 0,514 0,641 0,760 14 0,497 0,623 0,742 15 0,482 0,606 0,725 16 0,468 0,590 0,708 17 0,456 0,575 0,693 18 0,444 0,561 0,679 19 0,433 0,549 0,665 20 0,423 0,537 0,652 25 0,381 0,487 0,597 30 0,349 0,449 0,554 35 0,325 0,418 0,519 40 0,304 0,393 0,500 45 0,288 0,372 0,465 50 0,273 0,354 0,443 60 0,250 0,325 0,408 70 0,232 0,303 0,380 80 0,217 0,283 0,357 90 0,205 0,267 0,338 100 0,195 0,254 0,321 178 Anhang 2 Signifikanzniveaus von t bei einem zweiseitigen t-Test df 0,05 0,01 0,001 1 12,71 63,66 636,62 2 4,30 9,93 31,60 3 3,18 5,84 12,94 4 2,78 4,60 8,61 5 2,57 4,03 6,86 6 2,45 3,71 5,96 7 2,37 3,50 5,41 8 2,31 3,36 5,04 9 1,26 3,30 4,78 10 2,23 3,17 4,59 11 2,21 3,11 4,44 12 2,18 3,10 4,32 13 2,16 3,00 4,22 14 2,15 3,00 4,14 15 2,13 2,95 4,07 16 2,12 2,92 4,12 17 2,11 2,90 3,97 18 2,10 2,88 3,92 19 2,09 2,86 3,88 20 2,09 2,85 3,85 21 2,08 2,83 3,82 22 2,07 2,82 3,79 23 2,07 2,81 3,77 24 2,06 2,80 3,75 25 2,06 2,79 3,73 26 2,06 2,78 3,71 27 2,05 2,77 3,69 28 2,05 2,76 3,67 29 2,05 2,76 3,66 30 2,04 2,75 3,65 40 2,02 2,70 3,55 60 2,00 2,66 3,46 120 1,98 2,62 3,37 179 Anhang 3 Signifikanzniveaus von χ 2 bei einem Chi-Quadrat-Test df 0,05 0,01 0,001 1 3,84 6,64 10,83 2 5,99 9,21 13,82 3 7,82 11,34 16,27 4 9,49 13,28 18,46 5 11,07 15,09 20,52 6 12,59 16,81 22,46 7 14,07 18,48 24,32 8 15,51 20,09 26,12 9 16,92 21,67 27,88 10 18,31 23,21 29,59 11 19,68 24,72 31,26 12 21,03 26,22 32,91 13 22,36 27,69 34,53 14 23,68 29,14 36,12 15 25,00 30,58 37,70 16 26,30 32,00 39,29 17 27,59 33,41 40,75 18 28,87 34,80 42,31 19 30,14 36,19 43,82 20 31,41 37,57 45,32