eJournals Fremdsprachen Lehren und Lernen 30/1

Fremdsprachen Lehren und Lernen
flul
0932-6936
2941-0797
Narr Verlag Tübingen
Es handelt sich um einen Open-Access-Artikel, der unter den Bedingungen der Lizenz CC by 4.0 veröffentlicht wurde.http://creativecommons.org/licenses/by/4.0/121
2001
301 Gnutzmann Küster Schramm

Datenerhebungsverfahren und ihre Evaluation

121
2001
Olaf Bärenfänger
Jan Stevener
flul3010013
Olaf Bärenfänger, Jan Stevener * Datenerhebungsverfahren und ihre Evaluation Ein Kriterienkatalog Abstract. Second language acquisition constitutes a field of empirical research to which several scientific discipliiles may contribute, among them linguistics, psychology, ethnology and didactics. In accordance with the interdisciplinary character of this research, many different methods are applied in order to collect or analyse data. However, up to now there has been little effort to investigate how research methods can be evaluated within a general theoretical framework. In this paper we propose a ten criteria catalogue for the detailed description of data collection methods and the assessment of their theoretical status, potential, limitations and appropriateness. Finally, we hope to contribute to the establishment of common methodological standards in second language acquisition research which may lead to a more transparent research process. 1. Einleitung Karl R. Popper (1966: 75 f) beschreibt die Grundlage der empirischen Wissenschaften folgendermaßen: So ist die empirische Basis der objektiven Wissenschaft nichts ,Absolutes'; die Wissenschaft baut nicht auf Felsengrund. Es ist eher ein Sumpfland, über dem sich die kühne Konstruktion ihrer Theorien erhebt[...]. Wie Poppers Metapher nahe legt, müssen Forscher als Konstrukteure von Theorien bei einem solchermaßen schwierigen Baugrund mit größter Umsicht und Sorgfalt vorgehen. Es sollte daher das Kennzeichen jeder empirisch-wissenschaftlichen Tätigkeit sein, dass Wissenschaftler die sie interessierenden Gegenstände nicht nur mit Hilfe ausgewiesener Methoden beschreiben, analysieren und erklären, sondern dass sie auch die Berechtigung und die Grenzen des eigenen Tuns reflektieren. Zu dieser kritischen Wissenschaftlichkeit gehört unter anderem auch eine genaue Eingrenzung des Untersuchungsgegenstandes, die präzise Anwendung und Dokumentation der Datenerhebungs- und -auswertungsmethoden sowie die sorgfältige Überprüfung von deren Gegenstandsangemessenheit. Auch die * Korrespondenzadresse: Olaf BÄRENFÄNGER, M.A., Fakultät für Linguistik und Literaturwissenschaft, Deutsch als Fremdsprache, Universität Bielefeld, Postfach 100 131, D-33501 BIELEFELD. Email: olaf.baerenfaenger@uni-bielefeld.de Arbeitsbereiche: Psycholinguistik des Fremdsprachenerwerbs, Empirische Fremdsprachenerwerbsforschung, Discourse Studies. Jan STEVENER, Fakultät für Linguistik und Literaturwissenschaft, Deutsch als Fremdsprache, Universität Bielefeld, Postfach 100 131, D-33501 BIELEFELD. E-mail: jan.stevener@uni-bielefeld.de Arbeitsbereiche: Bilingualismus und Kodewechselprozesse, Empirische Fremdsprachenerwerbsforschung, Sprachproduktionsmodelle. lFLuL 30 (2001) 14 Olaf Bärenfänger, Jan Stevener Darstellung der Ergebnisse und Schlussfolgerungen muss den in der dafür zuständigen scientific community üblichen und anerkannten Standards entsprechen. Bei vielen Beiträgen aus der Fremdsprachenerwerbsforschung bestehen schon hinsichtlich der Dokumentation des Forschungsprozesses Defizite. So beklagt beispielsweise Aguado (2000b: 119) die fehlende Transparenz zahlreicher empirischer Arbeiten, in denen die Darstellung des „Vorgehen[s] bei der Erhebung, Aufbereitung und Auswertung der Daten" nur „sehr knapp" ausfällt und Probleme und Schwächen meist ganz unerwähnt bleiben. In Bezug auf Sprachtests stellt Spolsky (2000: 537) eine unzureichende Reflektiertheit der Testbenutzer fest und fordert eine sorgfältigere Anwendung der Verfahren. Auch sonst ist häufig nicht erkennbar, ob Überlegungen dazu angestellt wurden, welche Ergebnisse mit einem Verfahren überhaupt zu erzielen sind und wie zuverlässig diese sind. Dies mag darauf zurückzuführen sein, dass in der Geschichte der Fremdsprachenerwerbsforschung lange Zeit ein auffälliger Mangel an Interesse bezüglich wissenschaftstheoretischer Grundlagen bestand (de Keyser [im Druck]), was nicht zuletzt an der geringen Verbreitung einschlägiger deutschsprachiger Arbeiten abzulesen ist (vgl. Grotjahn 2000a: 22). Eine Ausnahme stellen derzeit nur solche Publikationen dar, die im Rahmen der Debatte um quantitative vs. qualitative Methoden entstanden sind (z.B. Markard 1991 ), sowie eine Reihe von Beiträgen zu allgemeinen methodischen Problemen der empirischen Sprachlehr- und Sprachlernforschung (z.B. Arbeitsgruppe Fremdsprachenerwerb Bielefeld 1987; 1995, 1996a; 1995, 1996b; Kasper 1998; die Beiträge in Aguado 2000a; Grotjahn 2000b sowie die Beiträge in Müller-Hartmann/ Schocker-von Ditfurth 2001 ). Auch wenn somit insgesamt das „untersuchungsmethodische Bewusstsein [...] in den letzten Jahren zweifelsohne gestiegen" (Königs 2000: 60) ist, liegt ein fachübergreifender Konsens zu Methodenfragen, wie er für viele Aspekte der Forschungstätigkeit in den Sozialwissenschaften besteht, noch fern. Angesichts der wissenschaftstheoretisch unbefriedigenden Ausgangssituation unterbreitet der vorliegende Beitrag einen Vorschlag zwar nur zu einem einzigen, aber gleichwohl grundlegenden Aspekt der empirischen Fremdsprachenerwerbsforschung, nämlich zum kritischen Umgang mit Datenerhebungsinstrumenten und -methoden. Dazu wird ein Katalog von zehn Kriterien vorgelegt, mit dem fremdsprachenerwerbsspezifische Datenerhebungsverfahren hinsichtlich ihrer Voraussetzungen sowie ihrer Möglichkeiten und Grenzen evaluiert werden können. Die Aufgabe des Katalogs ist es aber weder, eine für die empirische Fremdsprachenerwerbsforschung maßgeschneiderte Testtheorie zu entwickeln; noch sollen, wie speziell für Sprachtests des Öfteren gefordert (vgl. z.B. Bachmann 1990: 5), allgemeingültige Maße vorgegeben werden. Statt dessen wird eine Systematik erarbeitet, die bewährte methodologische Richtlinien der Sozialwissenschaften auf die Erfordernisse fremdsprachenerwerbsspezifischer Fragestellungen überträgt und so eine Brücke zwischen allgemeiner Testtheorie und konkreter Forschungspraxis schlagen kann. Der Katalog erhebt keinen Anspruch auf Vollständigkeit und ist noch für Ergänzungen offen. Im folgenden Abschnitt werden zunächst Überlegungen zu den Funktionen des Kriterienkatalogs für die Forschungstätigkeit angestellt. Anschließend erfolgt eine ausführliche Darstellung jedes einzelnen Katalogpunktes, wobei zahlreiche Anregungen lFlL11lllL 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 15 aus sozialwissenschaftlichen Methodenlehren Berücksichtigung finden, v.a. aus den wegweisenden Standards for Educational and Psychological Testing der American Psychological Association (1998; 1999) und aus Bortz (1999). Die Anwendbarkeit des Kriterienkatalogs wird punktuell an einigen fremdsprachenerwerbsspezifischen Datenerhebungsverfahren illustriert. Ein weiterführender Beitrag mit einer exemplarischen Anwendung des gesamten Kriterienkatalogs auf ein selbst entwickeltes Verfahren zur Erhebung impliziten sprachlichen Wissens ist zur Zeit in Vorbereitung. 2. Funktionen des Kriterienkatalogs Der vorgelegte Kriterienkatalog ist aus praktischen Erfordernissen innerhalb des von der DFG geförderten Forschungsprojekts „Zur Funktion der mündlichen L2-Produktion und zu den damit verbundenen kognitiven Prozessen für den Erwerb der fremdsprachlichen „Sprechfertigkeit" hervorgegangen. Hauptziel des in Bielefeld.angesiedelten Projekts ist es, in einer auf elf Monate angelegten Longitudinalstudie mit 16 ausländischen Studierenden die wechselseitige Abhängigkeit ihrer mündlichen Performanz und ihrer Kompetenz zu untersuchen und in ein fremdsprachenerwerbsspezifisches Sprachproduktionsmodell zu überführen. (Weiterführende Informationen finden sich im World Wide Web unter http: / / www.uni-bielefeld.de/ lili/ projekte/ L2-pro). Für die Erhebung und Auswertung der Daten kommt ein Mehrmethodendesign zum Einsatz. Dieses setzt notwendigerweise voraus, dass die teilweise sehr heterogenen quantitativen und qualitativen Datenerhebungsverfahren wie z.B. experimentelle Longitudinal- und Querschnittsverfahren, die Elizitierung mündlicher Sprachdaten mittels standardisierter Interviews, Retrospektionen, Fragebögen, Cloze-Tests, Akzeptabilitätsurteile, lexikalische Entscheidungsaufgaben oder Think-Aloud-Aufgaben zum Zweck der Datentriangulation miteinander hinsichtlich theoretischer und (forschungs-) praktischer Parameter verglichen werden können (zu den unterschiedlichen Erhebungsverfahren siehe Mißler 1993 oder Nunan 1996). Der Kriterienkatalog wurde als Instrument geschaffen, das eben diesen Vergleich auf der Grundlage eines differenzierten Analyserasters erlaubt. In methodentheoretischer Hinsicht erfüllt der Kriterienkatalog darüber hinaus eine Reihe weiterer Funktionen. Erstens zwingt er zur Explizierung des Untersuchungsgegenstandes und schafft damit Klarheit über den zu untersuchenden Phänomenbereich. Zweitens müssen die Entwickler und Anwender von Sprachtests und Datenerhebungsverfahren in Zusammenhang mit der Operationalisierung offen legen, welche Merkmale sie einem Untersuchungsgegenstand theoretisch zuschreiben und mit welchen Maßen sich diese empirisch erfassen lassen. Die beobachteten Ausprägungen der Merkmale lassen dann Rückschlüsse auf den Untersuchungsgegenstand zu. Auf diese Weise werden sowohl Zusammenhänge zwischen Theorie und Empirie ausbuchstabiert als auch (oft nur implizite) theoretische Grundannahmen offengelegt. Dieser Aspekt des Kriterienkatalogs führt zu einer größeren Transparenz und Nachvollziehbarkeit der gewonnenen Daten. Drittens kann auch die Leistungsfähigkeit eines Datenerhebungsverfahrens seine lFLllL 30 (2001) 16 OlafBärenfänger, Jan Stevener „testtheoretische Brauchbarkeit" (Bortz 1999: 11) im Hinblick auf einen bestimmten Phänomenbereich durch die Anwendung der Gütekriterien Objektivität, Reliabilität und Validität eingeschätzt werden. Dieser Aspekt fällt umso mehr ins Gewicht, als Grotjahn (2000: 24) in der deutschen Fremdsprachenerwerbsforschung eine häufig unzureichende Überprüfung der Reliabilität von Verfahren bemängelt, die wiederum eine notwendige Voraussetzung für deren Validität darstellt (Bachmann 1990: 227). Mit anderen Worten: Durch eine Überprüfung mittels der Gütekriterien treten die verfahrensbedingten Grenzen eines möglichen Erkenntnisgewinns zu Tage. Alles in allem führen die einzelnen Punkte des Kriterienkatalogs zu einer größeren methodischen und theoretischen Reflektiertheit, wodurch allererst das Ideal einer kritischen und in ihren Handlungen und Ergebnissen transparenten Wissenschaft erreicht werden kann. Der Kriterienkatalog verspricht aber auch für die konkrete wissenschaftliche Praxis Vorteile. So kann erstens die Planung einer Untersuchung präzise und detailliert erfolgen, da die für die Durchführung nötigen finanziellen, personellen, zeitlichen und apparativen Voraussetzungen, das verwendete Material, Instruktionen, das Untersuchungsdesign sowie die einzelnen Phasen der Untersuchung genau benannt sein müssen. Auf dieser Grundlage sind zweitens bereits im Vorfeld einer Untersuchung Entscheidungen über die praktische Eignung eines Datenerhebungsverfahrens möglich. Wegen ihrer Kosten, ihres Zeitaufwandes usw. ungeeignete Verfahren können von vornherein ausgeschlossen werden, wodurch sich unter Umständen Geld sparen lässt und Misserfolge vermieden werden können. Weiterhin ermöglicht die Detailliertheit des Kriterienkatalogs die Schaffung und Sicherung von Durchführungsstandards einer Untersuchung. Diese eröffnen anderen Forschem zugleich die Möglichkeit, auf ihrer Basis Replikationsstudien durchzuführen. Auch lassen sich die Angaben zur Durchführung als Ausgangspunkt für eine Dokumentation und Publikation der durchgeführten Untersuchung verwenden. Eine letzte praktische Funktion betrifft schließlich die Etablierung eines einheitlichen Methodenwissens für die Mitglieder einer Arbeitsgruppe. 3. Der Kriterienkatalog 3.1 Kurzbeschreibung des Datenerhebungsverfahrens Die Hauptaufgabe der Kurzbeschreibung besteht darin, den am Forschungsprozess Beteiligten sowie Testanwendern in kurzer und prägnanter Form eine erste Einschätzung über die potenzielle Eignung eines Datenerhebungsverfahrens für die Klärung einer konkreten Fragestellung zu ermöglichen. Hierzu sollte sie erstens den Gegenstand des fraglichen Verfahrens explizit benennen sowie zweitens knapp erläutern, wie sich das Verfahren seinem Gegenstand nähert. Auf dieses Weise kann ein Minimalkonsens über die wichtigsten Charakteristika eines Datenerhebungsverfahrens angestrebt werden. Insofern die Kurzzusammenfassung auch als erste Orientierung für Nichtexperten dienen kann, sollte sie noch keine Evaluation des Verfahrens enthalten, beispielsweise hinsichtlich strittiger Details in Bezug auf die Leistungsfähigkeit oder Eignung. FLllL 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 17 Des Weiteren sollte die Oberklasse des jeweiligen Erhebungsverfahrens genannt werden sowie seine differentiae specificae zu anderen Verfahren seiner Klasse. Differenzierende Informationen sind im Hinblick auf die Oberklasse ,Interview' beispielsweise Merkmale wie eine offene Struktur, semi-strukturiert oder voll strukturiert. Zu beachten ist bei gemischten Verfahren "Testbatterien") wie Einstufungstests, Eignungstests bzw. Zulassungsprüfungen (DSH, TOEFL), dass sich diese aus mehreren Einzelverfahren zusammensetzen, die jeweils Gegenstand einer Einzelevaluation sein müssen. 3.2 Informantinnen und Informanten Die einzelnen Datenerhebungsverfahren unterscheiden sich nicht zuletzt dadurch, dass sie nicht in derselben Weise für alle Informantinnen und Informanten geeignet sind. Beispielsweise können wenig fortgeschrittene Sprachlerner durch zu anspruchsvolle Testverfahren überfordert sein. Als Folge davon kommt es zu Bodeneffekten, und die Lerner können nur pauschal als auf einem niedrigen Sprachstand befindlich eingeschätzt werden, ohne dass jedoch ein differenziertes Bild über ihre schon erworbenen Kompetenzen möglich wäre. Auch führen Unterschiede bei den Informanten hinsichtlich der Faktoren Lebensalter, Muttersprache und Motivation nachweislich zu unterschiedlichen Ergebnissen in ihrer Performanz (vgl. z.B. Edmondson 1999: passim). Analog zu empirischen Untersuchungen in den Sozialwissenschaften scheint es daher auch für die Fremdsprachenerwerbsforschung angemessen, den Anwendungsbereich des fraglichen Untersuchungsverfahrens explizit zu benennen. Bedingungen, unter denen ein Datenerhebungsverfahren erfolgreich Einsatz finden kann, hängen im Hinblick auf die Informantengruppe u.a. von den soziologischen Parametern Alter, Geschlecht, Bildungsgrad oder Nationalität ab. Für die Forschungs- und Testpraxis lässt sich feststellen, dass mit steigender Spezifizität einer Fragestellung auch die Anzahl derjenigen einschränkenden Bedingungen für ein Verfahren steigt, die für die erfolgreiche Durchführung erfüllt sein müssen. Dabei ist freilich zu beachten, dass mit steigender Anzahl einschränkender Bedingungen der Grad der Verallgemeinerbarkeit der Ergebnisse sinkt (bzw. die sogenannte externe Validität; vgl. Abschnitt 3.9). So ist einerseits die Sprachtests wie Test-DaF, TOEFL, usw. zu Grunde liegende Fragestellung recht allgemeiner Natur und betrifft vor allem die Diagnose sprachlicher Teilkompetenzen. Diese Tests sind ausdrücklich für einen weltweiten Einsatz konzipiert, unabhängig von der Nationalität der Testteilnehmer, ihrem Geschlecht oder der Reihenfolge bereits erworbener Sprachen. Andererseits versuchen experimentelle Verfahren prinzipiell vergleichsweise eng gefasste Fragestellungen zu beantworten, bei denen ein Maximum an experimenteller Kontrolle gewährleistet ist. Bei Experimenten zum Codewechsel bilingualer Sprecher müsste so eine Festlegung des Verhältnisses der beteiligten Sprachen, des sozialen Status der Interaktionspartner, der Interaktionssituation und des Geschlechts erfolgen. Ein bewährtes Instrument, mit dem die Einhaltung der gesetzten Parameter überprüft werden kann, stellen Fragebögen dar (die selbstverständlich auch für die Erhebung von Primärdaten geeignet sind). IFLlllL 30 (2001) 18 Olaf Bärenfänger, Jan Stevener 3.3 Apparatur Falls der apparative Aufwand von Datenerhebungsverfahren über Papier- und Bleistiftuntersuchungen hinausgeht, sollten die verwendeten Geräte und Computer-Programme genannt werden. Neben der Art des Gerätes (z.B. DAT-Recorder, Videokamera,Personal Computer, Psyscope Button Box, Voicetrigger etc.) bzw. der Software und ihrer Versionsnummer sollten vor allem ihre Funktion für die Untersuchung thematisiert werden sowie die Grenzen ihrer technischen Leistungsfähigkeit. Ohne geeignete Informationen zur Apparatur kann nicht abgeschätzt werden, ob mit anderen Geräten oder Programmen abweichende Ergebnisse erzielt worden wären (dies berührt Fragen der Zuverlässigkeit bzw. Reliabilität; vgl. Abschnitt 3.9). Auch entscheidet die verwendete Apparatur über das Format der erhobenen Daten und damit zugleich über zulässige Auswertungen; beispielsweise dürfen mit analogen Audiorekordern aufgezeichnete Daten wegen der ihnen inhärenten Messungenauigkeit nicht zu temporalen Analysen herangezogen werden. Die durch solcherlei ausführliche Angaben zur Technik gewonnene Transparenz stellt eine notwendige Voraussetzung für die Durchführung von Replikationsstudien dar. Informationen zum apparativen Aufwand können schließlich schon im Vorfeld einer Untersuchung die Entscheidung darüber erleichtern, ob ein bestimmtes Erhebungs- oder Testverfahren auf Grund des entstehenden Aufwandes überhaupt Einsatz finden soll. 3.4 Material Der Unterpunkt Material zählt diejenigen Eigenschaften des Stimulusmaterials auf, die für die Untersuchung des Gegenstands eines Datenerhebungsverfahrens relevant und kritisch sind; das gesamte Material muss diese Eigenschaften aufweisen. Da Datenerhebungsverfahren nur zuverlässig arbeiten können, wenn die zu Grunde liegenden Materialien in ihren wesentlichen Eigenschaften vergleichbar sind, stellt die Gleichförmigkeit des Materials eine wichtige Voraussetzung für die Zuverlässigkeit des gesamten Verfahrens dar. Zur Beschreibung von Texten als Stimulusmaterial sind u.a. die Dimensionen Textthema, Textsorte, Textlänge, Textintention, Schwierigkeitsgrad oder Informationsgehalt und -verteilung geeignet. Analog dazu lassen sich für Bilder, Comics, Filme und Computerprogramme vergleichbare Kategorien formulieren. Die systematische Nennung von Struktur- und Funktionsmerkmalen soll es weiterhin erlauben, eine Reihe von materialbedingten Störvariablen auszuschließen. 3.5 Design und Ablauf Schnell/ Hill/ Esser (1995: 203) beschreiben das Forschungsdesign als Gesamtheit der Entscheidungen, die „darüber getroffen werden, wann, wo, wie und wie oft die empirischen Indikatoren an welchen Objekten erfasst werden sollen". Das Wann und Wie oft betrifft temporale Aspekte einer Untersuchung, also beispielsweise ob Prozesse oder Zustände Gegenstand der Untersuchung sind und ob diese durch Querschnitts- oder Longitudinalstudien erfasst werden sollen; das Wie oft bezieht sich auf die StichprobenlFLd 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 19 größe einer Untersuchung und auf Wiederholungen derselben Untersuchung (Retests). Das Wo des Designs betrifft primär die Art der Erhebungssituation, also ob es sich um eine Laborsituation oder eine natürliche Situation handelt. Von der Beschaffenheit der Erhebungssituation sowie von der Stichprobengröße hängt wesentlich die Verallgemeinerbarkeit der Ergebnisse (externe Validität; siehe Abschnitt 3.9) ab. Das Wie eines Designs betrifft vorrangig die Operationalisierung der Forschungsfrage (siehe Abschnitt 3.7), und unter „Objekten" sind in diesem Fall die Informantinnen und Informanten zu verstehen (siehe Abschnitt 3.2). Handelt es sich um ein experimentelles Design, so müssen außerdem die eingesetzten experimentellen Bedingungen erläutert werden sowie die Art ihrer Verteilung auf die Informantinnen und Informanten (between subject, within-subject, geblockt, Randomisierung usw.). Je nach Charakter des Designs lassen sich darüber hinaus über den Untersuchungsgegenstand Aussagen von unterschiedlicher Art und Qualität machen. So erlauben Experimente wissenschaftstheoretisch besonders "harte" Aussagen, sind aber nur für vergleichsweise eng gefasste Fragestellungen geeignet und erfordern bei der Planung, Durchführung und Auswertung einen großen Aufwand. Introspektiven Verfahren wird hingegen häufig ihr subjektiver Charakter angelastet. Um die spezifischen Stärken der Einzelverfahren zu nutzen und ihre Schwächen zu kompensieren, können auch mehrere von ihnen zu Mehrmethodendesigns oder zu Testbatterien kombiniert werden. Analog zur Standardisierung des Untersuchungsmaterials sollen auch Angaben zum Ablauf eine weitgehend standardisierte Durchführung des Datenerhebungsverfahrens erlauben; Störfaktoren wie ungleiche Vorbereitungs- und Bearbeitungszeiten der Probanden, abweichende Instruktionen, nicht festgelegte Phasen der Aufgabenausführung usw. können so ausgeschaltet werden. Durch Vorgaben zum Zeitpunkt, zur Art der Darbietung des Stimulusmaterials (aufgezeichnet vs. nicht-aufgezeichnet, sprachlich vs. nichtsprachlich, vorgelesen vs. von den Informanten gelesen), zur Reihenfolge und zur Dauer von kritischen Handlungen und Ereignissen entsteht zwar einerseits eine hohe Transparenz des Verfahrens, die dadurch bedingte Künstlichkeit kann aber andererseits eine natürliche Performanz der Informanten verhindern und damit die Verallgemeinerbarkeit des Verfahrens reduzieren. Da Informanten prima facie über Instruktionen erfahren, wie sie sich bei der Durchführung eines Datenerhebungsverfahrens verhalten sollen (Bachman/ Palmer 1996: 181), ist anzunehmen, dass die Ergebnisse in hohem Maße von den verwendeten Instruktionen abhängen. Deshalb erscheint die präzise Formulierung der schriftlichen und mündlichen Instruktionen dringend geboten. 3.6 Gegenstand des Datenerhebungsverfahrens Während die drei zuvor genannten Kriterien die technische Seite eines Datenerhebungsverfahrens thematisieren, fordert dieses Kriterium aus theoretischer Sicht eine Benennung des Untersuchungsgegenstands. Nur auf dieser Grundlage kann eine Entscheidung darüber getroffen werden, inwieweit der Gegenstand eines Verfahrens mit dem Gegenstand einer konkreten erkenntnisleitenden Fragestellung übereinstimmt, also ob ein Verfahren zur Bearbeitung einer bestimmten Problematik überhaupt in Frage kommt. JFL111L 30 (2001) 20 OlafBärenfänger, Jan Stevener Mögliche Untersuchungsgegenstände können beispielsweise Teilkompetenzen von Sprachlernern in den Bereichen Phonetik, Lexik, Morphosyntax, Syntax oder Pragmatik sein, die Chronologie von Erwerbssequenzen, Strategien der Bedeutungserschließung, die Wirksamkeit von Instruktionsmaßnahmen, Automatisierungs-, Aufmerksamkeits- oder Monitoringprozesse u.v.a. mehr. Bei so komplexen Fragestellungen wie „Kommt es im Verlauf des Zweitsprachenerwerbs zu Automatisierungen? " oder „Wie hat sich die sprachliche Kompetenz einer Schulklasse innerhalb eines Jahres verändert? " kann der Fall eintreten, dass ein Verfahren nur Teilaspekte der leitenden Fragestellung zu beantworten im Stande ist und so mehrere Methoden kombiniert werden müssen. Insofern die präzise und detaillierte Nennung eines Gegenstandes die Voraussetzung für Urteile über die Angemessenheit einer Methode sind, stellt dieser Punkt zugleich das Fundament für Aussagen zu ihrer Validität dar (siehe Abschnitt 3.9). 3.7 Operationalisierung Datenerhebungsverfahren wie Sprachtests müssen sich häufig die kritische Frage gefallen lassen, auf welchen theoretischen Grundlagen sie ihre Messungen und Beurteilungen vornehmen. Beispielsweise wird bisweilen in Zusammenhang mit Mu1tiple-Choice-Tests bezweifelt, ob sie tatsächlich sprachliche Kompetenzen angemessen erfassen (vgl. Perlmann-Balme 2001) und nicht etwa die Vertrautheit der Testteilnehmer mit einem bestimmten Testformat. Zur Klärung, welche empirisch beobachtbaren Eigenschaften des Gegenstandes ein Verfahren wie und warum misst, dient das Kriterium der Operationalisierung. Schnell/ Hill/ Esser (1995: 119) definieren: Die Operationalisierung eines theoretischen Begriffes besteht aus der Angabe einer Anweisung, wie Objekten mit Eigenschaften (Merkmalen), die der theoretische Begriff bezeichnet, beobachtbare Sachverhalte zugeordnet werden können. Wie das Zitat nahe legt, werden im Rahmen der Operationalisierung diejenigen theoretischen Annahmen (bisweilen auch Konstrukt genannt; vgl. Chapelle 1998: 33) expliziert, die einem bestimmten Verfahren zu Grunde liegen. Dies ermöglicht eine Einschätzung darüber, inwieweit sie den beteiligten Testern oder Forschem plausibel und annehmbar erscheinen. Ein Beispiel: Gegenstand eines psycholinguistischen Datenerhebungsverfahrens soll die Automatisierung der mündlichen L2-Sprachproduktion sein. Als theoretische Eigenschaften von automatisierten Prozessen gelten u.a. ihre geringe Varianz sowie die Schnelligkeit ihrer Ausführung. Die Operationalisierung bezieht sich hier auf die Frage, wie sich diese Eigenschaften durch empirische Beobachtungen erfassen lassen, z.B. durch die Rekurrenz sprachlicher ltems oder durch hohe Sprech- oder Artikulationsgeschwindigkeiten. Im Rahmen experimenteller Forschungsdesigns gibt die Operationalisierung darüber hinaus an, wie sich aus einer Theorie abgeleitete Hypothesen im Vergleich mit Kontrollsituationen in der Realität überprüfen lassen und in welcher Weise eine Abhängige Variable mit einer Unabhängigen Variablen systematisch zusammenhängt. Die beobachteten Sachverhalte lassen jeweils wiederum methodisch fundierte Rückschlüsse auf den Gegenstand zu. JFLUIL 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 21 Eine weitere wichtige Funktion der Operationalisierung besteht in der Offenlegung solcher Faktoren, welche die empirische Erfassung des gewählten Gegenstandes beeinflussen können (vgl. hierzu Bortz 1999: 8). Hierzu gehören einerseits Messfehler, die innerhalb gewisser Grenzen vorhersagbar sind, sowie andererseits Störfaktoren bzw. Störvariablen, die wegen ihrer Zufälligkeit keiner Kontrolle zugänglich sind; sie sind lediglich dokumentierbar. Zu diesen Faktoren gehören weiterhin Moderator- oder Kontrollvariablen, die im Gegensatz zu Störvariablen von den Testern und Forschem kontrolliert werden können. Im Hinblick auf Datenerhebungsverfahren können mögliche Störfaktoren in der (Un-)Vertrautheit der Testteilnehmer mit dem Erhebungsformat bestehen, in individuell verschiedenen Lösungsstrategien, der stark abweichender Intelligenz oder Belastbarkeit der Testteilnehmer, unterschiedlichen Lemertypen, der Kooperationsbereitschaft der Testteilnehmer oder in der Person des Testers. Störvariablen beeinträchtigen die Zuverlässigkeit eines Datenerhebungsverfahrens und reduzieren somit seine Reliabilität. Moderatorvariablen hingegen können beispielsweise das Alter der Testteilnehmer bzw. Probanden, Geschlecht, Herkunftssprache, soziale Schicht, Nationalität, Sprachstand usw. betreffen. Je mehr Moderatorvariablen kontrolliert werden, desto zuverlässiger sind die mit dem Verfahren erzielten Ergebnisse, aber desto geringer ist die externe Validität einzuschätzen (siehe Abschnitt 3.9). Ziel sollte es sein, für jedes Erhebungsverfahren möglichst viele solcher potenziell das Ergebnis verfälschender Faktoren offenzulegen und bei der späteren Interpretation der Ergebnisse zu berücksichtigen. 3.8 Maße Das Kriterium Maße gibt vor, welche Ausprägungen die in 3.7 festgelegte empirisch beobachtbare Eigenschaft des Untersuchungsgegenstandes annehmen kann. Während die Operationalisierung also eine Brücke von der Datenerhebung zur Theorie schlägt, bilden die Maße eine Brücke zur hier nicht weiter thematisierten Datenauswertung. Genaue Rechenschaft über die Maße eines Erhebungsverfahrens abzulegen, ist deshalb von ausschlaggebender Bedeutung, weil diese das Format der Ergebnisse festlegen und damit auch über die zulässigen Auswertungen sowie über die Art der über den Forschungsgegenstand möglichen Aussagen entscheiden "Datenadäquatheit"). Auf Grund der gewählten Maße sind auch Entscheidungen über die Eignung der Messapparatur vorzunehmen; beispielsweise sind für Priminguntersuchungen mit Zeitmessungen im Millisekundenbereich hochpräzise Instrumente erforderlich (z.B. die Psyscope Button Box). Was die Forschungs- und Testpraxis angeht, so bestehen offenbar gravierende Defizite hinsichtlich der Offenlegung von verwendeten Maßen. So stellen Abraham und Chapelle (1992: 474) fest, dass verschiedene Varianten des Cloze-Tests (Fixed-Interval-Cloze- Test, Multiple-Choice-Cloze-Test undRational-Cloze-Test) nicht dieselben Maße benutzen, also dementsprechend unterschiedliche Fähigkeiten testen bzw. Aussagen über verschiedene Untersuchungsgegenstände machen. Spolsky (2000: 539) bemerkt pointiert zur Geschichte des Testens: "One of the easiest things to do, it has been suggested, is to develop a new kind of test what is hard to know is what an existing test really mealFLlllL 30 (2001) 22 Olaf Bärenfänger, Jan Stevener sures". Eine Explizierung der Maße stellt also eine wichtige Voraussetzung für den angemessenen Einsatz von Datenerhebungsverfahren dar sowie den Ausgangspunkt für eine Triangulation von mittels unterschiedlicher Verfahren gesammelten Daten (Aguado/ Riemer 2001). 3.9 Gütekriterien Die Grenzen eines Verfahrens bestimmen die Grenzen der damit möglichen Erkenntnis. Aus diesem Grund ist es dringend geboten, Datenerhebungsverfahren auch hinsichtlich ihrer Verfahrensqualität und der Grenzen ihrer Leistungsfähigkeit zu evaluieren. Da empirisch gewonnenen Erkenntnisse als Basis für viele praktische Entscheidungen dienen, beispielsweise für Einstellungen, Beförderungen, Einstufungen, die Gestaltung des Curriculums, sprachpolitische Entscheidungen usw., fordert Bachmann (1990: 78): "The more important the decision, in terms of its impact upon individuals and programs, the greater assurance we must have that our test scores are reliable and valid". Neben den aus der sozialwissenschaftlichen Testtheorie etablierten Gütekriterien Reliabilität und Validität (gute Darstellungen sind American Psychological Association 1998 und 1999; Schnell/ Hill/ Esser 1995) ist auch das Kriterium der Objektivität zur Bestimmung der Güte eines Verfahrens geeignet. Das in der Psychologie zusätzlich angewandte Gütekriterium der Ökonomie betrifft den Aspekt der Durchführbarkeit eines Verfahrens und stellt wegen seiner hohen praktischen Relevanz einen eigenen Punkt des Kriterienkatalogs dar (siehe Abschnitt 3.10). Bachman/ Palmer (1996) haben in jüngerer Zeit eine komplexe Gütekonzeption vorgelegt, die unter dem Terminus Nützlichkeit (Usefulness) eine Reihe einzelner Gütekriterien wie Reliabilität, Konstruktvalidität, Authentizität, Interaktivität, 'Impact' sowie Praktikabilität subsummiert. Als Objektivität wird der „Grad, in dem die Ergebnisse eines Tests unabhängig vom Untersucher sind" gefasst (Lienert/ Raatz 1994: 7); sie trägt zur Validität eines Datenerhebungsverfahrens bei. Da lediglich Erhebungsverfahren Gegenstand des Kriterienkatalogs sind, bezieht sich das Kriterium der Objektivität allein auf die Durchführung und nicht auf die Auswertung und Interpretation. Die Durchführungsobjektivität hängt vor allem von zufälligen oder systematischen Abweichungen im Verhalten der Tester öder Forscher ab, die ihrerseits das Verhalten der Testteilnehmer und Informanten beeinflussen und somit auch die Daten. Um ein Höchstmaß an Durchführungsobjektivität zu gewährleisten bietet es sich an, die Interaktionen zwischen Testern/ Forschern mit den Testteilnehmern/ Informanten so gering wie möglich zu halten oder zumindest weitestgehend zu standardisieren. Als besonders objektiv gelten daher solche Datenerhebungsformate, die nur eine geringe oder gar keine Interaktion zwischen Testern/ Forschern und Testteilnehmern/ Informanten beinhalten; in der Praxis sind dies vor allem schriftliche Tests (C"Test, Cloze-Test, Multiple-Choice-Aufgaben, usw.). Besonders bei Verfahren zur Elizitierung mündlicher Sprachproduktionen und Interviews (z.B. das Oral Proficiency Interview) ist Durchführungsobjektivität wegen der stark interaktiven Untersuchungssituationen nur schwer zu erreichen. Das für die Beurteilung von Verfahren noch wichtigere Gütekriterium der Reliabilität JFLIUllL 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 23 bzw. Zuverlässigkeit erfragt laut Bachmann (1990: 160 f) "how much of an individual' s test performance is due to measurement error, or to factors other than the language ability we want to measure? ". Daraus ergibt sich die Forderung, potenzielle Fehlerquellen zu identifizieren und die ungefähre Größe ihres Einflusses auf das Ergebnis einzuschätzen. Ein optimal reliables Verfahren müsste demnach unter den gleichen Bedingungen bei gleichzeitiger Durchführung (Paralleltestreliabilität) oder wiederholter Durchführung (Retest-Reliabilität) zu den gleichen Ergebnissen führen. Bisher wurde an verschiedenen Stellen des Kriterienkatalogs auf Faktoren hingewiesen, welche die Reliabilität reduzieren, z.B. eine unzuverlässige Apparatur, nicht standardisiertes Material, eine nichtstandardisierte Durchführung und die oben genannten Störfaktoren. Darüber hinaus können auch bei der Konservierung der Daten oder bei ihrer Übertragung in ein anderes Datenformat Fehler auftreten. Um Aussagen über die Reliabilität vornehmen zu können, werden daher genaue Angaben zum Ablauf, zur Operationalisierung, zur Apparatur und zum Material benötigt (siehe Punkt 3.3, 3.4, 3.5 und 3.7). Als besonders reliabel sind solche Verfahren anzusehen, die so viele Faktoren der Untersuchungssituation wie möglich kontrollieren, bei denen also interferierende Störfaktoren minimiert werden (z.B. experimentelle Laboruntersuchungen). Die Reliabilität von sprachlichen Zulassungsprüfungen zum Hochschulstudium für Ausländer, bei denen weder die Formate noch die Inhalte bundeseinheitlich geregelt sind, ließe sich durch eine weitgehende Standardisierung erhöhen. Das wichtigste Gütekriterium stellt in den Augen der meisten Autoren die Validität dar, die Schnell/ Hill/ Esser (1995: 144) zufolge „das Ausmaß, in dem das Messinstrument tatsächlich das misst, was es messen sollte", angibt. Die Validität eines Verfahrens bestimmt somit, in welchem Umfang seine empirischen Ergebnisse eine Antwort auf die Forschungsfrage zulassen, oder mit anderen Worten: inwieweit es die ihm zugedachte Aufgabe erfüllt. Bortz (1999: 9) referiert zwei Arten der Validität: Die interne Validität bezeichnet die Eindeutigkeit, mit der Ergebnisse interpretierbar sind; sie sinkt mit einer steigenden Anzahl möglicher Alternativerklärungen. Die externe Validität bezeichnet die Verallgemeinerbarkeit der Ergebnisse über die spezielle Untersuchungssituation hinaus (zu abweichenden Validitätskonzeptionen vgl. Lienert & Raatz 1994: 10 f; Schnell/ Hill/ Esser 1995: 145-147; American Psychological Association 1998 und 1999; Chapelle 1998; Grotjahn 2000b: 312-317). Die Forderung nach möglichst eindeutiger Interpretierbarkeit erfüllt ein Verfahren dann, wenn sich seine Messwerte so weit wie möglich auf den Untersuchungsgegenstand zurückführen lassen. Die Ergebnisse eines Grammatiktests könnten so nicht allein auf die grammatische Kompetenz einer Testperson zurückzuführen sein, sondern sich durch individuelle Problemlösungsstrategien, die Fähigkeit zur Bewältigung von Stresssituationen oder durch Trainingseffekte bei bestimmten Datenerhebungsformaten erklären lassen. Eine hohe interne Validität kann nur dann erreicht werden, wenn empirisch beobachtbare Eigenschaften eindeutig dem Forschungsgegenstand zugeordnet werden können, wenn also die Forschungsfrage stringent operationalisiert wurde. Weiterhin können, um Alternativerklärungen auszuschließen, die Ergebnisse vergleichbarer empirischer Studien hinzugezogen werden. Für die interne Validität zeichnen primär die Konstrukteure eines lFILUJL 30 (2001) 24 OlafBärenfänger, Jan Stevener Erhebungsverfahrens verantwortlich und nicht die·Anwender; diese sollten allerdings in die Lage versetzt werden, die interne Validität zu reflektieren. Je mehr Faktoren innerhalb eines Verfahrens kontrolliert werden, auf einen desto kleineren Wirklichkeitsausschnitt beziehen sich. seine Ergebnisse und desto weniger leicht lassen sie sich verallgemeinern. Insofern sinkt die externe Validität mit zunehmender Kontrolle der Untetsuchungssituation. Die Bestimmung der externen Validität eines Verfahrens erfordert daher u.a. Angaben zur soziologischen Beschaffenheit der Probandengruppe (siehe Abschnitt 3.2) und zur Operationalisierung (siehe Abschnitt 3.7). Die Ergebnisse, die innerhalb einer Informantengruppe mit einer bestimmten soziologischen Struktur erzielt werden, müssen sich dann auch bei allen anderen Individuen mit denselben soziologischen Parametern ergeben. Auch wenn jedes der drei diskutierten Gütekriterien für sich die Qualität eines Verfahrens angibt, so ist es doch nicht wünschenswert, dass jeweils ein Maximum an Objektivität, Reliabilität und Validität erfüllt ist. Beispielsweise kann die durch eine Standardisierung des Verfahrens bedingte Objektivität zu einer hohen Künstlichkeit der Untersuchungssituation führen, so dass dies wiederum als ein die Validität beeinträchtigender Störfaktor berücksichtigt werden muss. Auch kann ein Verfahren wie beispielsweise der gerade erwähnte Grammatiktest Werte äußerst zuverlässig messen, bei denen indessen unklar ist, welchem theoretischen Gegenstand sie zuzuschreiben sind: der Grammatikkompetenz, der Vertrautheit mit dem Aufgabentyp oder Stressfaktoren? Insgesamt scheinen Patentrezepte, zu welchem Grad die einzelnen Gütekriterien erfüllt sein müssen, um hinreichend fundierte Aussagen über den Untersuchungsgegenstand machen zu können, nicht möglich. Dies gilt sowohl im Hinblick auf eher quantitativ als auch auf eher qualitativ zugeschnittene Forschungsdesigns. Jedoch ist es schon als großer Fortschritt anzusehen, wenn die Entwickler und Anwender von Datenerhebungsverfahren sich prinzipiell Gedanken darüber machen, durch welche Faktoren die Qualität eines Verfahrens beeinträchtigt sein kann. Auch wenn die Anwendung noch weiterer Gütekriterien im Einzelfall sinnvoll ist, scheinen die Kriterien der Objektivität, Reliabilität und Validität einen brauchbaren kleinsten gemeinsamen Nenner für jegliches Datenerhebungsverfahren darzustellen (Henrici 2000: 33). 3.10 Durchführbarkeit Die Qualität eines Verfahrens bestimmt sich nicht lediglich durch theoretische Aspekte, wie sie vor allem von den drei Gütekriterien abgedeckt werden; eine diesbezügliche Einschätzung muss auch aus forschungspraktischer Sicht erfolgen. Die Durchführbarkeit des Verfahrens ergibt sich dabei aus der Summe aller entstehenden Kosten im weitesten Sinne - , also beispielsweise Beschaffungskosten für Geräte, Planungskosten, Kosten für Material(erstellung), Personalkosten, u.U. Ausbildungskosten, Honorare für Teilnehmer, Raumbedarf, Zeit für die Durchführung und Auswertung, Anzahl benötigter Teilnehmer usw. Es obliegt v.a. den Entwicklern, maximal detaillierte Angaben zum Aufwand eines Verfahrens zu machen. Um dann eine Einschätzung über die Eignung eines Datenerhebungsverfahrens in einem konkreten Forschungskontext vornehmen zu können, FLIIL 30 (2001) Datenerhebungsveifahren und ihre Evaluation. Ein Kriterienkatalog 25 müssen diese entstehenden Kosten und der mögliche Erkenntnisgewinn abgewägt werden; eine Einschätzung des potenziellen Erkenntnisgewinns erfolgt primär über das Kriterium der Validität (siehe Abschnitt 3.9). So ermöglichen psycholinguistische Reaktionszeitexperimente zwar verhältnismäßig zuverlässige Ergebnisse, lassen sich aber nur mit hohem personellen und apparativen Aufwand durchführen und auswerten. 4. Schlussbetrachtungen Der in diesem Beitrag vorgestellte und sicherlich noch erweiterbare Kriterienkatalog verfolgt zunächst das Hauptziel, Kriterien für die differenzierte. Beschreibung von Datenerhebungsverfahren in der empirischen Fremdsprachenerwerbsforschung bereitzustellen. Diese Beschreibung stellt einerseits die Grundlage für die Evaluation einzelner Verfahren dar, andererseits aber auch eine notwendige Voraussetzung für die Vergleichbarkeit unterschiedlicher Erhebungsmethoden. Darüber hinaus erhöht die konsequente Anwendung des Kriterienkatalogs die Transparenz des Forschungsprozesses sowie die Nachvollziehbarkeit seiner Ergebnisse. Über den nur punktuellen Bezug auf Datenerhebungsverfahren hinaus könnte die prinzipielle Anwendung des Kriterienkatalogs (oder zumindest seiner wichtigsten Teilpunkte) bei der Darstellung von empirischen Untersuchungen dazu beitragen, dass sich in der empirischen Fremdsprachenerwerbsforschung einheitliche wissenschaftliche Standards etablieren. Das Modern Language Journal, dessen empirische Beiträge nach einem vergleichbaren Raster wie dem hier vorgeschlagenen aufgebaut sind, geht hier schon mit gutem Beispiel voran. Die Vorteile einheitlicher Standards liegen auf der Hand: Erstens besteht ein gemeinsames Wissen über Verfahrensregeln, Verfahren und die Grenzen ihrer Anwendbarkeit, so dass bei Forschungen oft auf schon Bewährtes und dem Gegenstand Angemessenes zurückgegriffen werden kann. Somit besteht keine Notwendigkeit, das sprichwörtliche Rad stets neu zu erfinden. Ein auf gemeinsamen Standards basierender Forschungsprozess wäre daher in höherem Maße inkrementell und kollaborativer als er es heute in der Regel ist, was in Zeiten knapper Mittel einen substanziellen Vorteil darstellen dürfte. Zweitens gewährleistet die Befolgung der in einer scientific community allgemein akzeptierten Standards eine gewisse Qualität des Forschungsprozesses. Auch die hierdurch ermöglichte systematische Kritisierbarkeit von Ergebnissen trägt zur wissenschaftlichen Qualitätssicherung bei. Schließlich kommen verbindliche Standards auch einem Bedürfnis entgegen, in Deutschland und in der Europäischen Union einheitliche Richtlinien für Sprachtests und Sprachprüfungen zu besitzen. Die Bemühungen des TestDaF-Instituts auf nationaler und diejenigen der International Certificate Conference (ICC) auf internationaler Ebene sind hierfür ein Beleg. Ein letzter praktischer Anwendungsgesichtspunkt des Kriterienkatalogs ist darin zu sehen, dass sich die mit seiner Hilfe erstellten Beschreibungen einer Vielzahl unterschiedlicher Datenerhebungsverfahren in einem zentralen Archiv zusammenfassen lassen. Konkret ist beispielsweise die Einrichtung einer über das World Wide Web zugänglFLllL 30 (2001) 26 OlafBärenfänger, Jan Stevener liehen Datenbank zum Thema „Methoden in der Empirischen Fremdsprachenerwerbsforschung" denkbar. Ein solches center of excellence könnte durch die Masse und Qualität der gesammelten Informationen zu größeren methodischen Fortschritten in der empirischen Fremdsprachenerwerbsforschung führen. Literatur ABRAHAM, Roberta G. / CHAPELLE, Carol A. (1992): "The meaning of cloze test scores: An item difficulty perspective". In: The Modem Language Journal 76, 468-479. AGUADO, Karin (Hrsg.) (2000a): Zur Methodologie in der empirischen Fremdsprachenforschung. Baltmannsweiler: Schneider-Verlag Hohengehren. AGUADO, Karin (2000b): "Empirische Fremdsprachenerwerbsforschung. Ein Plädoyer für mehr Transparenz". Iu: AGUADO (Hrsg.) 2000a, 119-131. AGUADO, Karin/ RIEMER, Claudia (2001): "Triangulation: Chancen und Grenzen mehrmethodischer empirischer Forschung". Iu: AGUADO, Karin/ RIEMER, Claudia (Hrsg.): Wege und Ziele. Zur Theorie, Empirie und Praxis des Deutschen als Fremdsprache (und anderer Fremdsprachen). Festschrift für Gert Henrici zum 60. Geburtstag. Baltmannsweiler: Schneider-Verlag Hohengehren, 245-257. AMERICAN PSYCHOLOGICAL ASSOCIATION (1998): Standards für pädagogisches und psychologisches Testen. [ =Standards f or Educational and Psychological Testing. Washington, DC (1986): American Psychological Association]. In: Supplementum 1/ 1998 der Diagnostica und Zeitschrift für Differentielle und Diagnostische Psychologie. AMERICAN PSYCHOLOGICAL ASSOCIATION (1999): Standards f or Educational and Psychological Testing. Washington, DC: American Psychological Association. ARBEITSGRUPPE FREMDSPRACHENERWERB BIELEFELD (1987): "Welcher Typ von Forschung in der Fremdsprachendidaktik? Zum Verhältnis von qualitativer und quantitativer Forschung". In: LöR- SCfIER, Wolfgang/ SCHULZE, Rainer (eds.): Perspectives on Language in Performance. Studies in Linguistics, Literary Criticism, and Language Teaching and Learning. To honour Werner Hüllen on the Occasion of his 60. Birthday. Tübingen: Narr, 943-975. ARBEITSGRUPPE FREMDSPRACHENERWERB BIELEFELD (1995; 1996a): "Fremdsprachenerwerbsspezifische Forschung. Aber wie? Theoretische und methodologische Überlegungen (I)". In: Deutsch als Fremdsprache 33.3, 144-155. ARBEITSGRUPPE FREMDSPRACHENERWERB BIELEFELD (1995; 1996b): "Fremdsprachenerwerbsspezifische Forschung. Aber wie? Theoretische und methodologische Überlegungen (II)". In: Deutsch als Fremdsprache 33.4, 200-210. BACHMANN, Lyle F. (1990): Fundamental Considerations in Language Testing. Oxford: Oxford University Press. BACHMAN, Lyle F. / PALMER, Adrian S. (1996): Language Testing in Practice. Designing and Developing Useful Language Tests. Oxford: Oxford University Press. BORTZ, Jürgen (1999): Statistik für Sozialwissenschaftler. 5. vollständig überarbeitete und aktualisierte Auflage. Berlin/ Heidelberg: Springer. CHAPELLE, Carol A. (1998): "Construct definition and validity inquiry in SLA research". In: BACHMAN, Lyle F. / COHEN, Andrew D. (eds.): Interfaces Between Second Language Acquisition and Language Testing Research. Cambridge: Cambridge University Press, 32-70. DE KEYSER, Robert [im Druck]: "Automaticity and automatization". EDMONDSON, Willis (1999): Twelve Lectures on Second Language Acquisition: Foreign Language Teaching Perspectives. Tübingen: Narr. lFLUJiL 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 27 GROTJAHN, Rüdiger (2000a): "Einige Thesen zur empirischen Forschungsmethodologie". In: AGUADO (Hrsg.) (2000a), 19-30. GROTJAHN, Rüdiger (2000b): "Testtheorie: Grundzüge und Anwendungen in der Praxis". In: WOLFF, Armin / TÄNZER, Harald (Hrsg.): Sprache - Kultur-Politik. Beiträge der 27. Jahrestagung Deutsch als Fremdsprache vom 3.-5. Juni 1999 an der Universität Regensburg. Universität Regensburg: Fachverband Deutsch als Fremdsprache, 304-341. HENRICI, Gert(2000): "Methodologische Probleme bei der Erforschung des Fremdsprachenerwerbs". In: AGUADO (Hrsg.) 2000a, 31-40. KASPER, Gabriele (1998): "Datenerhebungsverfabren in der Lemersprachenpragmatik". In: Zeitschrift für Fremdsprachenerwerbsforschung 9, 85-118. KÖNIGS, Frank G. (2000): "How to do research with words? Überlegungen zur Forschungsmethodologie in der Fremdsprachenerwerbsforschung". In: AGUADO (Hrsg.) 2000a, 55-61. LIENERT, Gustav / RAATZ, Ulrich (1994): Testaufbau und Testanalyse. 5. überarbeitete Auflage. Weinheim: Beltz, Psychologie Verlags Union. MARKARD, Morus (1991): Methodik subjektwissenschaftlicher Forschung: Jenseits des Streits um quantitative und qualitative Methoden. Hamburg: Argument. MrßLER, Bettina (1993): Datenerhebung und Datenanalyse in der Psycholinguistik. Bochum: AKS. MÜLLER-HARTMANN, Andreas/ SCHOCKER-VON DI1FURTH, Marita (Hrsg.) (2001): Qualitative Forschung im Bereich Fremdsprachen lehren und lernen. Tübingen: Narr. NUNAN, David (1996): "Issues in second language research: Examining, substance and procedure". In: RITCHIE, William L. / BHATIA, Tej K. (eds.): Handbook of Second Language Acquisition. San Diego, CA: Academic Press, 349-374. PERLMANN-BALME, Michaela (2001 ): "Formen und Funktionen von Leistungsmessung und -kontrolle". In: HELBIG, Gerhard/ GÖTZE, Lutz/ HENRICI, Gert/ KRUMM, Hans Jürgen (Hrsg.): Deutsch als Fremdsprache. Ein internationales Handbuch. Band II. Berlin: de Gruyter, 994-1006. POPPER, Karl R. (1966): Logik der Forschung. 2. erweiterte Auflage. Tübingen: Mohr. SCHNELL, Rainer/ HILL, Paul B. / ESSER, Elke (1995): Methoden der empirischen Sozialforschung. 5. überarbeitete und erweiterte Auflage. München: Oldenbourg. SPOLSKY, Bemard (2000): "Language Testing in the Modem Language Journal". In: The Modern Language Journal 84, 536-552. lFLl! IL 30 (2001)