eJournals Fremdsprachen Lehren und Lernen 30/1

Fremdsprachen Lehren und Lernen
flul
0932-6936
2941-0797
Narr Verlag Tübingen
Es handelt sich um einen Open-Access-Artikel, der unter den Bedingungen der Lizenz CC by 4.0 veröffentlicht wurde.http://creativecommons.org/licenses/by/4.0/121
2001
301 Gnutzmann Küster Schramm

TestDaF:

121
2001
Gabriele Kniffka
Dörthe Üstünsöz-Breuer
flul3010127
Gabriele Knif.fka, Dörthe Üstünsöz-Beurer • TestDaF: Mündlicher Ausdruck Zur Entwicklung eines kassettengesteuerten Testformats Abstract. TestDaF (Test Deutsch als Fremdsprache), the new German language test designed to assess the language proficiency of foreign students seeking entry to German universities, employs a tapemediated format to test the candidates' oral proficiency. Tue paper explains the reasons why a technology-based format was chosen, and outlines the most important features of this subtest as well as some crucial aspects of the empirical research undertak: en to evaluate this much-discussed format. 1. Zielsetzung Der „Test Deutsch als Fremdsprache" (TestDaF) wird künftig neben der „Deutschen Sprachprüfung für den Hochschulzugang ausländischer Studienbewerber" (DSH) als Nachweis ausreichender deutscher Sprachkenntnisse anerkannt. Die Entwicklung von TestDaF wurde von Anbeginn an von den betroffenen Fachkreisen aufmerksam verfolgt und rege diskutiert. Besondere Kritik wurde dabei am Subtest Mündlicher Ausdruck geübt, dessen kassettengesteuertes Format in Deutschland relativ wenig bekannt ist und unseres Wissens nach bislang in keiner Prüfung verwendet wurde. Bei einem kassettengesteuerten Prüfungsformat werden die Prüfungsleistungen mittels eines Tonbandes elizitiert. Das bedeutet, dass die Prüfung in der Regel im Sprachlabor stattfindet; Prüfungsaufgaben und Anweisungen kommen vom Band, dem Masterband. Alle Aufgaben sind in einem Aufgabenheft abgedruckt, welches dem Prüfungsteilnehmer vorliegt. Seine Antworten werden auf einer Audiokassette 1 aufgenommen. Ziel dieser Arbeit ist, das Format umfassend darzustellen und insbesondere seine Vorteile herauszuarbeiten: Es werden die Gründe für die Wahl gerade des kassettengesteuerten Formats dargelegt und die wesentlichen Entwicklungsschritte und empirischen Evaluierungen der vorliegenden Form nachgezeichnet. Korrespondenzadresse: Dr. Gabriele KNIFFKA, , Enunastraße 2, 50937 KÖLN. E-mail: gabriele.knif: fka@netcologne.de Arbeitsbereiche: Deutsch als Fremdsprache, Testentwicklung Dr. Dörthe ÜSTÜNSÖZ-BEURER, Schwärzlocher Str. 3, 72070 TüBINGEN. E-mail: beurer.uestuensoez@t-online.de Arbeitsbereiche: Testmethodik, Arbeits- und Organisationspsychologie 1 Zur Zeit werden für die Masterbänder und die Kandidatenbänder Audiokassetten verwendet; bei Neuerungen der Sprachlabortechnik bzw. der Entwicklung des TestDaF zu einem computerbasierten Test werden andere Tonträger (CDs) zum Einsatz kommen. lFLllL 30 (2001) 128 Gabriele Knif.fka, Dörthe Üstünsöz-Beurer 2. Kassettengesteuertes Format 2.1 Gründe für die Wahl eines kassettengesteuertes Formats Die Entwicklung des TestDaF erfolgte unter Berücksichtigung bestimmter, von den auftraggebenden Institutionen gemachter Vorgaben. 2 Diese lauten in Stichworten: zentrale Erstellung und Korrektur der Prüfung Standardisierung der Prüfung Dokumentation eines differenzierten Leistungsprofils Prüfung für den Hochschulzugang weltweiter Einsatz der Prüfung. Jede dieser Vorgaben zeitigt bestimmte Konsequenzen. Zum Beispiel bestimmt die Vorgabe „Prüfung für den Hochschulzugang" den zu wählenden Sprachausschnitt, also die Sprachverwendung im Kommunikationsbereich Hochschule. Die Vorgabe, nach der die Prüfung ein differenziertes Leistungsprofil dokumentieren soll, hat zur Folge, dass im TestDaF (a) nach den Fertigkeiten Leseverstehen, Hörverstehen, Schriftlicher Ausdruck und Mündlicher Ausdruck getrennt geprüft wird und dass (b) die Prüfungsleistungen jeweils einer von drei Niveaustufen (TestDaF-Niveaustufen 3-5, fortan TDN 3,TDN 4, TDN 5) 3 zugeordnet werden. Letztere Vorgabe bewirkt, dass es im TestDaF überhaupt einen Subtest Mündlicher Ausdruck gibt. Die Frage, inwieweit und auf welche Art und Weise sich die einzelnen Vorgaben in der vorgelegten Prüfung manifestieren, kann im Rahmen dieser Arbeit nicht umfassend diskutiert werden. Im Folgenden werden daher lediglich die Aspekte aufgeführt, die für das Format des Subtests Mündlicher Ausdruck von Relevanz sind. Unmittelbaren Einfluss auf die Wahl eines kassettengesteuerten Formats hatten die Vorgaben „zentrale Korrektur", "Standardisierung" und „weltweiter Einsatz". Bei zentraler Korrektur (in Deutschland) werden die mündlichen Prüfungsleistungen von unabhängigen Bewertem beurteilt. 4 Dazu müssen die Prüfungsleistungen aufgezeichnet werden, als Audiound/ oder Videodatei. Diese Bedingung ist prinzipiell auch beim Format einer traditionellen mündlichen Prüfung (Face-to-Face) erfüllbar. 5 Ein Problem 2 Vgl. dazu u.a. die Erklärung der damaligen Bundesminister Kinkel und Rüttgers auf einer gemeinsamen Pressekonferenz am 13.06.1998: "Bundesregierung, KMK, DAAD, HRK und weitere Institutionen bereiten zur Zeit einen zentralen, standardisierten Test für Deutsch als Fremdsprache (TestDaF) nach dem Muster des englischen Test Of English as a Foreign Language vor. Er soll Ausländern in zwei Jahren die Möglichkeit eröffnen, bereits in ihrem Heimatland den für den Hochschulzugang in Deutschland erforderlichen Sprachtest abzulegen, und den deutschen Hochschulen eine differenzierte Einstufung der Studierenden bei der Hochschulzulassung ermöglichen." Zitiert aus: Gutzat, B. / P. Pauen / J.Voss (2001 ): "Computer- und Internet-Einsatz bei TestDaF". Erscheint in: Tagungsband zur 21. AKS-Tagung in Saarbrücken (9. bis 11.03.2000). 3 Die TestDaF-Niveaustufen TDN 3 - TDN 5 sind nach~ulesen auf der Homepage des TestDaF-Instituts: http: / / www.testdaf.de/ test/ stufen.html 4 Im Unterschied zur gängigen Praxis bei traditionellen mündlichen Prüfungen sind bei zentraler Korrektur Prüfer und Bewerter nicht identisch. 5 Dieses Verfahren wird beispielsweise beim International EnglishLanguage Testing System (/ ELTS), einer sprachlichen Zulassungsprüfung für britische und australische Hochschulen, angewandt. lFL1lllL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 129 ergibt sich hier allerdings hinsichtlich der zu bewertenden Daten: Können die Redebeiträge eines Interaktionspartners (des Prüfungsteilnehmers) isoliert und unabhängig von den Redebeiträgen des anderen Interaktionspartners (des Prüfers) bewertet werden, wenn doch ein Gespräch auch ein Prüfungsgespräch eine gemeinsame kommunikative Aktivität darstellt? "[...] As soon as you try to test use (as opposed to usage) you cannot confine yourselfto the single individual. So whose perlormance are we assessing? " (McNamara 2000: 84) Die Standardisierung der Prüfung bedeutet, dass sowohl die Durchführung als auch die Auswertung eindeutig geregelt sind und in gleicher Weise erfolgen. Diese Vereinheitlichungen schaffen die Voraussetzung dafür, dass das Testgütekriterium der Objektivität, d.h. die weitgehende Unabhängigkeit der Ergebnisse von Durchführungsbedingungen und Auswertern, erfüllt werden kann. Hier weist das kassettengesteuerte Format gegenüber einer traditionellen mündlichen Prüfung deutliche Vorteile auf. Eine kassettengesteuerte mündliche Prüfung ermöglicht ein deutlich höheres Maß an Durchführungsobjektivität, da für alle Prüfungsteilnehmer die gleichen Prüfungsbedingungen gelten. Da mit dem kassettengesteuerten Format nicht allein ein Instrument zur Erhebung von Prüfungsleistungen bezeichnet ist, sondern dazu ein standardisiertes Bewertungsverfahren und genau definierte Bewertungskriterien erarbeitet wurden, wird gleichzeitig ein hohes Maß an Auswertungsobjektivität gewährleistet. Objektive und damit vergleichbare Durchführung und Auswertung der Prüfung sind wiederum wesentliche Voraussetzungen dafür, dass die Kriterien der Reliabilität und Valididät erfüllt werden können. Der weltweite Einsatz der Prüfung zu einheitlichen Terminen setzt voraus, dass zu diesen Terminen an allen Prüfungsorten ausreichend qualifizierte Prüfer 6 zur Verfügung stehen - und bei einer großen Teilnehmerzahl auch entsprechend viele Prüfer, damit sich der Prüfungsvorgang nicht über einen längeren Zeitraum erstreckt. Dies ist vermutlich nur unter hohem Kostenaufwand zu leisten. Unter diesem Aspekt bringt ein kassettengesteuertes Format klare Vorteile, denn dabei ist es möglich, eine größere Anzahl von Prüfungsteilnehmern gleichzeitig zu prüfen, d.h., der Gesamtaufwand an Personal und Zeit fällt eindeutig geringer aus als bei traditionellen mündlichen Prüfungen. Die angeführten Gesichtspunkte erlauben nüchtern bilanziert keine andere Wahl als die eines kassettengesteuerten Formats, da die Vorteile unter den vorgegebenen Bedingungen deutlich überwiegen. 2.2 Beschreibung des Subtests Mündlicher Ausdruck Zur Erhebung mündlicher Prüfungsdaten wird bei TestDaF somit eine technisierte Prüfung eingesetzt, die sich folgender Instrumente bedient: Sprachlabor/ Kassettenrekorder, Masterband, Aufgabenheft und Kandidatenband. 6 Prüfungen im traditionellen Format müssten mit mindestens zwei Prüfern durchgeführt werden. JFLIIL 30 (2001) 130 Gabriele Knif.fka, Dörthe Üstünsöz-Beurer Das Masterband hat eine Gesamtlänge von ca. 30 Minuten, in denen die Prüfungsteilnehmer 10 Aufgaben zu lösen haben. Dabei werden ca. 15 Minuten an „Gesprächsdaten" der einzelnen Teilnehmer erhoben. Das Masterband beginnt mit einem technischen Check-up, anschließend werden einige Daten (Name, Prüfungsort und -datum) erfragt. Danach setzt die eigentliche Prüfung ein. Der Subtest gliedert sich in vier Teile: Teil 1, der nur eine Aufgabe umfasst, dient dem „Aufwärmen" und wird in der Regel 7 nicht bewertet. Teil 2 enthält vier Aufgaben; hier werden verschiedene Situationen aus dem studentischen Alltag simuliert, in denen Sprechhandlungen wie Informationen geben/ einholen oder eine dringende Bitte vortragen gefordert sind. In Teil 3 steht „Beschreiben" im Rahmen einer Lehrveranstaltung im Mittelpunkt. Dazu müssen zwei Aufgaben bearbeitet werden. In Teil 4 sind drei Aufgaben, die Sprechhandlungen aus dem Bereich „Argumentation" fordern, gestellt. Innerhalb eines Teils sind die Aufgaben nach aufsteigender Schwierigkeit geordnet. Jede Aufgabe besteht aus einer Aufgabenstellung, festgelegter Denk- und Sprechzeit und einem Stimulus. In der Aufgabenstellung werden die Situation (z.B. räumliche Situierung, Interaktionspartner), Thema und geforderte Sprechhandlung aufgeführt. Die anschließende Denkzeit dient der kurzen Überlegung, dem Notieren von Stichworten. Je nach Aufgabe sind dafür zwischen 15 und 45 Sekunden vorgesehen. Das Ende der Denkzeit wird durch den sog. Stimulus markiert. Im Stimulus kommt der simulierte Gesprächspartner zu Wort und spricht den Prüfungsteilnehmer direkt an. Auf den Stimulus folgt die Sprechzeit, d.h. die Zeitspanne, die dem Prüfungsteilnehmer für seine Antwort maximal zur Verfügung steht. Die Sprechzeiten variieren je nach Aufgabe zwischen 30 Sekunden und 1 Minute 45 Sekunden. Fünf Sekunden vor Ablauf der Sprechzeit ertönt ein Signalton (Länge 0,58 Sek; 2000 Hz Sinus, Dämpfung -25dB vom Maximalton), der dem Teilnehmer das Ende der jeweiligen Aufgabe signalisiert, ohne ihn beim Sprechen zu stören. Alle Aufgaben und Anweisungen auf dem Masterband sind auf Deutsch gestellt. 2.3 Simulated Oral Proficiency Interview (SOPI) und TestDaF Mündlicher Ausdruck Das Format des Subtests MA bei TestDaF orientiert sich am Simulated Oral Proficiency Interview (SOPI), einem kassettengesteuerten Testformat, das Anfang der Achtzigerjahre am Centerfor Applied Linguistics (CAL) in Washington entwickelt wurde. Mittels SO PI s wird die mündliche Ausdrucksfähigkeit von Fremdsprachenlernern in Bezug auf die Kriterien des American Council on the Teaching of Foreign Languages (ACTFL) 8 festgestellt. Der Aufbau eines prototypischen SO PI basiert auf dem des Oral Proficiency Interview (OPI), einem Test in Form eines streng geleiteten Gesprächs, in dem der 7 Die Bewertungsanleitung sieht Ausnahmefälle vor, in denen die Lösung der Aufgabe in Teil 1 in die Bewertung einbezogen wird, z.B. wenn im Bereich der Aufgaben auf dem Niveau TDN 3 eine Störung auftritt (Lärm, technischer Defekt o.Ä.). 8 Vgl. American Council on the Teaching of Foreign Languages: 1999. ACTFL proficiency guidelines speaking: Revised 1999. Hastings-on-Hudson, NY: Author. [vgl. auch in diesem Band, SS. 116-126]. JFJL1.IIL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 131 Prüfungsteilnehmer gefordert ist, eine Folge von sprachlichen Aufgaben mit ansteigendem Schwierigkeitsgrad auszuführen. Charakteristischerweise besteht ein OPI aus vier Phasen: Warm-up, probe, level check und wind down. Die Leistungen des Prüfungsteilnehmers in den einzelnen Phasen werden vom Prüfer anhand der ACTFL-Kriterien beurteilt und der entsprechenden Leistungsstufe (Novice, Intermediate, Advanced, Superior) zugeordnet. Der Aufbau einer Prüfung ist bei OP/ und SOPI sehr ähnlich, die Bewertungskriterien identisch. Unterschiedlich ist die Art der Datenerhebung: beim SOP/ werden sie mittels Band und Aufgabenheft erhoben. Der Terminus SOPI dient heute nicht mehr nur zur Bezeichnung der von CAL entwickelten Tests mit den ACTFL-Kriterien als Referenzrahmen, sondern bezieht sich auf jegliche Art kassettengesteuerter mündlicher Prüfung. Das Center for Applied Linguistics hat SOP/ s für mehr als zehn Sprachen entwickelt, darunter auch für Deutsch, den German Speaking Test (GST), der den Ausgangspunkt für die Entwicklung eines eigenen kassettengesteuerten Tests bei TestDaF bildete. 9 Der Subtest Mündlicher Ausdruck im TestDaF unterscheidet sich im Hinblick auf Inhalt 10 und die spezifische Ausgestaltung des Formats jedoch deutlich vom SO PI/ GST. Den beiden Prüfungen liegen unterschiedliche Konstrukte zugrunde, d.h., sie unterscheiden sich in den Eigenschaften, dem Bündel von sprachlichen Fähigkeiten, die gemessen werden sollen. Auf der Basis der Testergebnisse des TestDaF sollen Schlussfolgerungen über das sprachliche Verhalten des Prüfungsteilnehmers in Situationen des Kommunikationsbereichs Hochschule gezogen werden. Im SOPI! GST hingegen geht es um Prognosen hinsichtlich des sprachlichen Verhaltens in Alltagssituationen (vgl. ACTFL Guidelines). Der SO PI/ GST bildet also einen anderen Sprachausschnitt ab als TestDaF. Folglich sind die Themen und die geforderten Sprechhandlungen in den beiden Prüfungen unterschiedlich. Auch das Leistungsspektrum (engl. band), welches von den beiden Prüfungen jeweils abgedeckt wird, ist verschieden. SOPI! GST prüft die sprachlichen Leistungen in einem Spektrum von Unterstufenbis Oberstufenniveau (die ACTFL-Stufen Novice - Superior) in einer längeren Version bzw. Unterstufenbis Mittelstufenniveau (die ACTFL-Stufen Novice -Intermediate) in einer kürzeren Version. TestDaF hingegen prüft ausschließlich Leistungen im oberen Leistungsspektrum 11 , da die Aufnahme eines Studiums Deutschkenntnisse auf fortgeschrittenem Niveau voraussetzt. TestDaF weist eine vom SOPI! GST verschiedene, den Anforderungen entsprechende spezifische Ausgestaltung des Formats auf. Dies zeigt sich am augenscheinlichsten in der Sprache, die als Instruktionsmedium eingesetzt wird. Im SO PI/ GST werden alle Anweisungen und Aufgaben auf Englisch, d.h. der Mutter- oder Zweitsprache der Prüfungsteilnehmer, gestellt und nur der Stimulus in der Zielsprache Deutsch präsentiert. Das ist Die nachstehenden Ausführungen beziehen sich ausschließlich auf den Vergleich mit diesemSOP/ / GST. 10 Die inhaltlichen Unterschiede sind relativ unabhängig vom Format der Tests und werden hier nur kurz aufgeführt. 11 Genauer: Nach den Kompetenzskalen des Europarates liegt das mit TDN 3, TDN 4 und TDN 5 anvisierte Leistungsspektrum zwischen B 2.1 (Vantage leve[) und C 1.2 (Ejfective Proficiency leve[). lFLIIL 30 (2001) 132 Gabriele Knif.fka, Dörthe Üstünsöz-Beurer möglich, da der SOPI! GST ausschließlich in den USA Anwendung findet. Mit dem Gebrauch des Englischen soll sichergestellt werden, dass alle Prüfungsteilnehmer, auch die auf Anfängerniveau, genau verstehen, was von ihnen verlangt wird. Der TestDaF ist dagegen völlig einsprachig. Alle Anweisungen, Aufgaben und Stimuli werden in der Zielsprache Deutsch dargeboten. Diese Lösung ist darauf zurückzuführen, dass TestDaF weltweit eingesetzt wird. Dem Prinzip des SOPI ("directions are given in the native language ofthe examinees" (Kenyon 2000: 92)) zu folgen, hätte bedeutet, dass eine Vielzahl von (Sprach-)Varianten eines jeden Prüfungssatzes hätten erarbeitet werden müssen. Abgesehen vom personellen und finanziellen Aufwand, der damit entstände, wäre die Parallelität der verschiedensprachigen Prüfungssätze nur sehr schwer und durch umfangreiche, zusätzliche Untersuchungen sicherzustellen. So müsste man prüfen, ob die vorgenommenen Übersetzungen im Hinblick auf die Zielsprache adäquat sind und die verschiedenen Sprachfassungen zugleich noch untereinander vergleichbar. Weiterhin stellt sich die Frage, welche Sprache in Ländern mit unterschiedlichen Landessprachen zu verwenden ist und ob das Kriterium der Testfairness in jedem Fall eingehalten werden kann. Wählt man beispielsweise für die beiden afrikanischen Staaten Kamerun und Gabun deren offizielle Verkehrssprache Französisch für die Anweisungen und Aufgabenstellungen, dann wären die französischsprachigen Prüfungsteilnehmer aus Frankreich möglicherweise deutlich im Vorteil gegenüber den afrikanischen. Denn für letztere ist Französisch in der Regel Zweit- oder Drittsprache. Die Verwendung des Französischen in der Prüfung würde für sie daher vermutlich einen zusätzlichen Schwierigkeitsfaktor darstellen. Ein direkter Vergleich der Prüfungsergebnisse mit denen französischer Muttersprachler wäre dann nicht fair. Ähnliche Probleme lassen sich für eine Reihe weiterer Weltregionen aufzählen. Die Wahl der Zielsprache Deutsch als lnstruktionsmedium hat zur Folge, dass in noch viel stärkerem Maße als dies für kassettengesteuerte Formate ohnehin gilt, Konstruktionsmittel und -prinzipien Anwendung finden, die das Verstehen erleichtern. Das nachstehende Beispiel auf der folgenden Seite macht dies anhand eines Vergleiches mit dem SOPI! GST deutlich. Im TestDaF sind ausnahmslos alle zehn Aufgaben nach demselben Konstruktionsmuster gestaltet, während es beim SOP/ ! GST leicht variierende Konstruktionsmuster für Aufgaben gibt. Das Konstruktionsmuster beim TestDaF sieht folgendermaßen aus: (1) Beschreibung der Situation; (2) Benennung der auszuführenden Sprechhandlungen (fett gedruckt); (3) ikonische Darstellung der Elemente Denkzeit - Stimulus - Sprechzeit. 12 12 Der Stimulus ist nicht im Aufgabenheft abgedruckt, sondern hier der Infornrntion halber wiedergegeben. (Aus: TestDaF Modellsatz 2001.) lFLllL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 133 Sie sitzen mit einigen Erstsemester-Studenten in der Cafeteria. Sie unterhalten sich über ihr Abitur. Ina, eine deutsche Mitstudentin, fragt Sie, wie die Abschlussprüfung in den Schulen Ihres Heimatlandes aussieht. Informieren Sie Ina darüber, • in welchen Fächern man geprüft wird • wie lange die Prüfung dauert • ob es eine mündliche Prüfung gibt. SIE: DENKZEIT: p INA: SIE: SPRECHZEIT: [Stimulus: Sag mal, wie sieht das Abitur bei Euch eigentlich aus? ] Obwohl eine typische SOPI-Aufgabe u.a. die Elemente 13 englische Anweisungen, Kontextualisierung, Denk- und Sprechzeit, Stimulus umfasst, finden sich nicht durchgängig alle Elemente in den Aufgaben des GST. Bei einer Aufgabe ist der Prüfungsteilnehmer beispielsweise gefordert, zu den vier Bildern, die in der Aufgabe präsentiert werden, jeweils eine oder mehrere Fragen zu stellen. In dieser Aufgabe wirdim Gegensatz zu anderen keine Denkzeit gewährt und kein zielsprachlicher Stimulus eingesetzt: "Imagine that you are at your school's German club meeting one evening. Helmut an exchange student from Frankfurt has brought along some pictures of his friends from home. (...) You want to ask Helmut some questions about these pictures to find out about his friends. After you hear the directions for each picture, you will have 20 seconds to ask your question or questions. Ask your questions immediately after you hear the directions for each picture. There will be no other signal to alert you to begin asking your questions. 13 Vgl. Kenyon (2000: 100): "Whatever the task, each SOPI task developed by CAL has several elements. [ ... ] Table 11: Elements of a SOPI task - English directions - Contextualization - Thinking and response time - Target-language prompt - Endtone - Picture(s) if required" IFLIIL 30 (2001) 134 Gabriele Kniffka, Dörthe Üstünsöz-Beurer Now look at Picture 1, which shows Helmut's friend Karl-Heinz. Now ask Helmut one or more questions to find out more about Karl-Heinz. (20 seconds) Now look at Picture 2, which shows Helmut's school. Now ask Helmut one or more questions to find more about about his school. (20 seconds) [...]" (Kenyon 2000: 95) Die folgende Aufgabe repräsentiert ein anderes Konstruktionsschema, das sowohl eine Denkzeit wie einen zielsprachlichen Stimulus umfasst: "(Narrator) Now silently read the first task printed at the top of page 6, while I read it aloud. Note that for this task you will have 20 seconds to think about your answer. Then, after you hear the German speaker, you will have 1 minute for your response. (2 seconds) Your German teacher has invited a speaker to your dass to talk about student life in her native country, Switzerland, and how students in Switzerland typically spend their weekends. After her talk, the speaker, Mrs. Riede! , is talking with you. She asks you how you usually spend your weekend. After Mrs. Riede! asks her question, teil her how you usually spend your weekend. (20 seconds) (Native Speaker) ** Was machen Sie normalerweise am Wochenende? (55 seconds) TONE (5 seconds)" (Kenyon 2000: 101) Der Warm-Up-Teil des SOPI setzt sich prinzipiell von den übrigen Aufgaben des Tests ab: "The Warm-Up is the only section in the SOPI containing questions posed solely in the target language." (Stansfield 1996, 89) Dass ein rein zielsprachlicher kassettengesteuerter Test noch rigoroserer Konstruktionsprinzipien bedarf als ein SOPI mit einem hohen muttersprachlichen Anteil, stellte sich im Laufe der Erprobungen heraus. Das Format, zunächst eng am SOPI! GST ausgerichtet, wurde daher weiterentwickelt und mit einem Profil ausgestattet, welches der Zielsetzung von TestDaF und den Bedingungen, unter denen TestDaF eingesetzt wird, stärker entspricht. 2.4 Beschränkungen eines kassettengesteuerten Formats In den vorangegangenen Abschnitten wurden die Gründe, die zur Wahleineskassettengesteuerten Formats beim TestDaF beitrugen, und die Vorteile, die es unter den gegebenen Umständen mit sich bringt, angeführt. Der Subtest Mündlicher Ausdruck wurde kurz beschrieben und mit dem SOPIIGST verglichen. Im Folgenden werden die Beschränkungen, die die Wahl dieses Formates mit sich bringt, dargelegt. lFLIIL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 135 Die wichtigste Beschränkung betrifft die Eigenschaften bzw. Fähigkeiten, die gemessen werden sollen. So lassen sich mit einem kassettengesteuerten Format keine dialogischen Muster simulieren. Das heißt, sprachliches Handeln in einer über mehrere Sprecherwechsel andauernden Interaktion kann nicht überprüft werden und ist somit nicht Bestandteil der Operationalisierung des Konstrukts „Mündliche Kommunikationsfähigkeit" des Subtests Mündlicher Ausdruck. Dass die Simulation einer Interaktion sich nicht in befriedigender Weise durchführen lässt, zeigte sich an der Entwicklung des Teil 1, der, in Anlehnung an den SOPIIGST, zunächst die Form eines Gesprächsgerüsts hatte; vgl. den folgenden Ausschnitt aus dem TestDaF-Erprobungssatz E00l: „Für den Teil 1 brauchen Sie das Aufgabenheft nicht. Bitte legen Sie es auf die Seite und hören Sie zu. (5 Sek.) Stellen Sie sich vor: Sie möchten ein Jahr in Deutschland studieren und wollen sich um ein Stipendium bewerben. Informationen über Studienmöglichkeiten in Deutschland und über Stipendien können Sie bei der neuen Deutsch-Lektorin an Ihrer Heimatuniversität bekommen. Sie besuchen die Lektorin in ihrem Büro. (2 Sek.) Die Lektorin stellt Ihnen einige Fragen. Bitte antworten Sie sofort. Ein Signalton (PIEP) zeigt Ihnen, dass Ihre Antwortzeit zu Ende geht. Lektorin: Guten Tag. Mein Name ist Miriam Peters. Ich bin die neue Deutsch-Lektorin. Und wie heißen Sie? Prüfungsteilnehmer: (5 Sek. - SIGNALTON) Lektorin: Es freut mich, Sie kennenzulernen. Woher kommen Sie denn? Prüfungsteilnehmer: (5 Sek. - SIGNALTON) Lektorin: Und was machen Sie? Studieren Sie hier oder gehen Sie noch zur Schule? Prüfungsteilnehmer: (20 Sek. - SIGNALTON) Lektorin: Sie sprechen aber schon gut Deutsch! Wo haben Sie das denn gelernt? Prüfungsteilnehmer: (20 SEK. - SIGNALTON) Lektorin: Ah ja. Aber nun zum Anlass Ihres Besuches. Was. kann ich für Sie tun? Prüfungsteilnehmer: (45 Sek. - SIGNALTON) Lektorin: Hm. Da helfe ich Ihnen gerne. Ich gebe Ihnen erst mal Informationsmaterial mit. Wenn Sie das durchgesehen haben, melden Sie sich bei mir. Wir vereinbaren dann einen Termin, ja? Was meinen Sie? Prüfungsteilnehmer: (20 Sek. - SIGNALTON) Lektorin: Ja, viel Spaß bei der Lektüre wünsche ich Ihnen. Und Sie melden sich dann, ja? Prüfungsteilnehmer: (5 Sek. - SIGNALTON)" Im Unterschied zum SOPI! GST besteht die vorgegebene Struktur in diesem Beispiel nicht nur aus einfachen Fragen zu Name, Herkunft, Alter usw., sondern es wird versucht, eine Interaktion zu simulieren, die zum einen dem anvisierten Leistungsniveau Mittelbis JFLuL 30 (2001) 136 Gabriele Knijfka, Dörthe Üstünsöz-Beurer Oberstufe und zum anderen dem für TestDaF gewählten Sprachausschnitt angemessen ist.Die sprachlichen Realisationen, die sich auf den Kandidatenbändern dieses Testdurchlaufs fanden, machten allerdings deutlich, dass sich eine solche Interaktion auf fortgeschrittenem Niveau nicht simulieren lässt. Eine Interaktion ist ja gerade dadurch charakterisiert, dass die Redebeiträge der einzelnen lnteraktionspartner sich aufeinander beziehen und ein Gespräch durch das Zusammenwirken beider Partner erst entsteht. In diesem Beispiel sind die Beiträge des simulierten Gesprächspartners zwangsläufig vorab festgelegt und auf dem Masterband festgehalten, nicht aber im Aufgabenheft abgedruckt - und daher für den Prüfungsteilnehmer nicht einschätzbar. So steuert der simulierte Gesprächspartner die Redebeiträge des Prüfungskandidaten, ohne dass dieser eine Möglichkeit hätte, seinerseits den Redebeitrag des (gedachten) Gegenübers zu beeinflussen. So hatten die Antworten/ Repliken der Prüfungsteilnehmer bei dieser Aufgabe häufig keinen direkten Zusammenhang mit der nachfolgenden Äußerung des simulierten Gesprächspartners und die Passagen wiesen insgesamt einen erheblichen Mangel an Kohärenz und Kohäsion auf. Daher wurde nach zwei Erprobungen auf die Simulation einer Interaktion verzichtet und der erste Teil des Tests in der Weise umgestaltet, dass er nach dem gleichen Muster wie die übrigen Aufgaben des Tests konstruiert wurde. Ein weiteres Argument für die Umgestaltung des ersten Teils ergab sich als ein „Nebenprodukt" aus einer Untersuchung über die Angemessenheit der vorgegebenen Sprechzeiten (vgl. 3.4). Bei der Analyse der Kandidatenbänder stellte sich heraus, dass es jeweils bei Aufgabe 2.1, der ersten Aufgabe, die dem in 2.2. beschriebenen Konstruktionsmuster Denkzeit - Stimulus - Sprechzeit folgt, zu Falscheinsätzen und deutlichen Überschreitungen der Sprechzeit kam. Bei der Aufgabe 2.2 nahmen diese merklich ab. Dieses Ergebnis wurde dahingehend interpretiert, dass es zwischen Aufgabe 2.1 und Aufgabe 2.2 zu einem Gewöhnungseffekt kommt, d.h., dass die Prüfungsteilnehmer mit dem Konstruktionsmuster der Aufgaben vertrauter wurden. Mit der Revision des Aufgabenformats in Teil 1 wurde der Gewöhnungseffekt quasi vorverlegt und für die Lösung von Aufgabe 2.1 nutzbar gemacht. Geprüft werden können also keine Interaktionen, sondern nur einzelne Sprechhandlungen. Dabei lassen sich grundsätzlich drei Optionen unterscheiden: (1) Sprechhandlungen, die als Teil einer größeren Interaktionseinheit aufgefasst und aus dieser isoliert werden können, wie die Sprechhandlung „Informationen geben'' im Beispiel, welches in Abschn. 2.3 gegeben wurde. (2) Sprechhandlungen, die Teil eines längeren Monologes bilden, z.B. Beschreiben einer Grafik zu Beginn eines Referats. . (3) Kürzere monologische Sprechhandlungen wie „eine Nachricht/ dringende Bitte auf dem Anrufbeantworter hinterlassen". Auch die Auswahl der bei einem kassettengesteuerten Format eingesetzten Medien (Tonband und Aufgabenheft) stellt eine Beschränkung dar: In realen Face-to-Face-Gesprächssituationen liefern nonverbale Kommunikationskomponenten wie Gestik, Mimik und Körperhaltung den Gesprächspartnern zusätzliche Informationen, die zum VerlFLuulL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 137 ständnis der verbal übermittelten beitragen. Diese Dimension fehlt naturgemäß bei dem vorgestellten Prüfungsformat. Der Prüfungsteilnehmer muss in den meisten simulierten Gesprächssituationen folglich mit weniger Informationen auskommen, als ihm in der vergleichbaren realen Gesprächssituation zur Verfügung ständen. Aus testmethodischer Perspektive hat diese Beschränkung, die für alle Teilnehmer gleichermaßen gilt, aber zugleich auch einen positiven Aspekt, da sie zur Erhöhung der Durchführungsobjektivität beiträgt. Denn es ist zu erwarten, dass das Ausmaß der nonverbalen Unterstützung durch reale Gesprächspartner (die Prüfer) nicht für alle Teilnehmer gleich wäre. Dies lässt sich aus den Ergebnissen der experimentalpsychologischen Forschung zum so genannten Versuchsleitereffekt ableiten. Dort hat sich gezeigt, dass das nonverbale Verhalten des Versuchsleiters (z.B. häufige Blickkontakte, Lächeln, Nicken, räumliche Nähe) bei verschiedenen Untersuchungsteilnehmern stark variieren und massiven Einfluss auf die Ergebnisse im Sinne eines Störfaktors nehmen kann. 14 Eine weitere Beschränkung ist dadurch gegeben, dass der Test, nachdem er einmal angefangen hat, ohne Unterbrechung bis zum Ende durchläuft. Dieses Verfahren ist zur Einhaltung der Zeitvorgaben und damit für die Gewährleistung eines einheitlichen Prüfungsablaufes (Standardisierung) unbedingt notwendig. Der Prüfungsteilnehmer ist diesem Ablauf vollständig unterworfen, d.h., er hat zum Beispiel keine Möglichkeit rückzufragen oder nachträglich eine Lösung zu verändern. Die beiden zuletzt aufgeführten Einschränkungen, Fehlen der nonverbalen Kommunikationsdimension und rigoroser Zeitablauf, bedeuten neben der durchgängig eingesetzten Zielsprache (vgl. oben) eine Erschwernis und möglicherweise auch einen Stressfaktor für den Prüfungsteilnehmer. Daher müssen sie durch bestimmte Konstruktionsprinzipien so gut es geht kompensiert werden. Zu diesen Prinzipien zählen (1) eine strenge Standardisierung von Strukturen und Abläufen und (2) Redundanzen. Die Testsätze, Prüfungs-, Übungs- und Modellsätze, sind alle nach demselben Muster aufgebaut, die einzelnen Aufgaben immer nach dem gleichen Schema konstruiert (vgl. Abschn. 2.3). Die möglichen Themen und Inhalte, Register und Gesprächspartner sind für jede Aufgabe festgelegt, ebenso die Denk- und Sprechzeiten. Dies erlaubt potenziellen Prüfungsteilnehmern, sich bereits vor Ablegen der Prüfung auf das Format einzustellen. Das Skript für den Subtest Mündlicher Ausdruck ist durch ein hohes Maß an Redundanz gekennzeichnet. Anweisungen, Hinweise werden regelmäßig auf dem Masterband wiederholt. Die folgende Sequenz beispielsweise leitet immer zur nächsten Aufgabe über: "Bitte schlagen Sie nun die Seite x auf. Lesen Sie die Aufgabe y. Ich lese sie Ihnen vor. Teil z, Aufgabe y ..." Auch die einzelnen Aufgaben sind durch ein bestimmtes Wiederholungsmuster gekennzeichnet. Wichtig ist hierbei, dass jeweils die Sprechhandlung, die der Prüfungsteilnehmer realisieren soll, in irgendeiner Form wiederholt wird. So heißt es in Aufgabe 4.3 des 14 Vgl. z.B. Überblick bei Bortz/ Döring (1995). lFlLllilL 30 (2001) 138 Gabriele Knijfka, Dörthe Üstünsöz-Beurer Modellsatzes 15 zunächst in der Situationsbeschreibung: "Frau Professor Meister fragt Sie nach Ihrer Ansicht." Kurz darauf wird die erwartete Sprechhandlung benannt: "Verdeutlichen Sie Ihren Standpunkt ...". Im Stimulus folgt dann: "Was halten Sie denn davon, ...? " Die Darbietung der Aufgaben über zwei Kanäle (auditiv und visuell), wie beim SO PI, kann auch als eine Realisierung des Redundanzprinzips aufgefasst werden. Weitere Prinzipien, die in TestDaF zur Kompensation der durch das Format auferlegten Beschränkungen angewendet werden, beziehen sich auf die sprachlich-inhaltliche Gestaltung des gesamten Skripttextes 16 und das Layout von Grafiken und Aufgabenblättern. So wird auf komplexe sprachliche und inhaltliche Konstrnktionen verzichtet und darauf geachtet, dass Aussagen eindeutig sind und jede Aufgabe auf eine Sprechhandlung fokussiert ist. Die Aufgabenblätter und die Grafiken müssen klar und übersichtlich gegliedert, der Inhalt der Grafiken innerhalb kürzester Zeit zu erfassen sein. Wieweit diese kompensatorischen Konstrnktionsprinzipien von den Prüfungsteilnehmern als solche wahrgenommen und positiv bewertet wurden, war Teil umfangreicher empirischer Evaluierungen von TestDaF. Sie werden im Folgenden beschrieben und in ihren wichtigsten Ergebnissen für den Mündlichen Ausdruck skizziert. 3. Empirische Daten 3.1 Erprobungen TestDaF wurde über einen Zeitraum von mehr als zwei Jahren entwickelt. Zentraler Bestandteil der Entwicklung war die Erprobung der erarbeiteten Testsätze mit allen Subtests. Die Erprobung erfolgte dabei jeweils in zwei Schritten: 1. Vorerprobungen in Deutschland Für den Subtest Mündlicher Audruck wurden drei Vorerprobungen mit 30, 8 und 11 Deutschlernern sowie vier Vorerprobungen mit jeweils 6 Muttersprachlern durchgeführt. 2. Weltweite Erprobungen Für den Subtest Mündlicher Ausdruck wurden fünf Vorerprobungen mit 99, 57, 160, 77 und 92 Deutschlernern durchgeführt. Vorerprobungen dienen dazu, in einem frühen Stadium Unstimmigkeiten und Fehler in Inhalten, Arbeitsanweisungen, ltemformulierung oder Aufgabendesign ausfindig zu machen und zu verbessern. Bei den Vorerprobungen des Subtests Mündlicher Ausdruck wurden die Prüfungssätze jeweils nur mit einer kleinen Zahl von Probanden getestet (zwischen 6 und 30), was für den Zweck einer ersten Vorabprüfung ausreichend ist. Dabei wurde großer Wert darauf gelegt, dass die Personen, die für die Vorerprobung ausgewählt wurden, für die mit TestDaF angesprochene Zielgruppe repräsentativ waren, 15 Der Modellsatz ist einsehbar unter: http: / / www.testdaf.de 16 Der Skripttext umfasst alle Anweisungen, Aufgaben und Stimuli. lFLlllL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 139 d.h., es wurde mit Studierenden aus studienvorbereitenden Deutschkursen und mit DSH- Kandidaten vorerprobt. Im Rahmen der Vorerprobungen wurde der Subtest Mündlicher Ausdruck einmal komplett mit Muttersprachlern, in diesem Fall deutschen Studenten, durchgeführt. Das heißt, die deutschen Studenten unterzogen sich der Prüfung zu den gleichen Bedingungen wie die ausländischen Probanden: Die Prüfung fand in einem Sprachlabor statt, die Aufgaben und Anweisungen kamen vom Masterband, und die deutschen Studenten sprachen ihre Antworten auf eine Kassette. Diese Kassetten wurden allerdings nicht in der gleichen Weise ausgewertet wie die der nicht-muttersprachlichen Probanden. Ziel der Auswertung war, Aufschluss darüber zu erhalten, was bezüglich Inhalt und Umfang der Antworten tatsächlich erwartet werden kann. Außerdem wurden die Muttersprachler gebeten, Kommentare zur Authentizität der gewählten Situationen und zu den Aufgaben allgemein zu geben. Bei späteren Vorerprobungen wurde auf die Durchführung des Subtests mit Muttersprachlern verzichtet. Den deutschen Studenten wurden die Aufgaben lediglich zur Kommentierung vorgelegt. Bei den eigentlichen Erprobungen wurde der Subtest Mündlicher Ausdruck von jeweils 57 bis 160 für die späteren Prüfungsteilnehmer repräsentativen Deutschlernern unter Prüfungsbedingungen bearbeitet. Die Erprobungen erfolgten sowohl in Deutschland als auch weltweit. Somit war nicht nur eine Repräsentativität in Bezug auf die Versuchspersonen gegeben, sondern auch in Bezug auf die geografische Verteilung. Zugleich konnte die technische Machbarkeit in verschiedenen Weltregionen (neben dem europäischen Ausland auch in Asien, Afrika und Südamerika) geprüft werden. Bei allen Vorerprobungen und Erprobungen wurden zusätzliche Teilnehmerbefragungen mittels Fragebogen direkt im Anschluss an die Testbearbeitung durchgeführt. Diese Befragungen dienten zum einen dazu, nähere Angaben zu den Prüfungsteilnehmern zu erhalten. Neben Demographie wurden auch Informationen über Sprachkenntnisse/ erwerb und Angaben zur Teilnahmemotivation erbeten. Zum anderen wurden die Teilnehmer anhand von geschlossenen Fragen um eine allgemeine Bewertung der Subtests und um ausführliche Kommentare zu einzelnen Aufgaben in Form von offenen Fragen gebeten. Beim Subtest Mündlicher Ausdruck wurden zusätzlich detaillierte Fragen zum Tonband-Format gestellt. Diese zusätzlichen Teilnehmer-Befragungen erwiesen sich als sehr nützliche Ergänzung zur Bewertung der Erprobungsergebnisse. Bei allen Erprobungen bzw. Vorerprobungen nutzten die Teilnehmer bereitwillig die Möglichkeit zur ausführlichen Kommentierung einzelner Aufgaben und zur Bewertung des Testformates, obwohl die Angaben auf Deutsch zu machen waren und das Ausfüllen des Fragebogens zusätzliche Zeit von ca. 10 Minuten in Anspruch nahm. Das Ausfüllen direkt im Anschluss an die Testbearbeitung diente dazu, die Eindrücke möglichst unmittelbar zu erfassen. Die Ergebnisse der Vorerprobungen und Erprobungen zeitigten bestimmte Konsequenzen. Darunter zum Beispiel die nachstehenden: - Sprachliche und inhaltliche Änderung von Aufgaben: Es wurden beispielsweise zu komplexe Formulierungen entzerrt oder Aufgaben mit nicht eindeutigem Fokus revidiert. - Revision von Denk- und Sprechzeiten: So wurden im Laufe der Erprobungen die Denkzeiten bei FL1.! L 30 (2001) 140 Gabriele Knijfka, Dörthe Üstünsöz-Beurer den Grafikaufgaben heraufgesetzt. Bei einigen Aufgaben erwiesen sich die Sprechzeiten als zu knapp und wurden in der Folge erweitert. - Änderung des Layouts von Grafiken: In der Regel fand eine weitere Vereinfachung statt. - Änderung des Layouts der Aufgabenseiten: U.a. wurden Sprechblasen und „Denkwolken" zur Verdeutlichung des Aufgabenablaufs eingeführt. - Änderung der Bewertungskriterien: Die Auswertung der Bänder der deutschen Studenten z.B. führte zu einer wesentlich stärkeren Berücksichtigung der Merkmale gesprochener Sprache in den Bewertungskriterien. - Eliminierung nicht-authentischer Aufgaben/ Situationen auf der Basis der muttersprachlichen Kommentare bzw. Eliminierung von Aufgaben, die nicht genügend sprachliches Material elizitierten.17 3.2 Schwierigkeitsniveau Die Verteilungen der Erprobungsergebnisse weisen auf eine zufriedenstellende Gesamtschwierigkeit der Subtests Mündlicher Ausdruck. Angestrebt wurde eine Differenzierung im oberen Leistungsbereich. Diese zeichnet sich an den Verteilungen auf die TON-Stufen zum Mündlichen Ausdruck ab; höhere Bewertungsstufen werden von zunehmend weniger Prüfungsteilnehmern erreicht: unterTDN3 TDN3 TDN4 TDNS Legende: Mündlicher Ausdruck - TDN = TestDaF-Niveaustufe lill] Form 1 ~ Form 2 ■ Form 3 Abb. 1: TestDaF-Erprobungen, Ergebnisverteilungen zum Mündlichen Ausdruck (gerundete Prozentwerte) 17 In diesem Zusammenhang spielten die Rückmeldungen der Korrektoren (Auswerter) der Kandidatenbänder eine wesentliche Rolle. f'l[,ui][., 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 141 Die Abbildung 1 fasst die Ergebnisverteilungen bei den Erprobungen von drei Parallelformen des Subtests Mündlicher Ausdruck zusammen. Die Prozentwerte wurden gerundet. Für jede der Bewertungsstufen (unter TDN 3, TDN 3, TDN 4 und TDN 5) ist angegeben, wieviel Prozent der jeweiligen Erprobungsteilnehmer diese erreicht haben. Diese Verteilungen sind jedoch nur ein erster Anhaltspunkt für die Bewertung der Schwierigkeiten, da sie stichprobenabhängig sind und sich ein möglicher Stichprobeneffekt (der Test erscheint schwerer als er ist, wenn die Prüfungsteilnehmer besonders schwach waren oder umgekehrt erscheint der Test leichter, als er ist, wenn die Prüfungsteilnehmer besonders stark waren) nicht ausschließen lässt. Ein genaueres Bild liefert hier der Multi-Facetten-Ansatz von Linacre (1989), eine Weiterentwicklung des Rasch- Modells (vgl. McNamara 1996). Damit lässt sich eine stichprobenunabhängige Schwierigkeitsschätzung vornehmen, darüber hinaus können auch Aspekte der Urteilerstrenge miteinbezogen werden. Dieser rechnerisch komplexe Ansatz ist für künftige Analysen des Subtests Mündlicher Ausdruck geplant. Zur Beurteilung der Schwierigkeit einzelner Aufgaben wurden zusätzlich zu den Auswerter-Urteilen die Kommentare der Teilnehmer hinzugezogen, die diese im Rahmen der oben erwähnten ausführlichen Teilnehmer-Befragung zum Mündlichen Ausdruck abgegeben hatten. 3.3 Testgüte 3.3.1 Objektivität Eingangs wurde erläutert, dass die standardisierte Durchführung und Auswertung des Subtests Mündlicher Ausdruck zur Erfüllung des Testgütekriteriums der Objektivität dienen. Auf der Grundlage empirischer Daten wurden weitere Überprüfungen der Objektivität vorgenommen. Ein wichtiges Mittel zur Sicherstellung der Durchführungsobjektivität sind die Handreichungen für Prüfer mit genauen Anleitungen zur Durchführung. Anhand von Prüferprotokollen zur Testdurchführung wurde kontrolliert, wieweit diese Anleitungen zur Durchführung verständlich und vollständig waren und wieweit die darin gemachten Vorgaben eingehalten werden konnten. Es zeigte sich, dass dies weitgehend möglich war. Soweit Schwierigkeiten bei der Durchführung bestanden, handelte es sich vor allem um technische Probleme (z.B. Defekte an einzelnen Sprachlaborplätzen), die jedoch durch entsprechende Vorkehrungen zu vermeiden sind. Hinweise auf solche Maßnahmen wurden daher in die Durchführungsanleitungen aufgenommen. Eine besonders anspruchsvolle Aufgabe bei produktiven Tests (Mündlicher Ausdruck und Schriftlicher Ausdruck bei TestDaF) ist die Sicherstellung einer möglichst objektiven Auswertung. Aus dem Bereich der Lehrerurteile zu Schüleraufsätzen und mündlichen Leistungen ist bekannt, dass es hier zu sehr unterschiedlichen Bewertungen kommen kann, wenn keine systematische Auswertungsvorschrift besteht (vgl. z.B. Kieweg 1999). Bei TestDaF ist dieses Problem durch drei aufeinander bezogene und verschränkte Maßnahmen berücksichtigt: FLuL 30 (2001) 142 Gabriele Kniffka, Dörthe Üstünsöz-Beurer 1. Bewertungskriterien und Bewertungsanleitung 2. regelmäßige Schulungen der Auswerter und 3. standardmäßige Doppelauswertung, in Zweifelsfällen Drittauswertung. Die Bewertungskriterien geben vor, unter welchen Gesichtspunkten die Leistungen zu beurteilen sind. Für den Subtest Mündlicher Ausdruck sind dies die Kriterien Gesamteindruck, Umsetzung der Aufgabenstellung und Sprachliche Realisation, die für die einzelnen Leistungsstufen (TDN 3, TDN 4 und TDN 5) weiter spezifiziert sind. In der Bewertungsanleitung ist Schritt für Schritt festgelegt, wie die Kandidatenbänder ausgewertet werden. Die Auswerter (Korrektoren) werden in regelmäßigen Schulungen mit den Bewertungskriterien und dem Auswertungsverfahren vertraut gemacht, d.h. sie werden dahingehend trainiert, dass alle an einem Korrekturgang beteiligten Auswerter die Bewertungskriterien in der gleichen Weise interpretieren und bei der Auswertung der Bänder nach dem gleichen Verfahren vorgehen. Die Auswertung der Bänder erfolgt grundsätzlich durch zwei Auswerter, die unabhängig voneinander arbeiten. Stimmen die Auswerter in ihrem Urteil nicht überein, erfolgt eine dritte Auswertung, bei der das endgültige Ergebnis des Prüfungsteilnehmers festgelegt wird. Dieses Verfahren mag etwas umständlich und aufwendig anmuten. Es ist aber unseres Erachtens unerlässlich, wenn der Anspruch der objektiven Auswertung eingelöst werden soll, da die Güte des Urteils immer sowohl von der Güte der Bewertungsanleitung bzw. der -kriterien als auch von den Personen, die diese anwenden, abhängt. Grundsätzlich ist im Zusammenhang mit der Objektivität darauf hinzuweisen, dass eine hundertprozentige Objektivität ein Ideal darstellt und gerade bei produktiven Tests immer nur näherungsweise erreicht werden kann. Dies spiegelt sich auch in der Tatsache, dass man üblicherweise bei den verwendeten statistischen Maßen zur Überprüfung der Auswertungsobjektivität schon deutlich unter 100 % liegende Übereinstimmungswerte als zufriedenstellend ansieht (vgl. z.B. Bortz 1984: 208). Die empirischen Daten sprechen für diese Überlegungen: Die Urteile der Erst- und Zweit-Auswerter wurden bei jedem Subtest Mündlicher Ausdruck mit dem gewichteten Kappa-Koeffizienten von Cohen (Cohen's Weighted Kappa) überprüft. Hierbei handelt es sich um ein statistisches Maß zur Überprüfung der Auswertungsobjektivität, das den Vorteil hat, nicht nur absolute Übereinstimmungen bzw. gleiche Urteile zu berücksichtigen, sondern auch unterschiedliche Urteile und das Ausmaß ihrer Abweichungen. So ergibt sich z.B. ein anderes Bild, je nachdem ob zwei Auswerter in ihren Urteilen jeweils nur eine Stufe auseinander liegen oder zwei und mehr (vgl. Bortz 1984; Bortz u.a. 1990; Krauth 1995). Es hat sich gezeigt, dass auch erfahrene Auswerter, die mehrmals geschult wurden, zwar zufriedenstellende, jedoch nicht absolute Übereinstimmungen erreichen. Im Vergleich zu weniger erfahrenen und weniger geschulten Auswertem schneiden sie aber deutlich besser ab. Dies spricht für die Praxis der regelmäßigen Auswerterschulung und für die Beibehaltung der Doppelauswertung als Regelverfahren. lFLllL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 143 3.3.2 Reliabilität Der im vorigen Abschnitt angeführte Kappa-Koeffizient wird beim Subtest Mündlicher Ausdruck nicht nur für die Bewertung der Auswertungsobjektivität, sondern zugleich auch für die Reliabilitätsprüfung benutzt (Interrater-Reliabilität, d.h. für die Ermittlung der Messzuverlässigkeit in Abhängigkeit von verschiedenen Auswertern). Die Reliabilitätswerte können daher immer nur so gut wie die Auswertungsobjektivität des Tests sein. Da diese bei produktiven Testformaten schwieriger sicherzustellen ist als etwa bei geschlossenen, quantitativen Testformaten, sind derzeit auch die Reliabilitäten für den Mündlichen Ausdruck niedriger als vergleichbare Werte für geschlossene Lese- und Hörverstehensaufgaben. Da sich aber über eine zunehmende Erfahrung der Auswerter und deren regelmäßige Schulung größere Übereinstimmungen erreichen lassen, wird auch die Messzuverlässigkeit des Subtests Mündlicher Ausdruck künftig vermutlich weiter verbessert. Es darf hierbei auch nicht vergessen werden, dass die traditionellen mündlichen Prüfungen in der Regel keine solchen systematischen Qualitätskontrollen vorweisen können. 3.3.3 Validität Die Inhaltsvalidität, d.h. das Ausmaß, in dem die Testaufgaben geeignet sind, diese Fertigkeit auch tatsächlich zu erfassen, wurde über Experten-Ratings bestimmt und erbrachte für den Subtest Mündlicher Ausdruck sehr zufriedenstellende Einstufungen. Die ursprünglich geplante umfangreiche Überprüfung der Kriteriumsvalidität konnte nur sehr stark eingeschränkt vorgenommen werden mangels eines geeigneten Kriteriums und mangels ausreichender Datenbasis. Mit der Kriteriumsvalidität wird überprüft, wieweit die Testergebnisse mit einem unabhängigen Außenkriterium, z.B. einem anderen Test, übereinstimmen. Üblicherweise lässt sich die Kriteriumsvalidität statistisch bestimmen über die Korrelationsprüfung mit einem geeigneten, d.h. möglichst reliablen und validen Kriterium. Genau dieses fehlt jedoch für den Subtest Mündlicher Ausdruck. Es war zunächst geplant, die mündlichen Prüfungen, die im Rahmen der DSH erfolgen, als Validierungskriterium heranzuziehen. Diese Prüfungen sind jedoch nicht standardisiert, die Durchführungs- und Auswertungsmodalitäten an den verschiedenen Universitäten unterscheiden sich zum Teil erheblich. Dies ergaben unsere Recherchen im Zusammenhang mit der geplanten Validierungsstudie. Als Folge fehlen auch Informationen über die Reliabilität oder Validität. Die Tatsache, dass sich auch kein anderes geeignetes (statistisches) Validierungskriterium finden ließ, zeigt deutlich, dass mit der Entwicklung des standardisierten und empirisch auf seine Testgüte geprüften TestDaF-Subtests Mündlicher Ausdruck Pionierarbeit geleistet wird. 3.3.4 Akzeptanz des Testformates Die Akzeptanz zählt bei einer Reihe von Autoren zu den Nebengütekriterien, was eine geringere Relevanz suggerieren mag (vgl. z.B. Darstellung der Testgütekriterien bei lFL1.IIL 30 (2001) 144 Gabriele Kniffka, Dörthe Üstünsöz-Beurer Lienert/ Raatz 1994). Bei anderen Autoren stellt sie hingegen ein wichtiges Kriterium dar (vgl. z.B. Bachmann/ Palmer 1996; Grotjahn 2000). Auch für den Subtest Mündlicher Ausdruck wird sie wegen des ungewöhnlichen bzw. ungewohnten kassettengesteuerten Formates als ein wichtiges Merkmal erachtet. Dahinter steht die Überlegung, dass gerade für mündliche Leistungen eine positive Einstellung zum Test und eine gute Handlungsmotivation Stress reduzierend und dadurch indirekt ergebnisrelevant sein dürften. Ein Teilnehmer, der die Tonband-Prüfung als zu unpersönlich ablehnt und Hemmungen hat, "mit einer Maschine zu sprechen", könnte hingegen benachteiligt sein. Die Äußerungen der Teilnehmer im Rahmen der durchgeführten Befragung sprechen für eine gute Akzeptanz dieses Testformats. So würde zwar, wenn die Wahlmöglichkeit bestünde, die traditionelle Face-to-Face-Prüfung vorgezogen, bei der Begründung dieser Präferenz werden jedoch häufig auch Vorteile der Tonband-gestützten Form gefunden. So äußert z.B. ein Erprobungsteilnehmer aus Neu Delhi: „Der Tonband-Test ist völlig unabhängig von hurnorische Aspekte, die Beziehung zwischen Exarniner und die Unternehmer usw. Und vielleicht gibt es eine besser Chance zu Gleicheit. Aber die Spannung ist mehr in diesem Fall und überhaupt keine Chance zu rekorrigieren oder verbessern." Diese Aussage fasst gut zusammen, was im Laufe der Erprobungen häufig von den Teilnehmern geäußert wurde: Die Sprechsituation selbst wird bei der traditionellen Prüfungsform als angenehmer empfunden, das Sprechen mit einer Maschine als ungewohnt und daher stressig. Im Hinblick auf die Leistungsbewertung aber wird die Tonband-Prüfung als objektiver und fairer eingeschätzt, da alle die gleichen Bedingungen und Fragen vorfinden. Einige Teilnehmer wiesen auch darauf hin, dass Prüfer nicht nur eine beruhigende, sondern durchaus auch eine Nervosität steigernde Wirkung haben können, was beim Tonband-Test entfällt. Gewissermaßen ließe sich hier ein sozialer Stress (beim Face-to-Face-Format) dem „maschinellen Stress" beim Tonband-Format gegenüberstellen. Es wird auch oft geäußert, dass einfach die Vertrautheit mit der Tonband-Situation fehlt. Wieweit das Ausmaß der Vertrautheit mit dieser Prüfungsform tatsächlich Einfluss auf die Testergebnisse hat, wird derzeit in einer eigenen Studie geprüft, deren Ergebnisse zum gegenwärtigen Zeitpunkt noch nicht vorliegen. Die mangelnde Vertrautheit mit diesem Testformat dürfte aber unseres Erachtens nur von kurzfristiger Bedeutung sein, da davon auszugehen ist, dass bei der Vorbereitung auf TestDaF künftig schon im Unterricht die Tonband-Prüfung eingeübt wird 18 • Betrachtet man die Bewertungen der Teilnehmer bei weiteren, im Hinblick auf die Akzeptanz relevanten Aspekten, so zeichnet sich eine insgesamt positive Wahrnehmung des für TestDaF gewählten Prüfungsformates ab. Die Qualität bzw. Verständlichkeit der Sprecher etwa wird durchgängig sehr positiv beurteilt. Auch die verfügbare Zeit zum Nachdenken und Sprechen wird bei den meisten Aufgaben als ausreichend empfunden. Eine Ausnahme bilden die beiden Grafikaufgaben, bei denen häufig mehr Zeit zum Nachdenken gewünscht wurde (vgl. 3.4). Die Gesamtbewertungen des Tonband-Tests, 18 Als Material steht hierfür z.B. der Mündliche Ausdruck des TestDaF-Modellsatzes zur Verfügung. lFLIIL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 145 der Gestaltung der Aufgabenblätter sowie der Textmenge im Aufgabenheft waren in der Tendenz ebenfalls positiv. 3.4 Analyse der Sprechzeiten Neben den geschilderten Erprobungsläufen wurden einzelne Fragestellungen zum Subtest Mündlicher Ausdruck in separaten Studien, auf der Basis zusätzlicher Daten, untersucht. So wurde nach der Erprobung und Auswertung des zweiten Testsatzes eine Untersuchung durchgeführt, deren primäres Ziel es war, die Angemessenheit der vorgegebenen Sprechzeiten anhand der tatsächlichen Realisationen zu überprüfen. Des Weiteren sollte festgestellt werden, inwieweit die Prüfungsteilnehmer mit dem Ablaufmuster für die Aufgaben (Anweisung - Denkzeit ~ Stimulus - Sprechzeit) zurechtkamen, denn eine gute Abstimmung zwischen Aufgabenstellung und Bearbeitungszeiten (Denk- und Sprechzeit) ist eine wichtige Voraussetzung für ausreichende Leistungsdaten. Für diese Untersuchung wurde pro Testsatz eine bestimmte Anzahl von Kandidatenbändern (N = 30) digitalisiert, und zwar je zehn Bänder von zufällig ausgewählten Prüfungsteilnehmern der Leistungsniveaus TDN 3, TDN 4 und TDN 5. An diesen Bändern wurden folgende Messungen vorgenommen: 1. der zeitliche Umfang der realen Sprechzeiten 2. Überschreitungen der Sprechzeit (= Überschneidungen mit dem nachfolgenden Anweisungstext) 3. Anzahl und Position verfrühter Einsätze, d.h. Sprecheinsätze, die vor dem Stimulus erfolgten. Auf der Grundlage dieser Daten wurde geprüft, ob (a) die Prüfungsteilnehmer das Ablaufmuster „Denkzeit - Stimulus - Sprechzeit" befolgen, (b) die Zeitvorgaben ausreichend sind und (c) sich Unterschiede zwischen den Leistungsgruppen ergeben. (a) Einhaltung des Ablaufmusters: Mit der Einhaltung des Ablaufmusters (Denkzeit- Stimulus - Sprechzeit) hatten die Prüfungsteilnehmer im allgemeinen keine Probleme. Als Indikatoren hierfür lassen sich die Anzahl verfrühter Sprecheinsätze (d.h. vor dem Stimulus) und überzogener Sprechzeiten (d.h. Überschneidungen mit dem nachfolgenden Anweisungstext) heranziehen. Lediglich bei zwei Aufgaben gab es einige verfrühte Sprecheinsätze. Überschreitungen der Sprechzeiten kamen an bestimmten Stellen vor, die nachfolgend besprochen werden. (b) Adäquatheit der Zeitvorgaben: Alle drei Kandidatengruppen hatten deutliche Schwierigkeiten mit der Einhaltung der Zeitvorgaben bei der Aufgabe 2.1, der ersten, die das Format Denkzeit- Stimulus - Sprechzeit (vgl. Abb. 2 [S. 147], Aufgabe 2.1) 19 auf- 19 Bei den beiden analysierten Subtests Mündlicher Ausdruck waren die ersten, nicht bewerteten Aufwärm- Aufgaben (Aufgabe 1.1) noch als Dialog gestaltet, bei dem abwechselnd der Sprecher vom Band und dann der Kandidat sprachen. Dadurch ergab sich hier noch nicht das Problem der Einhaltung von Denk- und direkt anschließenden Sprechzeiten. lFJLlllL 30 (2001) 146 Gabriele Knif.fka, Dörthe Üstünsöz-Beurer wies. Bereits bei der folgenden Aufgabe war dies nicht mehr in gleichem Umfang der Fall (Aufgabe 2.2). Dies spricht für eine schnelle Gewöhnung der Prüfungsteilnehmer an die Zeitvorgaben und lässt sich als Gewöhnungseffekt interpretieren. Als Konsequenz aus diesen Ergebnissen wurde das Format der Aufgabe 2.1 vorangehenden Warming Up- Aufgabe (Aufgabe 1.1) an die restlichen Aufgaben angepasst und ebenfalls in die Form Denkzeit - Stimulus - Sprechzeit gebracht, damit diese Abfolge bereits zu einem früheren Zeitpunkt eingeübt werden kann. Ein Aufgabeneffekt zeigte sich in beiden Subtests Mündlicher Ausdruck bei der jeweils ersten Grafikaufgabe (Aufgabe 3.1), bei der es zu deutlichen Sprechzeitenüberschreitungen kam. Bei der zweiten Grafikaufgabe waren in beiden Fällen die Sprechzeitenüberschreitungen nur marginal. Da die erste Grafikaufgabe die Beschreibung statistischer Daten erfordert, während bei der zweiten ein Ablauf zu beschreiben ist, legt dies die Vermutung nahe, dass es den Teilnehmern schwerer fällt, die Beschreibung der Grafik innerhalb der vorgegebenen Zeit vorzunehmen. Dies lässt sich als Aufgabeneffekt interpretieren. Allerdings sagt eine Zeitüberschreitung nichts über die Qualität der Aussage, wie die Subgruppenanalyse zeigte (vgl. c). Auch in der subjektiven Wahrnehmung waren vor allem die Grafikaufgaben bei allen Testsätzen von den Prüfungsteilnehmern als zeitkritisch kommentiert worden, d.h., sie hatten sowohl die Denkwie auch die Sprechzeiten als unzureichend empfunden. (c) Unterschiede zwischen Leistungsgruppen: Im Hinblick auf die zur Verfügung stehende Sprechzeit ergaben sich einige Unterschiede zwischen den Leistungsgruppen. Bei den Grafikaufgaben überschritten eher die höher eingestuften Prüfungsteilnehmer die Zeit, die niedriger eingestuften (TON 3) hörten besonders schnell auf zu sprechen, gaben also vorzeitig auf. Es sei aber darauf hingewiesen, dass die Überschreitungen den Prüfungsteilnehmern keinen Nachteil bringen, da sie nicht in die Bewertung einfließen. Aufgrund der Teilnehmerkommentare und aufgrund der Rückmeldungen durch die Korrektoren, nach denen es bei Aufgabe 3.1 in Testsatz EOOl zu deutlichen Sprechzeitenüberschreitungen kam was später durch die vorgelegte Studie bestätigt wurde wurde die Sprechzeit für diese Aufgabe heraufgesetzt, so dass für beide Grafiken nun einheitlich 1 Min. 45 Sek. Sprechzeit zur Verfügung steht. Im Testsatz E002 gab es bei der Aufgabe 3.1 zwar einen leichten Rückgang der Sprechzeitenüberschreitungen gegenüber Testsatz EOO 1, im Vergleich zu den übrigen Aufgaben waren die Überschreitungen jedoch immer noch deutlich erhöht, so dass man hier weiterhin von einem Aufgabeneffekt ausgehen muss. JFLU! L 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 147 Anzahl Personen 30 25 20 15 10 5 Überschreitungen Erprobungsform E00l 0 +--~ Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. 1.1 2.1 2.2 2.3 2.4 3.1 3.2 4.1 4.2 1; ; ; J TDN 5 0 3 1 0 1 7 2 1 1 EE1 TDN 4 0 2 3 0 2 5 0 0 0 f-----+---+-----+---+---+----+---+---t-----+~· ■ TDN 3 0 4 0 0 1 3 1 0 0 Anzahl Personen 30 25 20 15 10 5 Überschreitungen Erprobungsform E002 0+--~---._,.. ____ ..,., __ ~......,.....,.---~--~-~ Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. 1.1 2.1 2.2 2.3 2.4 3.1 3.2 4.1 4.2 1; ; ; JTDNS 0 3 0 0 0 5 0 0 0 EEITDN4 0 5 1 0 2 6 0 0 0 ■ TDN3 0 3 1 1 2 0 1 2 0 Legende: TDN = TestDaF-Niveaustufe Hinweis: In beiden Erprobungsformen ist jeweils die erste Aufgabe (Aufg. 1.1) als "Warming Up" im Dialog gestaltet, d.h. Tonband-Gesprächspartner und Kandidat sprechen abwechselnd. Daher ergeben sich hier keine Sprechzeit-Überschreitungen. Abb. 2: Sprechzeitenanalyse zum Mündlichen Ausdruck für die Erprobungsformen E001 und E002, Verlauf der Überschreitungen FLlllL 30 (2001) 148 Gabriele Kniffka, Dörthe Üstünsöz-Beurer Die Abbildung 2 (S. 147) zeigt den Verlauf der Sprechzeiten-Überschreitungen für zwei verschiedene Erprobungsformen. Für jede Aufgabe ist die Anzahl der Personen in den jeweiligen Leistungsstufen (TDN 3, TDN 4 und TDN 5) aufgeführt, die über die vorgegebene Sprechzeit hinaus gesprochen haben. Die jeweiligen Häufigkeiten sind sowohl grafisch als auch tabellarisch dargestellt. Zusammenfassend lässt sich sagen, dass sich die Abstimmung zwischen Aufgabenstellung und Bearbeitungszeiten insgesamt als sehr gut erwies und die Prüfungsteilnehmer gut mit dem Ablaufmuster für die Aufgaben zurechtkamen. Aufgrund des gefundenen Gewöhnungseffektes wurde bereits für die (nicht gewertete) "W arming up"-Aufgabe das gleiche Format wie für die gewerteten Aufgaben gewählt. Der Aufgabeneffekt bei der ersten Grafikaufgabe, bei der besonders häufig und vorrangig die leistungsstarken Prüfungsteilnehmer die Sprechzeit überschritten, ergab sich vor allem aufgrund der höheren Aufgabenschwierigkeit und nicht durch die fehlende Sprechzeit. Hier wurde die Sprechzeit daher nur geringfügig heraufgesetzt und so für beide Grafikaufgaben vereinheitlicht. 4. Ausblick Das kassettengesteuerte Format, welches für den Subtest Mündlicher Ausdruck des TestDaF in Anlehung an die vom Center for Applied Linguistics entwickelten SOP/ s erarbeitet wurde, hat sich im Rahmen der durchgeführten Erprobungen zunächst einmal in zufriedenstellender Weise bewährt. Eine Reihe von Fragen konnten bislang allerdings noch nicht oder nicht befriedigend geklärt werden (vgl. dazu Grotjahn/ Kleppin 2001: 428f), z.B. inwieweit die Einstufung der mündlichen Kommunikationsfähigkeit eines Prüfungsteilnehmers auf der Basis von TestDaF-Daten mit der Einschätzung auf der Basis eines Face-to-Face-Prüfungsgespräches korreliert. Zur Qualitätssicherung des Tests sind in Zukunft kontinuierliche und umfassende wissenschaftliche Untersuchungen zu diesen und ähnlichen Fragestellungen erforderlich. Literatur BACHMANN, Lyle F. / PALMER, Adrian S. (1996): Language testing in practice: Designing and developing useful language tests. Oxford: Oxford University Press. B0LT0N, Sibylle (Hrsg.) (2000): TESTDAF: Grundlagen für die Entwicklung eines neuen Sprachtests. Beiträge aus einem Expertenseminar. Köln: VUB Gilde. B0RTZ, Jürgen (1984). Lehrbuch der Empirischen Sozialforschung. Berlin: Springer. B0RTZ, Jürgen/ DÖRING, Nicola (1995): Forschungsmethoden und Evaluation. Für Sozialwissenschaftler. 2., vollst. überarbeitete und aktualisierte Auflage. Berlin: Springer. B0RTZ, Jürgen / LIENERT, Gustav Adolf/ / BOEHNKE, Klaus (1990): Verteilungsfreie Methoden in der Biostatistik. Berlin: Springer C0UNCIL OF EUROPE (1998): Modern Languages: Learning, Teaching, Assessment. A Common European Framework. Strasbourg. lFlLUllL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 149 GR0TJAHN, Rüdiger (2000): "Testtheorie: Grundzüge und Anwendungen in der Praxis". In: W0LFF, Armin / T ANZER, Harald (Hrsg.): Sprache - Kultur - Politik. Regensburg: Fachverband Deutsch als Fremdsprache (Materialien Deutsch als Fremdsprache 53), 304-341. GR0TJAHN, Rüdiger/ KLEPPIN, Karin (2001 ): "TestDaF: Stand der Entwicklung und einige Perspektiven für Forschung und Praxis". In: AGUAD0, Karin/ RIEMER, Claudia (Hrsg.) (2001): Wege und Ziele. Zur Theorie, Empirie und Praxis des Deutschen als Fremdsprache. Baltmannsweiler: Schneider Verlag Hohengehren, 419-433. KENY0N, Dorry, M. (2000): "Tape-mediated Oral Proficiency Testing: Considerations in Developing Simulated Oral Proficiency Interviews (SOPis)". In: B0LT0N 2000, 87-106. KIEWEG, Werner. (1999): "Allgemeine Gütekriterien für Lernzielkontrollen". In: Der fremdsprachliche Unterricht Englisch 1/ 1999, 4-11. KRAUTH, Jürgen (1995): Testkonstruktion und Testtheorie. Weinheim: Beltz/ PVU LIENERT, Gustav A. / RAATZ, Ulrich (1994): Testaufbau und Testanalyse. 5., überarbeitete Auflage. München: Beltz PVU LINACRE, John M. (1989): Many-faceted Rasch measurement. Chicago II.: MESA Press MCNAMARA, Tim (1996): Measuring Second Language Performance. London: Longman McNAMARA, Tim (2000): Language Testing. Oxford: Oxford University Press. STANSFIELD, Charles, W. (1996): Test Development Handbook. Simulated Oral Proficiency Interview. Washington: Center for Applied Linguistics. Y 0UNG, Richard/ HE, Agnes W. ( eds.) (1998): Talking and Testing. Discourse Approaches to the Assessment of Oral Proficiency. Amsterdam/ Philadelphia: Benjamins. lFLllL 30 (2001)