eJournals

Fremdsprachen Lehren und Lernen
0932-6936
2941-0797
Narr Verlag Tübingen
Es handelt sich um einen Open-Access-Artikel, der unter den Bedingungen der Lizenz CC by 4.0 veröffentlicht wurde.http://creativecommons.org/licenses/by/4.0/121
2001
301 Gnutzmann Küster Schramm
Fremdsprachen Lehren und Lernen Herausgegeben von Gert Henrici, Frank G. Königs und Ekkehard Zöfgen ~ Gunter Narr Verlag Tübingen Fremdsprachen Lehren und Lernen (FLuL) Zur Theorie und Praxis des Sprachunterrichts an Hochschulen Herausgeber: Gert Henrici (Bielefeld) · Frank G. Königs (Marburg) · Ekkehard Zöfgen (Bielefeld) Manuskripte und Zu schriften erbeten an: Redaktion FLuL, Prof. Dr. Ekkehard Zöfgen, Universität Bielefeld, Fakultät für Linguistik und Literaturwissenschaft, Postfach 10 01 31, 33501 Bielefeld E-mail: Ekkehard.Zoefgen @Uni-Bielefeld.de Rezensionsexemplare erbeten an: Prof. Dr. Frank G. Königs, Philipps-Universität Marburg, Informationszentrum für Fremdsprachenforschung, Hans-Meerwein-Straße, 35032 Marburg/ Lahn E-mail: Koenigs@mailer.Uni-Marburg.de Beratende Mitarbeit: Jens Bahns (Kiel) · Hans Barkowski (Jena) • Rupprecht S. Baur (Essen) • Wolfgang Börner (Hamburg) · Claus Gnutzmann (Braunschweig) • Franz Josef Hausmann (Erlangen)• Manfred Raupach (Kassel) Fremdsprachen Lehren und Lernen erscheint einmal jährlich mit einem Umfang von ca. 240 Seiten. Das Jahresabonnement kostet DM 84,- (zuzügl. Postgebühren). Vorzugspreis für private Leser DM 68,- (zuzügl. Postgebühren/ Lieferung und Rechnung an Privatadresse), sofern sie dem Verlag schriftlich mitteilen, daß sie die Zeitschrift ausschließlich für den persönlichen Gebrauch beziehen. Erfolgt keine Abbestellung bis zum 1. Dezember, so verlängert sich das Abonnement automatisch um ein Jahr. ©2001 · Gunter Narr Verlag· Tübingen Die in der Zeitschrift veröffentlichten Beiträge sind urheberrechtlich geschützt. Alle Rechte , insbesondere das der Übersetzung in fremde Sprachen, vorbehalten. Kein Teil dieser Zeitschrift darf ohne schriftliche Genehmigung des Verlages in irgendeiner Form durch Fotokopie, Mikrofilm oder andere Verfahren reproduziert oder in eine von Maschinen , insbesondere von Datenverarbeitungsanlagen, verwendbare Sprache übertragen werden. Auch die Rechte der Wiedergabe durch Vortrag, Funk- und Fernsehsendung, in Magnettonverfahren oder auf ähnlichem Wege bleiben vorbehalten. Fotokopien für den persönlichen und sonstigen eigenen Gebrauch dürfen nur von einzelnen Beiträgen oder Teilen daraus als Einzelkopien hergestellt werden. Jede im Bereich eines gewerblichen Unternehmens hergestellte oder benutzte Kopie dient gewerblichen Zwecken gern. § 54 (2) UrhG und verpflichtet zur Gebührenzahlung an die VG WORT, Abteilung Wissenschaft, Goethestraße 49, 80336 München, von der die einzelnen Zahlungsmodalitäten zu erfragen sind. Gedruckt mit Unterstützung der Fakultät für Linguistik und Literaturwissenschaft der Universität Bielefeld. Druck: Laupp & Göbel, Nehren Bindung : Nädele, Nehren Printed in Germany ISSN 0932-6936 ISBN 3-8233-4589-3 Gunter Narr Verlag• Postfach 25 67 · D-72015 Tübingen Leistungsmessung und Leistungsevaluation Rüdiger Grotjahn Zur Einführung in den Themenschwerpunkt 3 OlafBärenfang, Jan Stevener Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 13 Michael Milanovic Tue Association of Language Testers in Europe (ALTE) working towards a Framework of European Language Examinations 28 Wolf-Dieter Krause, Uta Sändig ECCELLENTT - Konzeption und Ergebnisse 46 Werner Kieweg Evaluation fremdsprachlicher Leistungen im schulischen Kontext 65 Erwin Tschirner Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz: Ein Problemaufriss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Erwin Tschirner Die ACTFL Leitlinien mündlicher Handlungsfähigkeit 116 Gabriele Kniffka, Dörthe Üstünsöz-Beurer TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Peter Paschke Zum Problem der Authentizität in L2-Hörverstehenstests 150 Gerhard von der Handt DIALANG ein diagnostisches Online-Testverfahren (Schwerpunkt Hörverstehen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 (Fortsetzung umseitig) Carsten Röver Web-basiertes Testen fremdsprachlicher Fähigkeiten und Fertigkeiten Gütnher Schneider Kompetenzbeschreibungen für das „Europäische Sprachenportfolio" Nicht-thematischer Teil Franz-Josef Hausmann Kleine Lehre des imparfait Sven-Holger Hahn Simulations globales als offenes Unterrichtskonzept für das Fach 181 193 215 Französisch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 Buchbesprechungen • Rezensionsartikel Eva Cassandra TRUMPP: Fachtextsorten kontrastiv. Englisch -Deutsch- Französisch. Tübingen: Narr 1998 (Antje Oldenburg) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 Ulrich KAUTZ: Handbuch Didaktik des Übersetzens und Dolmetschens. München: Iudicium 2000 (Cassio Rodrigues) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 Henning DÜWELL, Claus GNUTZMANN, Frank KÖNIGS (Hrsg.): Dimensionen der Didaktischen Grammatik.[... ]. Bochum: AKS-Verlag 2000 (Torsten Schlak) . . . . . . . . 257 Ausgewählte Neuerscheinungen zur Übersetzungswissenschaft und Übersetzungsdidaktik eine Sammelrezension (Teil IV) (Bernd Stefanink) . . . . . . . . . . . . . . . . . . . . . . . . . 261 Klaus MÜLLER: Lernen im Dialog. Gestaltlinguistische Aspekte des Zweitspracherwerbs. Tübingen: Narr 2000 (Dietmar Rösler) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270 Eingegangene Bücher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 Informationen • Vorschau 273 lFLll! L 30 (2001) Leistungsmessung und Leistungsevaluation Rüdiger Grotjahn Zur Einführung in den Themenschwerpunkt 1. Problemaufriss Während die Evaluation fremdsprachlicher Fähigkeiten und Fertigkeiten mit Hilfe formeller Verfahren z.B. in den USA zum schulischen und akademischen Alltag gehört, haben entsprechende Verfahren der Leistungsfeststellung in nicht wenigen Ländern Europas bisher einen eher geringen Stellenwert. So werden z.B. in Deutschland im schulischen oder auch im universitären Fremdsprachenunterricht bisher nur äußerst selten Evaluationsverfahren angewendet, die einen über den jeweiligen Lernkontext hinausgehenden Vergleich der fremdsprachlichen Kompetenz erlauben. Es werden vielmehr häufig auf der Basis wenig transparenter Kriterien -Noten vergeben, die je nach Lehrer, Lerngruppe, Schule oder auch Bundesland für ganz unterschiedliche fremdsprachliche Leistungen stehen können. Die Folge ist u.a., dass ein potenzieller Arbeitgeber kaum in der Lage ist, anhand der vorgelegten Zeugnisse zu einer halbwegs verlässlichen Einschätzung der fremdsprachlichen Fähigkeiten und Fertigkeiten des Bewerbers zu gelangen. Im Zuge des Zusammenwachsens von Europa und der größer werdenden beruflichen Mobilität wird jedoch eine transparente, den jeweiligen Lernkontext überschreitende Messung und Beurteilung fremdsprachlicher Leistungen immer wichtiger. Entsprechend bemüht sich insbesondere der Europarat seit vielen Jahren um mehr Transparenz und Vergleichbarkeit bei der Beurteilung und Zertifizierung fremdsprachlicher Kompetenz. Ende 1995 hat er erstmals einen Vorschlag für ein umfassendes Rahmenmodell für das Lernen, Lehren und Beurteilen von modernen Fremdsprachen im europäischen Kontext vorgelegt, das nunmehr in der endgültigen Fassung unter dem Titel "A Common European Framework of Reference for Languages: Leaming, teaching, assessment" in englischer, französischer und deutscher Sprache vorliegt (Council of Europe 2001; Conseil de l'Europe 2001; Europarat 2001). Der Referenzrahmen des Europarats beeinflusst mittlerweile zunehmend sowohl die theoretische Diskussion als auch die Entwicklung von Verfahren der Fremd- und Selbstevaluationsverfahren. Zudem wird immer häufiger die Forderung erhoben, dass fundierte Kenntnisse im Bereich der Evaluation fremdsprachlicher Leistungen zu den zentralen Qualifikationsmerkmalen eines jeden Fremdsprachenlehrers gehören sollten. 1 Die Bedeutung des Europäischen Referenzrahmens für Sprachen spiegelt sich auch im vorliegenden Themenheft wider. So beziehen sich mehrere Beiträger explizit auf die Begriffe wie Lehrer oder Lerner werden in diesem Beitrag nicht im geschlechtsspezifischen, sondern im generischen Sinne verwendet. lFLlllL 30 (2001) 4 Rüdiger Grotjahn Kompetenzskalen und das Modell kommunikativer Kompetenz des Europarats - und zwar sowohl im Hinblick auf den schulischen als auch den außerschulischen Kontext. Auch das vom Europarat initiierte und im Hinblick auf Mobilität, Vergleichbarkeit, lebenslanges (autonomes) Sprachenlernen und Selbstevaluation wichtige Europäische Sprachenportfolio wird in einem eigenen Beitrag thematisiert. Evaluationsverfahren müssen bestimmten Gütekriterien genügen u.a. der Objektivität, Reliabilität, Validität, Fairness, Nützlichkeit, Transparenz und Authentizität. Allerdings herrscht nur bedingt Einigkeit darüber, welche Kriterien im Einzelnen zugrunde zu legen sind und wie sie jeweils genau definiert werden sollten (vgl. die ausführliche Diskussion in Bachman/ Palmer 1996, Kunnan 2000, Grotjahn 2000, 2001 sowie Vollmer 2001). Angesichts der Bedeutsamkeit von Gütekriterien für die Qualität von Evaluationsverfahren nimmt die Kriteriendiskussion im vorliegenden Themenheft einen relativ breiten Raum ein. Die Evaluation mündlicher Kompetenz und des Hörverstehens sind weitere wichtige Themen. Das isolierte Überprüfen einzelner Fertigkeiten wird zwar zuweilen eher kritisch gesehen so z.B. aus der Sicht des "Task-Based Language Assessment" (vgl. z.B. Robinson/ Ross 1996 und Norris [et al.] 1998 sowie auch das Themenheft "Kombinierte Fertigkeiten", Fremdsprache Deutsch 24, 2001); nichtsdestoweniger eröffnet eine fertigkeitenspezifische Diagnostik wertvolle Möglichkeiten in Form eines für den Lerner oder auch andere Testbenutzer informativen Feedbacks. Insbesondere in Bezug auf den wichtigen Bereich der Evaluation mündlicher Kompetenz, vor allem auch im schulischen Kontext, gilt zudem, dass die Überprüfung mündlicher Fertigkeiten in der Regel eher impressionistisch und unter Missachtung der üblichen Gütekriterien erfolgt. Wie die vorliegenden Ausführungen zeigen, lassen sich auch hier qualitätsverbessernde Verfahrensregeln formulieren. In zwei Beiträgen geht es schließlich um das Thema "(adaptive)web-basierte Evaluation". Es wird deutlich, dass die web-basierte Evaluation u.a. im Hinblick auf die Selbstevaluation im Rahmen autonomen Lernens ein großes Potenzial aufweist trotz der technischen und konzeptuellen Beschränkungen, die die meisten vorliegenden Systeme aufweisen (vgl. hierzu auch Chapelle 2001). Weitgehend ausgespart bleiben im vorliegenden Themenheft u: a. die im hohen Maße mathematisierte Test- und Messtheorie sowie die statistische Test- und ltemanalyse. Über neuere Entwicklungen in diesem wichtigen Bereich informieren z.B. Embretson/ Hershberger (1999) und Masters/ Keeves (1999) sowie die Zeitschrift Language Testing. Bevor ich die einzelnen Beiträge kurz charakterisiere, soll noch ein zentraler Aspekt angesprochen werden, der bei der Evaluation fremdsprachlicher Fähigkeiten und Fertigkeiten zumeist unzureichend Berücksichtigung findet. Es wird immer deutlicher, dass es sich beim Fremdsprachenlernen um einen diskontinuierlichen Prozess handelt, der durch Rückschritte, Umstrukturierungen im Wissensstand, wechselnden Graden der Automatisierung von Fertigkeiten, Plateaubildungen (bestimmte Teilfertigkeiten entwickeln sich nicht weiter) und plötzliche steile Lernzuwächse gekennzeichnet ist. Das Resultat ist ein dynamisches System fremdsprachlicher Kompetenzen, das aus einer Menge unterschiedlich stabiler und unterschiedlich weit entwickelter Teilsysteme besteht. Nur eine kontinulr'LlllL 30 (2001) Zur Einführung in den Themenschwerpunkt 5 ierliche formative Evaluation des Lernfortschritts kann den diskontinuierlichen Prozess des Fremdsprachenlernens und die sich dynamisch entwickelnden fremdsprachlichen Kompetenzen hinreichend valide dokumentieren. Eine einmalige punktuelle summative Evaluation ergibt dagegen lediglich eine „Momentaufnahme", die die tatsächlichen Fähigkeiten und Fertigkeiten des Lerners - und vor allem auch dessen sprachliches Entwicklungspotential nur sehr bedingt widerspiegelt. Die Tatsache, dass eine einmalige punktuelle Evaluation nur eine eingeschränkt valide Momentaufnahme liefert, sollte beim Einsatz eines Evaluationsverfahrens niemals vergessen werden (vgl. auch Bleyhl 2000; Larsen-Freeman 1997; Perkins/ Brutten/ Gass 1996; Tarone 1998). 2. Die einzelnen Beiträge Im ersten Schwerpunkt geht es vor allem um die Frage der Gütekriterien und den Aspekt der Qualitätssicherung. Olaf Bärenfänger und Jan Stevener (Bielefeld) legen in Anlehnung an ausgewählte methodologische und testtheoretische Arbeiten einen aus 10 Hauptkriterien und einer Reihe Unterkriterien bestehenden Kriterienkatalog zur Evaluation (fremdsprachenerwerbsspezifischer) Datenerhebungs- und -auswertungsverfahren unter Einschluss von Tests und Prüfungen vor. Der Katalog ist gedacht als Grundlage für die Evaluation einzelner Verfahren sowie als Voraussetzung für die Vergleichbarkeit unterschiedlicher Datenerhebungsmethoden und soll, insgesamt gesehen, zu mehr Transparenz und Nachvollziehbarkeit sowie einer „größeren methodischen und theoretischen Reflektiertheit" führen. Die Autoren leisten damit nicht nur einen Beitrag zur Qualitätssicherung im Bereich der Evaluation fremdsprachlicher Fähigkeiten und Fertigkeiten, sondern tragen auch zur allgemeinen Diskussion um methodologische Standards in der empirischen Fremdsprachenforschung bei. Das Problem der Qualitätssicherung ist ebenfalls ein wichtiger Aspekt im Beitrag von Michael Milanovic (Cambridge). Der Autor beschreibt die Struktur und Funktion der "Association ofLanguage Testers in Europe" (ALTE)-ein wichtiger Zusammenschluss europäischer Sprachtestorganisationen, die Tests für die jeweilige Landes- oder Regionalsprache als Fremdsprache produzieren. Dabei geht Milanovic u.a. auf die grundlegenden Arbeiten von ALTE in Richtung auf ein theoretisch und empirisch fundiertes Rahmenmodell zur Charakterisierung von Fremdsprachenprüfungen und fremdsprachlichen Leistungen ein. Im Zentrum steht das ALTE "Can-Do-Projekt" zur Entwicklung von benutzerorientierten Skalen zur multilingualen Beschreibung fremdsprachlicher Leistungen in den Domänen privates und öffentliches Leben, Arbeits- und Berufswelt und Bildungsbereich sowie die Einordnung der Can-Do-Aussagen auf der fünfstufigen ALTE-Skala fremdsprachlicher Leistungen bzw. der sechsstufigen Skala des „Gemeinsamen Europäischen Referenzrahmens für Sprachen". Weiterhin thematisiert der Autor kurz das von ALTE gemeinsam mit der "European Association for Quality Language Services" für das Europäische Jahr der Sprachen entwickelte Sprachenportfolio. Wolf-Dieter Krause und Uta Sändig (Potsdam) beschreiben die Konzeption und Ergebnisse eines im Jahre 2000 abgeschlossenen LINGUA-Projekts zur "Evaluation of Communicative Competence in European Language Learning Encompassing New Testing Technologies" (ECCELLENTT). Übergeordnetes Ziel des von Institutionen aus lFLuL 30 (2001) 6 Rüdiger Grotjahn sechs EU Ländern getragenen Projekts war es, ausgehend vom Problem der Bewertung kommunikativer Kompetenz im Fremdsprachenunterricht, einen Beitrag für eine abgestimmte und stringente schulbezogene Fremdsprachenpolitik im europäischen Kontext zu leisten. Damit bezieht sich das ECCELLENTT-Projekt explizit auf den schulischen Kontext. Die Umsetzung des Ziels erfolgte zum einen über spezielle LINGUA-B-Fortbildungskurse für Fremdsprachenlehrer zu Problemen des Bewertens und Testens und zum anderen in Form von theoretischer Grundlagenarbeit und Entwicklung praktischer Testmaterialien. Im Rahmen der theoretischen Grundlagenarbeit wurden u.a. Qualitätsmerkmale für Tests zur Ermittlung kommunikativer Kompetenz weiter spezifiziert und umfangreiche Typologien von Aufgaben zur Überprüfung produktiver und rezeptiver fremdsprachlicher Fertigkeiten entwickelt. Der Beitrag von Werner Kieweg (München) bezieht sich ebenfalls auf den schulischen Kontext. Der Autor diskutiert zunächst u.a. die Funktion der Leistungsmessung und Leistungsbeurteilung im Rahmen der „Lebensqualitätschancenverteilungsinstitution Schule" und weist auf die Bedeutung einer regelmäßigen Rückmeldung über Lehr- und Lernerfolge für die Lehrenden und Lernenden hin. Zugleich kritisiert er, dass die Leistungsmessung und -beurteilung in der Lehrerausbildung weitgehend unberücksichtigt bleibt. Anschließend werden auf der Basis des „Gemeinsamen Europäischen Referenzrahmens für Sprachen" unterschiedliche Dimensionen sprachlicher Kompetenz unter Einschluss der soziokulturellen Dimension unterschieden und eine Vielzahl möglicher Prüfungsverfahren skizziert. Relativ ausführlich geht der Autor auch auf Alternativen zur traditionellen schulischen Notengewinnung ein. Abschließend werden als Diskussionsbeitrag zur Qualitätsverbesserung der Leistungsmessung und -beurteilung im schulischen Kontext zehn Prinzipien zur Erstellung von Lernzielkontrollen vorgestellt. Auch im Beitrag von Kieweg ist damit die Frage der Qualitätssicherung ein zentraler Aspekt. Im zweiten Schwerpunkt dieses Themenheftes geht es um die Überprüfung mündlicher Kompetenz. In den beiden Beiträgen von Erwin Tschirner (Leipzig) steht das "Oral Proficiency Interview" (OPI) des "American Council on the Teaching of Foreign Languages" (ACTFL) im Vordergrund. Beim ACTFL OPI handelt es sich um ein in den USA zentrales Verfahren zur Evaluation mündlicher Handlungskompetenz, das in Deutschland bisher nur wenig Beachtung gefunden hat. Im ersten Teil des ersten Beitrags diskutiert Tschirner selbst zertifizierter ACTFL Prüfer und Prüferausbilder die Evaluation mündlicher Handlungskompetenz im Hinblick auf die bei Bachman/ Palmer (1996) dargelegten Gütebzw. Nützlichkeitskriterien und deren Modell der kommunikativen Kompetenz. Im zweiten Teil des Beitrags werden die theoretische und empirische Basis des ACTFL OPI und der ACTFL Skalen sowie die OPI-Prüfungsstruktur detailliert beschrieben. Hervorgehoben wird u.a. die empirische Fundierung der ACTFL Skalen, die Adaptivität des OPI (im Sinne einer Ausrichtung am thematischen Wissen und Sprachstand des Lerners) sowie die hohe Reliabilität des Verfahrens u.a. als Folge einer äußerst aufwändigen Interviewer- und Bewerterschulung. Vor diesem Hintergrund geht der Autor kritisch auf das Zertifikat Deutsch, den SPEAK Test des T0EFL sowie die Zentrale Mittelstufenprüfung und Zentrale Oberstufenprüfung des Goethe-Instituts ein. Beim zweiten Beitrag von Tschirner handelt es sich um eine zusammen mit Annett lFlLlUIL 30 (2001) Zur Einführung in den Themenschwerpunkt 7 Zupke angefertigte autorisierte deutsche Übersetzung der 1999 revidierten "Oral Proficiency Guidelines" des ACTFL. Eingeleitet wird die Übersetzung mit einer kurzen Einführung in das OPI und die "ACTFL Guidelines". Gabriele Kniffka (Köln) und Dörthe Üstünsöz-Beurer (Tübingen) beschreiben die Entwicklung des Testteils „Mündlicher Ausdruck" des neuen „Test Deutsch als Fremdsprache" (TestDaF) der deutschen Entsprechung zum IELTS und TOEFL. Im Gegensatz zuni ACTFL OPI wird beim TestDaF ein kassettengesteuertes Format verwendet, das sich an das "Simwated Oral Proficiency Interview" (SOPI) und hier speziell am "German Speaking Test'-' (GST) des "Center for Applied Linguistics" in Washington anlehnt. Im ersten Teil beschreiben die Autorinnen beide ehemalige Mitglieder des TestDaF-Entwicklungsteams .,... die Gründe für die Wahl eines kassettengesteuerten Formats und Unterschiede '.zwischen dem kassettengesteuerten Format desTestDaF und dem SOPI/ GST. Im zweiten Teil wird der Testteil „Mündlicher Ausdruck" anhand der Testgütekriterien „Objektivität, Reliabilität, Validität und Akzeptanz" beurteilt, und es werden Daten zuSchwierigkeit und Akzeptanz präsentiert. Hervorzuheben ist u.a., dass die Befragung der Testteilnehmer entgegen den Befürchtungen von Kritikern für eine relativ hohe Akzeptanz des kassettengesteuerten Formats· spricht. Im letzten Teil des Beitrags präsentieren die Autorinnen Ergebnisse aus den Analysen der Sprechzeiten der Teilnehmer und insbesondere der Adäquatheit der Zeitvorgaben. Im dritten Schwerpunkt geht es um die Überprüfung des Hörverstehens: Peter Paschke (Venedig) setzt sich vor allem mit dem Problem der Authentizität und Validität von L2-Hörverstehenstests auseinander und versucht nach einer kurzen Skizze der kognitiven Grundlagen des Hörverstehens Antworten u.a. auf folgende Fragen zu geben: Inwieweit sind subjektive Verstehensprozesse überhaupt objektiv. messbar? Inwieweit müssen Hörtexte authentisch sein und welche Hörerrollen gilt es im Test zu berücksichtigen? Kann auf eine Visualisierung der Hörsituation verzichtet werden? Sollten Hörtexte mehrfach präsentiert werden? Welche Aufgabenformate beinhalten realistische Hörverstehensanforderungen? Der Autor kommt u.a. zu dem Schluss, dass Verstehensprobleme vor allem durch Wissens- und Fertigkeitendefizite in der Fremdsprache bedingt sind und dass zudem in vielen Fällen eine Überlastung des Arbeitsgedächtnisses eine wichtige Rolle spielt. Fazit des Aufsatzes ist, dass Hörverstehenstests in wesentlichen Merknialen Situationen authentischer Sprachverwendung vergleichbar sein müssen. Der Autor räumt jedoch zugleich ein, dass sich gegenwärtig kaum mehr als plausible Hypothesen hinsieht~ lieh der Vergleichsmerkniale formulieren lassen. Gerd von der Handt (Frankfurt) beschäftigt sich ebenfalls mit der Überprüfung des Hörverstehens, allerdings aus der Perspektive des DIALANG~Systems. DIALANG steht für "Diagnostic Language Testing" und ist ein web-basiertes, adaptives on-line Diagnose- System für 14 europäische Sprachen. Damit ist der Beitrag zugleich Teil des vierten Schwerpunkts, der im Bereich des web-basierten Testens liegt. Im DIALANG-System werden dem Lerner nach einer Selbsteinstufung und/ oder einem vorgeschalteten Vokabeltest in Abhängigkeit von der jeweils vorangehenden Leistung Aufgaben mit einem geringeren oder höheren Schwierigkeitsgrad gestellt. Ist eine zufriedenstellende diagnostische Sicherheit erreicht, gibt das System eine Rücknieldung zum Leistungsstand FLuL 30 (2001) 8 Rüdiger Grotjahn anhand der Stufen des „Gemeinsamen Europäischen Referenzrahmes für Sprachen" und im Hinblick auf die Selbsteinstufung. Der Autor skizziert u.a. eine Reihe von aktuellen technischen Einschränkungen, wie z.B. die fehlende visuelle Einbettung der Hörszenarien, die einkanalige Wiedergabe von Hörereignissen, die Beschränkung auf monologische Texte und auf Aufgaben vorwiegend im Multiple-Choice-Format und schließt mit Hinweisen bezüglich einer stärkeren Individualisierung der Testinhalte. Carsten Röver (Honolulu) gibt einen Überblick über die Möglichkeiten web-basierten Testens. Als Vorteile nennt er neben der räumlichen und zeitlichen Ungebundenheit des Internets als Testmedium u.a. die Möglichkeit, kürzere und präzisere Tests zu konstruieren, die Antworten automatisch auszuwerten, die Ergebnisse den Teilnehmern sofort rückzumelden und einfache web-basierte Tests mit vergleichsweise wenig technischem Wissen und Aufwand zu realisieren. Das größte Potenzial web-basierten Testens sieht er im unterrichtsbegleitenden Prüfen und Üben mit dem Ziel, den Lernern Rückmeldung über den Lernfortschritt zu geben und selbstständiges Arbeiten zu ermöglichen. Als weiteren Einsatzbereich nennt er die Bearbeitung gleicher Aufgaben durch geographisch weit verstreute Lerngruppen z.B. in Fernlernkursen. Als Probleme führt er u.a. mangelnde Computer-Erfahrung der Probanden und eine im Vergleich zu Papier-und-Bleistift- Tests höhere Störanfälligkeit an. Es folgen Hinweise zu Inhalt und Implementierung (JavaScript) eines relativ komplexen web-basierten "Test of interlanguage pragmatic knowledge"; Abschließend demonstriert der Autor, dass mit Hilfe von HTML einfache web-basierte Aufgaben auch ohne tiefergehende Programmierkenntnisse vergleichsweise leicht zu realisieren sind. Das Europäische Sprachenportfolio ist das zentrale Thema des abschließenden Beitrags von Günther Schneider (Freiburg/ Schweiz). Im ersten Teil beschreibt der Autor ausführlich die unterschiedlichen Ziele und Funktionen des Portfolios (Dokumentations- und Vorzeigefunktion, pädagogisch-didaktische Funktion; Selbstbeurteilung vs. Fremdbeurteilung), die drei Teile des Portfolios (Sprachenpass, Sprachbiographie, Dossier) und den Stellenwert der auf dem „Gemeinsamen Europäischen Referenzrahmen für Sprachen" beruhenden Kompetenzbeschreibungen. Insbesondere geht er darauf ein, welche Anforderungen multilinguale Kompetenzbeschreibungen im Hinblick auf unterschiedliche Funktionen und Adressaten erfüllen müssen. Anschließend werden detailliert unterschiedliche Typen und Entwicklungsmethoden von Sprachkompetenzskalen beschrieben, wobei der Autor auf seine eigene theoretische und empirische Arbeit aus einem grundlegenden Schweizer Forschungsprojekt zurückgreifen kann. Der Leser findet hier u.a. eine Fülle von praktischen Hinweisen für die Entwicklung von Kompetenzskalen und Sprachenportfolios. 3. Weitere Informationsquellen In einer Reihe von Fällen wird der Leser sicherlich auf Begriffe und Inhalte stoßen, zu denen er sich (weitere) Informationen verschaffen möchte. Es sind deshalb im Folgenden einige Informationsquellen aufgeführt - und zwar vor allem solche, auf die man über das Internet Zugriff hat. Eine grundlegende Quelle ist das bereits erwähnte "Common European Framework of lFLllllL 30 (2001) Zur Einführung in den Themenschwerpunkt 9 Reference for Languages" (Council of Europe 2001), dessen deutsche Version abrufbar ist unter http: / / www.goethe.de/ z/ 50/ commeuro/ . Ein Vielzahl von allerdings sehr knappen terminologischen Hinweisen in insgesamt 10 Sprachen (unter Einschluss von Deutsch) enthält das "Multilingual Glossary ofLanguage Testing Terms" (Association ofLanguage Testers in Europe (ALTE) 1998), das auch als CD erhältlich ist. Ausführlichere, allerdings ausschließlich englischsprachige Einträge finden sich im "Dictionary of Language Testing" von Davies [et al.] (1999). Grundlegend, wenn auch nicht fremdsprachenbezogen, sind die "Standards for Educational and Psychological Testing" (American Educational Research Association [et al.] 1999). Als deutschsprachige Internet-Quelle ist u.a. das Internet-Lexikon der Methoden der empirischen Sozialforschung (ILMES) zu nennen (http: / / www.lrz-muenchen.de/ ~wlm/ ilmes.htm). Dieses enthält gut lesbare Einträge zu einer Vielzahl von forschungsmethodischen und statistischen Begriffen sowie eine Reihe von Links zu weiteren Informationsquellen. Eine wahre Fundgrube im Bereich des Sprachtestens mit einer Vielzahl von Links ist die "Resources in Language Testing Page" (http: / / www.surrey.ac.uk/ ELI/ ltr.html) von Glenn Fulcher. Dort findet sich u.a. eine Video-FAQ-Seite zu einer Reihe von Sprachtestthemen sowie Links z.B. zur International Language Testing Association (ILTA) und deren Internet-Diskussionsliste LTEST-L. Hingewiesen sei auch auf die trotz ihrer internationalen Bedeutung in Deutschland bisher relativ selten rezipierte Zeitschrift Language Testing das offizielle Publikationsorgan der ILTAsowie auf das Language Testing Update (LTU) der offizielle Newsletter der ILTA. Die Beiträge in Language Testing sind allerdings für den Nichtspezialisten zuweilen nur bedingt verständlich. Eine kommentierte deutschsprachige Bibliographie von Buchpublikationen zum Testen und Prüfen findet sich auf der Web-Seite des Goethe-Instituts Inter Nationes unter http: / / www.goethe.de/ z/ 82/ acwww25/ katalop/ deindex.htm. Diese ist auch als Print~ Version publiziert (Quetz 2000). Eine umfangreiche nicht-kommentierte Bibliographie ausschließlich englischsprachiger Publikationen zum Sprachtesten (unter Einschluss von Aufsätzen) haben Banerjee/ Clapharn/ Clapham/ Wall (1999) zusammengestellt. Ein nützliches kommentiertes Verzeichnis wichtiger Sprachtestliteratur enthält McNarnara (2000). Kommentierte Hinweise in deutscher Sprache zu Internet-Adressen, Zeitschriften und Büchern zum Thema „Sprachtesten" finden sich in der Zeitschrift Babylonia Nr. 1/ 2000, S. 67ff. Die Web-Seite der Association of Language Testers in Europe (ALTE) (http: / / www. alte.org) bietet Informationen zu einer Vielzahl europäischer Sprachprüfungen sowie u.a. eine Beschreibung der ALTE-Niveaustufen, des "ALTE Code of Practice" und ein kurzes englischsprachiges Glossar. Einen Überblick über deutsche Sprachprüfungen (DaF) gibt das Heft 2/ 97 der Zeitschrift Begegnung, das auch unterhttp: / / www.auslandsschulwesen.de/ zfa/ begegnung/ 97- 2.htm abrufbar ist. Speziell über die europäischen Sprachenzertifikate im Bereich Deutsch als Fremdsprache (Grundbaustein Deutsch; Zertifikat Deutsch für den Beruf; Zertifikat Deutsch) informiert: http: / / www.sprachenzertifikate.de/ tests/ Deutsch/ . Weitere lFLllL 30 (2001) 10 Rüdiger Grotjahn Informationen zu Sprachprüfungen im Bereich DaF mit Links zu diversen Informationsquellen findet man u.a. unter: http: / / www.goethe.de/ z/ pruef/ depangeb.htm (Goethe-Institut Inter Nationes), http: / / www.osd.at (Österreichisches Sprachdiplom) und http: / / www.rz.uni-frankfurt.de/ die/ wbt/ (WBT Weiterbildungs-Testsysteme). Ausführliche Informationen zum Test Deutsch als Fremdsprache unter Einschluss eines herunterladbaren Modell-Testsatzes bietet http: / / www.testdaf.de. Kommentierte Hinweise speziell zu Online-Sprachtests im Internet mit Links zu diversen Institutionen geben u: a. Langner (2000), Fulcher (2000) sowie von der Handt (in diesem Heft). Über das Europäische Sprachenportfolio des Europarats informiert http: / / culture2.coe. int/ portfolio/ . Hinweise zur nordrhein-westfälischen und zur Schweizer Version des Europäischen Sprachenportfolios mit zahlreichen weiteren Links geben http: / / www.learnline.nrw.de/ angebote/ portfolio/ index.html und http: / / www. unifr.ch/ ids/ portfolio (vgl. auch den Beitrag von Schneider in diesem Heft) Eine Beschreibung des Projekts „Profile Deutsch" (Ausarbeitung von Wortschatzlisten, Kann-Beschreibungen und grammatischen Beschreibungen für die Niveaus Al bis B2 des Europarats~ vormaliger Arbeitstitel ENDaF oder NDaF) findet sich unter http: / / www.goethe.de/ z/ 52/ profile.htm/ . Das "American Council on the Teaching of Foreign Languages" (ACTFL) (h! ! P; LL www.actfl.org/ ) gibt unter der Rubrik "Proficiency Testing" u.a. Hinweise zum ACTFL OPI und zur Tester-Zertifizierung. Dort ist auch eine herunterladbare Fassung der "ACTFL Proficiency Guidelines - Speaking (Revised 1999)" verfügbar. Das Heft 5(2), 2001 der Zeitschrift Language Testing & Technology ist dem Thema "Computer-Assisted Language Testing" (unter Einschluss von web-basiertem Testen) gewidmet; es ist abrufbar unter: http: / / llt.msu.edu/ . Das "Educational Testing Service" (ETS, Princeton) gibt unter http: / / www.ets.org u.a. Hinweise zu den "ETS Standards for Quality and Fairness" und zu einer Reihe bekannter Tests (u.a. TOEFL, TOEIC). Weitere Informationen und Links bietet auch das ''ERIC Clearinghouse on Assessment and Evaluation" unter http: / / ericae.net/ und das "Center for Applied Linguistics" (CAL), in Washington, DC, und dort speziell der Bereich "Language Testing": http: / / www.cal. org/ pubs/ tests p.html. Hier findet sich u.a. auch ein Hinweis auf die "Foreign Language Test Database" des CALeine on-line-Datenbank mit Informationen über Tests in mehr als 70 Sprachen (http: / / www.cal.org/ nclrc/ fltestdb/ ). Informationen speziell zum C-Test unter Einschluss einer umfangreichen C-Test- Bibliographie und eines kurzen Glossars testtheoretischer Begriffebietet http: / / www.ctest.de. Wichtige allgemeine Hinweise und Links zum Testen finden sich auch auf der Web- Seite der "American Psychological Association" (APA) (http: / / www.apa.org/ science/ testing.htrnl). lFLIIL 30 (2001) Zur Einführung in den Themenschwerpunkt 11 Literatur AMERICAN EDUCATIONAL RESEARCH ASSOCIATION/ AMERICAN PSYCHOLOGICAL ASSOCIATION/ NA- TIONAL COUNCIL ON MEASUREMENT IN EDUCATION ( 1999): Standards f or educational and psychological testing. Washington, DC: American Educational Research Association. ASSOCIATION OF LANGUAGE TESTERS IN EUROPE (ALTE) (1998): Multilingual glossary of language testing terms. Cambridge: Cambridge University Press. BACHMAN, Lyle F. / PALMER, Adrian S. (1996): Language testing in practice: Designing and developing useful language tests. Oxford: Oxford University Press. BANERJEE, Jay / CLAPHAM, Caroline / CLAPHAM, Phoebe / WALL, Dianne (1999): ! LTA language testing bibliography 1990-1999. Lancaster University, UK: Department of Linguistics and Modem English Language. (= Language Testing Update- Special Volume). BLEYHL, Werner (2000): "Sprachenlemen, ein konstruktiver, nichtlinearer Selbstorganisationsprozess oder: Die Fehler des Fremdsprachenunterrichts und wie sie zu beheben sind". In: Fremdsprachen Lehren und Lernen 29, 71-90. CHAPELLE, Carol A. (2001): Computer applications in second language acquisition: Foundations for teaching, testing, and research. Cambridge: Cambridge University Press. CONSEIL DE L'EUROPE (2001): Un Cadre europeen commun de refärence pour les langues : apprendre, enseigner, evaluer. Paris: Didier. COUNCIL OF EUROPE (2001): A Common European Framework of Reference for Languages: Learning, teaching, assessment. Cambridge: Cambridge University Press. DAVIES, Alan/ BROWN, Annie/ ELDER, Cathie/ HILL, Kathryn/ LUMLEY, Tom/ MCNAMARA, Tim F. (1999): Dictionary of language testing. Cambridge: Cambridge University Press. EMBRETSON, Susan E./ HERSHBERGER, Scott L. (eds.) (1999): The new rules ofmeasurement: What every psychologist and educator should know. Mahwah, NJ: Erlbaum. EUROPARAT (2001): Gemeinsamer europäischer Referenzrahmen für Sprachen: Lernen, lehren und beurteilen. Berlin: Langenscheidt FuLCHER, Glenn (2000): "Tests online". In: The language tester' s guide to cyberspace. http: / / www. surrey.ac.uk/ ELI/ ltr.html. GROTJAHN, Rüdiger (2000): "Testtheorie: Grundzüge und Anwendungen in der Praxis". In: WOLFF, Armin / TANZER, Harald (Hrsg.): Sprache -Kultur-Politik: Beiträge der 27. Jahrestagung Deutsch als Fremdsprache vom 3.-5. Juni 1999 an der Universität Regensburg. Regensburg: Fachverband Deutsch als Fremdsprache, 304-341. GROTJAHN, Rüdiger (2001): Studieneinheit Leistungsmessung und Leistungsbeurteilung: Band A: Einführung, Glossar, Grundlagen. Patras: Hellenic Open University, Postgraduiertenstudium Deutsch als Fremdsprache. KUNNAN, Antony J. (ed.) (2000): Fairness and validation in language assessment: Selected papers from the 19th Language Testing Research Colloquium, Orlando, Florida. Cambridge: Cambridge University Press. LANGNER, Michael (2000). "Online Tests, ausprobiert! Was leisten Fremdsprachen-Tests im Internet? " In: Babylonia 1, 55-59. LARSEN-FREEMAN, Diane (1997): "Chaos/ complexity science and second language acquisition". In: Applied Linguistics 18, 141-165. MASTERS, Geofferey N. / KEEVES, John P. (eds.) (1999): Advances in measurement in educational research and assessment. Amsterdam: Elsevier Science. MCNAMARA, Tim F. (2000): Language testing. Oxford: Oxford University Press. NORRIS, John M. / BROWN, James D. / HUDSON, Thom / YOSHIOKA, Jim (1998): Designing second language performance assessments (Technical Report #18). University of Hawai'i: Second Language IFLIIL 30 (2001) 12 Rüdiger Grotjahn Teaching & Curriculum Center. PERKINS, Kyle / BRUITEN, Sheila R. / GASS, Susan M. (1996): "An investigation of pattems of discontinuous leaming: Implications for ESL measurement". In: Language Testing 13, 63-82. QUETZ, Jürgen (2000): "Kommentierte Bibliographie Deutsch als Fremdsprache. Teilgebiet: Testen und Prüfen". In: BOLTON, Sibylle (Hrsg.): TESTDAF: Grundlagen für die Entwicklung eines neuen Sprachtests. Beiträge aus einem Expertenseminar. Köln: VUB Gilde, 165-192. ROBINSON, Peter/ Ross, Steven (1996): "The development of task-based assessment in English for academic purposes programmes". In: Applied Linguistics 17.4, 455--476. TARONE, Elaine (1998): "Research on interlanguage variation: Implications for language testing". In: BACHMAN, Lyle F. / COHEN, Andrew D. (eds.): Interfaces between second language acquisition and language testing research. Cambridge: Cambridge University Press, 71-89. VOLLMER, Helmut J. (2001): "Leistungsmessung, Lernerfolgskontrolle, Selbstbeurteilung: Überblick". In: BAUSCH, Karl-Richard/ CHRIST, Herbert/ KRUMM, Hans-Jürgen (Hrsg.): Handbuch Fremdsprachenunterricht. 4. überarb. und erw. Aufl .. Tübingen: Narr [im Druck]. lFLIIL 30 (2001) Olaf Bärenfänger, Jan Stevener * Datenerhebungsverfahren und ihre Evaluation Ein Kriterienkatalog Abstract. Second language acquisition constitutes a field of empirical research to which several scientific discipliiles may contribute, among them linguistics, psychology, ethnology and didactics. In accordance with the interdisciplinary character of this research, many different methods are applied in order to collect or analyse data. However, up to now there has been little effort to investigate how research methods can be evaluated within a general theoretical framework. In this paper we propose a ten criteria catalogue for the detailed description of data collection methods and the assessment of their theoretical status, potential, limitations and appropriateness. Finally, we hope to contribute to the establishment of common methodological standards in second language acquisition research which may lead to a more transparent research process. 1. Einleitung Karl R. Popper (1966: 75 f) beschreibt die Grundlage der empirischen Wissenschaften folgendermaßen: So ist die empirische Basis der objektiven Wissenschaft nichts ,Absolutes'; die Wissenschaft baut nicht auf Felsengrund. Es ist eher ein Sumpfland, über dem sich die kühne Konstruktion ihrer Theorien erhebt[...]. Wie Poppers Metapher nahe legt, müssen Forscher als Konstrukteure von Theorien bei einem solchermaßen schwierigen Baugrund mit größter Umsicht und Sorgfalt vorgehen. Es sollte daher das Kennzeichen jeder empirisch-wissenschaftlichen Tätigkeit sein, dass Wissenschaftler die sie interessierenden Gegenstände nicht nur mit Hilfe ausgewiesener Methoden beschreiben, analysieren und erklären, sondern dass sie auch die Berechtigung und die Grenzen des eigenen Tuns reflektieren. Zu dieser kritischen Wissenschaftlichkeit gehört unter anderem auch eine genaue Eingrenzung des Untersuchungsgegenstandes, die präzise Anwendung und Dokumentation der Datenerhebungs- und -auswertungsmethoden sowie die sorgfältige Überprüfung von deren Gegenstandsangemessenheit. Auch die * Korrespondenzadresse: Olaf BÄRENFÄNGER, M.A., Fakultät für Linguistik und Literaturwissenschaft, Deutsch als Fremdsprache, Universität Bielefeld, Postfach 100 131, D-33501 BIELEFELD. Email: olaf.baerenfaenger@uni-bielefeld.de Arbeitsbereiche: Psycholinguistik des Fremdsprachenerwerbs, Empirische Fremdsprachenerwerbsforschung, Discourse Studies. Jan STEVENER, Fakultät für Linguistik und Literaturwissenschaft, Deutsch als Fremdsprache, Universität Bielefeld, Postfach 100 131, D-33501 BIELEFELD. E-mail: jan.stevener@uni-bielefeld.de Arbeitsbereiche: Bilingualismus und Kodewechselprozesse, Empirische Fremdsprachenerwerbsforschung, Sprachproduktionsmodelle. lFLuL 30 (2001) 14 Olaf Bärenfänger, Jan Stevener Darstellung der Ergebnisse und Schlussfolgerungen muss den in der dafür zuständigen scientific community üblichen und anerkannten Standards entsprechen. Bei vielen Beiträgen aus der Fremdsprachenerwerbsforschung bestehen schon hinsichtlich der Dokumentation des Forschungsprozesses Defizite. So beklagt beispielsweise Aguado (2000b: 119) die fehlende Transparenz zahlreicher empirischer Arbeiten, in denen die Darstellung des „Vorgehen[s] bei der Erhebung, Aufbereitung und Auswertung der Daten" nur „sehr knapp" ausfällt und Probleme und Schwächen meist ganz unerwähnt bleiben. In Bezug auf Sprachtests stellt Spolsky (2000: 537) eine unzureichende Reflektiertheit der Testbenutzer fest und fordert eine sorgfältigere Anwendung der Verfahren. Auch sonst ist häufig nicht erkennbar, ob Überlegungen dazu angestellt wurden, welche Ergebnisse mit einem Verfahren überhaupt zu erzielen sind und wie zuverlässig diese sind. Dies mag darauf zurückzuführen sein, dass in der Geschichte der Fremdsprachenerwerbsforschung lange Zeit ein auffälliger Mangel an Interesse bezüglich wissenschaftstheoretischer Grundlagen bestand (de Keyser [im Druck]), was nicht zuletzt an der geringen Verbreitung einschlägiger deutschsprachiger Arbeiten abzulesen ist (vgl. Grotjahn 2000a: 22). Eine Ausnahme stellen derzeit nur solche Publikationen dar, die im Rahmen der Debatte um quantitative vs. qualitative Methoden entstanden sind (z.B. Markard 1991 ), sowie eine Reihe von Beiträgen zu allgemeinen methodischen Problemen der empirischen Sprachlehr- und Sprachlernforschung (z.B. Arbeitsgruppe Fremdsprachenerwerb Bielefeld 1987; 1995, 1996a; 1995, 1996b; Kasper 1998; die Beiträge in Aguado 2000a; Grotjahn 2000b sowie die Beiträge in Müller-Hartmann/ Schocker-von Ditfurth 2001 ). Auch wenn somit insgesamt das „untersuchungsmethodische Bewusstsein [...] in den letzten Jahren zweifelsohne gestiegen" (Königs 2000: 60) ist, liegt ein fachübergreifender Konsens zu Methodenfragen, wie er für viele Aspekte der Forschungstätigkeit in den Sozialwissenschaften besteht, noch fern. Angesichts der wissenschaftstheoretisch unbefriedigenden Ausgangssituation unterbreitet der vorliegende Beitrag einen Vorschlag zwar nur zu einem einzigen, aber gleichwohl grundlegenden Aspekt der empirischen Fremdsprachenerwerbsforschung, nämlich zum kritischen Umgang mit Datenerhebungsinstrumenten und -methoden. Dazu wird ein Katalog von zehn Kriterien vorgelegt, mit dem fremdsprachenerwerbsspezifische Datenerhebungsverfahren hinsichtlich ihrer Voraussetzungen sowie ihrer Möglichkeiten und Grenzen evaluiert werden können. Die Aufgabe des Katalogs ist es aber weder, eine für die empirische Fremdsprachenerwerbsforschung maßgeschneiderte Testtheorie zu entwickeln; noch sollen, wie speziell für Sprachtests des Öfteren gefordert (vgl. z.B. Bachmann 1990: 5), allgemeingültige Maße vorgegeben werden. Statt dessen wird eine Systematik erarbeitet, die bewährte methodologische Richtlinien der Sozialwissenschaften auf die Erfordernisse fremdsprachenerwerbsspezifischer Fragestellungen überträgt und so eine Brücke zwischen allgemeiner Testtheorie und konkreter Forschungspraxis schlagen kann. Der Katalog erhebt keinen Anspruch auf Vollständigkeit und ist noch für Ergänzungen offen. Im folgenden Abschnitt werden zunächst Überlegungen zu den Funktionen des Kriterienkatalogs für die Forschungstätigkeit angestellt. Anschließend erfolgt eine ausführliche Darstellung jedes einzelnen Katalogpunktes, wobei zahlreiche Anregungen lFlL11lllL 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 15 aus sozialwissenschaftlichen Methodenlehren Berücksichtigung finden, v.a. aus den wegweisenden Standards for Educational and Psychological Testing der American Psychological Association (1998; 1999) und aus Bortz (1999). Die Anwendbarkeit des Kriterienkatalogs wird punktuell an einigen fremdsprachenerwerbsspezifischen Datenerhebungsverfahren illustriert. Ein weiterführender Beitrag mit einer exemplarischen Anwendung des gesamten Kriterienkatalogs auf ein selbst entwickeltes Verfahren zur Erhebung impliziten sprachlichen Wissens ist zur Zeit in Vorbereitung. 2. Funktionen des Kriterienkatalogs Der vorgelegte Kriterienkatalog ist aus praktischen Erfordernissen innerhalb des von der DFG geförderten Forschungsprojekts „Zur Funktion der mündlichen L2-Produktion und zu den damit verbundenen kognitiven Prozessen für den Erwerb der fremdsprachlichen „Sprechfertigkeit" hervorgegangen. Hauptziel des in Bielefeld.angesiedelten Projekts ist es, in einer auf elf Monate angelegten Longitudinalstudie mit 16 ausländischen Studierenden die wechselseitige Abhängigkeit ihrer mündlichen Performanz und ihrer Kompetenz zu untersuchen und in ein fremdsprachenerwerbsspezifisches Sprachproduktionsmodell zu überführen. (Weiterführende Informationen finden sich im World Wide Web unter http: / / www.uni-bielefeld.de/ lili/ projekte/ L2-pro). Für die Erhebung und Auswertung der Daten kommt ein Mehrmethodendesign zum Einsatz. Dieses setzt notwendigerweise voraus, dass die teilweise sehr heterogenen quantitativen und qualitativen Datenerhebungsverfahren wie z.B. experimentelle Longitudinal- und Querschnittsverfahren, die Elizitierung mündlicher Sprachdaten mittels standardisierter Interviews, Retrospektionen, Fragebögen, Cloze-Tests, Akzeptabilitätsurteile, lexikalische Entscheidungsaufgaben oder Think-Aloud-Aufgaben zum Zweck der Datentriangulation miteinander hinsichtlich theoretischer und (forschungs-) praktischer Parameter verglichen werden können (zu den unterschiedlichen Erhebungsverfahren siehe Mißler 1993 oder Nunan 1996). Der Kriterienkatalog wurde als Instrument geschaffen, das eben diesen Vergleich auf der Grundlage eines differenzierten Analyserasters erlaubt. In methodentheoretischer Hinsicht erfüllt der Kriterienkatalog darüber hinaus eine Reihe weiterer Funktionen. Erstens zwingt er zur Explizierung des Untersuchungsgegenstandes und schafft damit Klarheit über den zu untersuchenden Phänomenbereich. Zweitens müssen die Entwickler und Anwender von Sprachtests und Datenerhebungsverfahren in Zusammenhang mit der Operationalisierung offen legen, welche Merkmale sie einem Untersuchungsgegenstand theoretisch zuschreiben und mit welchen Maßen sich diese empirisch erfassen lassen. Die beobachteten Ausprägungen der Merkmale lassen dann Rückschlüsse auf den Untersuchungsgegenstand zu. Auf diese Weise werden sowohl Zusammenhänge zwischen Theorie und Empirie ausbuchstabiert als auch (oft nur implizite) theoretische Grundannahmen offengelegt. Dieser Aspekt des Kriterienkatalogs führt zu einer größeren Transparenz und Nachvollziehbarkeit der gewonnenen Daten. Drittens kann auch die Leistungsfähigkeit eines Datenerhebungsverfahrens seine lFLllL 30 (2001) 16 OlafBärenfänger, Jan Stevener „testtheoretische Brauchbarkeit" (Bortz 1999: 11) im Hinblick auf einen bestimmten Phänomenbereich durch die Anwendung der Gütekriterien Objektivität, Reliabilität und Validität eingeschätzt werden. Dieser Aspekt fällt umso mehr ins Gewicht, als Grotjahn (2000: 24) in der deutschen Fremdsprachenerwerbsforschung eine häufig unzureichende Überprüfung der Reliabilität von Verfahren bemängelt, die wiederum eine notwendige Voraussetzung für deren Validität darstellt (Bachmann 1990: 227). Mit anderen Worten: Durch eine Überprüfung mittels der Gütekriterien treten die verfahrensbedingten Grenzen eines möglichen Erkenntnisgewinns zu Tage. Alles in allem führen die einzelnen Punkte des Kriterienkatalogs zu einer größeren methodischen und theoretischen Reflektiertheit, wodurch allererst das Ideal einer kritischen und in ihren Handlungen und Ergebnissen transparenten Wissenschaft erreicht werden kann. Der Kriterienkatalog verspricht aber auch für die konkrete wissenschaftliche Praxis Vorteile. So kann erstens die Planung einer Untersuchung präzise und detailliert erfolgen, da die für die Durchführung nötigen finanziellen, personellen, zeitlichen und apparativen Voraussetzungen, das verwendete Material, Instruktionen, das Untersuchungsdesign sowie die einzelnen Phasen der Untersuchung genau benannt sein müssen. Auf dieser Grundlage sind zweitens bereits im Vorfeld einer Untersuchung Entscheidungen über die praktische Eignung eines Datenerhebungsverfahrens möglich. Wegen ihrer Kosten, ihres Zeitaufwandes usw. ungeeignete Verfahren können von vornherein ausgeschlossen werden, wodurch sich unter Umständen Geld sparen lässt und Misserfolge vermieden werden können. Weiterhin ermöglicht die Detailliertheit des Kriterienkatalogs die Schaffung und Sicherung von Durchführungsstandards einer Untersuchung. Diese eröffnen anderen Forschem zugleich die Möglichkeit, auf ihrer Basis Replikationsstudien durchzuführen. Auch lassen sich die Angaben zur Durchführung als Ausgangspunkt für eine Dokumentation und Publikation der durchgeführten Untersuchung verwenden. Eine letzte praktische Funktion betrifft schließlich die Etablierung eines einheitlichen Methodenwissens für die Mitglieder einer Arbeitsgruppe. 3. Der Kriterienkatalog 3.1 Kurzbeschreibung des Datenerhebungsverfahrens Die Hauptaufgabe der Kurzbeschreibung besteht darin, den am Forschungsprozess Beteiligten sowie Testanwendern in kurzer und prägnanter Form eine erste Einschätzung über die potenzielle Eignung eines Datenerhebungsverfahrens für die Klärung einer konkreten Fragestellung zu ermöglichen. Hierzu sollte sie erstens den Gegenstand des fraglichen Verfahrens explizit benennen sowie zweitens knapp erläutern, wie sich das Verfahren seinem Gegenstand nähert. Auf dieses Weise kann ein Minimalkonsens über die wichtigsten Charakteristika eines Datenerhebungsverfahrens angestrebt werden. Insofern die Kurzzusammenfassung auch als erste Orientierung für Nichtexperten dienen kann, sollte sie noch keine Evaluation des Verfahrens enthalten, beispielsweise hinsichtlich strittiger Details in Bezug auf die Leistungsfähigkeit oder Eignung. FLllL 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 17 Des Weiteren sollte die Oberklasse des jeweiligen Erhebungsverfahrens genannt werden sowie seine differentiae specificae zu anderen Verfahren seiner Klasse. Differenzierende Informationen sind im Hinblick auf die Oberklasse ,Interview' beispielsweise Merkmale wie eine offene Struktur, semi-strukturiert oder voll strukturiert. Zu beachten ist bei gemischten Verfahren "Testbatterien") wie Einstufungstests, Eignungstests bzw. Zulassungsprüfungen (DSH, TOEFL), dass sich diese aus mehreren Einzelverfahren zusammensetzen, die jeweils Gegenstand einer Einzelevaluation sein müssen. 3.2 Informantinnen und Informanten Die einzelnen Datenerhebungsverfahren unterscheiden sich nicht zuletzt dadurch, dass sie nicht in derselben Weise für alle Informantinnen und Informanten geeignet sind. Beispielsweise können wenig fortgeschrittene Sprachlerner durch zu anspruchsvolle Testverfahren überfordert sein. Als Folge davon kommt es zu Bodeneffekten, und die Lerner können nur pauschal als auf einem niedrigen Sprachstand befindlich eingeschätzt werden, ohne dass jedoch ein differenziertes Bild über ihre schon erworbenen Kompetenzen möglich wäre. Auch führen Unterschiede bei den Informanten hinsichtlich der Faktoren Lebensalter, Muttersprache und Motivation nachweislich zu unterschiedlichen Ergebnissen in ihrer Performanz (vgl. z.B. Edmondson 1999: passim). Analog zu empirischen Untersuchungen in den Sozialwissenschaften scheint es daher auch für die Fremdsprachenerwerbsforschung angemessen, den Anwendungsbereich des fraglichen Untersuchungsverfahrens explizit zu benennen. Bedingungen, unter denen ein Datenerhebungsverfahren erfolgreich Einsatz finden kann, hängen im Hinblick auf die Informantengruppe u.a. von den soziologischen Parametern Alter, Geschlecht, Bildungsgrad oder Nationalität ab. Für die Forschungs- und Testpraxis lässt sich feststellen, dass mit steigender Spezifizität einer Fragestellung auch die Anzahl derjenigen einschränkenden Bedingungen für ein Verfahren steigt, die für die erfolgreiche Durchführung erfüllt sein müssen. Dabei ist freilich zu beachten, dass mit steigender Anzahl einschränkender Bedingungen der Grad der Verallgemeinerbarkeit der Ergebnisse sinkt (bzw. die sogenannte externe Validität; vgl. Abschnitt 3.9). So ist einerseits die Sprachtests wie Test-DaF, TOEFL, usw. zu Grunde liegende Fragestellung recht allgemeiner Natur und betrifft vor allem die Diagnose sprachlicher Teilkompetenzen. Diese Tests sind ausdrücklich für einen weltweiten Einsatz konzipiert, unabhängig von der Nationalität der Testteilnehmer, ihrem Geschlecht oder der Reihenfolge bereits erworbener Sprachen. Andererseits versuchen experimentelle Verfahren prinzipiell vergleichsweise eng gefasste Fragestellungen zu beantworten, bei denen ein Maximum an experimenteller Kontrolle gewährleistet ist. Bei Experimenten zum Codewechsel bilingualer Sprecher müsste so eine Festlegung des Verhältnisses der beteiligten Sprachen, des sozialen Status der Interaktionspartner, der Interaktionssituation und des Geschlechts erfolgen. Ein bewährtes Instrument, mit dem die Einhaltung der gesetzten Parameter überprüft werden kann, stellen Fragebögen dar (die selbstverständlich auch für die Erhebung von Primärdaten geeignet sind). IFLlllL 30 (2001) 18 Olaf Bärenfänger, Jan Stevener 3.3 Apparatur Falls der apparative Aufwand von Datenerhebungsverfahren über Papier- und Bleistiftuntersuchungen hinausgeht, sollten die verwendeten Geräte und Computer-Programme genannt werden. Neben der Art des Gerätes (z.B. DAT-Recorder, Videokamera,Personal Computer, Psyscope Button Box, Voicetrigger etc.) bzw. der Software und ihrer Versionsnummer sollten vor allem ihre Funktion für die Untersuchung thematisiert werden sowie die Grenzen ihrer technischen Leistungsfähigkeit. Ohne geeignete Informationen zur Apparatur kann nicht abgeschätzt werden, ob mit anderen Geräten oder Programmen abweichende Ergebnisse erzielt worden wären (dies berührt Fragen der Zuverlässigkeit bzw. Reliabilität; vgl. Abschnitt 3.9). Auch entscheidet die verwendete Apparatur über das Format der erhobenen Daten und damit zugleich über zulässige Auswertungen; beispielsweise dürfen mit analogen Audiorekordern aufgezeichnete Daten wegen der ihnen inhärenten Messungenauigkeit nicht zu temporalen Analysen herangezogen werden. Die durch solcherlei ausführliche Angaben zur Technik gewonnene Transparenz stellt eine notwendige Voraussetzung für die Durchführung von Replikationsstudien dar. Informationen zum apparativen Aufwand können schließlich schon im Vorfeld einer Untersuchung die Entscheidung darüber erleichtern, ob ein bestimmtes Erhebungs- oder Testverfahren auf Grund des entstehenden Aufwandes überhaupt Einsatz finden soll. 3.4 Material Der Unterpunkt Material zählt diejenigen Eigenschaften des Stimulusmaterials auf, die für die Untersuchung des Gegenstands eines Datenerhebungsverfahrens relevant und kritisch sind; das gesamte Material muss diese Eigenschaften aufweisen. Da Datenerhebungsverfahren nur zuverlässig arbeiten können, wenn die zu Grunde liegenden Materialien in ihren wesentlichen Eigenschaften vergleichbar sind, stellt die Gleichförmigkeit des Materials eine wichtige Voraussetzung für die Zuverlässigkeit des gesamten Verfahrens dar. Zur Beschreibung von Texten als Stimulusmaterial sind u.a. die Dimensionen Textthema, Textsorte, Textlänge, Textintention, Schwierigkeitsgrad oder Informationsgehalt und -verteilung geeignet. Analog dazu lassen sich für Bilder, Comics, Filme und Computerprogramme vergleichbare Kategorien formulieren. Die systematische Nennung von Struktur- und Funktionsmerkmalen soll es weiterhin erlauben, eine Reihe von materialbedingten Störvariablen auszuschließen. 3.5 Design und Ablauf Schnell/ Hill/ Esser (1995: 203) beschreiben das Forschungsdesign als Gesamtheit der Entscheidungen, die „darüber getroffen werden, wann, wo, wie und wie oft die empirischen Indikatoren an welchen Objekten erfasst werden sollen". Das Wann und Wie oft betrifft temporale Aspekte einer Untersuchung, also beispielsweise ob Prozesse oder Zustände Gegenstand der Untersuchung sind und ob diese durch Querschnitts- oder Longitudinalstudien erfasst werden sollen; das Wie oft bezieht sich auf die StichprobenlFLd 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 19 größe einer Untersuchung und auf Wiederholungen derselben Untersuchung (Retests). Das Wo des Designs betrifft primär die Art der Erhebungssituation, also ob es sich um eine Laborsituation oder eine natürliche Situation handelt. Von der Beschaffenheit der Erhebungssituation sowie von der Stichprobengröße hängt wesentlich die Verallgemeinerbarkeit der Ergebnisse (externe Validität; siehe Abschnitt 3.9) ab. Das Wie eines Designs betrifft vorrangig die Operationalisierung der Forschungsfrage (siehe Abschnitt 3.7), und unter „Objekten" sind in diesem Fall die Informantinnen und Informanten zu verstehen (siehe Abschnitt 3.2). Handelt es sich um ein experimentelles Design, so müssen außerdem die eingesetzten experimentellen Bedingungen erläutert werden sowie die Art ihrer Verteilung auf die Informantinnen und Informanten (between subject, within-subject, geblockt, Randomisierung usw.). Je nach Charakter des Designs lassen sich darüber hinaus über den Untersuchungsgegenstand Aussagen von unterschiedlicher Art und Qualität machen. So erlauben Experimente wissenschaftstheoretisch besonders "harte" Aussagen, sind aber nur für vergleichsweise eng gefasste Fragestellungen geeignet und erfordern bei der Planung, Durchführung und Auswertung einen großen Aufwand. Introspektiven Verfahren wird hingegen häufig ihr subjektiver Charakter angelastet. Um die spezifischen Stärken der Einzelverfahren zu nutzen und ihre Schwächen zu kompensieren, können auch mehrere von ihnen zu Mehrmethodendesigns oder zu Testbatterien kombiniert werden. Analog zur Standardisierung des Untersuchungsmaterials sollen auch Angaben zum Ablauf eine weitgehend standardisierte Durchführung des Datenerhebungsverfahrens erlauben; Störfaktoren wie ungleiche Vorbereitungs- und Bearbeitungszeiten der Probanden, abweichende Instruktionen, nicht festgelegte Phasen der Aufgabenausführung usw. können so ausgeschaltet werden. Durch Vorgaben zum Zeitpunkt, zur Art der Darbietung des Stimulusmaterials (aufgezeichnet vs. nicht-aufgezeichnet, sprachlich vs. nichtsprachlich, vorgelesen vs. von den Informanten gelesen), zur Reihenfolge und zur Dauer von kritischen Handlungen und Ereignissen entsteht zwar einerseits eine hohe Transparenz des Verfahrens, die dadurch bedingte Künstlichkeit kann aber andererseits eine natürliche Performanz der Informanten verhindern und damit die Verallgemeinerbarkeit des Verfahrens reduzieren. Da Informanten prima facie über Instruktionen erfahren, wie sie sich bei der Durchführung eines Datenerhebungsverfahrens verhalten sollen (Bachman/ Palmer 1996: 181), ist anzunehmen, dass die Ergebnisse in hohem Maße von den verwendeten Instruktionen abhängen. Deshalb erscheint die präzise Formulierung der schriftlichen und mündlichen Instruktionen dringend geboten. 3.6 Gegenstand des Datenerhebungsverfahrens Während die drei zuvor genannten Kriterien die technische Seite eines Datenerhebungsverfahrens thematisieren, fordert dieses Kriterium aus theoretischer Sicht eine Benennung des Untersuchungsgegenstands. Nur auf dieser Grundlage kann eine Entscheidung darüber getroffen werden, inwieweit der Gegenstand eines Verfahrens mit dem Gegenstand einer konkreten erkenntnisleitenden Fragestellung übereinstimmt, also ob ein Verfahren zur Bearbeitung einer bestimmten Problematik überhaupt in Frage kommt. JFL111L 30 (2001) 20 OlafBärenfänger, Jan Stevener Mögliche Untersuchungsgegenstände können beispielsweise Teilkompetenzen von Sprachlernern in den Bereichen Phonetik, Lexik, Morphosyntax, Syntax oder Pragmatik sein, die Chronologie von Erwerbssequenzen, Strategien der Bedeutungserschließung, die Wirksamkeit von Instruktionsmaßnahmen, Automatisierungs-, Aufmerksamkeits- oder Monitoringprozesse u.v.a. mehr. Bei so komplexen Fragestellungen wie „Kommt es im Verlauf des Zweitsprachenerwerbs zu Automatisierungen? " oder „Wie hat sich die sprachliche Kompetenz einer Schulklasse innerhalb eines Jahres verändert? " kann der Fall eintreten, dass ein Verfahren nur Teilaspekte der leitenden Fragestellung zu beantworten im Stande ist und so mehrere Methoden kombiniert werden müssen. Insofern die präzise und detaillierte Nennung eines Gegenstandes die Voraussetzung für Urteile über die Angemessenheit einer Methode sind, stellt dieser Punkt zugleich das Fundament für Aussagen zu ihrer Validität dar (siehe Abschnitt 3.9). 3.7 Operationalisierung Datenerhebungsverfahren wie Sprachtests müssen sich häufig die kritische Frage gefallen lassen, auf welchen theoretischen Grundlagen sie ihre Messungen und Beurteilungen vornehmen. Beispielsweise wird bisweilen in Zusammenhang mit Mu1tiple-Choice-Tests bezweifelt, ob sie tatsächlich sprachliche Kompetenzen angemessen erfassen (vgl. Perlmann-Balme 2001) und nicht etwa die Vertrautheit der Testteilnehmer mit einem bestimmten Testformat. Zur Klärung, welche empirisch beobachtbaren Eigenschaften des Gegenstandes ein Verfahren wie und warum misst, dient das Kriterium der Operationalisierung. Schnell/ Hill/ Esser (1995: 119) definieren: Die Operationalisierung eines theoretischen Begriffes besteht aus der Angabe einer Anweisung, wie Objekten mit Eigenschaften (Merkmalen), die der theoretische Begriff bezeichnet, beobachtbare Sachverhalte zugeordnet werden können. Wie das Zitat nahe legt, werden im Rahmen der Operationalisierung diejenigen theoretischen Annahmen (bisweilen auch Konstrukt genannt; vgl. Chapelle 1998: 33) expliziert, die einem bestimmten Verfahren zu Grunde liegen. Dies ermöglicht eine Einschätzung darüber, inwieweit sie den beteiligten Testern oder Forschem plausibel und annehmbar erscheinen. Ein Beispiel: Gegenstand eines psycholinguistischen Datenerhebungsverfahrens soll die Automatisierung der mündlichen L2-Sprachproduktion sein. Als theoretische Eigenschaften von automatisierten Prozessen gelten u.a. ihre geringe Varianz sowie die Schnelligkeit ihrer Ausführung. Die Operationalisierung bezieht sich hier auf die Frage, wie sich diese Eigenschaften durch empirische Beobachtungen erfassen lassen, z.B. durch die Rekurrenz sprachlicher ltems oder durch hohe Sprech- oder Artikulationsgeschwindigkeiten. Im Rahmen experimenteller Forschungsdesigns gibt die Operationalisierung darüber hinaus an, wie sich aus einer Theorie abgeleitete Hypothesen im Vergleich mit Kontrollsituationen in der Realität überprüfen lassen und in welcher Weise eine Abhängige Variable mit einer Unabhängigen Variablen systematisch zusammenhängt. Die beobachteten Sachverhalte lassen jeweils wiederum methodisch fundierte Rückschlüsse auf den Gegenstand zu. JFLUIL 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 21 Eine weitere wichtige Funktion der Operationalisierung besteht in der Offenlegung solcher Faktoren, welche die empirische Erfassung des gewählten Gegenstandes beeinflussen können (vgl. hierzu Bortz 1999: 8). Hierzu gehören einerseits Messfehler, die innerhalb gewisser Grenzen vorhersagbar sind, sowie andererseits Störfaktoren bzw. Störvariablen, die wegen ihrer Zufälligkeit keiner Kontrolle zugänglich sind; sie sind lediglich dokumentierbar. Zu diesen Faktoren gehören weiterhin Moderator- oder Kontrollvariablen, die im Gegensatz zu Störvariablen von den Testern und Forschem kontrolliert werden können. Im Hinblick auf Datenerhebungsverfahren können mögliche Störfaktoren in der (Un-)Vertrautheit der Testteilnehmer mit dem Erhebungsformat bestehen, in individuell verschiedenen Lösungsstrategien, der stark abweichender Intelligenz oder Belastbarkeit der Testteilnehmer, unterschiedlichen Lemertypen, der Kooperationsbereitschaft der Testteilnehmer oder in der Person des Testers. Störvariablen beeinträchtigen die Zuverlässigkeit eines Datenerhebungsverfahrens und reduzieren somit seine Reliabilität. Moderatorvariablen hingegen können beispielsweise das Alter der Testteilnehmer bzw. Probanden, Geschlecht, Herkunftssprache, soziale Schicht, Nationalität, Sprachstand usw. betreffen. Je mehr Moderatorvariablen kontrolliert werden, desto zuverlässiger sind die mit dem Verfahren erzielten Ergebnisse, aber desto geringer ist die externe Validität einzuschätzen (siehe Abschnitt 3.9). Ziel sollte es sein, für jedes Erhebungsverfahren möglichst viele solcher potenziell das Ergebnis verfälschender Faktoren offenzulegen und bei der späteren Interpretation der Ergebnisse zu berücksichtigen. 3.8 Maße Das Kriterium Maße gibt vor, welche Ausprägungen die in 3.7 festgelegte empirisch beobachtbare Eigenschaft des Untersuchungsgegenstandes annehmen kann. Während die Operationalisierung also eine Brücke von der Datenerhebung zur Theorie schlägt, bilden die Maße eine Brücke zur hier nicht weiter thematisierten Datenauswertung. Genaue Rechenschaft über die Maße eines Erhebungsverfahrens abzulegen, ist deshalb von ausschlaggebender Bedeutung, weil diese das Format der Ergebnisse festlegen und damit auch über die zulässigen Auswertungen sowie über die Art der über den Forschungsgegenstand möglichen Aussagen entscheiden "Datenadäquatheit"). Auf Grund der gewählten Maße sind auch Entscheidungen über die Eignung der Messapparatur vorzunehmen; beispielsweise sind für Priminguntersuchungen mit Zeitmessungen im Millisekundenbereich hochpräzise Instrumente erforderlich (z.B. die Psyscope Button Box). Was die Forschungs- und Testpraxis angeht, so bestehen offenbar gravierende Defizite hinsichtlich der Offenlegung von verwendeten Maßen. So stellen Abraham und Chapelle (1992: 474) fest, dass verschiedene Varianten des Cloze-Tests (Fixed-Interval-Cloze- Test, Multiple-Choice-Cloze-Test undRational-Cloze-Test) nicht dieselben Maße benutzen, also dementsprechend unterschiedliche Fähigkeiten testen bzw. Aussagen über verschiedene Untersuchungsgegenstände machen. Spolsky (2000: 539) bemerkt pointiert zur Geschichte des Testens: "One of the easiest things to do, it has been suggested, is to develop a new kind of test what is hard to know is what an existing test really mealFLlllL 30 (2001) 22 Olaf Bärenfänger, Jan Stevener sures". Eine Explizierung der Maße stellt also eine wichtige Voraussetzung für den angemessenen Einsatz von Datenerhebungsverfahren dar sowie den Ausgangspunkt für eine Triangulation von mittels unterschiedlicher Verfahren gesammelten Daten (Aguado/ Riemer 2001). 3.9 Gütekriterien Die Grenzen eines Verfahrens bestimmen die Grenzen der damit möglichen Erkenntnis. Aus diesem Grund ist es dringend geboten, Datenerhebungsverfahren auch hinsichtlich ihrer Verfahrensqualität und der Grenzen ihrer Leistungsfähigkeit zu evaluieren. Da empirisch gewonnenen Erkenntnisse als Basis für viele praktische Entscheidungen dienen, beispielsweise für Einstellungen, Beförderungen, Einstufungen, die Gestaltung des Curriculums, sprachpolitische Entscheidungen usw., fordert Bachmann (1990: 78): "The more important the decision, in terms of its impact upon individuals and programs, the greater assurance we must have that our test scores are reliable and valid". Neben den aus der sozialwissenschaftlichen Testtheorie etablierten Gütekriterien Reliabilität und Validität (gute Darstellungen sind American Psychological Association 1998 und 1999; Schnell/ Hill/ Esser 1995) ist auch das Kriterium der Objektivität zur Bestimmung der Güte eines Verfahrens geeignet. Das in der Psychologie zusätzlich angewandte Gütekriterium der Ökonomie betrifft den Aspekt der Durchführbarkeit eines Verfahrens und stellt wegen seiner hohen praktischen Relevanz einen eigenen Punkt des Kriterienkatalogs dar (siehe Abschnitt 3.10). Bachman/ Palmer (1996) haben in jüngerer Zeit eine komplexe Gütekonzeption vorgelegt, die unter dem Terminus Nützlichkeit (Usefulness) eine Reihe einzelner Gütekriterien wie Reliabilität, Konstruktvalidität, Authentizität, Interaktivität, 'Impact' sowie Praktikabilität subsummiert. Als Objektivität wird der „Grad, in dem die Ergebnisse eines Tests unabhängig vom Untersucher sind" gefasst (Lienert/ Raatz 1994: 7); sie trägt zur Validität eines Datenerhebungsverfahrens bei. Da lediglich Erhebungsverfahren Gegenstand des Kriterienkatalogs sind, bezieht sich das Kriterium der Objektivität allein auf die Durchführung und nicht auf die Auswertung und Interpretation. Die Durchführungsobjektivität hängt vor allem von zufälligen oder systematischen Abweichungen im Verhalten der Tester öder Forscher ab, die ihrerseits das Verhalten der Testteilnehmer und Informanten beeinflussen und somit auch die Daten. Um ein Höchstmaß an Durchführungsobjektivität zu gewährleisten bietet es sich an, die Interaktionen zwischen Testern/ Forschern mit den Testteilnehmern/ Informanten so gering wie möglich zu halten oder zumindest weitestgehend zu standardisieren. Als besonders objektiv gelten daher solche Datenerhebungsformate, die nur eine geringe oder gar keine Interaktion zwischen Testern/ Forschern und Testteilnehmern/ Informanten beinhalten; in der Praxis sind dies vor allem schriftliche Tests (C"Test, Cloze-Test, Multiple-Choice-Aufgaben, usw.). Besonders bei Verfahren zur Elizitierung mündlicher Sprachproduktionen und Interviews (z.B. das Oral Proficiency Interview) ist Durchführungsobjektivität wegen der stark interaktiven Untersuchungssituationen nur schwer zu erreichen. Das für die Beurteilung von Verfahren noch wichtigere Gütekriterium der Reliabilität JFLIUllL 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 23 bzw. Zuverlässigkeit erfragt laut Bachmann (1990: 160 f) "how much of an individual' s test performance is due to measurement error, or to factors other than the language ability we want to measure? ". Daraus ergibt sich die Forderung, potenzielle Fehlerquellen zu identifizieren und die ungefähre Größe ihres Einflusses auf das Ergebnis einzuschätzen. Ein optimal reliables Verfahren müsste demnach unter den gleichen Bedingungen bei gleichzeitiger Durchführung (Paralleltestreliabilität) oder wiederholter Durchführung (Retest-Reliabilität) zu den gleichen Ergebnissen führen. Bisher wurde an verschiedenen Stellen des Kriterienkatalogs auf Faktoren hingewiesen, welche die Reliabilität reduzieren, z.B. eine unzuverlässige Apparatur, nicht standardisiertes Material, eine nichtstandardisierte Durchführung und die oben genannten Störfaktoren. Darüber hinaus können auch bei der Konservierung der Daten oder bei ihrer Übertragung in ein anderes Datenformat Fehler auftreten. Um Aussagen über die Reliabilität vornehmen zu können, werden daher genaue Angaben zum Ablauf, zur Operationalisierung, zur Apparatur und zum Material benötigt (siehe Punkt 3.3, 3.4, 3.5 und 3.7). Als besonders reliabel sind solche Verfahren anzusehen, die so viele Faktoren der Untersuchungssituation wie möglich kontrollieren, bei denen also interferierende Störfaktoren minimiert werden (z.B. experimentelle Laboruntersuchungen). Die Reliabilität von sprachlichen Zulassungsprüfungen zum Hochschulstudium für Ausländer, bei denen weder die Formate noch die Inhalte bundeseinheitlich geregelt sind, ließe sich durch eine weitgehende Standardisierung erhöhen. Das wichtigste Gütekriterium stellt in den Augen der meisten Autoren die Validität dar, die Schnell/ Hill/ Esser (1995: 144) zufolge „das Ausmaß, in dem das Messinstrument tatsächlich das misst, was es messen sollte", angibt. Die Validität eines Verfahrens bestimmt somit, in welchem Umfang seine empirischen Ergebnisse eine Antwort auf die Forschungsfrage zulassen, oder mit anderen Worten: inwieweit es die ihm zugedachte Aufgabe erfüllt. Bortz (1999: 9) referiert zwei Arten der Validität: Die interne Validität bezeichnet die Eindeutigkeit, mit der Ergebnisse interpretierbar sind; sie sinkt mit einer steigenden Anzahl möglicher Alternativerklärungen. Die externe Validität bezeichnet die Verallgemeinerbarkeit der Ergebnisse über die spezielle Untersuchungssituation hinaus (zu abweichenden Validitätskonzeptionen vgl. Lienert & Raatz 1994: 10 f; Schnell/ Hill/ Esser 1995: 145-147; American Psychological Association 1998 und 1999; Chapelle 1998; Grotjahn 2000b: 312-317). Die Forderung nach möglichst eindeutiger Interpretierbarkeit erfüllt ein Verfahren dann, wenn sich seine Messwerte so weit wie möglich auf den Untersuchungsgegenstand zurückführen lassen. Die Ergebnisse eines Grammatiktests könnten so nicht allein auf die grammatische Kompetenz einer Testperson zurückzuführen sein, sondern sich durch individuelle Problemlösungsstrategien, die Fähigkeit zur Bewältigung von Stresssituationen oder durch Trainingseffekte bei bestimmten Datenerhebungsformaten erklären lassen. Eine hohe interne Validität kann nur dann erreicht werden, wenn empirisch beobachtbare Eigenschaften eindeutig dem Forschungsgegenstand zugeordnet werden können, wenn also die Forschungsfrage stringent operationalisiert wurde. Weiterhin können, um Alternativerklärungen auszuschließen, die Ergebnisse vergleichbarer empirischer Studien hinzugezogen werden. Für die interne Validität zeichnen primär die Konstrukteure eines lFILUJL 30 (2001) 24 OlafBärenfänger, Jan Stevener Erhebungsverfahrens verantwortlich und nicht die·Anwender; diese sollten allerdings in die Lage versetzt werden, die interne Validität zu reflektieren. Je mehr Faktoren innerhalb eines Verfahrens kontrolliert werden, auf einen desto kleineren Wirklichkeitsausschnitt beziehen sich. seine Ergebnisse und desto weniger leicht lassen sie sich verallgemeinern. Insofern sinkt die externe Validität mit zunehmender Kontrolle der Untetsuchungssituation. Die Bestimmung der externen Validität eines Verfahrens erfordert daher u.a. Angaben zur soziologischen Beschaffenheit der Probandengruppe (siehe Abschnitt 3.2) und zur Operationalisierung (siehe Abschnitt 3.7). Die Ergebnisse, die innerhalb einer Informantengruppe mit einer bestimmten soziologischen Struktur erzielt werden, müssen sich dann auch bei allen anderen Individuen mit denselben soziologischen Parametern ergeben. Auch wenn jedes der drei diskutierten Gütekriterien für sich die Qualität eines Verfahrens angibt, so ist es doch nicht wünschenswert, dass jeweils ein Maximum an Objektivität, Reliabilität und Validität erfüllt ist. Beispielsweise kann die durch eine Standardisierung des Verfahrens bedingte Objektivität zu einer hohen Künstlichkeit der Untersuchungssituation führen, so dass dies wiederum als ein die Validität beeinträchtigender Störfaktor berücksichtigt werden muss. Auch kann ein Verfahren wie beispielsweise der gerade erwähnte Grammatiktest Werte äußerst zuverlässig messen, bei denen indessen unklar ist, welchem theoretischen Gegenstand sie zuzuschreiben sind: der Grammatikkompetenz, der Vertrautheit mit dem Aufgabentyp oder Stressfaktoren? Insgesamt scheinen Patentrezepte, zu welchem Grad die einzelnen Gütekriterien erfüllt sein müssen, um hinreichend fundierte Aussagen über den Untersuchungsgegenstand machen zu können, nicht möglich. Dies gilt sowohl im Hinblick auf eher quantitativ als auch auf eher qualitativ zugeschnittene Forschungsdesigns. Jedoch ist es schon als großer Fortschritt anzusehen, wenn die Entwickler und Anwender von Datenerhebungsverfahren sich prinzipiell Gedanken darüber machen, durch welche Faktoren die Qualität eines Verfahrens beeinträchtigt sein kann. Auch wenn die Anwendung noch weiterer Gütekriterien im Einzelfall sinnvoll ist, scheinen die Kriterien der Objektivität, Reliabilität und Validität einen brauchbaren kleinsten gemeinsamen Nenner für jegliches Datenerhebungsverfahren darzustellen (Henrici 2000: 33). 3.10 Durchführbarkeit Die Qualität eines Verfahrens bestimmt sich nicht lediglich durch theoretische Aspekte, wie sie vor allem von den drei Gütekriterien abgedeckt werden; eine diesbezügliche Einschätzung muss auch aus forschungspraktischer Sicht erfolgen. Die Durchführbarkeit des Verfahrens ergibt sich dabei aus der Summe aller entstehenden Kosten im weitesten Sinne - , also beispielsweise Beschaffungskosten für Geräte, Planungskosten, Kosten für Material(erstellung), Personalkosten, u.U. Ausbildungskosten, Honorare für Teilnehmer, Raumbedarf, Zeit für die Durchführung und Auswertung, Anzahl benötigter Teilnehmer usw. Es obliegt v.a. den Entwicklern, maximal detaillierte Angaben zum Aufwand eines Verfahrens zu machen. Um dann eine Einschätzung über die Eignung eines Datenerhebungsverfahrens in einem konkreten Forschungskontext vornehmen zu können, FLIIL 30 (2001) Datenerhebungsveifahren und ihre Evaluation. Ein Kriterienkatalog 25 müssen diese entstehenden Kosten und der mögliche Erkenntnisgewinn abgewägt werden; eine Einschätzung des potenziellen Erkenntnisgewinns erfolgt primär über das Kriterium der Validität (siehe Abschnitt 3.9). So ermöglichen psycholinguistische Reaktionszeitexperimente zwar verhältnismäßig zuverlässige Ergebnisse, lassen sich aber nur mit hohem personellen und apparativen Aufwand durchführen und auswerten. 4. Schlussbetrachtungen Der in diesem Beitrag vorgestellte und sicherlich noch erweiterbare Kriterienkatalog verfolgt zunächst das Hauptziel, Kriterien für die differenzierte. Beschreibung von Datenerhebungsverfahren in der empirischen Fremdsprachenerwerbsforschung bereitzustellen. Diese Beschreibung stellt einerseits die Grundlage für die Evaluation einzelner Verfahren dar, andererseits aber auch eine notwendige Voraussetzung für die Vergleichbarkeit unterschiedlicher Erhebungsmethoden. Darüber hinaus erhöht die konsequente Anwendung des Kriterienkatalogs die Transparenz des Forschungsprozesses sowie die Nachvollziehbarkeit seiner Ergebnisse. Über den nur punktuellen Bezug auf Datenerhebungsverfahren hinaus könnte die prinzipielle Anwendung des Kriterienkatalogs (oder zumindest seiner wichtigsten Teilpunkte) bei der Darstellung von empirischen Untersuchungen dazu beitragen, dass sich in der empirischen Fremdsprachenerwerbsforschung einheitliche wissenschaftliche Standards etablieren. Das Modern Language Journal, dessen empirische Beiträge nach einem vergleichbaren Raster wie dem hier vorgeschlagenen aufgebaut sind, geht hier schon mit gutem Beispiel voran. Die Vorteile einheitlicher Standards liegen auf der Hand: Erstens besteht ein gemeinsames Wissen über Verfahrensregeln, Verfahren und die Grenzen ihrer Anwendbarkeit, so dass bei Forschungen oft auf schon Bewährtes und dem Gegenstand Angemessenes zurückgegriffen werden kann. Somit besteht keine Notwendigkeit, das sprichwörtliche Rad stets neu zu erfinden. Ein auf gemeinsamen Standards basierender Forschungsprozess wäre daher in höherem Maße inkrementell und kollaborativer als er es heute in der Regel ist, was in Zeiten knapper Mittel einen substanziellen Vorteil darstellen dürfte. Zweitens gewährleistet die Befolgung der in einer scientific community allgemein akzeptierten Standards eine gewisse Qualität des Forschungsprozesses. Auch die hierdurch ermöglichte systematische Kritisierbarkeit von Ergebnissen trägt zur wissenschaftlichen Qualitätssicherung bei. Schließlich kommen verbindliche Standards auch einem Bedürfnis entgegen, in Deutschland und in der Europäischen Union einheitliche Richtlinien für Sprachtests und Sprachprüfungen zu besitzen. Die Bemühungen des TestDaF-Instituts auf nationaler und diejenigen der International Certificate Conference (ICC) auf internationaler Ebene sind hierfür ein Beleg. Ein letzter praktischer Anwendungsgesichtspunkt des Kriterienkatalogs ist darin zu sehen, dass sich die mit seiner Hilfe erstellten Beschreibungen einer Vielzahl unterschiedlicher Datenerhebungsverfahren in einem zentralen Archiv zusammenfassen lassen. Konkret ist beispielsweise die Einrichtung einer über das World Wide Web zugänglFLllL 30 (2001) 26 OlafBärenfänger, Jan Stevener liehen Datenbank zum Thema „Methoden in der Empirischen Fremdsprachenerwerbsforschung" denkbar. Ein solches center of excellence könnte durch die Masse und Qualität der gesammelten Informationen zu größeren methodischen Fortschritten in der empirischen Fremdsprachenerwerbsforschung führen. Literatur ABRAHAM, Roberta G. / CHAPELLE, Carol A. (1992): "The meaning of cloze test scores: An item difficulty perspective". In: The Modem Language Journal 76, 468-479. AGUADO, Karin (Hrsg.) (2000a): Zur Methodologie in der empirischen Fremdsprachenforschung. Baltmannsweiler: Schneider-Verlag Hohengehren. AGUADO, Karin (2000b): "Empirische Fremdsprachenerwerbsforschung. Ein Plädoyer für mehr Transparenz". Iu: AGUADO (Hrsg.) 2000a, 119-131. AGUADO, Karin/ RIEMER, Claudia (2001): "Triangulation: Chancen und Grenzen mehrmethodischer empirischer Forschung". Iu: AGUADO, Karin/ RIEMER, Claudia (Hrsg.): Wege und Ziele. Zur Theorie, Empirie und Praxis des Deutschen als Fremdsprache (und anderer Fremdsprachen). Festschrift für Gert Henrici zum 60. Geburtstag. Baltmannsweiler: Schneider-Verlag Hohengehren, 245-257. AMERICAN PSYCHOLOGICAL ASSOCIATION (1998): Standards für pädagogisches und psychologisches Testen. [ =Standards f or Educational and Psychological Testing. Washington, DC (1986): American Psychological Association]. In: Supplementum 1/ 1998 der Diagnostica und Zeitschrift für Differentielle und Diagnostische Psychologie. AMERICAN PSYCHOLOGICAL ASSOCIATION (1999): Standards f or Educational and Psychological Testing. Washington, DC: American Psychological Association. ARBEITSGRUPPE FREMDSPRACHENERWERB BIELEFELD (1987): "Welcher Typ von Forschung in der Fremdsprachendidaktik? Zum Verhältnis von qualitativer und quantitativer Forschung". In: LöR- SCfIER, Wolfgang/ SCHULZE, Rainer (eds.): Perspectives on Language in Performance. Studies in Linguistics, Literary Criticism, and Language Teaching and Learning. To honour Werner Hüllen on the Occasion of his 60. Birthday. Tübingen: Narr, 943-975. ARBEITSGRUPPE FREMDSPRACHENERWERB BIELEFELD (1995; 1996a): "Fremdsprachenerwerbsspezifische Forschung. Aber wie? Theoretische und methodologische Überlegungen (I)". In: Deutsch als Fremdsprache 33.3, 144-155. ARBEITSGRUPPE FREMDSPRACHENERWERB BIELEFELD (1995; 1996b): "Fremdsprachenerwerbsspezifische Forschung. Aber wie? Theoretische und methodologische Überlegungen (II)". In: Deutsch als Fremdsprache 33.4, 200-210. BACHMANN, Lyle F. (1990): Fundamental Considerations in Language Testing. Oxford: Oxford University Press. BACHMAN, Lyle F. / PALMER, Adrian S. (1996): Language Testing in Practice. Designing and Developing Useful Language Tests. Oxford: Oxford University Press. BORTZ, Jürgen (1999): Statistik für Sozialwissenschaftler. 5. vollständig überarbeitete und aktualisierte Auflage. Berlin/ Heidelberg: Springer. CHAPELLE, Carol A. (1998): "Construct definition and validity inquiry in SLA research". In: BACHMAN, Lyle F. / COHEN, Andrew D. (eds.): Interfaces Between Second Language Acquisition and Language Testing Research. Cambridge: Cambridge University Press, 32-70. DE KEYSER, Robert [im Druck]: "Automaticity and automatization". EDMONDSON, Willis (1999): Twelve Lectures on Second Language Acquisition: Foreign Language Teaching Perspectives. Tübingen: Narr. lFLUJiL 30 (2001) Datenerhebungsverfahren und ihre Evaluation. Ein Kriterienkatalog 27 GROTJAHN, Rüdiger (2000a): "Einige Thesen zur empirischen Forschungsmethodologie". In: AGUADO (Hrsg.) (2000a), 19-30. GROTJAHN, Rüdiger (2000b): "Testtheorie: Grundzüge und Anwendungen in der Praxis". In: WOLFF, Armin / TÄNZER, Harald (Hrsg.): Sprache - Kultur-Politik. Beiträge der 27. Jahrestagung Deutsch als Fremdsprache vom 3.-5. Juni 1999 an der Universität Regensburg. Universität Regensburg: Fachverband Deutsch als Fremdsprache, 304-341. HENRICI, Gert(2000): "Methodologische Probleme bei der Erforschung des Fremdsprachenerwerbs". In: AGUADO (Hrsg.) 2000a, 31-40. KASPER, Gabriele (1998): "Datenerhebungsverfabren in der Lemersprachenpragmatik". In: Zeitschrift für Fremdsprachenerwerbsforschung 9, 85-118. KÖNIGS, Frank G. (2000): "How to do research with words? Überlegungen zur Forschungsmethodologie in der Fremdsprachenerwerbsforschung". In: AGUADO (Hrsg.) 2000a, 55-61. LIENERT, Gustav / RAATZ, Ulrich (1994): Testaufbau und Testanalyse. 5. überarbeitete Auflage. Weinheim: Beltz, Psychologie Verlags Union. MARKARD, Morus (1991): Methodik subjektwissenschaftlicher Forschung: Jenseits des Streits um quantitative und qualitative Methoden. Hamburg: Argument. MrßLER, Bettina (1993): Datenerhebung und Datenanalyse in der Psycholinguistik. Bochum: AKS. MÜLLER-HARTMANN, Andreas/ SCHOCKER-VON DI1FURTH, Marita (Hrsg.) (2001): Qualitative Forschung im Bereich Fremdsprachen lehren und lernen. Tübingen: Narr. NUNAN, David (1996): "Issues in second language research: Examining, substance and procedure". In: RITCHIE, William L. / BHATIA, Tej K. (eds.): Handbook of Second Language Acquisition. San Diego, CA: Academic Press, 349-374. PERLMANN-BALME, Michaela (2001 ): "Formen und Funktionen von Leistungsmessung und -kontrolle". In: HELBIG, Gerhard/ GÖTZE, Lutz/ HENRICI, Gert/ KRUMM, Hans Jürgen (Hrsg.): Deutsch als Fremdsprache. Ein internationales Handbuch. Band II. Berlin: de Gruyter, 994-1006. POPPER, Karl R. (1966): Logik der Forschung. 2. erweiterte Auflage. Tübingen: Mohr. SCHNELL, Rainer/ HILL, Paul B. / ESSER, Elke (1995): Methoden der empirischen Sozialforschung. 5. überarbeitete und erweiterte Auflage. München: Oldenbourg. SPOLSKY, Bemard (2000): "Language Testing in the Modem Language Journal". In: The Modern Language Journal 84, 536-552. lFLl! IL 30 (2001) Michael Milanovic * The Association of Language Testers in Europe (AL TE) working towards a Framework of European Language Examinations Abstract. Co-operation between testing organisations in most European countries has been vital for the development of the Association of Language Testers in Europe (ALTE). This article covers the work of the Association, with particular focus on the ALTE Framework of Language Examinations and the 'Can Do' project, two important projects helping to make language qualifications more transparent and usable in practice, resulting in increased international mobility for workers, students and others. 1. What is ALTE? The Association of Language Testers in Europe is an association of major providers of language examinations in Europe, with each member or associate member producing tests of the language of their region or country as a foreign language. ALTE was founded by 8 members in 1990, following an initiative by the Universities of Cambridge and Salamanca: the membership has grown continually since then and there are now 20 füll members representing the testing of 17 languages. In 1997 the decision was taken to admit associate members to ALTE, which is formed as a European Economic Interest Grouping and therefore can only have füll members from EU/ EEA countries: there are 7 associate members at present. The members/ associate members and the languages they represent are as follows: Eusko Jaurlaritza Generalitat de Catalunya Danish Language Testing Consortium Centrum voor Taal en Migratie / CNaVT CITOgroep University of Cambridge Local Examinations Syndicate University of Jyväskylä Alliance Fran9aise Goethe-Institut WBT: Weiterbildungs-Testsysteme GmbH University of Athens Instituid Teangeolafochta Eireann Basque Catalan Danish Dutch Dutch English Finnish French German German Greek Irish Korrespondenzadresse: Michael Milanovic, PhD, Manager of ALTE, 1 Hills Road, Cambridge, CBl 2EU. E-mail: milanovic.m@ucles.org.uk Arbeitsbereiche: Applied Linguistics, Language Testing. JFLUJilL 30 (2001) The Association of Language Testers in Europe (ALTE) working towards a Framework ... 29 Universita per Stranieri di Perugia Italian Centre de Langues Luxembourg Luxembourgish Universitetet i Bergen Norsk Spräktest Norwegian Universidade de Lisboa Portuguese Instituto Cervantes Spanish Universidad de Salamanca Spanish Stockholms Universitet Swedish Welsh Language Board and Welsh Joint Education Committee Consortium Welsh Riiklik Eksamija Kvalifikatsioonikeskus Estonian Idgennyelvi Tovabbkepzö Központ Hungarian Naturalisation Board of Latvia Latvian Vilnius University, Department of Lithunanian Studies Instytut Polonijny UJ Russian Language Testing Consortium Univerza v Ljubljani, Filozofska fakulteta Lithuanian Polish Russian Slovenian The association meets twice a year to discuss projects and hear from invited speakers. 2. The AL TE Framework of Language Examinations The aim of the ALTE Framework of Language Examinations is to set a series of key levels at which language examinations can be placed. There are six levels in the main ALTE Framework, with a Breakthrough Level being developed at the level below ALTE Level One. Examinations produced by ALTE members are analysed before being added to the Framework, using the ALTE Content Analysis Checklists, which were developed by the members of ALTE with the aid of a grant from the European Union Lingua programme. These checklists allow a detailed analysis to be carried out of each examination in question, covering their content as well as the way they are developed and delivered. In some cases there are examinations on the ALTE Framework in a particular language at each of the levels (such as those produced for English by the University of Cambridge Local Examinations Syndicate or for Italian by the Universita per Stranieri di Perugia), in other cases there may only be examinations at some of the levels. Sometimes members have worked on completing the gaps, such as the development of the examination in Catalan at Level Three, or the descriptions of the ALTE levels have been used by examination boards when revising examinations, for example the Danish examination at ALTE Level Two. As new members join ALTE, the examinations they produce are analysed and added to the Framework. This work is also being carried out for the examinations produced by associate members of ALTE. Some years ago, a project group of ALTE members (representing Finnish, Irish, Norwegian, Greek and Swedish) obtained funding from the European Union Lingua programme in order to produce various ALTE documents in their languages. In addition lFLlllL 30 (2001) 30 Michael Milanovic to this the members of the group also produced descriptors for a level described as Breakthrough Level, designed to cover the level below ALTE Level One, for users with a very basic survival level of language. This work is now being developed further with the help of Dr John Trim and the support of the Council of Europe, and means that the ALTE Framework can now be seen as having 6 levels. As described in the section below, these 6 levels can clearly be shown to relate to the Council of Europe 's Common European Framework. 3. ALTE 'Can Do' project 3.1 The ALTE Framework The ALTE 'Can Do' statements constitute a central part of a long-term research programme set by ALTE, the aim of which is to establish a framework of 'key levels' of language performance, within which examinations can be objectively described. 1 Much work has already been done to place the examination systems of ALTE members within this framework, based on an analysis of examination content and task types, and candidate profiles. A comprehensive introduction to these examination systems is available in the ALTE Handbook of European Language Examinations and Examination Systems. 3.2 The ALTE 'Can Dos' are user-orientated scales The aim of the 'Can Do' project is to develop and validate a set of performance-related scales, describing what learners can actually do in the foreign language. In terms of Alderson's (1991) distinction between constructor, assessor and user orientated scales, the ALTE 'Can Do' statements in their original conception are userorientated. They assist communication between stakeholders in the testing process, and in particular the interpretation of test results by non-specialists. As such they provide: (a) a useful tool for those involved in teaching and testing language students. They can be used as a checklist of what language users can do and thus define the stage they are at; (b) a basis for developing diagnostic test tasks, activity-based curricula and teaching materials; (c) a means of carrying out an activity-based linguistic audit, of use to people concerned with language training and recruitment in companies; A fuller description ofthis project appears as an appendix to the Council ofEurope's Conunon European Frarnework of reference, and in the case studies edited by Charles Alderson. lFL\IL 30 (2001) The Association of Language Testers in Europe (ALTE) working towards a Framework ... 31 (d) a means of comparing the objectives of courses and materials in different languages but existing in the same context. They will be of use to people in training and personnel management, as they provide easily understandable descriptions of performance, which can be used in specifying requirements to language trainers, formulating job descriptions, specifying language requirements for new posts. 3.3 The ALTE 'Can Do' statements .are multilingual An important aspect of the 'Can Do' statements is that they are multilingual, having been translated so far into twelve of the languages represented in ALTE. These languages are: Catalan, Danish, Di.Itch, English, Finnish, French, German, ltalian, Norwegian, Portuguese, Spanish, Swedish. As language-neutral descriptions of levels of language proficiency they constitute a frame of reference to which different language examinations at different levels can potentially be related. They offer the chance to demonstrate equivalencies between the examination systems of ALTE members, in meaningful terms relating to the real-world language skills likely to be available to people achieving a pass in these examinations. 3.4 Organisation of the 'Can Do' statements The 'Can Do' scales consist currently of about 400 statements, organised into three general areas: Social and Tourist, Work, and Study. These are the three main areas of interest of most language learners. Each includes a number of more particular areas, e.g. the Social and Tourist area has sections on Shopping, Eating out, Accommodation etc. Each of these includes up to three scales, for the skills of Listening! Speaking, Reading and Writing. Listening! Speaking combines the scales relating to interaction. Each scale includes statements covering a range of levels. Some scales cover only a part of the proficiency range, as there are many situations in which only basic proficiency is required to achieve successful communication. 3.5 The development process The original development process went through these stages: (a) describing users of ALTE language tests through questionnaires, reports from schools, etc.; (b) using this information to specify range of candidate needs and identify major concems; (c) using test specifications and intemationally recognised levels such as Waystage and Threshold to draw up initial statemts; (d) moderating statements and assessing their relevance to test takers; FlLIIL 30 (2001) 32 Michael Milanovic (e) trialling statements with teachers and students with a view to evaluating relevance and transparency; (f) correcting, revising and simplifying the language of the statements in the light of the above. 3.6 Empirical validation of the ALTE 'Can Do' statements The scales as developed above have been subjected to an extended process of empirical validation. The validation process is aimed at transforming the 'Can Do' statements from an essentially subjective set of level descriptions into a calibrated measuring instrument. This is a long-term, ongoing process, which will continue as more data become available across the range of languages represented by ALTE. So far data collection has been based chiefly on self-report, the 'Can Do' scales being presented to respondents as a set of link: ed questionnaires. Nearly ten thousand respondents have completed questionnaires. For many of these respondents, additional data are available in the form of language examination results. This is believed to be by far the biggest collection of data ever undertaken to validate a descriptive language proficiency scale. Empirical work has started by looking at the internal coherence of the 'Can Do' scales themselves, the aims being: 1. To check the function of individual statements within each 'Can Do' scale; 2. To equate the different 'Can Do' scales, i.e. to establish the relative difficulty of the scales; 3. To investigate the neutrality of the 'Can Do' scales with respect to language. Questionnaires have been administered in the subjects' own first language, except at very advanced levels, and mainly in European countries. Respondents have been matched to appropriate questionnaires the Work scales given to people using a foreign language professionally, the Study scales to respondents engaged in a course of study through the medium of a foreign language, or preparing to do so. The Social and Tourist scales are given to other respondents, while selected scales from this area have also been included in the Work and Study questionnaires as an "anchor". Anchor items are used in data collection for a Rasch analysis in order to link different tests or questionnaires together. This creates one single measurement framework by using a matrix data collection design, or a series of overlapping test forms linked together by items which are common to adjacent forms, which are called anchor items. Such systematic use of anchor statements is necessary in order to enable the relative difficulty of the areas of use, and particular scales, to be established. The use of Social and Tourist scales as an anchor was based on the assumption that these areas call upon a common core of language proficiency and can be expected to provide the best point of reference for equating the Work and Study scales. lFLIIL 30 (2001) The Association of Language Testers in Europe (ALTE)working towards a Framework ... 33 Textual revision One outcome of the first phase has been a textual revision of the 'Can Do' scales. In particular, statements with negative orientation have been removed, as they proved problematic from a statistical point of view, and did not seem wholly appropriate to descriptions of levels of attainment. Here are two examples of the kind of changes made: 1. Negativestatements were rephrased positively, preserving original meaning: • Was: CANNOT answer more than simple, predictable questions. • Changed to: CAN answer simple, predictable questions. 2. Statements used as negative qualifications to a lower level statement were changed to positive statements intended to describe a higher level. • Was: CANNOT describe non-visible symptoms such as different kinds of pain,for example 'dull', 'stabbing', 'throbbing' etc. • Changed to: CAN describe non-visible symptoms such as different kinds of pain,for example 'dull', 'stabbing', 'throbbing' etc. Relating the 'Can Do' statements to ALTE examinations Following the initial calibration of the 'Can Do' statements, and the textual revision described above, attention has tumed to establishing the link between the 'Can Do' scales and other indicators of language level. In particular we have started looking at performance in ALTE examinations, and to the relation between the 'Can Do' scales and the Council of Europe Framework levels. Beginning in December 1998, data were collected to link 'Can Do' self-ratings to grades achieved in UCLES (University of Cambridge Local Examinations Syndicate) English as a Foreign Language examinations at different levels. A very clear relationship was found, making it possible to begin to describe the meaning of an examination grade in terms oftypical profiles of 'Can Do' ability. However, when 'Can Do' ratings are based on self-report, and come from a wide range of countries and respondent groups, we find some variability in respondents' overall perception of their own abilities. That is, people tend to understand "can do" somewhat differently, for reasons which may relate in part to factors such as age or cultural background. For some groups of respondents this weakens the correlation with their examination grades. Analytical approaches have been chosen to establish as clearly as possible the relationship between 'Can Do' self-ratings and criterion levels of proficiency as measured by examination grades. Further research based on 'Can Do' ratings by experienced raters will probably be necessary to fully characterise the relationship between examination grades and typical 'Can Do' profiles of ability. A conceptual problem to be addressed in this context concems the notion of mastery that is, what exactly do we mean by "can do"? A definition is required in terms of how Iikely we expect it to be that a person at a certain level can succeed at certain tasks. Should it be certain that the person will always succeed perfectly on the task? This would be too stringent a requirement. On the other band, a 50 per cent chance of succeeding would be too low to count as mastery. JFLlllL 30 (2001) 34 Michael Milanovic The figure of 80 per cent has been chosen, as an 80 per cent score is frequently used in domainor criterion-referenced testing as an indication of mastery in a given domain. Thus, candidates achieving an ordinary pass in an ALTE examination at a given level should have an 80 per cent chance of succeeding on tasks identified as describing that level. Data so far collected on Cambridge examination candidates indicate that this figure accords well with their average probability of endorsing 'Can Do' statements at the relevant level. This relationship has been found tobe fairly constant across exam levels. By defining "can do" explicitly in this way we have a basis for interpreting particular ALTE levels in terms of 'Can Do' skills. While the relation to examination performance has so far been based on Cambridge exams, data linking 'Can Do' statements to performance in other ALTE examinations will continue to be collected, allowing us to verify that these different examination systems relate in essentially the same way to the ALTE 6-level Framework. 3.7 Anchoring to the Council of Europe Framework In 1999 responses were collected in which anchors were provided by statements taken from the 1996 Council ofEurope Framework document (Modem Languages: Leaming, Teaching, Assessment. A common European Framework of reference). Anchors included: 1. the descriptors in the self-assessment grid of major categories of language use by level: Table 7 (Table 2, Chapter 3 in final published version 2001); 2. 16 descriptors relating to communicative aspects ofFluency, from illustrative scales. Table 7 (Table 2, Chapter 3 in final published version 2001) was chosen because in practice it is achieving wide use as a summary description of levels. ALTE's ability to collect response data in a large number of languages and countries provided an opportunity to contribute to the validation of the scales in Table 7. The "Fluency" statements had been recommended because they had been found to have the most stable difficulty estimates when measured in different contexts in the Swiss project (North 1996, 2000). lt was expected that they should thus enable a good equating of the ALTE Can-do statements to the Council of Europe Framework. The estimated difficulties of the "Fluency" statements were found to agree very closely with those given (North 1996, 2000), showing a correlation of r = 0.97. This constitutes an excellent anchor between the 'Can Do' statements and the scales used to illustrate the Council of Europe Framework. However, using Rasch analysis to equate sets of statements (scales) to each other is not straightforward. Data never fit the model exactly: there are issues of dimensionality, discrimination and differential item functioning (systematic variation of interpretation by different groups), which must be identified and dealt with so as to allow the truest possible relation of the scales to emerge. Dimensionality relates to the fact that the skills of Listening! Speaking, Reading and lFlLI\IL 30 (2001) The Association of Language Testers in Europe (ALTE)-working towards a Framework ... 35 Writing, though highly correlated, are still distinct: analyses in which they are separated produce more coherent, discrirninating distinctions of level. Variable discrimination is evident when we compare "Table 7" (Table 2, chap.3 in final version 2001) and the 'Can Do' statements. "Table 7" is found to produce a longer scale (to distinguish finer levels) than the 'Can Do' statements. lt seems likely that the reason for this is that "Table 7" represents the end product of an extended process of selection, analysis and refinement. The result of this process is that each level description is a composite of carefully selected typical elements, making it easier for respondents at a given level to recognise the level which best describes them. This produces a more coherent pattern of responses, which in turn produces a longer scale. This is in contrast to the present form of the 'Can Dos', which are still short, atomic, statements which have not yet been grouped into such rounded, holistic descriptions of levels. Group effects (differential item functioning) are evident in the fact that certain respondent groups (i.e. respondents to the Social and Tourist, W ork or Study forms of the questionnaire) are found to discrirninate levels considerably more finely on certain of the scales used as anchors, for reasons which have been difficult to identify. None of these effects are unexpected when using a Rasch modelling approach to scale equating. They indicate that a systematic, qualitative review of the texts of the individual statements themselves remains a necessary and important stage in arriving at a "final" equating of the scales. 3.8 Levels of proficiency in the ALTE Framework At the time of writing the ALTE Framework is a five-level system. The validation described above confirms that these correspond broadly to levels A2 to C2 of the Council of Europe Framework. Work on defining a further initial level (Breakthrough) is in progress, and the 'Can Do' project is contributing to the characterisation of this level. Thus the relation of the two Frameworks can be seen as follows in Table 1: Council of Europe Al A2 Bl B2 Cl C2 Levels ALTE ALTE ALTE ALTE ALTE ALTE ALTE Levels Breakthrough Level Level 1 Level 2 Level 3 Level 4 Level 5 Table 1: Council of Europe Levels and ALTE Levels The salient features of each ALTE level are as follows: ALTE Level 5 (Good User): the capacity to deal with material which is academic or cognitively demanding, and to use language to good effect, at a level of performance which may in certain respects be more advanced than that of an average native speaker. lFLllL 30 (2001) 36 Michael Milanovic Example: CAN scan texts for relevant information, and grasp main topic of text, reading almost as quickly as a native speaker. ALTE Level 4 (Competent User): an ability to communicate with the emphasis on how well it is done, in terms of appropriacy, sensitivity and the capacity to deal with unfamiliar topics. Example: CAN deal with hostile questioning confidently. CAN get and hold onto his! her turn to speak. ALTE Level 3 (Independent User): the capacity to achieve most goals and express oneself on a range of topics. Example: CAN show visitors round and give a detailed description of a place. - ALTE Level 2 (Threshold User): an ability to express oneself in a limited way in familiar situations and to deal in a general way with non-routine information. Example: CAN ask to open an account at a bank, provided that the procedure is straightforward. ALTE Level 1 (Waystage User): an ability to deal with simple, straightforward information and begin to express oneself in familiar contexts. Example: CAN take part in a routine conversation on simple predictable topics. ALTE Breakthrough Level: a basic ability to communicate and exchange information in a simple way. Example: CAN ask simple questions about a menu and understand simple answers. Further information on the ALTE framework is presented in Tables 2-8 (see page 37-43). ]F][.,UJL 30 (2001) The Association of Language Testers in Europe (ALTE) working towards a Framework ... 37 ALTE Level Listening/ Speaking Reading Writing ALTE CAN advise on or talk CAN understand docu- CAN write letters on any Level 5 about cpmplex or sensitive ments, correspondence subject and füll notes of issues, understanding coland reports, including the meetings or seminars with loquial references and finer points of complex good expression and accudealing confidently with texts. racy. hostile questions. ALTE CAN contribute effective- CAN read quickly enough CAN prepare/ draft profes- Level 4 ly to meetings and semito cope with an academic sional correspondence, nars within own area of course, to read the media take reasonably accurate work or keep up a casual for information or to unnotes in meetings or write conversation with a good derstand non-standard coran essay which shows an degree of fluency, coping respondence. ability to communicate. with abstract expressions. ALTE. CAN follow or give a talk CAN scan texts for rele- CAN make notes while Level 3 on a familiar topic or keep vant information, and unsomeone is talking or up a conversation on a derstand detailed instrucwrite a letter including fairly wide range of topics. tions or advice. non-standard requests. ALTE CAN express opinions on CAN understand routine CAN write letters or make Level 2 abstract/ cultural matters in information and articles, notes on familiar or prea lirnited way or offer adand the general meaning dictable matters. vice within a known area, of non-routine information and understand instrucwithin a familiar area. tions or public announcements. ALTE CAN express simple opi- CAN understand straight- CAN complete forms and Level 1 nions or requirements in a forward information write short simple letters familiar context. within a known area, such or postcards related to peras on products and signs sonal information. and simple textbooks or reports on familiar matters. ALTE CAN understand basic CAN understand basic CAN complete basic Breakinstructions or take part in notices, instructions or forms, and write notes inthrough a basic factual conversainformation. cluding times, dates and Level tion on a predictable topic. places. Table 2: ALTE Skill Level Summaries lFLlJIIIL 30 (2001) 38 Michael Milanovic ALTE Level Listening/ Speaking Reading Writing ALTE CAN talk about complex CAN (when looking for CAN write letters on any Level 5 or sensitive issues without accommodation) undersubject with good expresawkwardness. stand a tenancy agreement sion and accuracy. in detail, for example technical details and the main legal implications. ALTE CAN keep up conversa- CAN understand complex CAN write letters on most Level 4 tions of a casual nature for opinions/ arguments as exsubjects. Such difficulties an extended period of time pressed in serious newspaas the reader may experiand discuss abstract/ culpers. ence are likely to be at the tural topics with a good level of vocabulary. degree of fluency and range of expression. ALTE CAN keep up a conversa- CAN understand detailed CAN write to a hotel to Level 3 tion on a fairly wide range information, for example a ask about the availability of topics, such as personal wide range of culinary of services, for example and professional experienterms on a restaurant facilities for the disabled ces, events currently in the menu, and terms and abor the provision of a news. breviations in accommospecial diet. dation advertisements. ALTE CAN express opinions on CAN understand factual CAN write letters on a Level 2 abstract/ cultural matters in articles in newspapers, limited range of predica limited way and pick up routine letters from hotels table topics related to pernuances of meaning/ opiand letters expressing personal experience and exnion. sonal opinions. press opinions in predictable language. ALTE CAN express likes and CAN understand straight- Can complete most forms Level 1 dislikes in familiar conforward information, for related to personal infortexts using simple lanexample labels on food, mation. guage such as 'I (don't) standard menus, road signs like ... ' and messages on automatic cash machines. ALTE CAN ask simple questions CAN understand simple CAN leave a very simple Breakof a factual nature and unnotices and information, message for a host family through derstand answers expresfor example in airports, on or write short simple Level sed in simple language. store guides and on 'thank you' notes. menus. CAN understand simple instructions on medicines and simple directions to places. Table 3: ALTE Social & Tourist statements summary lFLIIIL 30 (2001) The Association of Language Testers in Europe (ALTE) working towards a Framework ... 39 Concern Activity Environment Language skill required Day-to-Day 1. Shopping Self-service shops Listening/ Speaking Survival Counter service shops Reading Market place 2. Eating Out Restaurants Listening/ Speaking Self-service (fast food) Reading 3. Hotel-type Hotels, B & B, etc. Listening/ Speaking accommodation Reading, Writing (form filling) 4. Renting temporary Agency, private land- Listening/ Speaking accommodation lord Reading, Writing (form filling) (flat, room, house) 5. Settling into Rost families Listening/ Speaking accommodation Reading, Writing (letters) 6. Using financial and Banks, bureaux de Listening/ Speaking postal services change, post offices Reading, Writing Health Getting/ staying well Chemist's, Doctor's Listening/ Speaking Hospital, Dentist' s Reading Travel Arriving in a country Airport/ port Listening/ Speaking Touring Railway/ bus station Reading, Writing (form filling) Getting/ giving direc- Street, garage, etc. tions Travel agency, Rental Hiring firms (car, boat, etc.) Emergencies Dealing with emergen- Public places Listening/ Speaking cy situations (accident, Private places, e.g. Reading illness, crime, car hotel room, Hospital, breakdown, etc.) Police station Sightseeing Getting information Tourist office, Travel Listening/ Speaking Going on tours agency, Tourist sights Reading Showing people around (monuments, etc.) Towns/ cities/ Schools/ colleges/ universities Socialising Casual meeting/ getting Discos, parties, Listening/ Speaking on with people schools, hotels, camp- Entertaining sites, restaurants, etc., Horne, away from home Media/ Cultural Watching TV, films, Horne, car, cinema, Listening/ Reading events plays etc. theatre, Listening to the radio 'Son et Lumiere', etc. Reading newspapers/ magazines Person. contacts Writing letters, post- Horne, away from Listening/ Speaking (telepho- (at a distance) cards, etc. home ne) Reading, Writing Table 4: ALTE social & tourist statements: Overview of concems and activities covered JFLUJL 30 (2001) 40 Michael Milanovic ALTE Level Listening/ Speaking Reading Writing ALTE CAN advise on/ handle CAN understand reports CAN make full and accu- Level 5 complex delicate or conand articles likely to be rate notes and continue to tentious issues, such as encountered during his/ her participate in a meeting or legal or financial matters, work, including complex seminar. to the extent that he/ she ideas expressed in comhas the necessary speciaplex language. list knowledge. ALTE CAN contribute effective- CAN understand corres- CAN handle a wide range Level 4 ly to meetings and semipondence expressed in of routine and non-routine nars within own area of non-standard language. situations in which profeswork and argue for or sional services are requesagainst a case. ted from colleagues or extemal contacts. ALTE CAN take and pass on CAN understand most cor- CAN deal with all routine Level 3 most messages that are respondence, reports and requests for goods or serlikely to require attention factual product literature vices. during a normal working he/ she is likely to come day. across. ALTE Level CAN offer advice to CAN understand the gen- CAN make reasonably 2 clients within own job area eral meaning of non-rouaccurate notes at a meeting on simple matters. tine letters and theoretical or seminar where the subarticles within own work ject matter is familiar and area. predictable. ALTE CAN state simple require- CAN understand most CAN write a short, com- Level 1 ments within own job short reports or manuals of prehensible note of request area, such as 'I want to a predictable nature within to a colleague or a known order 25 of... ' his/ her own area of expercontact in another compatise, provided enough time ny. is given. ALTE CAN take and pass on CAN understand short CAN write a simple rou- Breaksimple messages of a roureports or product descriptine request to a colleague, through tine kind, such as 'Friday tions on familiar matters, such as 'Can I have 20X Level meeting 10 a.m.' if these are expressed in please? ' simple language and the contents are predictable. Table 5: ALTE WORK statements summary JFLIIL 30 (2001) The Association of Language Testers in Europe (ALTE) working towards a Framework ... 41 Overview of concerns and activities covered Concern Activity Environment Language skill required Work-related services 1. Requesting work- Workplace (office, Listening/ Speaking related services factory, etc,) Writing 2. Providing work- Workplace (office, Listening/ Speaking related services factory, etc,) Writing customer's home, Meetings and seminars Participating in meet- Workplace (office, Listening/ Speaking ings and seminars factory, etc.), confe- Writing (notes) rence centre Formal presentations Following and giving a Conference centre, Listening/ Speaking and demonstrations presentation or demonexhibition centre, Writing (notes) stration factory, laboratory, etc. Correspondence Understanding and Workplace (office, Reading writing faxes, letters, factory, etc.) Writing memos, e-maii, etc. Reading Reports Understanding and Workplace (office, Reading writing reports (of subfactory, etc.) Writing stantial length and formality) Publicly available in- Getting relevant infor- Workplace (office, Reading formation mation (from e.g. profactory, etc.), home duct literature, professional/ trade joumals, advertisements, web sites, etc. Instructions and guide- Understanding notices Workplace (office, Reading lines (e.g. safety) factory, etc.) Writing Understanding and writing instructions (in, for example, installation, operation and maintenance manuals) Telephone Making outgoing calls Office, home, hotel Listening/ Speaking/ Writ- Receiving incoming room, etc. ing (notes) calls (inc. taking messages/ writing notes) Table 6: ALTE W0RK statements JFLuL 30 (2001) 42 Michael Milanovic ALTE Level Listening/ Speaking Reading Writing ALTE CAN understand jokes, CAN access all sources CAN make accurate and Level 5 colloquial asides and culof information quickly complete notes during the tural allusions. and reliably. course of a lecture, seminar or tutorial. ALTE CAN follow abstract ar- CAN read quickly CAN write an essay Level 4 gumentation, for example enough to cope with the which shows ability to the balancing of altematidemands of an academic communicate, giving few ves and the drawing of a course. difficulties for the reader. conclusion. ALTE CAN give a clear presen- CAN scan texts for rele- CAN make simple notes Level 3 tation on a familiar topic, vant information and that will be of reasonable and answer predictable or grasp main point of text. use for essay or revision factual questions. purposes. ALTE CAN understand instruc- CAN understand basic CAN write down some Level 2 tions on classes and asinstructions and messainformation at a lecture, signments given by a ges, for example compuif this is more or less dieteacher or lecturer. ter library catalogues, tated. with some help. ALTE CAN express simple opi- CAN understand the gen- CAN write a very short Level 1 nions using expressions eral meaning of a simplisimple narrative or dessuch as 'I don't agree'. fied text book or article, cription, such as 'My last reading very slowly. holiday'. ALTE CAN understand basic CAN read basic notices CAN copy times, dates Breakinstructions on class and instructions. and places from notices through times, dates and room on classroom board or Level numbers, and on asnotice board. signments to be carried out. Table 7: ALTE Study statements summary J! 1JL111L 30 (2001) The Association of Language Testers in Europe (ALTE) working towards a Framework ... 43 Concern Activity Environment Language skill required Lectures, talks, pre- 1. Following a lecture, Lecture hall, class- Listening/ Speaking sentations and demontalk, presentation or room, laboratory, Writing (notes) strations demonstration etc. 2. Giving a lecture talk, presentation or demonstration Seminars and tutorials Participating in semi- Classroom, study Listening/ Speaking nars and tutorials Writing (notes) Textbooks, articles, Gathering information Study, library, etc. Reading etc. Writing (notes) Essays Writing essays Study, library, exa- Writing mination room, etc. Accounts Writing up accounts Study, laboratory Writing (e.g. of an experiment) Reference skills Accessing information Library, resource Reading (e.g. from a computer centre, etc. Writing (notes) base, library, dictionary, etc.) Management of Study Making arrangements, Lecture hall, class- Listening/ Speaking e.g. with college staff room study, etc. Reading on deadlines for work to Writing be handed in Table 8: ALTE STUDY statements: Overview of concems and activities 4. Other AL TE projects 4.1 Working groups With the expansion in membership of ALTE, various project groups have developed in order to cover specific areas of interest. Among these are a group covering the area of qualifications for teachers, a group looking at examinations of language in the workplace and another covering examinations for younger learners. Each group has a co-ordinator and members report back to main ALTE meetings to ensure a good flow of information and interest. FLU! L 30 (2001) 44 Michael Milanovic 4.2 The European Year of Languages - Portfolio project ALTE is playing a füll part in initiatives for the European Year of Languages. ALTE has co-operated with EAQUALS (the European Association for Quality Language Services) on the production of a version of the European Language Portfolio specifically aimed at adult language learners. The EAQUALS-ALTE Portfolio includes the required three parts (Passport, Language Biography and Dossier) and has been validated by the Council of Europe, receiving an official accreditation number at the beginning of 2001. 4.2.1 Passport The Passport includes the standard pages required by the Council of Europe, as well as the ALTE Framework and space in which to record ALTE examinations taken and/ or courses attended in EAQUALS member schools. 4.2.2 Language Biography This part gives users space in which to record and consider in more depth their language abilities and learning experiences. The headings have been left relatively short, so that users have freedom to use the pages as they wish: this was feit tobe important given the wide range of types of adult language user. The final section of the Language Biography incorporates language checklists produced by a Swiss National Science Foundation project (Schneider/ North 2001). 4.2.3 Dossier This part of the EAQUALS-ALTE Portfolio provides a grid on which the user can record the documents and other materials being kept in the Portfolio (pieces of work the owner of the Portfolio particularly wants to keep or be able to show people, certificates and other documents). 4.3 ALTE conference in Barcelona European Language Testing Jssues in a Global context: ALTE members organised a conference in Barcelona from 5 to 7 July, as a unique forum for language testers from all over Europe to discuss issues and exchange ideas relevant to their work. As well as speakers representing most European languages, there were also many from the rest of the world, taking part in over 60 sessions. The plenary speakers were: Professor Charles ALDERSON (Lancaster University, UK) -The shape of things to come: Will it be the Normal Distribution? Dr. Anne LAZARATON (University of Minnesota, USA): Qualitative research methods in language test development and validation Dr Wolfgang MACKIEWICZ (Freie Universität Berlin, Germany) - Higher Education andf Language Policy in the European Union Dott. Ispettore Raffaele SANZO (Ministern della Pubblica Istruzione, Italy) -Foreign languages within the frame of 1talian educational reform lFlLUJilL 30 (2001) The Association of Language Testers in Europe (ALTE) working towards a Framework ... 45 Mr Joe SHEILS (Modem Languages Division, DGIV, Council of Europe, Strasbourg, France) - Council of Europe language policy and the promotion of plurilinguism Dr John TRIM (Project Director for Modem Languages, Council of Europe, 1971 - 1997) -The Common European Framework and its implications for language testing. 5. Conclusion ALTE set itselfthree main objectives in 1990 which were: 1. to establish common levels of proficiency in order to promote the transnational recognition of certification in Europe; 2. to establish common standards for all stages of the language-testing process: that is, for test development, task and item writing, test administration, marking and grading, reporting of test results, test analysis and reporting of findings; 3. to collaborate on joint projects andin the exchange of ideas and know-how. During the intervening years, much progress has been made in all areas. Members have made their examination development processes more explicit, common standards have been described, a code of professional practice published, examinations have been placed on a multilingual framework not just on the basis of intuition, but also on the basis of innovative empirical work, and a formal committee to conduct more detailed work in the area of good professional practice has been established. These represent but a few examples of ALTE work. There are many more, not least of which has been a great deal of innovative work in the area of multilingual computerised assessment, which was awarded the European Academic Software award for the year 2000. 2 Much work remains to be done, but ALTE members continue to work towards the main objectives and the growing membership reflects the importance many organisations in Europe place in ALTE. Bibliography ALDERSON, J. Charles (1991): "Bandsand scores". In: ALDERSON, J. Charles/ NORTH, Brian (eds.): Language testing in the 1990s: The communicative legacy. London: British Council/ Macmillan, 71-'-86. ALTE Handbook of Language Examinations and Examination Systems (available from ALTE Secretariat, University of Cambridge Local Examinations Syndicate, 1 Hills Road, Cambridge, CB 1 2EU). NORTH, Brian (1996): The development of a commonframework scale of language proficiency based on a theory of measurement, Unpublished Ph.D. thesis. Thames Valley University. NORTH, Brian (2000): The development of a common framework scale of language proficiency. New York: Lang. SCHNEIDER, Günther / NORTH, Brian (2001). Fremdsprachen können was heisst das? Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunikationsfähigkeit. Zürich: Rüegger. 2 Further information about ALTE can be obtained from: ALTE Secretariat, 1 Hills Road, Cambridge CB 1 2EU - Tel: +44 1223 553925 -Fax: +44 1223 553036e-mail: alte@ucles.org.uk-http: / / www.alte.org. IFLUBL 30 (2001) Wolf-Dieter Krause, Uta Sändig * ECCELLENTT - Konzeption und Ergebnisse Abstract. ECCELLENTT is a LINGUA European Cooperation Project, the aim of which was the development of materials and courses in support of the professional development of foreign language teachers. The project lasting from 1997 to 2000 has been developed cooperatively by universities andinservice training organisations from six EU countries: Belgium (VSKO Flanders), Finland (OPEKO), France (CUEF Grenoble), Germany (University of Potsdam) and the United Kingdom (University of Hull). ECCELLENTT is an acronym for Evaluation of Communicative Competence in European Language Learning Encompassing New Testing Technologies.This contribution aims to present a critical summary of the results of the project both from the point of view of school and language policy and theoretical added value. 0. Einführende Bemerkungen Das europäische Kooperationsprojekt (ECP) mit dem Akronym ECCELLENTT (Evaluation of Communicative Competence in European Language Learning Encompassing New Testing Technologies) hatte von 1997 bis 2000 sechs Bildungseimichtungen aus sechs verschiedenen Ländern der Europäischen Gemeinschaft zusammengeführt (siehe auch Krause 1999 und Krause/ Sändig 1999). Ins Leben gerufen wurde dieses Projekt vom Flämischen Katholischen Schulwesen, präziser vom Lehrerweiterbildungszentrum in Brüssel (VZW Navorming in het Katholiek Onderwijs). Projektpartner waren ein finnisches Sprachenzentrum in Tampere/ Heinola (OPEKO), die Universität Hull (Institute for Learning and Curriculum Development Unit), die Universität Grenoble (Centre Universitaire d'Etudes Frangaises), die Universität Lissabon (Faculdade de Letras) und schließlich die Universität Potsdam (Institut für Germanistik/ Deutsch als Zweit- und Fremdsprache). Vereinendes Ziel des Unternehmens war es, sich über Fragen der Bewertung, des Testens und Messens von Leistungen im modernen kommunikativ orientierten Fremdsprachenunterricht auszutauschen und ein gemeinsames Konstrukt zu schaffen, das trotz (wie bald deutlich wurde) zum Teil beträchtlicher unterschiedlicher theoretischer und praktischer Ausgangspositionen einen tragfähigen Ansatz für die Test- und Bewertungspraxis im Fremdsprachenunterricht im europäischen Rahmen bilden könnte. Das Projekt reiht sich ein in eine Vielzahl von Aktivitäten der EU zum Erfahrungsaus- * Korrespondenzadresse: Dr. habil. Wolf-Dieter KRAUSE, Hochschuldozent, Universität Potsdam, Institut für Germanistik (Bereich DaF/ DaZ), Postfach 601553, 14145 POTSDAM. E-mail: WKrause@rz.uni-potsdam.de Arbeitsbereiche: Textlinguistik, Konfrontative Linguistik, Deutsch als Fremdsprache. Dr. Uta SÄNDIG, wissenschaftl. Mitarbeiterin, Universität Potsdam, Institut für Germanistik (Bereich DaF/ DaZ), Postfach 601553, 14145 POTSDAM. E-mail: USaendig@rz.uni-potsdam.de Arbeitsbereiche: Didaktik DaF/ DaZ. lFLllllL 30 (2001) ECCELLENTT - Konzeption und Ergebnisse 47 tausch über einen modernen Fremdsprachenunterricht in Europa, speziell auch über dessen Lehr-, Lern- und Bewertungspraxis (verwiesen sei insbesondere auf Coste 1998). Nach dem (vorläufigen) Abschluss des Projekts ist es sicher zweckmäßig, die Ergebnisse dieses Unterfangens zu reflektieren: Was konnte von den ambitionierten schulpolitischen Zielen, von dem angestrebten theoretischen Erkenntniszuwachs und den geplanten praktischen Unternehmungen umgesetzt werden? Da dazu von den Projektinitiatoren und -koordinatoren des Katholischen Bildungswesens in Belgien bereits ein umfassender Band in Flämisch vorliegt (van Thienen/ Schollaert 2000), erscheint eine kritisch-resümierende Nachschau auf das Projekt auch aus der Perspektive der deutschen Projektpartner berechtigt und notwendig. 1 Ergebnisse können nur in Relation zu den Zielstellungen gewichtet und bewertet werden. Deshalb ist es erforderlich, noch einmal die Motive und vor allem die Ziele von ECCELLENTI zu skizzieren. Das entscheidende Motiv für die Projektteilnehmer war zweifellos vor allem unter dem Eindruck eines sich rasch erweiternden und zusammenwachsenden Europa und der damit zusammenhängenden Notwendigkeiten in der Sprachenpolitik die aus ihrer Sicht recht unbefriedigende gesamteuropäische Praxis der Bewertung von Lernergebnissen in einem kommunikativ ausgerichteten Fremdsprachenunterricht. Das betrifft sowohl die Uneinheitlichkeit dieser Praxis schon in einem Land, geschweige denn in Europa, ja oft sogar in einer Schule bei unterschiedlichen Fremdsprachen als auch ihre mangelnde theoretische Fundierung. Während für das Testen und Bewerten fremdsprachlichen Wissens im Hinblick auf Validität und Reliabilität im allgemeinen weniger Probleme existieren, ist die Unsicherheit und teilweise Konfusion bezüglich der Test- und Prüfpraxis und der konkreten Bewertung, sprich Messung fremdsprachlichen Könnens notorisch. Das Testen sprachlichen Wissens im Hinblick auf lexikalische und grammatische Kenntnisse außerhalb kommunikativer Zusammenhänge ist also noch relativ unkompliziert und kann seit der Grammatik-Übersetzungs-Methode auf eine lange Tradition und umfangreiche Erfahrungswerte zurückgreifen. Die Bewertung komplexer rezeptiver und produktiver Sprachtätigkeiten unter Berücksichtigung intentionaler und situativer Parameter also des sprachlichen Könnens ist dagegen weitaus schwieriger und problematischer: Unter welchen Gesichtspunkten sollen derartige sprachlich-kommunikative Tätigkeiten beurteilt werden? Geht es allein um den „kommunikativen Effekt", um das Gelingen der Sprachhandlung/ des Sprechakts? Welche Rolle spielt die sprachliche Korrektheit? Wie ist die Vergleichbarkeit der Prüfungen und Tests gewährleistet, zumal wenn es um Zertifikate geht, die oft von transnationaler Bedeutung sind? Welche Testaufgaben und Testverfahren sind besonders geeignet, kommunikative Kompetenz zu überprüfen? Die Liste der Fragen ließe sich unschwer um eine Reihe weiterer verlängern. Die qualitativen Veränderungen bei den Zielen des Fremdsprachenunterrichts ziehen logischerweise auch andere Ansprüche für die Bewertung nach sich und sollten auch zu einer anderen Bewertungspraxis führen. Die Eine umfassende Buchpublikation zur Theorie und Praxis der Bewertung von kommunikativen Leistungen im Fremdsprachenunterricht unter Einschluss der Ergebnisse von ECCELLENTT wird von den Autoren dieses Beitrags für den Peter-Lang-Verlag vorbereitet. JFLIIL 30 (2001) 48 Wolf-Dieter Krause, Uta Sändig geänderten Ansprüche wirken sich zwar vor allem auf die Bewertung der produktiven Fähigkeiten aus, aber auch bei den rezeptiven Fähigkeiten sind durchaus mehrere Niveaus des Verstehens zu unterscheiden (vgl. 2.5.). Gerade die Veränderung der Praxis der Bewertung in den Schulen (test for the best) war der entscheidende Arbeitsschwerpunkt von ECCELLENTI. 1. Schul- und sprachenpolitische Zielvorstellungen von ECCELLENTI Die übergeordnete schulpolitische Zielvorstellung expliziert im Gründungsdokument des Projekts, das im September 1997 auf der ersten Tagung in Gent (Belgien) angenommen wurde war es, einen Beitrag für eine abgestimmte und stringente Fremdsprachenpolitik im gesamteuropäischen Rahmen zu leisten: "Tue ultimate aim of the ECCELLENTT project is to contribute to a coherent foreign language policy at school level" (aus dem Gründungspapier). Als Ausgangs- und Ansatzpunkt wurde dabei wie oben bereits hervorgehoben nicht zufällig die Problematik der Bewertung im Fremdsprachenunterricht gewählt, sondern weil die angesprochenen Defizite bei der Bewertung der kommunikativen Kompetenz evident sind und von ihrer Behebung (zumindest ansatzweise) ein wichtiger Impuls für die Beförderung eines stärker kommunikativen Herangehens im Fremdsprachenunterricht in der EU erhofft wurde. 1.1 Spezifische Ziele und Maßnahmen zu ihrer Umsetzung Folgende konkrete Ziele und Schritte wurden in diesem Zusammenhang von den Projektpartnern 1997 vereinbart und in Angriff genommen: 1. Durchführung einer Reihe von parallelen Lingua-B-Fortbildungskursen (inset courses resp. in-service training courses) für Fremdsprachenlehrer aus allgemeinbildenden Schulen bzw. aus der Erwachsenenbildung zur Bewertung kommunikativer Kompetenz für fünf verschiedene Sprachen (Englisch, Französisch, Deutsch, Portugiesisch und Finnisch), wobei allerdings für Finnisch wegen der besonderen sprachlichen Situation eine spezielle Lösung vorgesehen war. Da Finnisch als Fremdsprache in den anderen Ländern der EU so gut wie nicht gelehrt wird, wurde hier ins Auge gefasst, in Heinola bzw.Tampere Sprachkurse für Finnisch auf Anfängerniveau zu organisieren, die mit dem oben genannten Projektziel verknüpft werden sollten. 2. Es wurde angestrebt, dass an diesen Kursen möglichst 2 bis 3 Lehrkräfte unterschiedlicher Fremdsprachen pro interessierter Schule teilnehmen, die dann sog. multidisziplinäre task forces bilden sollten, um den Gedanken von ECCELLENTI in diesen und anderen Schulen zu multiplizieren. Es war auch angedacht, aus diesem Kreis spezielle Berater sowie Dozenten für weitere Fortbildungskurse und interne Koordinatoren zu gewinnen und diese in speziellen Kursen zur Umsetzung der ECCELLENTT-Ziele zu befähigen. 3. Schulen, die besonders erfolgreich und aktiv an diesem ECCELLENTT-Projekt mitwirken, sollten das sogenannte ECCELLENTT-Label erhalten. Diese Auszeichnung war lFLllL 30 (2001) ECCEUENTT- Konzeption und Ergebnisse 49 durch die Idee der Europäischen Kommission inspiriert, für spezielle Anstrengungen auf dem Gebiet des Fremdsprachenerwerbs ein Europäisches Gütesiegel (European quality labe! ) zu initiieren. Diese Schulen sollten in einem Netzwerk interagieren. 4. Ausarbeitung von theoretischen Grundlagen für eine verbesserte Testpraxis im Fremdsprachenunterricht sowie Erarbeitung von sprachspezifischen Syllabi der Projektpartner mit Beispielen von Tests zu den einzelnen zu prüfenden Sprachtätigkeiten als Grundlage für die Kurse und die Arbeit mit den Lehrkräften. 5. Wie aus dem Akronym ECCELLENTT deutlich wird, war vorgesehen, einen spezifischen Akzent auf die Anwendung moderner Medien in der Prüfungs- und Testpraxis im Fremdsprachenunterricht zu setzen (encompassing new testing technologies). 1.2 Erfolge und Defizite bei der Umsetzung der schul- und sprachenpolitischen Zielstellungen 1.2.1 Die LINGUA-B-Kurse Die Werbung für die LINGUA-B-Kurse erfolgte mit Hilfe von Flyern, die von den jeweiligen Partnern über entsprechende Kanäle an potentielle Interessenten verteilt wurden. In einem Beiblatt gab es zusätzlich explizite Hinweise auf die mögliche Finanzierung der Kurse über LINGUA-Stipendien durch die jeweilige nationale LINGUA- Agentur. Auf die Kurse in Hull, Grenoble und Tampere/ Heinola wurde in Deutschland z.B. auch in der Zeitschrift Neusprachliche Mitteilungen des Fachverbands Modeme Fremdsprachen (FMF) regelmäßig aufmerksam gemacht. Bis zum Frühjahr 2001 konnten insgesamt 10 LINGUA-B-Kurse durchgeführt werden: 5 in Grenoble für 108 belgische Französischlehrer, 2 in Hull für48 belgische Englischlehrer, 1 in Hull für 17 französische Englischlehrer, 2 in Potsdam für 37 belgische Deutschlehrer, Hinzu kommen für 1999 noch ein spanischer, ein finnischer, ein deutscher und zwei portugiesische LINGUA-Stipendiaten sowie für 2000 ein spanischer Stipendiat und zwei portugiesische, die in laufende Kurse in Grenoble integriert wurden. In Potsdam wurden 1999 für Teilnehmer des Internationalen Sommersprachkurses der Universität Arbeitsgruppen mit der ECCELLENTT-Problematik angeboten, an denen 15 Studenten und Lehrkräfte für Deutsch als Fremdsprache teilnahmen. Keine Kurse wurden wegen organisatorischer Schwierigkeiten von den portugiesischen Partnern offeriert, für die finnischen Sprachkurse fanden sich keine Teilnehmer. Diese Statistik lässt folgende Schlussfolgerungen zu: Die Werbung für die ECCELLENTT-Kurse über Ausschreibungen, Flyer u.ä. hat sich als nicht unbedingt effektiv erwiesen, zumindest können auf diesem individuellen Weg der Werbung nicht so viele Teilnehmer geworben werden, dass eine ökonomisch vertretbare Organisation von Kursen gewährleistet ist. So ist aus Hull bekannt, dass sich dort durchaus noch weitere Einzelbewerber mit Stipendien gemeldet hatten, die FJLuL 30 (2001) 50 Wolf-Dieter Krause, Uta Sändig Kurse aber auf Grund einer von der Administration gesetzten Mindestzahl nicht durchgeführt werden konnten. Aus verschiedenen Informationen in den einzelnen Ländern wurde deutlich, dass die Zahl der gewährten LINGUA-Stipendien, die zudem noch auf mehrere Projekte zu verteilen sind, einfach zu gering ist, um LINGUA-B- Kurse wirtschaftlich sinnvoll durchführen zu können. Außerdem muss man sine ira et studio feststellen, dass die Bereitschaft, für die Fortbildung eigene finanzielle Mittel einzusetzen, offenbar noch geringer ist. Sinnvoll ist es deshalb offensichtlich, spezifische Module mit der angezielten Thematik auch in andere Organisationsformen einzubauen. Das hat sich als günstig bei den ECCELLENTT-Modulen in den Sommersprachkursen in Potsdam als auch bei der Integration in andere Kursformen in Grenoble erwiesen. Hier ist also Flexibilität in der Organisation gefragt, um den ECCELLENTT-Gedanken zu verbreiten und gewährte Einzelstipendien für diese Zwecke zu nutzen. Am effektivsten ist es offenbar, gezielt über die LINGUA-Agenturen ganze Kurse mit ausgangssprachlich homogenen Teilnehmern vorzubereiten. Das zeigen deutlich die neun Kurse, die die belgischen Partner in Grenoble, Hull und Potsdam durchführen konnten. Das ist auch von der technischen und finanziellen Abwicklung wesentlicher unkomplizierter. Aber hier gibt es in den einzelnen Ländern ganz offensichtlich sehr unterschiedliche Modalitäten der Stipendienvergabe und Möglichkeiten des Zugangs zu diesen Finanzierungsquellen. Die inhaltliche Auswertung der Kurse durch die Veranstalter und die Evaluierung durch die Teilnehmer hat ergeben, dass sie eine sehr effektive Form der Fortbildung sind und von den Teilnehmern geschätzt wurden (vgl. auch Krause 1999: 38 f). Auf diese Weise konnte die Zielstellung von ECCELLENTT sehr kompakt vermittelt werden, gab es einen intensiven, oft kontroversen Gedankenaustausch über theoretische und praktische Probleme des Bewertens und Testens, exemplarische praktische Versuche sowie sprachliche und landeskundliche Fortbildung und einen Erfahrungsaustausch mit Lehrkräften verschiedenster Bildungseinrichtungen. Dies hat auch die Partner bewogen, trotz der geschilderten Schwierigkeiten nach Möglichkeit über die Zeitdauer des Projekts hinaus weitere Kurse durchzuführen (zumindest bei Anforderung durch einen der Projektpartner, hier insbesondere durch die belgische Seite). 1.2.2 Etablierung von Task forces und Verleihung des Qualitätslabels Die Gewinnung von fremdsprachenübergreifenden Multiplikatoren in den Schulen der Projekt-Länder ist bisher allein in Belgien gelungen. Dort gab es insgesamt 92 Schulen, die sich am EcCELLENTT-Projekt beteiligen. Von diesen Schulen haben 53 das Qualitätslabel durch das belgische katholische Schulwesen (VSKO) verliehen bekommen. Nach dem Auslaufen des Projekts werden 21 Schulen weiter in thematischen Netzwerken zum Testen und Evaluieren von Leistungen im Fremdsprachenunterricht (Englisch, Französisch und Deutsch) zusammenarbeiten, wobei jede Schule aus ihrem spezifischen Gesichtswinkel, d.h. gemäß eigener Interessenlage zu diesen Netzwerken beiträgt. Das VSKO unterstützt diese Zusammenarbeit ideell und materiell. Das Gesamtprojekt hat in lFLl! L 30 (2001) ECCELLENIT - Konzeption und Ergebnisse 51 Belgien den Status eines nationalen Fortbildungsprojekts für Fremdsprachenlehrer und wird als Beispiel guter Praxisarbeit sowohl seitens der belgischen Fachberater als auch der Schulinspektoren anerkannt. Vergleichbares ist auch nur ansatzweise in den anderen Ländern nicht realisierbar gewesen. In Deutschland steht schon die förderale Struktur des Bildungswesens solchen nationalen Projekten entgegen. Eine nicht zu unterschätzende Rolle spielen dabei auch die Größe des Landes und die geringen personellen und materiellen Ressourcen in den kooperierenden Einrichtungen in England, Frankreich, Deutschland, Portugal und Finnland. Während in diesen Ländern nur jeweils zwei Mitarbeiter einen bestimmten, relativ geringen Teil ihrer Arbeitskraft der Projektarbeit und damit auch seiner Verbreitung widmen konnten, steht in Belgien dafür ein spezielles Team mit Mitarbeitern zur Verfügung, die auch mehrere Projekte nebeneinander betreiben. Es gibt aber jetzt den Versuch, im Rahmen von COMENIUS über einen spezifischen Implementierungskurs im November 2001 in Lissabon (Implementation strategiesfor a school-focused assessment policy in Foreign Language Learning) die Gedanken von ECCELLENTT europaweit stärker zu verankern. Dieser Kurs wendet sich primär an Fachberater, Inspektoren, Lehrerbildner, Entscheidungsträger und Anbieter von Fortbildungsmaßnahmen in der Europäischen Union. 1.2.3 Theoretische Grundlagenarbeit und praktische Testmaterialien In dieser Hinsicht hat ECCELLENTT zweifellos wesentliche Impulse für die Arbeit der Partner gegeben und wichtige Ergebnisse erbracht (vgl. auch Krause/ Sändig 1999 und van Thienen/ Schollaert 2000). So wurde zunächst ein theoretisch-begrifflicher Rahmen für die praktischen Unternehmungen erarbeitet (Conceptual Frameworkfor the Assessment of Communicative Competence, vgl. dazu Schollaert/ van Thienen 1998) ). Diese im Verlauf der Projektarbeit immer wieder diskutierten und im Detail revidierten Grundpositionen stützen sich u.a. auf die Arbeiten von Canale/ Swain (1980), Bolton (1985), Weir (1993) und Bachman/ Palmer (1996) und beschreiben solche wichtigen Parameter wie 1. die Komponenten eines Tests, 2. die Eigenschaften eines Tests, 3. die Art und Weise, wie diese Eigenschaften in Verbindung zu den Komponenten eines Tests sowie untereinander stehen, und schließlich 4. die Etappen des Testaufbaus (zu einigen Details s. Punkt 2.). Diese konzeptionellen Grundsatzüberlegungen wurden flankiert von Instrumentarien zur Testbewertung (test evaluation tool), zur Konstruktion von Tests (test construction tool) und zur Erklärung von Tests (test explanation tool), einer Liste von Operationen beim Testen, einer Liste von Texttypen sowie von Aufgabentypen. Jede teilnehmende Eimichtung erstellte schließlich einen spezifischen Syllabus in der jeweiligen Sprache (Englisch, Französisch, Deutsch, Portugiesisch und Finnisch), der neben den Übersetzungen der genannten theoretischen Grundlagen ein umfängliches Angebot an praktischen sprachspezifischen Testbeispielen zu den einzelnen Sprachtätigkeiten enthält. Dieser Syllabus wurde in jedem Projektjahr neu diskutiert und revidiert und durch einen Terminikatalog und eine Bibliographie von Arbeiten zum Testen und Bewerten ergänzt (zu ausgewählte theoretischen Fragestellungen und Testbeispielen s. unten). Diese lFL111L 30 (2001) 52 Wolf-Dieter Krause, Uta Sändig Syllabi dienten als Ausgangspositionen für die praktische Arbeit in den Kursen und für Diskussionen mit Fremdsprachenlehrern. Für Potsdam ergibt sich in dieser Hinsicht schließlich noch ein weiterer Aspekt: die Einbeziehung von ECCELLENTT-Ergebnissen in die Lehre und Forschung, genauer im Rahmen der Ausbildung von künftigen Lehrern für Deutsch als Zweit- und Fremdsprache bzw. von Spezialisierungen hinsichtlich DaZ/ DaF innerhalb der Magisterausbildung Germanistische Linguistik. So gab es im Lehrangebot einige Proseminare bzw. ein Hauptseminar zu Fragen der Bewertung von Leistungen im Fremdsprachenunterricht mit den entsprechenden studentischen Semesterarbeiten. Bezüglich der Forschung sind Vorträge vor wissenschaftlichen Gremien und auf Konferenzen sowie bereits erfolgte und noch zu leistende Publikationen zu Fragen der Evaluierung und Leistungsmessung im Fremdsprachenunterricht zu erwähnen (vgl. Krause 1999 und Krause/ Sändig 1999). 1.2.4 Der Einsatz von neuen Medien in der Testpraxis In diesem Bereich musste sehr deutlich die anfänglich vorgesehene Zielorientierung revidiert werden, weil die Probleme, die mit der Ausarbeitung der theoretischen Basis von ECCELLENTT und der Entwicklung von Testmaterialien und Kursen verbunden waren, so viel Zeit beanspruchten, dass entscheidende Schritte in Bezug auf die mediale Seite des Testens mit den vorhandenen personellen und materiellen Mitteln nicht gegangen werden konnten. Das äußerte sich dann auch in der zwischenzeitlichen Revidierung des Projektnamens: Aus emphazising new technologies wurde abgeschwächt encompassing new technologies. Ausgeglichen wurde das allerdings durch eine Parallelprojekt der belgischen Koordinatoren zusammen mit der Universität Hull und einem griechischen Partner (Hellenic-American Union) unter dem Akronym COCTALE (Communicative Competence Testing Templates for the Acquisition of Languages in Europe). Die dort entwickelten Testmodelle basierten auf den theoretischen Überlegungen von ECCELLENTT (vgl. van Thienen/ Schollaert 2000: 18). Man kann mithin konstatieren, dass ECCELLENTT Beachtliches auf dem Gebiet der Bereicherung und Annäherung der theoretischen Ausgangspositionen der Projektteilnehmer und der Beförderung einer guten Testpraxis erbracht und über die Kurse zumindest gute Ansätze und Beispiele für eine Vereinheitlichung der Testpraxis in Europa demonstriert hat. Die weitergehenden schulpolitischen Zielstellungen konnten dagegen nur in Belgien realisiert werden. Generell scheint der Schluss erlaubt, dass Projekte mit solch weitreichender schulpolitischer Zielstellung wie EcCELLENTT nur von Teams realisiert werden können, die über entsprechende personelle Ressourcen verfügen und bis zu einem gewissen Grade auf solche Aufgaben spezialisiert sind. Die Durchführung von internationalen Fortbildungskursen und von zusätzlichen nationalen Kursen für Multiplikatoren, die Erarbeitung eines notwendigen theoretischen Gerüsts, die Erstellung praktischer Testunterlagen, gar unter Einbeziehung neuer Medien, der Aufbau eines Disseminationsnetzes, die notwendigen Kontakte und Vereinbarungen mit Schulbehörden etc. sind neben den anderen Verpflichtungen in Lehre und Forschung nicht bzw. nicht mit der notwendigen Qualität zu leisten. lFLmllL 30 (2001) ECCELLENIT - Konzeption und Ergebnisse 53 2. Erkenntniszuwachs und Desiderata Was den gemeinsam erworbenen Erkenntniszuwachs betrifft, so waren die Projektpartner daran in unterschiedlicher Weise beteiligt, abhängig von den o.g. und weiteren objektiven und subjektiven Ausgangsbedingungen (Relevanz des Themas im nationalen Rahmen, Status der Institution, Forschungstraditionen und Denkstile, Tätigkeitsmerkmale der Beteiligten, zeitliche Ressourcen, organisatorische Möglichkeiten). Die deutschen Projektpartner dürfen wohl für sich in Anspruch nehmen, bei der Diskussion und Formulierung des Theorieteils mit tonangebend gewirkt und darüber hinaus das Problembewusstsein für einige Desiderata geschärft zu haben. Ein Erkenntniszuwachs kann insbesondere für die folgenden Teilbereiche des Themas konstatiert werden: 1. Die allgemein geltend gemachten Gütekriterien von Tests (vgl. z.B. Albers/ Bolton 1995: 22 ff) wurden für kommunikativ ausgerichtete Tests, denen das Hauptaugenmerk des Projektes galt, spezifiziert und durch weitere Merkmale ergänzt. 2. Eine weite Textauffassung, die auch „textähnliche" Produkte einschließt, wurde auf den Output von Tests bezogen, mit dem Ergebnis, eine erweiterte Sicht auf den Rahmen erlangt zu haben, der für kommunikativ gestaltete Tests gelten kann. 3. Für jede Sprachfertigkeit wurde eine Liste von Aufgabentypen erstellt; den einzelnen Aufgabentypen wurden Testverfahren bzw. typische sprachliche Aktivitäten zugeordnet und durch Beispielskizzen ergänzt. 4. Die Auflistung und Beschreibung empfehlenswerter Testverfahren/ Aktivitäten konnte durch Zurkenntnisnahme der je landesüblichen Verfahren und durch Weiterentwicklung einiger Verfahren komplettiert werden. 5. Es wurde eine Diskussionsgrundlage erarbeitet, die die geistig-sprachlichen Operationen der rezeptiven wie auch produktiven Textverarbeitung systematisch und nutzerorientiert (Lehreraus- und -weiterbildung) zu beschreiben sucht. 6. Für das schwierige Problem der Bewertung von Tests wurden einige weiterführende Lösungsvorschläge diskutiert, darunter ein Fragenkatalog für die Lerner, der den Prozess der Rückkopplung und Selbstevaluation unterstützen soll. Im Folgenden wird auf die genannten Aspekte ausführlicher eingegangen, wobei einige Überlegungen über den im „Syllabus" (vgl. Sändig 2000) dokumentierten Erkenntnisstand hinausgehen und außerdem Desiderata markieren. 2.1 Qualitätsmerkmale für Tests zur Ermittlung kommunikativer Kompetenzen Der Schwerpunkt des Projektes lag, wie schon erwähnt, auf Tests mit kommunikativer Ausrichtung. Der Unterschied zwischen kommunikativen Performanztests und kommunikativen Kompetenztests (auf den z.B. Grotjahn 2000: 323 ff recht ausführlich eingeht) wurde von der Mehrheit der Projektpartner für vernachlässigbar im Sinne der Aufgabenstellung des Projektes angesehen und bei der Diskussion der Gütekriterien nicht berücksichtigt. In den Mittelpunkt der Aufmerksamkeit wurde vielmehr die Notwendigkeit gestellt, die Liste der Gütekriterien für kommunikativ angelegte Tests überhaupt zu FLllL 30 (2001) 54 Wolf-Dieter Krause, Uta Sändig ergänzen. Neben den mittlerweile als unbestritten geltenden Merkmalen Validität, Reliabilität und Praktikabilität (in den ersten beiden erscheint nach Meinung der Projekt- Partner auch das Kriterium der Objektivität aufgehoben) werden gemäß den Anregungen von Bachman/ Palmer (1996: 23 f) die Merkmale Authentizität und Integrativität geltend gemacht. Authentizität sei zunächst einmal verstanden als eine Eigenschaft von Kommunikationssituationen: Der Kommunikationsanlass muss echt (nicht simuliert/ gestellt), das Kommunikationsziel real existent und das Kommunikationsmedium adäquat sein. Bezogen auf die Testpraxis stellt sich Authentizität als eine Qualität von Texten, Aufgaben und Fertigkeiten dar: Diese sind um so authentischer, je mehr sie echten muttersprachlichen Kommunikationssituationen entsprechen. Allerdings sind eine Reihe von Fragen zum Authentizitätsbegriff offen geblieben, die wir schon in Krause/ Sändig (1999: 104 ff) zu thematisieren suchten, insbesondere: l.Wie sind die Begriffe Authentizität, Quasi-Authentizität und gemäßigte Authentizität voneinander abzugrenzen? 2. Wie sinnvoll ist die Authentizitätsforderung für bestimmte Testverfahren (z.B. Cloze-elide-Test)? 3. Kann der Authentizitätsbegriff auch auf die Ebene einzelner Teilfertigkeiten „heruntergebrochen" werden? 4. Sollte auch fremdsprachlichen Texten unter bestimmten Bedingungen das Merkmal der Authentizität zugesprochen werden? Integrativität bezieht sich auf die Forderung, den Lerner als Subjekt mit all seinen Eigenschaften und Kompetenzen zu mobilisieren und in das Testgeschehen einzubeziehen, insbesondere natürlich mit seiner kommunikativen Kompetenz. Als Folge-Kriterium, das die Phase nach dem Test betrifft, wird außerdem das Merkmalspaar Effekt und Rückkopplung eingeführt: Testergebnisse sollen nicht nur ermittelt, sondern mit den Lernern angemessen ausgewertet werden. Für die festgestellten Kompetenzdefizite sind geeignete Therapieschritte zu vereinbaren. Eine Testauswertung soll darüber hinaus Schlussfolgerungen für die weitere Gestaltung des Sprachlehr- und -lernprozesses enthalten, die sich beziehen können auf: didaktische Konzepte, Methoden, Aufgaben, Materialien sowie auf die Berücksichtigung individueller Besonderheiten der Lerner- (und Lehrer-)persönlichkeiten. 2.2 Weite Textauffassung und Output Die Frage, inwieweit ein Text als authentisch zu beurteilen ist, hängt nicht zuletzt davon ab, was unter einem 'Text' verstanden wird. Die wohl gängigste Auffassung definiert den Text als geschlossene, relativ selbständige Redeeinheit (diese Definition dürfte zuerst bei Conrad 1975: 271 stehen) und legt die Frage nahe, ob darunter nur ausformulierte Ganztexte bzw. komplette Dialoge fallen. Oder sind nicht auch solche „textähnlichen" Produkte dazu zu rechnen wie (im schriftlichen Bereich) Schild, Plakat, ListeNerzeichnis, Visitenkarte, Speisekarte, Quittung, Formular, Fragebogen bzw. (im mündlichen Bereich) Ansage/ Durchsage, Anweisung, Aufruf, Warnung, Smalltalk, Austausch von Höflichkeitsfloskeln? Und stellen in der Praxis nicht auch solche Hervorbringungen wie Notizen, Merk-/ Stichwortzettel, Gliederungen, Mindmaps u.ä. Endergebnisse der Textproduktion dar? Indem für eine entsprechend weite Textauffassung plädiert wird, erscheinen die JFJLIIL 30 (2001) ECCELLENTT - Konzeption und Ergebnisse 55 Möglichkeiten testgeeigneter kommunikativer Aufgabenstellungen deutlich erweitert. Dazu sei ein Beispiel aus einem Elementarbereich der Textproduktion angeführt: Schreibtest: Einkaufsliste schreiben Aufgabe: Du willst mit deinem deutschen Freund am Wochenende zelten. Dafür müsst ihr noch Lebensmittel einkaufen. Schreib eine Einkaufsliste ( auf Deutsch, damit dein Freund sie auch lesen kann), die mindestens 15 Produkte nennt. 2.3 Systematisierung: Aufgabentypen und Testverfahren Die Frage nach einem praktikablen Ordnungsverfahren, das eine gut nachvollziehbare Präsentation der verschiedenartigen Testaufgaben erlaubt, wurde durch die Beschreibung von Aufgabentypen gelöst. Aufgabentypen werden verstanden als Grundformen geistigsprachlicher Aktivitäten, die sich in der Realisierung unterschiedlicher kommunikativ dimensionierter Aufgabenstellungen manifestieren können. Die Übersichten in Tabelle 1 und 2 stellen eine Weiterentwicklung der 1999 von uns präsentierten Listen (vgl. Krause/ Sändig 1999: 90 ff) dar. Die Reihenfolge der Aufgabentypen ist so gewählt, dass a) bei den Rezeptionsaufgaben mit solchen geistig-sprachlichen Aktivitäten begonnen wird, die keine sprachproduktiven Eigenleistungen erfordern, und b) bei den Aufgaben zur Sprachproduktion von den elementareren zu den komplexen Aktivitäten vorangeschritten wird. Tab.1: Aufgabentypen und Testverfahren zur Überprüfung der rezeptiven fremdsprachlichen Fertigkeiten Leseverstehen (LV) und Hörverstehen (HV) AUFGABENTYPEN ► Testverfahren/ (typische Aktivitäten) 1,_ Indizieren: "Indizien" für das Verstehen bestimmter Textelemente liefern, ohne eine sprachproduktive Eigenleistung zu erbringen ► Markieren: Textteile (Buchstabe ➔ Textpassage) unterstreichen o.ä. (LV) ► Zitieren: mit Textzitaten (Wort ➔ Textpassage) antworten (HV, LV) b Reihen: die richtige Reihenfolge der Informationen herstellen· ► Textsegmente in die richtige Reihenfolge bringen, z.B. Numerieren (HV, LV) ► Ordnen: verbale oder nonverbale Informationen (z.B. Bilder) nach Reihenfolge ihres Vorkommens im Text ordnen (HV, LV) ; 1,_ Zuordnen: zusammengehörige Informationen auch nonverbale einander zuordnen ► Überschriften, Zusammenfassungen o.ä. den entsprechenden Textabschnitten zuordnen (LV) ► Bilder, Grafiken o.ä. den zugehörigen Textaussagen zuordnen (LV, HV) lFL111L 30 (2001) 56 Wolf-Dieter Krause, Uta Sändig ! . Sortieren: Informationen ordnen bzw. aussondern ► Auflisten: Textinformationen nach vorgegebenen Kriterien in Listen, Tabellen o.ä. erfassen (HV, LV) ► Eliminieren: vorgegebene Informationen aussondern, z.B. durchstreichen, die im rezipierten Text nicht enthalten sind (HV, LV) ~ Reproduzieren: Text wortgetreu wiedergeben ► Diktat schreiben: Wort(gruppen)diktat, Ganztextdiktat, Lückendiktat (HV) ~ Antworten auswählen: die richtige(n) unter mehreren vorgegebenen Antworten zum Text markieren, z.B. ankreuzen ► Richtig-falsch-Test, Ja-Nein-Test, Multiple-choice-Test L. Ergänzen: einen Lückentext komplettieren ► offen gelassene Stellen im rezipierten Text (LV) bzw. in Aussagen zum Text (LV, HV) füllen ► Cloze-Verfahren: Nach den einleitenden Sätzen des Textes (LV) werden Wortteile/ Wörter entsprechend bestimmten Regeln gelöscht; die so entstandenen Lücken müssen rekonstruiert werden. Cloze-Test, Lückentest, zusammenfassender Cloze-Test, C-Test ~ Korrigieren: einen fehlerhaften Text berichtigen ► Korrekturtest: einen Text mit orthographischen, grammatischen oder semantischen (falsche Begriffe) Fehlern korrigieren (LV) ► Cloze-elide-Test: nicht in den Text gehörende Wörter streichen (LV) ► korrektiver Hörtest: die Unterschiede zwischen gehörter und gedruckter Textvariante markieren bzw. korrigieren (HV) 2: Umformen: 9.1 Text(teile) in eine andere sprachliche Gestalt bringen ► Umschreiben: Bedeutungen paraphrasieren, Synonyme finden ► Textinfos stichwortartig oder in einer Liste, Tabelle, ... erfassen (HV, LV) 9.2 Textinformationen als nonverbale Zeichen darstellen ► Zahlen, Maße, Zeitangaben, ... als Ziffern notieren (HV) ► Diagramm, Skizze, Bild, ... zu einem Text erstellen (HV, LV) 9.3 „Spezialfall" Übersetzen: Text(teile) in die Muttersprache übertragen ► Übersetzung (LV), Simultanübersetzung (HV) 10. Strukturieren: Textinformationen ordnen, komprimieren und pointieren ► Hauptgedanken/ Gliederung des Textes notieren (LV, HV) ► (Zwischen-)Überschriften zum Text formulieren (LV, HV) 11. Produzieren: Rezeptionsergebnisse verbalisieren ► Antworten zum Text formulieren (LV, HV) eindeutige Kurzantworten, (stark) gelenkte Antworten, freie Antworten ► Zusammenfassen/ Resümieren: den Textinhalt kurz darlegen (LV, HV) lFLllllL 30 (2001) ECCELLENIT - Konzeption und Ergebnisse Tab.2: Aufgabentypen, typische Aktivitäten und Beispiele zur Überprüfung der fremdsprachlichen Fertigkeiten Schreiben (Sehr) und Sprechen (Sp) AUFGABENTYPEN ► Typische Aktivitäten und Beispiele 1. Reproduzieren: Text wortgetreu oder sinngemäß wiedergeben ► Abschrift, Diktat, Gedächtnisprotokoll von einem Text (Sehr) ► Buchstabieren (z.B. Eigennamen am Telefon) (Sp) ► Wiederholen (z.B. Informationen zur Verständnissicherung) (Sp) ► Vorlesen (z.B. Lesung,Vortrag) (Sp) ► Text auswendig vortragen/ vorspielen (Rezitation, Sketch, Schauspiel, ...) (Sp) b Bezeichnen: treffende Benennungen finden ► Beschriften (Etikett, Kuvert, eine Skizze... ) ► Gegenstände/ Phänomene (z.B. Geräusche) benennen (Sp) ► Liste (z.B. Einkaufsliste), Verzeichnis (z.B. Inhaltsverzeichnis), Merkzettel, ... anlegen (Sehr); "Kofferpacken" (Sp) J, Ergänzen: unvollständigen Text komplettieren ► Lückentext füllen (z.B. Einsetzen der Satz-(fextverknüpfer) (Sehr) ► Informationen in einen vorgegebenen Text (z.B. Formular, Fragebogen) einfügen (Sehr) ► Textteile (z.B. offen gelassener Part in einem Dialog (Sp), offener Schluss (Sehr)) ergänzen ~ Überarbeiten: Text korrigieren, revidieren, redigieren (i.d.R. schriftlich) ► korrekte Textversion herstellen (z.B. Korrekturvorschlag unterbreiten) ► Text bearbeiten (z.B. Endfassung erstellen) ~ Umformen: 5.1 Text(teile) in eine andere sprachliche Gestalt bringen ► Nacherzählen (z.B. Geschichte, Märchen) (Sp) ► Textsorte oder Textperspektive wechseln (z.B. Erzählung dramatisieren, Wechsel des Ich- Erzählers) (Sp, Sehr) ► Mitteilungsabsicht ändern (z.B. Privat- ➔ Geschäftsbrief, neutrale ➔ kritische Darstellung) (Sehr, Sp) 5.2 nonverbale Informationen verbalisieren ► bildhafte und andere Zeichenversprachlichen (z.B. Ablesen der Uhrzeit, Verbalisieren von Pictogrammen, Wegbeschreibung nach Skizze) (meist Sp) 5.3 „Spezialfall" Übersetzen: Text(teile) in die Fremdsprache übertragen 57 ► Übersetzung (Sehr), Simultanübersetzung (Sp) ➔➔ IFL1llliL 30 (2001) 58 Wolf-Dieter Krause, Uta Sändig ~ Ausformulieren: aus vorgegebenen Stichworten oder (eigenen) Notizen einen Text formulieren ► aus Versatzstücken einen Text formulieren (z.B. Erzählen mit Formulierungshilfen, Lebenslauf aus Textbausteinen erstellen) (Sp, Sehr) ► Stichworte vertexten (z.B. Protokoll, Vortrag/ Gespräch nach Stichwortzettel) (Sehr, Sp) L. Strukturieren: ein textartiges Zwischen- oder Endprodukt formulieren, Aussagen in eine Rang-/ Reihenfolge bringen ► Stichwortsammlung anlegen (z.B. schriftliches Brainstorming) ► Gliederung erstellen, Redeplan ausarbeiten, Überschriften finden (z.B. für die schriftliche Vorbereitung eines Redebeitrags) ► Zusammenfassen, Rekapitulieren, Resümee verfassen (Sehr, Sp) ~ Produzieren: 8.1 (sehr) kurze Gebrauchsformen realisieren ► (Sehr) (z.B. Schild, Plakat, Bildunterschrift, Annonce, Geschäfts-Nisitenkarte, Kurzmitteilung, Aktennotiz) ► (Sp) (z.B. Durchsage, Aufruf, Austausch von Höflichkeitsfloskeln) 8.2 Gelenkte Textproduktion: Text nach verbalen/ nonverbalen Impulsen bzw. mit Hilfestellung produzieren ► bildhafte und andere nonverbale Zeichen interpretieren (z.B. Diagramm, Statistik u.ä. erläutern/ kommentieren; Bildbeschreibung, Musikinterpretation, "Hörspaziergang") (Sp, Sehr) ► auf einen Text mit einem Text reagieren (z.B. Antwortbrief, Gegenrede) ► diverse Texttypen/ -sorten gelenkt (gemäß Aufgabenstellung, mit sprachlicher Hilfestellung) realisieren (Sehr, Sp) 8.3 Freie Textproduktion (ohne sprachliche Hilfestellung) ► diverse Texttypen/ -sorten realisieren ► kreative Textproduktion (z.B. Essay, Dichtung (Sehr), Stegreifspiel (Sp)) 2.4 Testverfahren und typische Aktivitäten Wie unter 2.3. zur Kenntnis zu nehmen war, wurde die Übersicht über die Aufgabentypen mit einer Auflistung der zugehörigen Testverfahren bzw. typischen sprachlichen Aktivitäten verbunden. Im Verständnis der Projektpartner bezieht sich der Begriff Testverfahren auf die meisten Rezeptionstests und einige Tests zum Sprachwissen (auf die hier nicht näher eingegangen wird), während für alle anderen Tests der Begriff typische Aktivität treffender ist. Diese Unterscheidung wird mit Blick auf einen wesentlichen Unterschied zwischen Rezeptionstests und solchen zur Sprachproduktion vorgenommen: Prozesse der Textrezeption können nur indirekt getestet werden. Entsprechend könnte man die dazu angewendeten Testverfahren als „Tricks" bezeichnen, um „Indizienbeweise" für die Qualität der Realisierung bestimmter rezeptiver Teilleistungen zu erlangen. Lese- oder Hörverstehenstests können also kein komplettes Endprodukt im Sinne der Dokumentation eines totalen Textverständnisses erfassen, sondern lassen JFLuL 30 (2001) ECCEUENTT - Konzeption und Ergebnisse 59 höchstens aussagekräftige Rückschlüsse auf die Realisierung ausgewählter, ggf. "exemplarischer" Teilfertigkeiten zu. Die anfallende Datenmenge hängt v.a. von den Testverfahren ab. Die Sprachproduktion hingegen wird direkt getestet. Je nach Aufgabenstellung ist ein mehr oder weniger komplexer Output zu beurteilen, im Falle kommunikativ angelegter Tests, die ja in der Regel auf das Endprodukt 'Text' fixiert sind, ein hochkomplexer. Die Auswahl und Bewertung geeigneter Daten aus dieser komplexen Datenmenge geschieht unter ausgewählten Fragestellungen und ist in erster Linie eine Frage der praktizierten Bewertungsverfahren. Was die Liste der Testverfahren (rezeptiv) betrifft, so gehen wir davon aus, dass sie auch in Zukunft erweitert, differenziert und „verfeinert" werden kann, nicht zuletzt durch den Einsatz neuer Medien. Die Liste der typischen Aktivitäten (produktiv) korrespondiert mit den zu realisierenden Text-/ Diskurstypen; ihre Beschaffenheit hängt nicht unwesentlich von der zu Grunde gelegten Textauffassung ab (vgl. 2.2.). Wer eine Aufstellung praktikabler Testverfahren vornehmen will, kommt mit Blick auf internationale Veröffentlichungen nicht an Weir (1993) und Bachman/ Palmer (1996) vorbei. Die deutsche Fachliteratur hat u.a. mit den verdienstvollen Publikationen von Albers/ Bolton (1995) bzw. Bolton (1996) diese Anregungen aufgegriffen und mit Blick auf die Aus- und Weiterbildung von DaF-Lehrern entfaltet. Außerdem sind hierzulande in den letzten Jahren verschiedene Aufgabensammlungen/ -typologien erschienen - Neuner/ Krüger/ Grewer (1981 ), Doye (1992), Häussermann/ Piepho (1996) -, in denen nicht zuletzt auch solche Aufgaben vorgeschlagen werden, die bei entsprechender Einrichtung die Anforderungen an Testverfahren/ testgeeignete Aktivitäten erfüllen. In den Syllabus wurden aber auch Testverfahren aufgenommen, die in den genannten Publikationen keine Erwähnung finden bzw. die bislang nicht in allen beteiligten Ländern praktiziert werden. Aus deutscher Perspektive ist dabei auf folgende Verfahren hinzuweisen: • Cloze-elide-Test: In einen Lesetext werden an verschiedenen Stellen zusätzliche und nicht dazu passende Wörter eingefügt, die die Lerner herausfinden und markieren sollen. • Korrektiver Hörtest: Den Lernern wird eine gedruckte Variante eines Hörtextes vorgelegt, die nicht komplett mit dem Wortlaut des Hörtextes übereinstimmt (einzelne Wortteile, z.B. Endungen, oder Wörter oder auch kurze Textpassagen weichen ab). Die Lerner haben während des Hörens die abweichenden Stellen zu markieren bzw., was die Aufgabe erschwert, zu korrigieren. • Markiertest: Die Lerner markieren (unterstreichen o.ä.) bestimmte Textteile (von Einzelbuchstaben bis zu ganzen Textpassagen) gemäß einer Aufgabenstellung (z.B. "Unterstreiche alle geographischen Eigennamen"). • Zitiertest: Die Lerner antworten auf Fragen zum Text mit Textzitaten. IFLIIL 30 (2001) 60 Wolf-Dieter Krause, Uta Sändig 2.5 Diskussionsangebot: Beschreibung geistig-sprachlicher Operationen der Textrezeption bzw. Textproduktion Ein Diskussionsschwerpunkt des Projektes bestand darin, kommunikative Teilfertigkeiten bzw. geistig-sprachliche Operationen der Textverarbeitung vor dem Hintergrund der Frage zu beschreiben: Welche kommunikativen Kompetenzen können per Test sinnvoll überprüft werden und welche Aufgabentypen bzw. Testverfahren/ Aktivitäten eignen sich für die Überprüfung welcher Teilkompetenzen am besten? Die Übersicht unterscheidet drei Ebenen der rezeptiven bzw. produktiven Textverarbeitung und legt Bezüge zwischen Operationen und Aufgabentypen nahe, die aber im Projekt nicht mehr im Einzelnen diskutiert werden konnten. Dies bleibt Folgepublikationen wie der oben angekündigten vorbehalten. Tab.3: Ebenen der rezeptiven und produktiven Textverarbeitung 1. MAKRO-EBENE: Text als Ganzes 1.1 Schaffen einer Ausgangsbasis (strategische Kompetenz): ► Aktivieren mentaler Schemata durch eine kommunikative Aufgabenstellung (verbale und/ oder nonverbale Impulse) 1.2 Realisieren des sozialen und situativen Kontextes (soziolinguistische Kompetenz): ► Wer spricht/ schreibt für wen, worüber und zu welchem Zweck? ► Kommunikationsbereich, Textsorte, Register/ Ton, Konventionen 1.3 Realisieren der Textbedeutung als Ganzes (strategische Kompetenz): ► Inhalt im Überblick, Hauptaussagen, Botschaft des Textes 1.4 Realisieren ausgewählter Textteile (strategische Kompetenz): ► wichtige Passagen, spezielle Informationen, Schlüsselstellen (ziel-/ bedürfnisabhängig) 2. Diskurs-Ebene: Inhalt und Wirkung 2.1 Realisieren der expliziten Bedeutung 2.1.1 Entwickelnmachvollziehen der Struktur und Organisation des Textes (Diskurskompetenz): ► Aufbau und Entfaltung von Ideen, Argumenten, einer Story usw. ► Anordnung von Informationen, Fakten, Vorgängen usw. ► unterschiedliche Bedeutsamkeit der Informationen ► Funktion einzelner Textteile, Absätze usw. ► Hauptgedanken - Details ► Fakten - Meinungen ► Feststellungen, Argumente, Beweise, Beispiele, Zitate, ... lFLlllL 30 (2001) ECCEUENIT - Konzeption und Ergebnisse 61 2.1.2 Realisieren der Sprachhandlungen/ Sprechakte (soziolinguistische Kompetenz): ► Merkmale der Sprachhandlungen ► explizit ausgedrückte Wertungen, Emotionen, ... 2.1.3 Realisieren der kommunikativen Funktionen des Textes und der entsprechenden Konventionen (soziolinguistische Kompetenz): ► typische Merkmale und Konventionen der Textsorte/ des Diskurstyps der Textpräsentation (z.B. Layout; Prosodik, Gestik) 2.2 Realisieren der impliziten Bedeutung (strategische Kompetenz): ► indirekte Aussagen "zwischen den Zeilen") ► Anspielungen, Metaphern, Humor, Ironie, ... ► implizit enthaltenen Wertungen 2.3 Realisieren von sprachbegleitenden Komponenten, die den Textsinn unterstützen (strategische Kompetenz): ► Hervorhebungen (durch Schriftart, Unterstreichungen usw.), Tabellen, Skizzen; Tonfall, Mimik, Gestik, ... 3. Linguistische Ebene: Sprachliche Umsetzung Alle auf den Ebenen 1. und 2. getroffenen Entscheidungen haben Konsequenzen für die sprachliche Umsetzung (sprachliche Kompetenz). 3.1 Rechtschreibung bzw. Phonetik/ Intonation 3.2 Lexik/ Semantik 3.3 Grammatik: Morphologie, Syntax, Textgrammatik 3.4 Speziell: lexikalische und grammatische Kohäsion ► Referenzwörter, Satzverknüpfer, Textmarker, ... 3.5 Stilistik: Stilschicht/ -färbung, Register/ Ton, Varietäten 2.6 Bewertung: Fragen an den Output Was die Auswertung und Beurteilung von Testergebnissen betrifft, so war die Diskussion im EcCELLENTT-Team durch die sehr unterschiedlichen nationalen Bewertungstraditionen (Richtlinien der Schulbehörden/ Prüfungsämter, unterschiedliche Punkte- und Prozentwertung, Zensurenskala, Akzeptanz von Verbalurteilen usw.) geprägt. Aus diesem Grunde verzichtete man auf den Versuch, im Syllabus einen konsensfähigen Detailvorschlag zu unterbreiten. Die Reflexion der nationalen Bewertungspraxis wurde den Partnern überlassen. Aus deutscher Sicht war in diesem Zusammenhang eine Reihe von interessanten Publikationen zur Kenntnis zu nehmen, insbesondere das Themenheft „Benoten und Bewerten" (1998) der Reihe Fremdsprache Deutsch, wobei der Beitrag von Glaboniat (1998: 20 ff) hervorzuheben ist, und die Fernstudieneinheit von Kleppin (1998). lFL1lllL 30 (2001) 62 Wolf-Dieter Krause, Uta Sändig Eine gemeinsame Position konnte hingegen bezüglich relevanter Fragestellungen an den Output gefunden werden, wobei zwischen einem Fragenset für die Lehrer und einem für die Lerner unterschieden wurde. Letzteres erschien dem ECCELLENTT-Team im Sinne einer lemerorientierten Vorgehensweise besonders wichtig, nicht zuletzt, weil damit der Prozess der Rückkopplung und auch der Selbstevaluation befördert werden kann. Im Folgenden soll am Beispiel der Bewertung mündlicher Texte die Vorgehensweise demonstriert werden (entsprechende Fragespiegel wurden auch für die anderen Fertigkeiten erarbeitet). Fragen für den Lerner: Bewertung mündlicher Texte Inhalt Habe ich passend zum Thema gesprochen? 1B Haben alle meine Aussagen zum Thema gehört und habe ich nichts vergessen? 1B Habe ich treffende Einzelheiten, Beispiele, Argumente usw. genannt? 1B Habe ich mir nicht selbst widersprochen? Text Habe ich meine Gedanken in eine passende Textform gebracht? 1B Habe ich eine geeignete Textsorte gewählt und die typischen Merkmale dieser Textsorte beachtet? (Habe ich z.B. bei meinem Telefongespräch die dafür üblichen Regeln der Gesprächsführung berücksichtigt? Habe ich bei meiner Wegbeschreibung alle notwendigen Richtungsangaben und Orientierungspunkte genannt? Ist mein Diskussionsbeitrag als Argumentation aufgebaut? ) 1B Habe ich meine Ausführungen logisch entwickelt und kann man ihnen gut folgen? (Hat z.B. meine Bildbeschreibung eine logische Reihenfolge? Hat man meinen Pro- und Kontra- Argumenten gut folgen können? Ist bei meinem Vortrag die gedankliche Gliederung deutlich geworden? ) 1B Hat die Art meines Vortrags/ meine Sprechweise die Gedankenführung unterstützt? (Habe ich z.B. im richtigen Tempo gesprochen? Habe ich die wichtigsten Aussagen betont und an den richtigen Stellen Pausen gemacht? ) Sprache Habe ich mich verständlich und korrekt ausgedrückt? 1B Habe ich die richtigen Worte gefunden, die genau das sagen, was ich meine? 1B Waren meine Sätze korrekt gebaut und gut verknüpft? 1B Hat die Grammatik gestimmt; haben Aussprache und Satzmelodie den Regeln entsprochen? Wirkung Bin ich mir sicher, dass meine Worte so auf die Hörer gewirkt haben, wie ich das wollte? 1B Habe ich eine passende Darstellungsart gewählt? (Für ältere Lerner: Habe ich die richtigen Sprechakte/ Kommunikationsverfahren/ Sprachhandlungen angewendet? ) lFLUllL 30 (2001) ECCELLENIT - Konzeption und Ergebnisse 63 (Habe ich z.B. im Einkaufsgespräch gezielt gefragt bzw. geantwortet? Habe ich in meiner Erzählung die wichtigen Situationen spannend geschildert? Habe ich bei meinem Spendenaufruf überzeugt und die Hörer aktiviert? ) ! EI Habe ich meinen Gesprächspartnern zugehört bzw. mich vorher informiert, was sie interessieren könnte? Bin ich auf sie eingegangen? Habe ich den richtigen Ton getroffen? (War ich z.B. in einem Gespräch mit einer offiziellen Person höflich genug? Habe ich meinen lustigen Kinobesuch humorvoll erzählt? Habe ich während der Diskussion die Argumente meiner Partner berücksichtigt und am Schluss eine sachliche Zusammenfassung formuliert? ) ! EI Habe ich meine Aussagen in einem guten Stil formuliert? (Habe ich mich z.B. "mündlich" ausgedrückt? Habe ich bei meiner Gratulation die üblichen Floskeln benutzt bzw. mit ihnen „gespielt"? Habe ich in meinem Vortrag die notwendigen fachsprachlichen Vokabeln verwendet? Habe ich meine Beschreibung anschaulich formuliert? ) ! EI Habe ich langsam und deutlich gesprochen? War meine Körpersprache überzeugend? Im Sinne einer transparenten Rückkopplungsphase ist es erforderlich, dass sich die "Fragen für den Lerner" in einem Kriterienmenü für die Testauswertung wiederfinden. Hier einen praktikablen Vorschlag für ein abgestimmtes Vorgehen zu unterbreiten, bleibt künftigen Publikationen vorbehalten. Literatur ALBERS, Hans-Georg/ BOLTON, Sibylle (1995): Testen und Prüfen in der Grundstufe. Einstufungstests und Sprachstandsprüfungen. (Fernstudienangebot Deutsch als Fremdsprache). Berlin [u.a.]: Langenscheidt. BACHMAN, Lyle F. / PALMER, Adrian S. (1996): Language testing in practice. Oxford: Oxford University Press. BENOTEN UND BEWERTEN (1998). Fremdsprache Deutsch 19. Stuttgart: Klett. B0LT0N, Sibylle (1985): Die Gütebestimmung kommunikativer Tests. Tübingen: Narr. B0LT0N, Sibylle (1996): Probleme der Leistungsmessung. Lernfortschrittstests in der Grundstufe. Berlin [u.a.]: Langenscheidt. CANALE, Michael/ SWAIN, Merril (1980): "Theoretical bases of communicative approaches to second language teaching and testing". In: Applied Linguistics 1, 1-47. C0NRAD, Rudi (Hrsg.) (1975): Kleines Wörterbuch sprachwissenschaftlicher Termini. Leipzig: Bibliographisches Institut. C0STE, Daniel [et al.] (1998): Modern languages: Learning, teaching, assessment. A common European framework of reference. Strasbourg. D0YE, Peter (1992): Typologie von Testaufgaben für den Unterricht Deutsch als Fremdsprache. Berlin [u.a.]: Langenscheidt. GARDENGHI, Monica/ O'C0NNELL, Mary (Hrsg.) (1997): Prüfen, Testen, Bewerten im modernen Fremdsprachenunterricht. Frankfurt [u.a.]: Lang. GLAB0NIAT, Manuela (1998): "Auf der Suche nach 'Objektivität'. Zur Benotung und Bewertung schriftlicher Textproduktionen". In: Fremdsprache Deutsch 19 (Stuttgart: Klett), 20---24. GR0TJAHN, Rüdiger (2000): "Testtheorie: Grundzüge und Anwendungen in der Praxis". In: Sprache - Kultur-Politik. Beiträge der 27. Jahrestagung Deutsch als Fremdsprache vom 3.-5. Juni 1999 an der Universität Regensburg. Universität Regensburg: Fachverband Deutsch als Fremdsprache, 305- 341. lFLuL 30 (2001) 64 Wolf-Dieter Krause, Uta Sändig HÄUSSERMANN, Ulrich/ PIEPHO, Hans-Eberhardt (1996): Aufgaben-Handbuch Deutsch als Fremdsprache: Abriß einer Aufgaben- und Übungstypologie. München: iudicium. KLEPPIN, Karin (1998): Fehler und Fehlerkorrektur. Berlin [u.a.]: Langenscheidt. KRAUSE, Wolf-Dieter (1999): "Zur Evaluierung sprachlich-kommunikativer Leistungen im Fremdsprachenunterricht (unter besonderer Berücksichtigung von ECCELLENTI). In: Studienkolleg. Zeitschrift zur Pädagogik und Didaktik studienvorbereitender Kurse für ausländische Studierende 5, 30-40. KRAUSE, Wolf-Dieter/ SÄNDIG, Uta (1999): "Zur Effektivierung von Leistungskontrollen und Tests für die Überprüfung der Kommunikationsfähigkeit im Fremdsprachenunterricht". In: Fremdsprachen und Hochschule 57, 88-116. NEUNER, Gerhard/ KRÜGER, Michael/ GREWER, Ulrich (1981): Übungstypologie zum kommunikativen Deutschunterricht. Berlin [u.a.]: Langenscheidt. SÄNDIG, Uta. (1992 ff): Lese-Schreib-Tests und Hör-Schreib-Tests für ausländische Studenten. Universität Potsdam, Bereich Didaktik DaF/ DaZ. Potsdam (Hausdrucke). SÄNDIG, Uta (1997): "Die Kategorie der Rezeptionsaufgabe wie praktikabel ist sie eigentlich? " In: WENDT, Michael/ ZYDATiß, Wolfgang (Hrsg.): Fremdsprachliches Handeln im Spannungsfeld von Prozeß und Inhalt. Dokumentation des 16. Kongresses für Fremdspracherididaktik, veranstaltet von der Deutschen Gesellschaft für Fremdsprachenforschung (DGFF) Halle, 4.-6. Oktober 1995. Bochum: Brockmeyer, 100-108. SÄNDIG, Uta (2000): Syllabus ECCEUENTT. (Red. der deutschen Fassung). Universität Potsdam, Institut für Germanistik, Bereich Deutsch als Fremd- und Zweitsprache. Potsdam [unveröffentlichtes Manuskript]. SCHOLLAERT, Rudi/ VAN THIENEN, Karine (1998): Towards a Conceptual Frameworkfor the Assessment of Communicative Competence (unter Mitarbeit von S. Bennett, C. Cordeaux, R. Halle-Harold, J. P. Kivioja, W.-D. Krause, F. Mota Alves, J. Nobre da Silveira, R. Roesch, U. Sändig, A.-L. Virtala, H. Wegener). Brüssel, Grenoble, Heinola, Hull, Lissabon, Potsdam [unveröffentlichtes Manuskript]. VAN TmENEN, Karine / SCHOLLAERT, Rudi (2000): Gewikt en gewogen. Evaluaiie van communicatieve vaardigheden in het vre_emdetalenonderwijs Leuven-Appeldoom: Garant. VALETTE, Rebecca M. (1971): Tests im Fremdsprachenunterricht. Berlin: Comelsen. WEIR, Cyril (1993): Understanding and Developing Language Tests. New York [et al.]: Phoenix ELT. FLuL 30 (2001) Werner Kieweg • Evaluation fremdsprachlicher Leistungen im schulischen Kontext Abstract. Tue article deals with some of the main problems involved in testing the competence and performance offoreign language learners at school. Some alternative methods are discussed in detail, e.g. how to measure the decoding competence within a reading task, how to test learning strategies and sociocultural knowledge, how to evaluate the learners' ability as shciwn in project work and in oral presentations. Attention is focused on the following ten principles which should be taken into consideration when a test is being constructed: (1) tasks should be set clearly and measurements should be orientated towards learning aims only, (2) tasks should be created in teams, (3) declarative knowledge and procedural knowledge should be tested equally, (4) tasks with different levels of difficulties should be set, (5) a variety of discrete point tasks vs. integrative/ pragmatic tasks should be given, (6) written tasks and oral tasks should have the same impact on marks, (7) the importance of validity should be taken into consideration, (8) the time for constructing a test and evaluating the results should be reasonable, (9) the team should agree on error gravity and error tolerance beforehand, (10) and one part of the test should measure socio-cultural knowledge. 1. Leistungsmessung und Verantwortung Die „Lebensqualitätschancenverteilungsinstitution Schule" erfüllt oder verhindert individuelle schulische und/ oder berufliche Laufbahnen und kann mit ihrer obligatorischen Zensurenvergabe nicht selten auch den häuslichen Familienfrieden erheblich gefährden. Vor und während einer Leistungsmessung kommt es sowohl schülerseits als auch eltemseits zur erhöhten Adrenalinausschüttung, die sich später bei der „Besprechung und Herausgabe" einer Probearbeit und schließlich bei der leidigen „Beichte" zu Hause nochmals wiederholen kann, wenn dem Proband keine guten Leistungen bestätigt wurden. Die Palette an Emotionen beginnt bei kurz- oder längerfristigem schmerzlichen Liebesentzug durch die Erziehungsberechtigten und endet in ernsten Fällen bei verstärkten suizitären Neigungen. So muss es nicht besonders betont werden, dass jede Art der Leistungsmessung und Leistungsbeurteilung ein Höchstmaß an Verantwortung einfordert, der sich eine Lehrkraft bewusst sein muss. Diese Verantwortlichkeit umfasst sowohl die sichere Beherrschung der Messinstrumentarien als auch die Interpretationstüchtigkeit der gewonnenen Messergebnisse. Korrespondenzadresse: Dr. Werner KIEWEG, M.A., Akad. Direktor am Lehrstuhl für die Didaktik der Englischen Sprache und Literatur an der Ludwig-Maximilians-Universität München, Schellingstraße 3, 4. Stock, Zimmer 429, 80799 MÜNCHEN.E-mail: wemer.kieweg@anglistik.uni-muenchen.de Arbeitsbereiche: Didaktische Ausbildung für alle Schulkategorien, Lehrwerkerstellung, Mitherausgeber der Zeitschrift Der fremdsprachliche Unterricht, Fortbildungsreferent. JI1LuL 30 (2001) 66 Werner Kieweg Leistung zu messen und zu bewerten ist ohne eine grundlegende wissenschaftliche Ausbildung nicht möglich. So ist es schon recht blauäugig anzunehmen, dass ein gewisses Maß an Sprachbeherrschung automatisch die Fähigkeit einschließt, eine valide und objektive Leistungskontrolle zu konzipieren, .Von diesem Automatismus scheint man allerdings vielerorts auszugehen, da Probleme der Leistungsmessung und Leistungsbeurteilung nur selten thematisiert werden. Selbst in den universitären Ausbildungsplänen für zukünftige Lehrkräfte erscheint dieses Thema nicht explizit. Es ist schon verwunderlich, dass nur an wenigen Universitäten ein sog. Pflichtschein für das Messen und Beurteilen von mündlichen und schriftlichen Leistungen vorgeschrieben ist. Das Ergebnis dieser Missachtung ist allenorts bekannt. Einschlägig unausgebildete Lehrkräfte arbeiten mit teilweise recht dubiosen und grotesken Lernzielkontrollverfahren, die, wie das folgende authentische Beispiel aus einer Schule „X" im Bundesland „Y" zeigt, an Sinnlosigkeit wohl kaum noch zu überbieten sind. 1. Dictation II What are girls and boys doing in the classroom when their teachers aren't there? (about 60 words) m. Translation 1. Am Nachmittag würde Conny nicht gern zu Fuß zur Schule gehen. 2. Kleine Jungen dürfen mit Frauen nicht über verstauchte Handgelenke reden. 3. Ich bin sicher, dass junge Männer wie Roman um ½ 3 Uhr auf dem Fußboden liegen dürfen. 4. Ihr müßt einen Verband auf eure Augen legen, wenn (when) ihr fernseht. 5. Probier sie (PI.! ) jetzt nicht! 6. Darf Maxi mit V. in die Turnhalle gehen? -Nein. Auf dem Sektor der Leistungskontrolle ist ferner ein sehr traditioneller Methodenmonismus weit verbreitet. Ungebrochen attraktiv und allseits beliebt sind Prüfungsbereiche wie das Diktat, die Grammatik, die Übersetzung oder die sog. Textaufgabe, wo die Lernenden mehrere Fähigkeiten und Fertigkeiten an einem vorgegebenen Text demonstrieren dürfen. Die Hör- und Sehverstehensaufgaben, die Mündlichkeit und das freie Schreiben werden weniger geschätzt und fehlen an manchen Schulen völlig. Auch im Bereich der Gewinnung mündlicher Zensuren sind iinmer noch zahlreiche Kuriosa zu beobachten, die bedenkenlos tradiert und einfach nicht hinterfragt werden. So ist es durchaus üblich, dass die Lernenden durch das Aufsagen der englischen Äquivalente zu den lehrerseits vorgegebenen deutschen Wörtern eine „mündliche Note" bekommen. Dieses allseits bekannte und gefürchtete „Ausfragen" im Beisein feixender Mitschüler/ -innen hat mit der zu diagnostizierenden mündlichen Sprechfertigkeit ebenso wenig zu tun wie die obigen sechs Beispielsätze mit einer Übersetzungsleistung. Von Verantwortung in der Schülerbeurteilung kann hier nur sehr bedingt gesprochen werden. Die Leistungskontrolle wird oftmals sehr kontrovers diskutiert. In regelmäßigen Abständen fordert man sogar ihre baldige Abschaffung mit dem Ziel, einen stressfreieren lFL\IIL 30 (2001) Evaluation fremdsprachlicher Leistungen im schulischen Kontext 67 Unterricht zu ermöglichen. Diese Debatten sind in einer leistungsorientierten Gesellschaft mit einem ausgeprägten Berechtigungswesen für bestimmte Ausbildungswege und Berufskarrieren nur wenig hilfreich. Die Lehrenden brauchen eine Rückmeldung über ihre Unterrichtserfolge (evaluative Funktion der Lernzielkontrolle), die Lernenden müssen ihre Lernaufgaben regelmäßig erfüllen (pädagogische Funktion der Lernzielkontrolle), die Lernenden wollen sich mit anderen messen (orientierende Funktion der Lernzielkontrolle), die Lehrenden müssen ihren Unterricht an den tatsächlich erbrachten Leistungen orientieren (diagnostische und therapeutische Funktion der Lernzielkontrolle) und schließlich müssen Messwerte im Bildungssystem gesetzt werden, die dessen zeitgerechte Passung in einer komplexen Welt auf den Prüfstand bringen (politische Funktion der Leistungskontrolle). Die Bemühungen des Council of Europe, einen Sprachenpass in der Funktion eines Portfolio zu installieren, der eine Vergleichbarkeit der Leistungsprofile ermöglicht, sind sicherlich der richtige Ansatz. 2. Leistungsmessung und die Komplexität der Sprachkompetenz Modeme Formen der Leistungsmessung orientieren sich an der Komplexität der in der Fremdsprache zu vermittelnden kommunikativen Kompetenz. Diese kann nur erreicht werden, wenn alle mündlichen und schriftlichen Aktivitäten aus den Bereichen der Sprachrezeption (reception), der Sprachprodnktion (production), der Interaktion (interaction) und der Vermittlung (mediation) berücksichtigt werden (vgl. Council of Europe 1998: 15): "The language learner/ user's communicative language competence is activated through various language activities, related to teception, production, interaction or mediation (in particular interpreting or translating), each of these types of activities being possible in oral or written form, or both". RECEPTION ~ INTERACTIO MEDIATION PRODUCTION Daraus ergeben sich für den Unterricht vier Bereiche, die in ihren soziokulturellen, rein sprachlichen und pragmatischen Dimensionen gleichwertig unterrichtet und überprüft werden müssen. Die soziokulturelle Dimension umfasst dabei alle Bedingungen des Sprachgebrauchs, wie beispielsweise die Konventionen der Höflichkeit im Umgang der Generationen und der Geschlechter miteinander, der sozialen Schichtzugehörigkeit, der Rituale und Tabus. Die rein sprachliche Dimension bezieht sich auf die lexikalischen, phonologischen und syntaktischen Inhalte und schließt ebenfalls das Wissen um deren FLIIL 30 (2001) 68 Werner Kieweg Lern- und Abrufstrategien ein. Die pragmatische Dimension zeigt sich in den Sprachfunktionen und Sprechakten, die absichtsgeleitet im Zusammenspiel von Mimik, Gestik und Körpersprache eingesetzt und mit dem individuellen Weltwissen in Verbindung gebracht werden. Für den Fremdsprachenunterricht an den Schulen können die folgenden vier Aktionskomplexe unterschieden werden, die auf den Feldern des Kulturellen, des Beruflichen, der Erziehung/ Bildung und des individuell Persönlichen zu beobachten sind: 1 2 3 4 Sprachrezeption Sprachproduktion Interaktion Vermittlung - Hörverstehen - Sprechen: monologisch - Sprechhandeln - Dolmetschen - Sehverstehen - Präsentation - Aushandeln, dialo- - Übersetzen - Leseverstehen -Schreiben logisch, multilo- - Textveränderungen - Vorträge verstehen gisch (z.B. summaries, - Informationsquellen records, etc.) nutzen Daraus ergibt sich eine bunte Vielfalt an Lerninhalten, die ebenso differenziert zu überprüfen sind. Die folgende Tabelle der Prüfungsbereiche und der geeigneten Prüfungsverfahren erhebt keinen Anspruch auf Vollständigkeit und kann jederzeit erweitert werden. 2 3 Hörverstehen nicht-schriftliche Verfahren: multiple choice, Bilder identifizieren, Bilder nach Hörtext verändern (etwas ergänzen oder wegstreichen), Bilder in die richtige Reihenfolge bringen, Wegbeschreibungen in Karten/ Pläne einzeichnen, eine passende Zusammenfassung des Hörtextes aussuchen, etc. halbschriftliche Verfahren: grids ausfüllen, Memos erstellen, Lückensätze oder -texte ergänzen, Notizen anfertigen, true/ false/ not in the text, etc. schriftliche Verfahren: Fragen beantworten, eigene Meinung zum angesprochenen Problem darstellen, Aussagen verbessern, etc. Hör- und Sehverstehen vgl. Hörverstehen + gezielte Aufgaben zum Sehverstehen Sprechen monologisch Kurzvortrag, Berichte, Erzählungen, Witze, Episoden, Bildinhalte versprachlichen, graphische Darstellungen versprachlichen, etc. Flow ch11rts, defective dialogues, pros & cons, auf provozierende Bilder und Äußerungen reagieren, etc. lFLllllL 30 (2001) Evaluation fremdsprachlicher Leistungen im schulischen Kontext 69 7 8 9 10 11 12 13 15 16 17 18 19 20 Sprechen multilogisch Aussprache Dolmetschen Übersetzen Ll-L2 Übersetzen L2-Ll Leseverstehen - Vollverstehen Leseverstehen - Detailverstehen Leseverstehen - Meinungsäußerungen Schreiben Schreiben kreativ Rechtschreiben Grammatik Vokabular JFLIIL 30 (2001) Simulationen, Aushandlungen, Diskussionen, etc. Minimal pairs, expressive reading, Imitationsverfahren, Graphem- Phonem-Zuordnungen (Eintrag in Lauttabellen), etc. Interaktive Simulationen, Geschriebenes mündlich übermitteln, etc. geeignete Ausgangs- und Zieltexte geeignete Ausgangs- und Zieltexte Zusammenfassung, Textsortentransformation, searching for missing words, Widersprüche im Text aufzeigen, personal reactions to the text, Zuordnung von Fotos zu entsprechenden Abschnitten, Inhaltsangabe auf deutsch, etc. Fragen zum Text, Lückentext und Lückensätze, right/ wrong/ not in the text, true/ false, finding sub-headings, summarising each paragraph, making up a flow chart of the main events ~~~-~~--._----t Precis, comment, etc. Briefe beantworten, jumbled text, Gegenstandsbeschreibungen, Formulare ausfüllen, four pictures/ items stories, ten words for a story, public writing (letters of enquiry, complaint, request, application, lost property, excuses for school), describing the way, curriculum vitae, summaries, etc. Social writing (letters, invitations, telephone messages) Bildgeschichten, open ended stories, Leerstellen eines Gedichts füllen, filling speech bubbles, essays, etc. Diktate (Lücken- und Voll(liktate), Graphem-Phonem-Zuordnungen, error spotting, Buchstabensalat, X-word puzzles, etc. Lückenaufgaben, Sätze vervollständigen, Transformationsaufgaben, error spotting/ correction, MC Aufgaben, deutsche Sprechabsichten und Schreibabsichten versprachlichen, mixed grammar, Satzverkürzungen, komplexe Sätze erstellen, Bild-Satz-Zuordnung, cloze test, C-Test, Bildinhalte versprachlichen, nach unterstrichenen Satzteilen fragen, error spotting, etc. Lückenaufgaben, Zuordnungsaufgaben, error spotting, Buchstabensalat, X-Word Puzzles, Wörter zu vorgegebenen Definitionen suchen, Gegenteile suchen, Ober- und Unterbegriffe, semantische Achsen ergänzen, odd man out, Bild-Wort-Zuordnungen, Definitionen ausformulieren (paraphrasing), concept testing (e.g. bring vs. take), Kollokationsaufgaben, Ablaufgliederung (put in the logical order), Wort durch ein anderes Wort ersetzen (replacing), cloze test, C-Test, displays ausfüllen, etc. 70 Werner Kieweg haftliche, kulturelle Fragen beänzen, Ereignisse ordnen, etc. ... ' ,fü~o1: ~n~ge~': na<JJ1, F{öflichkeit, .. v~ l'asstjng erlref111en (appr.opriacy , acters/ ound, etc. Die grau unterlegten Bereiche (4, 5, 14, 23 und 25) sollen im Folgenden etwas genauer beschrieben werden, zumal für deren Leistungsmessung noch keine allgemein akzeptierten Kriterien vorliegen. 3. Alternativen zur traditionellen Notengewinnung Die traditionelle Leistungsbeurteilung orientiert sich überwiegend an der Fehlerhäufigkeit und an der Fehlerschwere, wobei man das Prädikat „sehr gut" nur dann vergibt, wenn eine fehlerfreie oder nahezu fehlerfreie Leistung erbracht wurde. Um den Lernenden eine solche Leistung zu ermöglichen, wählt man in der Regel geschlossene Aufgaben, die durch die Reproduktion des Gelernten gelöst werden können. Offene Aufgabentypen sind weniger beliebt, zumal diese eine Massierung der Regelverstöße mit sich bringen wür 0 den, die sowohl die Korrekturarbeit der Lehrkräfte wesentlich erschweren als auch die traditionellen Vorstellungen von Schülerleistungen torpedieren würde. Deswegen ist in vielen Lernzielkontrollen die pädagogische Funktion übergewichtet, obwohl eine verständliche, wenn auch defizitäre frei formulierte Schüleräußerung als weitaus wertvoller eingeschätzt werden müßte als eine fehlerfrei reproduzierte Satzleiche. Die favorisierten Testformate sind nach wie vor der Lückensatz oder der Lückentext, die grammatisch motivierten Transformationsaufgaben (z.B. Put the following sentences into the passive voice), die vermischten Grammatikaufgaben (mixed grammar), die questions on the text und die Auswahlverfahren (multiple choice, true/ false, etc.). Die Leistungsmessung steht somit fest in der Tradition der Überprüfung des deklarativen Wissens und somit der regelgeleiteten Sprachproduktion. Das prozedurale Wissen, die strategische Kompetenz und die lernprozessorientierten Fähigkeiten bleiben dabei auf der Strecke. Einige Lehrkräfte versuchen mit Erfolg, diese Dimensionen, die einen beachtlichen Bestandteil von Schlüsselqualifikationen ausmachen, stärker zu berücksichtigen. lFlLid. 30 (2001) Evaluation fremdsprachlicher Leistungen im schulischen Kontext 71 3.1 Die· Dekodierungsfähigkeit als Leistungsnachweis Wenn die strategische Kompetenz ein Teilbereich der allgemeinen kommunikativen Kompetenz ausmacht, dann ist es nicht länger zu verantworten, diese aus der Leistungsmessung herauszuhalten. Die Aufgaben dazu sind problemlos zu beschaffen (Druckmedien, Internet) und überzeugen die Lernenden allein schon wegen ihrer durchaus realistischen Dimension, z.B. Reading comprehension There are six words you haven't leamt so far. Read the text carefully and try to find out the meaning of these words without using the dictionary. Snatched Vicky, 17, disappears just 3 mins from home MISSING teenager Vicky Hall was last night feared to have been snatched off the street just three minutes' walk from herhome. The pretty A-level student, 17, vanished as she walked back from a nightclub. She was last seen 500 yards from her home, at the end of her own road, when she said goodnight to her best friend at 2: 30 am on Sunday. Police were yesterday carrying out a massive hunt for blonde Vicky in Felixstone, Suffolk. lt involved house-to-house inguiries, with specialist search teams combing verges and gardens for clues. A girl of 19 was raped a week ago after visiting the same nightclub, _and detectives are "very concemed" about Vicky. Tracker dogs and a helicopter with thermal imaging gear were also being used. vanished: house-to-house inquiries: verges: ............................................................................................ ·················································· raped: tracker dogs: thermal imaging gear: ••••••••••••••u•••••••••••••••••••••••••••••• •••••••••••••••••••••••••••••••••••••••••••••• •••••••••••••••••••••••••••••••••••••••••••••••••• Die Lernenden müssen bei solchen Aufgaben weitaus höherwertigere Intelligenzleistungen erbringen als dies bei traditionellen Wissensüberprüfungen durch Reproduktion und Rekonstruktion erforderlich ist. Es ist deshalb nicht einzusehen, weshalb dieses strategische Wissen nicht zur Beschreibung eines individuellen Leistungsprofils herangezogen werden soll. Das Dekodieren unbekannter Wörter aus Texten erfordert eine breite AktilFL1.IIL 30 (2001) 72 Werner Kieweg vierung vorhandener Informationsnetze, wobei Ähnlichkeiten zu bereits vorhandenen Wissensbeständen, Wortbildungsregularitäten, Weltwissen etc. erkannt und genutzt werden. Es ist durchaus empfehlenswert, einen Teil des zu vergebenden Punktekontos in einer mehrteiligen Lernzielkontrolle für eine derartige Aufgabe zu reservieren und zu verrechnen. Voraussetzung dafür ist natürlich, dass den Schüler/ -innen die Dekodierungsstrategien explizit erläutert wurden, was gerade am Ende der Mittelstufe und dann verstärkt in der Oberstufe geschehen sollte. 3.2 Die Paraphrasierungsstrategie als Leistungsnachweis In Gesprächen müssen wir des öfteren ein lexikalisches Defizit in unseren Fremdsprachenkenntnissen wahrnehmen. Wenn uns das englische Äquivalent nicht einfällt oder wenn wir es einfach nicht kennen, entsteht Stress. Da wir uns aus einer dialogischen Situation jedoch nicht einfach ausklinken können, ist es äußerst hilfreich, sich der bekannten Umschreibungsstrategien (circumlocution strategies) bzw. Paraphrasierungsstrategien zu bedienen. Auf solche Stresssituationen können die Lernenden sehr leicht im Unterricht vorbereitet werden. Dies geschieht i.d.R. mit Hilfe kleiner Aufgaben, die zum einen sehr amüsant und zum anderen ungemein nützlich sind, z.B. Your car has a puncture and you can't drive any further. You're on a lonely road and it's getting dark. You open the boot of your car to take the spare wheel and the tools out. You find everything you mied to change the wheel, except for the Wagenheber. Luckily a car stops and the driver offers to help. Ask him if you can use his Wagenheber. 3.3 Präsentationen und Leistungsmessung Die schriftlichen Leistungen werden an unseren Schulen immer noch als weitaus bedeutsamer eingestuft als das Mündliche. Deswegen ist die Tradition der Leistungsnachweise fast ausschließlich in der Schriftlichkeit zu finden, was sich auch in den Abschlussprüfungen der unterschiedlichen Schulkategorien (Abitur, Realschulabschlussprüfung) zeigt. Dies steht allerdings im krassen Widerspruch zu fast allen nachschulischen Kompetenzerwartungen in Wissenschaft und Wirtschaft, wo man als oberstes Unterrichtsziel viel lieber die Fähigkeit sähe, frei in der Fremdsprache kommunizieren zu können sowohl schriftlich als auch mündlich. Der moderne Fremdsprachenunterricht sollte demnach einen Spannungsbogen aufweisen, der mit der Bewältigung der „lebensweltlichen Hier-und-Jetzt-Situationen" beginnt (Kommunizieren im Alltag) und in die Fähigkeit mündet, auch abstraktere Tatbestände in anspruchsvolleren Kommunikationssituationen zu diskutieren. Dazu gehören selbstverständlich auch die Präsentationen, die gerade in der gymnasialen Oberstufe stärker im Mittelpunkt des fremdsprachenvermittelnden Bemühens stehen sollten. Die dafür notwendige Beschreibung der progressiven Leistungsprofile stehen bereits zur Verfügung (vgl. Council of Europe 1998: 196). lFJL1.DlL 30 (2001) Evaluation fremdsprachlicher Leistungen im schulischen Kontext 73 ADRESSING AUDIENCES C2 Can present a complex topic confidently and articulately to an audience unfamiliar with it, structuring and adapting the talk flexibly to meet the audience's needs. Can handle difficult and even hostile questioning. Cl Can give a clear, well-structured presentation of a complex subject, expanding and supporting points of view at some length with subsidiary points, reasons and relevant examples. Can handle interjections well, responding spontaneously and almost effortlessly. B2 Can give a clear, systematically developed presentation, with highlighting significant points, and relevant supporting detail. Can depart spontaneously from a prepared text and follow up interesting points raised by members of the audience, often showing remarkable fluency and ease of expression. Can give a clear, prepared presentation, giving reasons in support of or against a particular point of view and giving the advantages and disadvantages of various options. Can take a series of follow-up questions with a degree of fluency and spontaneity which poses no strain for either him/ herself or the audience. Bl Can give a prepared straightforward presentation on a familiar topic within his/ her field which is clear enough to be followed without difficulty most of the time, and in which the main points are explained with reasonable precision. Can follow up questions, but may have to ask for repetition if the speech was rapid. Can give a short, rehearsed presentation on a topic pertinent to his everyday life, briefly give reasons and explanations for opinions, plans and actions. Can cope with a limited number of straightforward follow-up questions. A2 Can give a short, rehearsed, basic presentation on a familiar subject. Can answer straightforward follow-up questions if he/ she can ask for repetition and if some help with the formulation of his/ her reply is possible. Can read a very short, rehearsed statement. Al Die Anspruchsprofile müssen schulartenspezifisch modifiziert und durch verbindliche Beschlüsse den Fachschaften dokumentiert werden. Ebenso sollten sich die Fachlehrkräfte auf einen Kriterienkatalog einigen, der die jeweilige Leistung eines Probanden relativiert. Hierzu eignen sich relativ einfach zu beobachtende Merkmale in Verbindung mit Schätzskalen (rating scales). Es ist empfehlenswert, aus der Vielzahl von m9glichen Beobachtungskriterien die jeweils passenden auszusuchen, um eine kognitive Überforderung der Evaluatoren zu vermeiden. Erfahrungsgemäß sollten es nicht mehr als fünf Kriterien sein, z.B. lFLulL 30 (2001) 74 Werner Kieweg Task Achievement Low High 1 2 3 4 5 6 Interactive Communication Low High 1 2 3 4 5 6 Fluency Low High - - - - 1 2 3 4 5 6 Accuracy (grammatical) & Low High Range (general + lexical) - - - - - - 1 2 3 4 5 6 Pronunciation Low High - - - - - _; _ 1 2 3 4 5 6 Eine Fachschaft könnte sich natürlich auch auf andere Kriterien einigen, wenn diese für eine spezielle Aufgabe als zutreffender. erachtet werden, z.B. Flexibility, coherence, thematic development, precision, global interaction (turntaking strategies and eo-operative strategies), delivery, self-correction, the quality of handouts, visual aids, time allotted, presentation techniques, etc. Für die endgültige Gewinnung von Zensuren empfehlen sich die gängigen Umrechnungsverfahren mit Punkten. An dieser Stelle soll allerdings noch darauf hingewiesen werden, dass immer noch nicht alle Lehrkräfte für eine relativ objektive Prädikatsvergabe bei offenen Testaufgaben ausreichend ausgebildet sind. Hier bed,arf es der zentralen Schulungsmaßnahmen seitens der Lehrerfortbildungsinstitute, um die dafür nötige Sensibilisierung für Leistungseinschätzung, Fehlergewichtung und Fehlertoleranz zu erreichen. 3.4 Soziokulturelle Kompetenz und Leistungsmessung Soziokulturelle Inhalte sind neben den rein sprachlichen und strategischen Inhalten die dritte Säule in den Vermittlungsbemühungen für den Aufbau einer grundlegenden Sprachkompetenz. Es ist kaum vorstellbar, dass man unter schulischen Bedingungen eine Sprache eines Volkes erlernen kann, ohne über dessen Geschichte und gegenwärtigen kulturellen Entitäten wenigstens grob informiert zu sein. So haben Motivationspsychologen immer wieder darauf hingewiesen, welche bedeutsame Rolle die integrative Motivation beim Erlernen einer Fremdsprache spielt. Die soziokulturellen Inhalte utnfassen die sprachlichen Konventionen (z.B. socializing, apologizing) und nichtsprachlichen Konventionen (z.B. handshaking, proximity), soziale Rituale (z.B. punctuality, accepting and FLuL 30 (2001) Evaluation fremdsprachlicher Leistungen im schulischen Kontext 75 refusal rituals), umfassende Erfahrungen zum Alltagsleben (z.B. eatingldrinking table manners), das Wohnen (z.B. housing, living standards, ethnic composition), die interpersonalen Beziehungen (z.B.formality, informality, relation within sexes, interracial relations) und Werte und Einstellungen (z.B. tradition, national identity, politics, religion). Aus diesem recht umfangreichen Inventar können ebenfalls Wissenselemente überprüft werden, wenn man auch generell diese emotional besetzten Inhalte nicht primär lernzielorientiert vermittelt. Die Überprüfung geschieht auf der verbalen Ebene der Kommunikation mit Hilfe recht amüsanter Auswahlverfahren, die zumindest eine Sensibilisierung der Probanden für Diskurskonventionen, Themen, Register, Sprechakte und inhaltliche Unterschiede im Lexikon an den Tag bringen, z.B.: Kreuze die passenden Antworten an. • Du sitzt am Frühstückstisch mit deiner Gastfamilie. Man fragt dich, ob du noch etwas Toast haben möchtest. Du lehnst dankend ab. Was sagst du? Thankyou. No, thank you. No. No, thank you. I've had enough. • Du bist in einem Restaurant und möchtest bestellen. Was sagst du? t= Waiter. Get me a steak, please. Waiter. I would be very grateful if you could possibly bring me a steak. Sir! Can I have a steak, please? l'd like a steak, please. Zukünftig werden auch Überprüfungsmöglichkeiten für die paraverbale Ebene (Prosodie, Rhythmus, Lautstärke und temporale Gliederung) und für die nonverbale Ebene der Kommunikation (Mimik, Gestik, Proxemik, Blickkontakt) zur Verfügung stehen, wenn die notwendigen Testprogramme für die entsprechenden Multimedialabors erstellt sind. 3.5 Projektarbeit und Leistungsmessung Das Konzept des projektorientierten Unterrichts erfreut sich allgemein größter Beliebtheit, obgleich die damit verbundenen Vorbereitungen und Mehrbelastungen für die Unterrichtenden teilweise recht erheblich sein können. Man hat erkannt, dass im projektbezogenen Englischunterricht die Lernenden das eigenverantwortliche Arbeiten kennen lernen, dass sich der Unterricht öffnet (Internet, Experten und native speakers im Unterricht, etc.), dass eine vielfältige authentische Textarbeit möglich ist, dass Handlungsorientierung ermöglicht wird, JI1L1.IIL 30 (2001) 76 Werner Kieweg dass sich alternative Unterrichtsformen mit neuen Unterrichtstechnologien anbieten, dass Teamarbeit in allen Phasen notwendig ist, dass multikulturelles Lernen in kognitiv-konstruktivistischen Kontexten erfolgt, u.v.a.m. (vgl. Der fremdsprachliche Unterricht Englisch, Heft 40, 1999: "Offener Unterricht: Projekte") Für die Bewertung der Projektarbeit müssen jedoch andere Kriterien gefunden werden, die i.d.R. den klassischen Vorstellungen von Evaluierung schulischer Leistungen im Fremdsprachenunterricht nicht entsprechen. Nachdem die Leistungen der Schüler/ -innen sowohl bei der Planung und Durchführung als auch bei der abschließenden Manöverkritik über die erreichten Ergebnisse und praktizierten Methoden durchaus zu bewerten sind, sollten sich die Lehrkräfte auch nicht scheuen, entsprechende Beurteilungen auszusprechen. Die folgende Übersicht enthält erprobte Beispiele zur Messung von projektbezogenen Leistungen, die zunächst wiederum mit einer Schätzskala erfasst, anschließend in ein Punktesystem gebracht und abschließend einer Benotung zugeführt werden können. Dabei können die Selbstbeurteilung durch die Lernenden und die Fremdbeurteilung durch die Lehrenden interessante Einsichten in relevante qualifizierende Aspekte von Leistung erbringen und somit zu einer höheren Transparenz in der Notenfindung beitragen. ►► (vgl. evaluation sheetfor project 3, S. 77) Diese Art der Leistungsbewertung, die auch die Prädikate der Teamfähigkeit, der Organisationstüchtigkeit, der Geschicklichkeit zur Informationsbeschaffung und -auswertung mit einschließt, sollte allein aus aktuellen Gründen der veränderten Leistungsprofile in der außerschulischen Welt stärker berücksichtigt werden, auch wenn sie mit traditionellen und damit liebgewonnenen Bewertungssystemen und Beurteilungskriterien oftmals kollidiert. lFLlllL 30 (2001) Evaluation fremdsprachlicher Leistungen im schulischen Kontext 77 1 1 2 3 4. 5 ability to work in a team 1 2 3 4 5 2 1 2 3 4 5 ability to see or solve problems 1 2 3 4 5 3 1 2 3 4 5 aJ>ility to speak English all the time 1 2 3 4 5 4 1 2 3 4 5 ability to organize work 1 2 3 4 5 5 1 2 3 4· 5 creativity 1 2 3 4 5 6 1 2 3 4 5 ability to get information 1 2 3 4 5 7 1 2 3 4 5 ability to plan a project 1 2 3 4 5 8 1 2 3 4 5 ability to give a good presentation 1 2 3 4 5 9 1 2 3 4 5 ability to work independently when necessary 1 2 3 4 5 10 1 2 3 4 5 ability to work neatly 1 2 3 4 5 11 1 2 3 4 5 accuray in Ianguage 1 2 3 4 5 12 1 2 3 4 5 ability to criticize one's own work 1 2 3 4 5 FLuL 30 (2001) 78 Werner Kieweg Points/ Marks 60- 57 (95%) 56- 51 (85%) 50- 45 (70%) 44- 30 (50%) 39 -19 (30%) 1 2 3 4 5 4. Zehn Prinzipien zur Konzeption von Lernzielkontrollen Für die Erstellung einer aussagekräftigen Lernzielkontrolle sollten die folgenden zehn Prinzipien beachtet werden, die sich in der Schulpraxis bewährt haben: Das Prinzip der Transparenz und der lernzielorientierten Leistungsmessung (4.1), das Prinzip der Konzeption und Bewertung in Teamarbeit (4.2), das Prinzip der Mehrteiligkeit in den Aufgabenkomplexen (4.3), das Prinzip der vereinbarten Trennschärfe und Distanzen (4.4), das Prinzip der Mischung von „discrete point-Aufgaben" und „integrative/ pragmatic- Aufgaben" (4.5), das Prinzip der Gleichwertigkeit von mündlichen und schriftlichen Leistungen (4.6), das Prinzip der validen Gestaltung von Prüfungsaufgaben (4.7), das Prinzip der ökonomischen Erstellung und Korrektur (4.8), das Prinzip der konsequenten Fehlergewichtung und der verantwortlichen Fehlertoleranz (4.9) und schließlich das Prinzip der Aufnahme sozio-kultureller Lerninhalte (4.10) (vgl.: Der fremdsprachliche Unterricht Englisch, Heft 37, 1999: "Lernerfolge bewerten") 4.1 Das Prinzip der Transparenz und der lernzielorientierten Leistungsmessung Ohne eine bestimmte hierarchische Ordnung zu favorisieren steht an erster Stelle das Prinzip der Transparenz. In der Testpsychologie versteht man darunter die Deutlichkeit und Verstehbarkeit der formulierten Testaufgaben, aber auch das Erkennbarsein der einzubringenden individuellen Leistungen eines Probanden, einschließlich deren Bewertung. Die Ersteller von Lernzielkontrollen bemühen sich um Transparenz, wenn sie die Aufgabenstellung so deutlich formulieren, dass die unter Stress stehenden Schüler/ -innen keine Mühe haben, das Aufgabenziel zu erkennen. Diese scheinbar triviale Forderung wird nicht immer beachtet, was sich z.B. in der folgenden Aufgabe zur Messung der Dialogtüchtigkeit deutlich zeigt. Imagine you are on the dole and you have to visit Mr Smith, the owner of a big company, for an interview. He treats you in an unfriendly manner and he looks down on you. Invent a dialogue in which you try to convince Mr Smith that you are the right man/ woman for the job. Diese sicherlich recht reizvolle Aufgabe ist für die Leistungsmessung kaum geeignet, zumal sie sehr deutlich an die Grenzen des Möglichen stößt. Wem gelingt es tatsächlich, emotional gefärbte Sprechaktäußerungen in einer fiktiven Situation zu produzieren? Transparenz wird weiterhin dadurch erreicht, dass die zu vergebenden Punkte und der fLlllL 30 (2001) Evaluation fremdsprachlicher Leistungen im schulischen Kontext 79 angewendete Notenschlüssel auf dem Testblatt (Angabeblatt) stehen. Die Lernenden müssen genau informiert werden, wie ihre Zensuren zustande kommen, denn oftmals haben sie (und ihre Eltern) den Eindruck, dass die Notenvergabe primär von der jeweiligen Stimmungslage im Verhältnis zwischen der Lehrkraft und den Schüler/ -innen abhängig ist und dass eine weniger gute Note gezielt als Repressalie eingesetzt wird. Diese Fehleinschätzung ist bei einer transparenten Lernzielkontrolle nicht möglich. Auch die leidigen Aushandlungsverfahren (das Feilschen) können bei Rückgabe der Leistungskontrollen stärker reduziert werden. Da nach einer Entscheidung der Kultusministerkonferenz aus dem Jahre 1968 ohnehin nur die lernzielorientierte Leistungsmessung möglich ist, dürfen alle anderen Verfahren, die auf Durchschnittsleistungen der gesamten Lerngruppe oder auf individuellem Lernzuwachs beruhen, ohnehin nicht mehr praktiziert werden. In vielen Schulen hat sich der Schwellenwert (Grenze zwischen „ausreichend" und „mangelhaft") bei 50% der Gesamtleistung eingependelt. Bei einer Lernzielkontrolle mit 100 Punkten stellt sich die Verteilung wie folgt dar. 100-95 94-85 84-70 69-50 49-30 95 85 70 50 30 2 3 4 5 4.2 Das Prinzip der Konzeption und Bewertung in Teamarbeit Die Vorstellungen der Korrektoren über eine gerechte Prädikatsverteilung gehen bei der Leistungsmessung oftmals weit auseinander. So sind die Reglements zwischen den einzelnen Bundesländern für bestimmte Abschlussprofile recht unterschiedlich. Dies ist nicht selten auch innerhalb einer Schule zu beobachten, wo Lehrkräfte mit erheblich unterschiedlichen Vorstellungen zur Leistungsbewertung tätig sind, differenzierte Vorstellungen zur Fehlerschwere haben, sehr verschieden die Fehlertoleranz praktizieren und mit Messverfahren arbeiten, die sich wiederum in ihrer Komplexität wesentlich unterscheiden. Allein aus diesen Gründen empfiehlt sich die kollegiale Zusammenarbeit bei der Erstellung und Bewertung von Lernzielkontrollen. In viele Schulen werden deswegen Fachschaftssitzungen anberaumt, die sich den Problemen einer klassenübergreifenden Beurteilungsgerechtigkeit widmen. Voraussetzung für ein teamkoordiniertes Arbeiten ist allerdings ein paralleles Vorgehen im Unterricht, was nicht immer gelingt. Trotz unterschiedlicher Lern- und Lehrtempi, Stundenausfall wegen Krankheit einer Lehrkraft oder wegen anderer unvorhersagbarer Unregelmäßigkeiten sollte der Versuch unternommen werden, wenigstens die basalen Lernstoffe parallel zu überprüfen. Für die Fachschaft ergeben sich dann erfreuliche Nebenprodukte, wie beispielsweise eine stärkere Problemsensibilisierung in der Leistungsmessung, ein breiteres Angebot an Lernzielkontrolltypen und -techniken, eine bessere Koordination in der Fehlertoleranz und Fehlergewichtung und schließlich eine erhebliche Zeiteinsparung. lFLIIL 30 (2001) 80 Werner Kieweg 4.3 Das Prinzip der Mehrteiligkeit in den Aufgabenkomplexen Die fremdsprachliche Kompetenz ist ein sehr komplexes Zusammenspiel von Wissen, Können, Kenntnissen, Einsichten, Erfahrungen, Fähigkeiten, Fertigkeiten und individuellen Lern- und Leistungsdispositionen, die ein ebenso komplexes Vorgehen in der Leistungsmessung erfordern. Der oftmals zu beklagende Methodenmonismus (Diktat, Übersetzung, Grammatik) wird heute durch mehrteilige Lernzielkontrollaufgaben vermieden. Dafür stehen eine Vielzahl an Messverfahren bereit, die sich als uneingeschränkt tauglich erwiesen haben. So haben sich die folgenden Varianten in den Konstellationen von schriftlichen Arbeiten in der Praxis sehr bewährt. mit Hörtexten (1) gesteuert durch - Wortschatz (6) - Dekodieraufgaben (9) mit Lesetexten (2) Sprechabsichten (4) -Grammatik (7) - Dolmetschaufgaben (10) mit Hör-und Seh- frei (5) - Orthographie (8) - Übersetzungen (11) verstehen (3) - Landeskunde (12) Da man dem sprachlichen Können eine größere Bedeutung als dem sprachlichen Wissen beimessen sollte, könnte sich die prozentuale Anteiligkeit bei einer vierteiligen Lernzielkontrolle auf 100 Punkte z.B. dann so ausmachen: oder: oder: Diese Vorschläge beziehen sich auf die Jahrgangsstufen, in welchen der Englischunterricht noch überwiegend einen reinen Lehrgangscharakter hat, also auf die Klassen 5 bis 8. Der stärker projektorientierte Englischunterricht in den Jahrgangsstufen 9 bis 10 und der sich anschließende überwiegend bilingual ausgerichtete Sachfachund/ oder Literaturunterricht der gymnasialen Oberstufe haben natürlich ihre Eigenständigkeit und bedürfen einer anderen Konzeption, die hier aus Platzgründen nicht thematisiert werden kann. lFLllllL 30 (2001) Evaluation fremdsprachlicher Leistungen im schulischen Kontext 81 4.4 Das Prinzip der vereinbarten Trennschärfe und der Distanzen Bei der Konzeption von Lernzielkontrollen ist ein weiteres Prinzip zu beachten, das in der eigentlichen Testpsychologie als Trennschärfeindex ausgewiesen ist und das im schulischen Alltag durch eine Progression im Anforderungsniveau der einzelnen Überprüfungsaufgaben berücksichtigt wird. So sollten sich im Endergebnis einer Prüfungsaufgabe die real existierenden Unterschiede in den Leistungsprofilen der Lernenden innerhalb einer ganzen Klasse oder eines Kurses durch die ganze Bandbreite der Leistungsprädikate widerspiegeln. Um eine Normalverteilungskurve (in etwa) zu erreichen (bell curve) müssen die Prüfungsaufgaben unterschiedliche Schwierigkeitsstufen aufweisen, die einerseits einfachere und andererseits anspruchsvolle Leistungen einfordern. Im Falle der Erstellung eines Fragenkomplexes für eine Leseverstehenskontrolle könnte mari die referentiellen und nicht referentiellen Fragen und Aufgaben nach der folgenden Progression ordnen: Anforderungsniveau 1 a) Aussagen zum Text werden von den Probanden als richtig oder falsch eingestuft (truelfalse, multiple choice, Bilder in die richtige Reihenfolge bringen, o.Ä.) b) Fragen können durch die konkrete Reproduktion einer Textstelle beantwortet werden (lifting). c) Fragen können durch geringe Veränderungen der Vorgaben beantwortet werden (reconstruction, literal questions). Anforderungsniveau 2 a) Die Beantwortung der Fragen kann nur durch das Verstehen mehrerer Sätze oder ganzer Abschnitte geleistet werden (passage understanding, questions with reorganization). b) Fragen können durch Kombination und Interpretation der entnommenen Inhalte beantwortet werden (interpretation of information, reading between the lines). c) Fragen zur generellen Textaussage (questions involving interpretation). Anforderungsniveau 3 a) Fragen zur Evaluierung von Texten, zur Meinung der Autoren, zur persönlichen Stellungnahme, zur Relevanz der Inhalte für den Leser (evaluation and personal response). b) Fragen zu nicht explizit Genanntem (questions of inference). c) Fragen zur Textstruktur (schema general questions, storyltext-specific questions) Wenn man jeweils zwei Aufgaben auf diesen unterschiedlichen Anforderungsniveaus auswählt, stellt sich die notwendige Trennschärfe automatisch ein. Bei Berücksichtigung der Trennschärfe lassen sich die sog. Ausrutscher im Endergebnis vermeiden, die immer wieder zu erheblichen Unstimmigkeiten bei der Schulleitung, im Kollegium, bei den Eltern und Schüler/ -innen führen, und zwar immer dann, wenn die Notendurchschnitte entweder zu hoch (z.B. 1,4) oder zu gering (z.B. 5,2) ausgefallen sind. IFLllllL 30 (2001) 82 Werner Kieweg 4.5 Das Prinzip der Mischung von „discrete point-Aufgaben" und „integrativ-pragmatischen Aufgaben" In einer schriftlichen Leistungskontrolle in den Schulen sollten Aufgaben, die einen konkreten Lerninhalt der vergangenen Wochen erfassen, abwechseln mit Aufgaben, die eine mehr integrative Leistung einfordern. Zu den eher im pädagogischen Sinne legitimierten Abfragen von Einzelfertigkeiten (discrete point-testing oder Kompetenztest) müssen sich integrative Aufgaben im Sinne einer höher zu wertenden Leistung auf der performativen Ebene anfügen (integrative testing oder Performanztest). Der Grund für diese Forderung liegt in der zu geringen Aussagekraft von „discrete point-Aufgaben" im Hinblick auf das individuelle Leistungsprofil eines Schülers/ einer Schülerin, zumal hier die Aufmerksamkeit weitgehend nur auf die formale Seite der Sprache gelenkt wurde. So ist es durchaus möglich, dass Schüler/ -innen eben gelernte Inhalte in isolierter Form bestens reproduzieren können (z.B. irregular verbs, vocabulary, grammar items in Lückensätzen), aber in einem komplexeren Kontext versagen. Auch die Testpsychologen bezweifeln den Wert solcher Aufgaben erheblich und weisen zurecht darauf hin, dass es sich hierbei um typisch schulische Messmethoden handelt, die es in der realen Welt nicht gibt. Sie folgern daraus, dass Schulnoten, die überwiegend oder gar ausschließlich mit „discrete point-Aufgaben" gewonnen wurden, als relativ wertlos zu betrachten sind. Die Lehrkräfte in allen Schulkategorien stellen dem allerdings die Notwendigkeit des permanenten Überprüfens von Lernaufgaben gegenüber und verweisen dabei, ebenso zurecht, auf die pädagogische Funktion von Lernzielkontrollen. Erheblich aussagekräftiger sind die demonstrierten Leistungen, die in einer integrativ konzipierten Prüfungsaufgabe erbracht wurden, z.B. bei der Versprachlichung einer Bildgeschichte. Hier kommt lexikalisches und grammatisches Wissen zusammen mit dem Können in der Gestaltung eines kohäsiven und kohärenten Texts. Dafür lassen sich auch die Testpsychologen begeistern, besonders dann, wenn die pragmatische Komponente hinzukommt. Sie fordern immer stärker, dass die in den Schulen durchgeführten Leistungsmessungen mit den Verfahren übereinstimmen sollten, die später im Leben ebenfalls anzutreffen sind. Deswegen haben sie bei der Bildgeschichte noch erhebliche pragmatisch legitimierte Zweifel, zumal man eine solche real niemals versprachlicht, sondern nur rezeptiv schmunzelnd genießt. Das Schreiben von Briefen, Bewerbungsschreiben, Erzählen von Episoden, Schreiben von E-Mails, SMS, Einladungen, Karten, Fehler aufsuchen und korrigieren, essays, Verlustanzeigen, etc. werden hingegen ob deren pragmatischer Ausrichtung akzeptiert. Den Lehrkräften bleibt hier eigentlich nur ein Kompromiss in der Hinsicht übrig, dass sie sowohl „discrete point-Aufgaben" als auch „integrativ-pragmatische Aufgaben" in den Lernzielkontrollen stellen, allerdings mit einer Gewichtung von 20-30% zu 80-70% zu Gunsten der letztgenannten Verfahren. Auch diese Thematik müßte in den Fachschaften eingehend diskutiert werden, weil hier oftmals die Ursache für das plötzliche Absinken einer Schülerleistung zu finden ist, nachdem eine andere Lehrkraft die Klasse übernommen hatte. JFLIUIL 30 (2001) Evaluation fremdsprachlicher Leistungen im schulischen Kontext 83 4.6 Das Prinzip der Gleichwertigkeit der mündlichen und schriftlichen Leistungen In vielen Ministerien, pädagogischen Instituten, Seminaren und Fortbildungsinstitutionen wird momentan eifrig darüber nachgedacht, wie man der Mündlichkeit die Position in der Leistungsmessung zukommen lassen könnte, die sie auch tatsächlich verdient. Mit Ausnahme von wenigen Bundesländern spielt die mündliche Note immer noch ein kümmerliches Dasein, was sich zum einen an den dubiosen Prozeduren zeigt, mit welchen sie gewonnen wird, und zum anderen an der geringen Anteiligkeit an der Gesamtnote verdeutlicht Es wird wohl noch einige Jahre dauern, bis man deren Gleichwertigkeit zur schriftlichen Leistung anerkennt. Für die träge Installierung von mündlichen (Abschluss)-Prüfungen werden i.d.R. die zeitaufwendigen Vorbereitungen und Durchführungsverfahren genannt und gleichzeitig wird auf die mangelhafte Objektivität bei der Leistungsmessung in mündlichen Prüfungsprozeduren verwiesen. Um diesen Argumenten etwas entgegenzutreten sind im Folgenden einige Verfahren aufgelistet, die verdeutlichen, dass es auch hier eine Fülle von durchaus praktischen Möglichkeiten gibt, die auch eine (nahezu) objektive Leistungsmessung zulassen: Discussion/ conversation on a topic of common interest (e.g. For and against animal testing) Oralreports and presentations (e.g.Holiday jobs are they really worth it? ) Role play between learner and interviewer (e.g. At the travel agent's) Interviews (e.g. A job interview) Descriptions (e.g. The place where I live) Dilemmas (e.g. Situations that might occur in everyday life) Defective Dialogues (e.g. What sort of accommodation would you prefer? ) Interpreting (e.g. Looking for a place to stay) Talking about a picture or about pictures (e.g. What does it make you think of? What do they have in common? ) Picture Story (e.g. What's so funny about it? ) Making appropriate responses (e.g. Making a complaint about ...) Using authentic materials written in German (e.g. Explaining some details of the Verkehrsordnung) Using Flow Charts (e.g. An argument with the landlord) Explaining tricks, games, computer programmes, brain teasers, etc. Open ended stories Telling jokes Die entsprechenden Evaluierungskriterien für diese mündliche Leistungen sind in den Ausführungen des Council of Europe (1998) sehr umfangreich beschrieben und können i.d.R. ohne Modifikation übernommen werden. JFLl! )L, 30 (2001) 84 Werner Kieweg 4. 7 Das Prinzip der validen Gestaltung von Prüfungsaufgaben Bereits oben wurde darauf hingewiesen, dass der Einsatz von integrativen Prüfungsaufgaben für einen kommunikationsorientierten Fremdsprachenunterricht unverzichtbar ist, auch wenn sich die Evaluierung der Leistung bei offenen Testformaten als wesentlich komplexer und anspruchsvoller erweist. Eine stärkere Berücksichtigung valider Aufgaben zur Überprüfung der produktiven Fertigkeiten könnte dazu führen; dass die Schulnoten zukünftig stärker das Können als das Wissen reflektieren. Tatsächlich sollten sich die Tester viel häufiger die Frage stellen, ob man mit den gewählten Prüfungsaufgaben auch wirklich das messen kann, was man messen möchte. So kann immer wieder nachgewiesen werden, dass beispielsweise bei der Überprüfung des Hörverstehens ein zu hohes Maß an Sprachproduktionsfähigkeit von den Lernenden verlangt wird, was die genuine rezeptive Hörverstehensleistung der Probanden erheblich verzerrt. Weitere Ungereimtheiten auf dem Felde der Validität ergeben sich bei den „discrete-point-Aufgaben" (z.B. multiple choice oder Lückenaufgaben), wenn man damit die situationsangemessene Kommunikationstüchtigkeit der Probanden bzw. deren Performanzstärke messen möchte. Auch die durchgehende Ahndung aller Verstöße gegen die Rechtschreibung entspricht nicht den Prinzipien der validen Testkonstruktion. So ist es heute nicht mehr zu verantworten, dass man beim schriftlichen Teil einer Hörverstehensaufgabe die Rechtschreibleistung beurteilt und dadurch möglicherweise eine erbrachte Schülerleistung bis auf Null reduziert. 4.8 Das Prinzip der ökonomischen Erstellung und Korrektur Der zeitliche Aufwand zur Erstellung, Durchführung und Korrektur ist ein weiteres Kriterium bei der Erstellung von geeigneten Lernzielkontrollen. Hier müssen ökonomische Formen und Verfahren gewählt werden, die leicht handhabbar und dennoch aussagekräftig sind. So kann sowohl die Konzeption von Prüfungsaufgaben im Team als auch die Einrichtung einer Testkartei, einer Lernzielkontrollensammlung oder einer Leistungsmessungsmediothek (Texte, Hörtexte, Videos, Bildersammlung, Bildgeschichtensammlung, Sammlung mündlicher Prüfungsaufgaben, Sammlung von Abschlussprüfungen, alternativen Verfahren und Literatur zur Leistungsmessung) den Mitgliedern einer Fachschaft sehr hilfreich sein. Insbesondere jüngere Kollegen/ -innen sind hier äußerst dankbar, wenn sie auf erprobte Verfahren zurückgreifen können. Man findet oftmals kein Erklärungsmodell dafür, dass bestens erprobte Testformate, wie der C-Test, der Cloze Test oder das Error Spotting, nicht eingesetzt werden, obwohl diese .den erheblichen Gesamtaufwand an Zeit und Mühen doch wesentlich reduzieren können. 4.9 Das Prinzip der konsequenten Fehlergewichtung und der verantwortungsvollen Fehlertoleranz · Die Fehlerschwere (error gravity) orientiert sich heute an den Graden der Irritation, die durch defizitäre mündliche oder schriftliche Sprachproduktion beim native speaker FLlllL 30 (2001) Evaluation fremdsprachlicher Leistungen im schulischen Kontext 85 ausgelöst werden. Ferner sind der unsichere Kommunikationserfolg (meaning vague) oder schlimmstenfalls die nicht mehr erkennbare Kommunikationsabsicht (meaning distorted) ein deutlicher Hinweis auf die Schwere eines Fehlers. Die vielerorts noch übliche höhere Bestrafung von Grammatikfehlern gegenüber anderen Verstößen kann nicht mehr unterstützt werden, zumal sich bereits sog. kleine Fehler im Bereich des Lexikons weitaus sinnzerstörender auswirken. - */ always have to lookfor my dog. (anstatt: to look after) - We're going to France. *We'll meet a boat there. (anstatt: to hire) Wenn ein Fehler die Kommunikationsabsicht nicht mehr erkennen läßt, kann der ganzer Satz nicht mehr gewertet werden, auch wenn die restlichen Satzelemente fehlerfrei sind. Diese aus kommunikativer Relevanz notwendigerweise praktizierte Strenge wird in der Praxis durch ein fehlertolerantes Beurteilungsverhalten ausgeglichen. So müssen die folgenden Fehler zwar angestrichen, aber nicht gezählt werden, wenn die Prüfungsaufgabe nicht gerade im Bereich der Rechtschreibung bzw. Grammatik angesetzt wurde, z.B. *Which sort of accomodation would you like? (anstatt: accommodation) The Titanic was thought of as impossible to sink. *On its first trip in 1912 it hit an iceberg and sank, causing over 1500 deaths. (anstatt: her, she) 4.10 Das Prinzip der Aufnahme sozio-kultureller Inhalte in den Prüfungskontext Die bis dato übliche Praxis, dass den deutschen Schüler/ -innen wegen Fehlern im soziokulturellen Bereich das Punktekonto nicht geschmälert wird, ist aus Gründen der notwendigen und allseits geforderten sozio-kulturellen Sensibilisierung nicht länger zu verantworten. Aus der Wirtschaft erfahren wir immer wieder, dass mangelhaft ausgeprägte Höflichkeit, Missachtung oder Fehlinterpretation bestimmter Rituale und Tabubrüche zu erheblichen Störungen führen und so manchen Vertragsabschluss zunichte machten. Deshalb sollte dieser Teilkomponente der kommunikativen Kompetenz zukünftig auch mehr Aufmerksamkeit geschenkt werden. Dies ist allein schon dadurch zu erreichen, dass man sozio-kulturelles Wissen mit adäquaten Methoden regelmäßig und zielorientiert überprüft. Hier stehen zahlreiche Überprüfungsverfahren zur Verfügung, z.B. Auswahl oder Anordnung nach Höflichkeits- und Dringlichkeitsstufen Vergleiche zwischen Muttersprache und Fremdsprache Verbesserung von rüden Äußerungen Erkennen der Wirkung von unterschiedlichen Intonationskonturen, etc. Voraussetzung dafür ist natürlich, dass bei der Vermittlung der lexiko-grammatischen Lernziele auch diese Funktionen aufgezeigt wurden, z.B. beim future progressive: Son to father: Will you be using your car tomorrow? (Vorsichtiges höfliches Anklopfen) Father: No,Iwon't. Son: Can I borrow it? lFLll! L 30 (2001) 86 Werner Kieweg Abschließend sei darauf hingewiesen, dass es kein Fremdsprachenlernen ohne Fehler gibt. Die fehlerhafte sprachliche Äußerung ist die Normalität und keinesfalls die Sünde, die es mit allen Mitteln aus der Welt zu vertreiben gilt. Deswegen sollten alle Formen der Leistungsmessung human konzipiert sein. Man kann auf einem Schlachtfeld die Anzahl der Toten zählen, aber es ist auch möglich, sich an den Überlebenden zu erfreuen. Eine Veränderung dieser Sichtweise in Form einer Positivkorrektur rückt näher. Literatur COUNCIL OF EUROPE (1998): Modern Languages: Learning, Teaching, Assessment. A Common European Framework. Strasbourg. Der fremdsprachliche Unterricht Englisch, Heft 37: "Lernerfolge bewerten", Jg. 33, 1999. Der fremdsprachliche Unterricht Englisch, Heft 40: "Offener Unterricht", Jg. 33, 1999. JFLulllL 30 (2001) Erwin Tschirner * Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz: Ein Problemaufriss Abstract. The reliable assessment of oral proficiency is as costly an endeavor as it is important. This article looks at the various elements of oral tests that need to be kept in mind when designing oral proficiency tests. Using the notion of test usefulness developed by Bachman and Palmer (1996) with its interlocking elements of validity, reliability, authenticity, interactivity, practicality and washback as point of departure, three components of oral tests are singled out for discussion: the construct, the testing procedure, and the rating procedure. Two approaches to establishing construct validity are discussed: designing a theoretical model of second language proficiency and completing a needs analysis for performance assessment. Task development and test structure are focused on in the section on testing, while rating criteria, the rating procedure and tester and rater training programs are looked at in the section on rating. A number of established tests are partially analyzed to provide a framework of discussion. These tests include the oral portions of the major German language tests such as the Zertifikat Deutsch, the tests developed by the Goethe-Institute, and the 1999 version of the ACTFL Oral Proficiency 1nterview (OPI). 1. Einleitung Die Bewertung fremdsprachlicher mündlicher Handlungsfähigkeit ist eine genauso wichtige wie schwierige Aufgabe. Gesprochene Sprache ist eine äußerst flüchtige Angelegenheit. Rigorose Bewertungsstandards sind nur möglich, wenn mündliche Prüfungen aufgenommen werden. Das möglicherweise mehrmalige Anhören von Video- oder Audiokassetten jedoch macht eine sowieso bereits zeitaufwendige und damit teuere Prüfung nur noch zeitaufwendiger und teurer. Damit nicht genug. Die bereits bei Prüfungen der schriftlichen Handlungsfähigkeit problematische Interrater-Reliabilität wird durch starke psychologische Faktoren, die das Aussehen, die Stimme und Interaktionsmuster der geprüften Person (und oft auch des Prüfers oder der Prüferin) betreffen, noch zusätzlich erschwert. Obwohl es fremdsprachliche mündliche Prüfungen wahrscheinlich schon seit Jahrhunderten gibt und die mündliche Prüfung vor allem seit den sechziger Jahren des 20. Jahrhunderts Eingang in die Universitäten und manchmal auch in die Schulen gefunden hat, hat die Forschung, die sich mit Fragen der Validität und Reliabilität im Hinblick auf mündliche Kompetenzen beschäftigt, in größerem Maße erst in den letzten 20 Jahren stattgefunden. Bewertungsskalen, Aufgabentypen und der Effekt von Prüferschulungen Korrespondenzadresse: Prof. Dr. Erwin TscmRNER, Univ.-Prof., Universität Leipzig, Herder-Institut, Löhrstr. 17, 04105 LEIPZIG. E-mail: tschimer@rz.uni-leipzig.de Arbeitsbereiche: Angewandte Linguistik, Multi- und Telemedien, Testwissenschaft. FILl.lL 30 (2001) 88 Erwin Tschirner werden noch nicht lange empirisch untersucht. Zudem hat die Zweitsprachenerwerbsforschung mit ihren Theorien und Modellen zur kommunikativen Kompetenz wesentlich dazu beigetragen, dass die Konstrukte mündlicher Handlungsfähigkeit, die Grundlage mündlicher Tests sind, theoretisch und empirisch besser untermauert werden. Dadurch hat sich die Validität mündlicher Tests deutlich verbessert. Auch die Reliabilität hat mittlerweile auf Grund einfacher zu handhabender Bewertungsskalen und rigoroser Prüferschulungen und Prüfungsverfahren Werte erreicht, die durchaus mit denen aus dem schriftlichen Bereich mithalten können. Dieser Beitrag stellt einen Problemaufriss dar. Die Evaluation fremdsprachlicher mündlicher Handlungsfähigkeit wird in einzelne Schritte eingeteilt. Diese Schritte werden anhand der Nützlichkeitskriterien von Prüfungen (Bachman/ Palmer 1996) genauer untersucht, wobei auf relevante empirische und theoretische Forschungsergebnisse eingegangen wird. Dabei werden eine Reihe unterschiedlicher Prüfungen aus dem deutsch- und englischsprachigen Raum besprochen. Eine zentrale Rolle nimmt dabei das ACTFL Oral Proficiency Interview in seiner Neufassung von 1999 ein eine Weiterentwicklung des mündlichen Prüfverfahrens des Foreign Service Instituts (FSI), das als Mutter sehr vieler zur Zeit gebräuchlicher Prüfverfahren und Bewertungsskalen auch in Europa gilt (North 1994; Spolsky 1995). Im nächsten Kapitel werden die Nützlichkeitskriterien von Bachman/ Palmer kurz zusammengefasst. Im dritten Kapitel wird vor allem auf Fragen der Konstruktvalidität eingegangen. Es wird zwischen direkten, indirekten und semidirekten Prüfungen unterschieden; es wird ein theoretisches Modell mündlicher Handlungsfähigkeit vorgestellt und ein alternatives Verfahren zur Validierung durch ein theoretisches Modell. Das vierte Kapitel beleuchtet unterschiedliche Aspekte des Prüfungsgesprächs, u.a. Aufgaben und Prüfungsstruktur, und geht dabei vor allem auf die Kriterien der Interaktivität, Praktikabilität und Rückwirkung ein. Das fünfte Kapitel schließlich befasst sich mit dem Bewerten mündlicher Prüfungen. Mit Hilfe vor allem der Kriterien Validität und Reliabilität werden dabei Arten von Bewertungsskalen angesprochen, der Bewertungsprozess und die Prüfer- und Bewerterschulung. 2. Nützlichkeitskriterien Nach Bachman/ Palmer (1996) unterscheidet man sechs zentrale Nützlichkeits- oder Gütekriterien fremdsprachlicher Prüfungen: Reliabilität, Validität, Authentizität, Interaktivität, Rückwirkung und Praktikabilität. Erst wenn eine Prüfung alle sechs Kriterien in akzeptablem Maße erfüllt, handelt es sich im Sinne von Bachman/ Palmer um eine nützliche oder sinnvolle Prüfung, d.h. um eine Prüfung, die Aussagen darüber machen kann, wie sich die getestete Person bei sprachlichen Kommunikationsaufgaben des wirklichen Lebens verhalten würde. Reliabilität ist eine Funktion der Zuverlässigkeit der Ergebnisse. Eine Prüfung gilt als reliabel oder zuverlässig, wenn Testergebnisse reproduzierbar sind, d.h. wenn das Ergebnis nicht von anderen als den zu messenden Faktoren, z.B. der Person oder Tagesform des Prüfers, der Art und Weise, wie die Aufgaben formuliert werden u.Ä., abhängt. lFLIIL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 89 Validität, im Sinne von Konstruktvalidität, ist eine Funktion der Angemessenheit oder Gültigkeit der Interpretation der Ergebnisse. Das Konstrukt ist ein theoretisches Modell der zu messenden Fähigkeit und beinhaltet dadurch gleichzeitig meist auch eine Definition dieser Fähigkeit (vgl. Bachman 1990: 250). Es bildet die Grundlage des Tests und die Grundlage der Interpretation der Ergebnisse. Das Testergebnis soll über sich hinaus Aussagen machen, also nicht nur darüber, wie die getestete Person im Test abgeschnitten hat, sondern auch darüber, wie sich die getestete Person in authentischen sprachlichen Situationen verhalten würde. Authentizität ist eine Funktion der Realitätsnähe der Aufgaben. Die Art, wie die Fremdsprache im Test benutzt wird, muss damit, wie sie im natürlichen Sprachgebrauch verwendet wird, übereinstimmen. Das bedeutet, dass die Merkmale einer Testaufgabe mit den Merkmalen natürlicher Sprechhandlungsaufgaben korrespondieren müssen. Ebenso muss die Art der Bewertung realitätsnah sein. Interaktivität bedeutet, dass Testergebnisse auf Grund der Kenntnisse und Fähigkeiten, über die Aussagen gemacht werden sollen, variieren und nicht auf Grund anderer Kenntnisse, Fähigkeiten oder Reaktionen, z.B. das Sach- und Fachwissen der geprüften Person, ihre Gefühle oder die verwendeten Prüfungsstrategien. Die Fähigkeit, über die in fremdsprachlichen Tests Aussagen gemacht werden soll, ist normalerweise die sprachliche Handlungsfähigkeit. Je mehr bei der Lösung einer Aufgabe das jeweilige fremdsprachliche Können involviert ist, desto größer ist die Interaktivität der Prüfung. Interaktivität hat Auswirkungen sowohl auf die Reliabilität als auch die Validität einer Prüfung. Je weniger die Testergebnisse durch emotionale Reaktionen der Testteilnehmer oder durch Kenntnisse und Fähigkeiten, die nicht Gegenstand der Prüfung sind, beeinflusst werden, desto größer ist die Reliabilität der Prüfung. Je mehr die Prüfung genuin sprachliches Können evoziert, desto höher ist die Validität. Unter Rückwirkung versteht man den Einfluss von Prüfungen auf Lerner und Lehrer, auf Schule und Unterricht. Lerner verändern sich durch die Teilnahme an einer Prüfung, durch das Feedback, das sie zur Prüfung bekommen und durch die Entscheidungen, die auf Grund der Prüfung getroffen werden. Das Feedback zum Test kann beeinflussen, wie die Kandidaten in Zukunft lernen, vor allem wenn dieses Feedback vollständig und inhaltlich relevant istindem Prüfungsziele transparent transparent gemacht werden und die Performanz der Kandidaten detailliert analysiert und bewertet wird. Die Entscheidungen, die auf Grund von Tests getroffen werden, haben potentiell eine sehr hohe Rückwirkung auf die Kandidaten und können Lebenswege beeinflussen. Ebenso haben Prüfungen eine Rückwirkung auf den auf sie vorbereitenden Unterricht. Unter Praktikabilität verstehen Bachman/ Palmer einen vernünftigen Zusammenhang zwischen Aufwand und Ergebnissen einer Prüfung. Die Prüfung selbst muss eine vernünftige Länge haben. Der Aufwand, der für die Entwicklung der Prüfung zu betreiben ist, darf nicht unzumutbar hoch sein, ebenso wenig wie der für ihre Bewertung. JFLUJL 30 (2001) 90 Erwin Tschirner 3. Konstrukt und Konstruktvalidität Dieses Kapitel stellt zwei Wege vor, ein Konstrukt zu definieren und Konstruktvalidität herzustellen, zum einen über ein theoretisches Modell mündlicher Handlungsfähigkeit und zum anderen über ein empirisches Verfahren, das der Bedarfsdiagnose und der repräsentativen Auswahl. Zuvor soll jedoch zwischen direkten, indirekten und semidirekten Prüfungen unterschieden werden. 3.1 Direkte, indirekte und semi-direkte Prüfungen Eine direkte Prüfung testet die Fähigkeit, über die Aussagen gemacht werden soll, dadurch, dass die Fähigkeit selbst zum Gegenstand der Prüfung gemacht wird. Die Fähigkeit, an akademischen Diskussionen teilzunehmen, wird z.B. dadurch geprüft, dass der Kandidat an einer akademischen Diskussion teilnimmt, oder die Fähigkeit, Verkaufsgespräche per Telefon zu führen, wird dadurch geprüft, dass Verkaufsgespräche über Telefon geführt werden. Eine indirekte Prüfung testet die Fähigkeit, über die Aussagen gemacht werden soll, dadurch, dass ein wichtiges Element der Fähigkeit, beim Sprechen zum Beispiel die Aussprache, überprüft wird, oder dass etwas Anderes geprüft wird, dass mit der Fähigkeit, die geprüft werden soll, korreliert. Es hatte sich zum Beispiel gezeigt, dass Vokabelkenntnisse sehr gut mit Leseverständnis korrelieren (Pike 1979). Dies führte dazu, dass in der zweiten Hälfte des 20. Jh. die Lesekompetenz oft durch Discrete-Point- Wortschatzaufgaben überprüft wurde. Direkte Tests werden oft auch Performanztests genannt und indirekte Tests Kompetenztests, weil bei letzteren durch das im Test beobachtete Verhalten auf unbeobachtbare Fähigkeiten geschlossen wird (Grotjahn 2000). Semidirekte Tests sind Prüfungen, bei denen zwar die Fähigkeit, über die Aussagen gemacht werden soll, integriert oder holistisch getestet wird, die Fähigkeit also nicht in einzelne Bestandteile zerlegt wird, die getrennt getestet werden, dies aber nicht auf authentische Weise geschieht, sondern diese Authentizität nur simuliert. Ein semidirekter Test mündlicher Handlungsfähigkeit ist z.B. das Simulated Oral Proficiency Interview (SOPI) des Centers for Applied Linguistics (Stansfield/ Kenyon 1992), in dem Kandidaten eine Reihe unterschiedlicher kommunikativer Situationen auf Tonband vorgespielt wird, auf die sie reagieren sollen, was wiederum ebenfalls auf Tonband aufgenommen wird. Der Beitrag von Kniffka/ Üstünsöz-Beurer in diesem Band beschäftigt sich am Beispiel von TestDaF mit semidirekten Tests mündlicher Handlungsfähigkeit, auf die an dieser Stelle deshalb nicht weiter eingegangen zu werden braucht. Das wichtigste Gütekriterium von Prüfungen ist ihre Validität. Heute wird Validität meist als Konstruktvalidität definiert, die als Grundlage aller anderen Arten von Validität gesehen wird (Cumming/ Berwick 1996). Eine Prüfung besitzt Konstruktvalidität, wenn eine bestimmte Fähigkeit direkt getestet wird. Auch bei indirekten Tests kann Konstruktvalidität hergestellt werden, wenn die zu überprüfende Fähigkeit theoretisch präzise beschrieben wird. Das zugrunde liegende theoretische Modell oder Konstrukt muss alle relevanten Bestandteile oder Merkmale dieser Fähigkeit enthalten. Die wesentlichen Merkmale können dann einzeln geprüft werden, wobei ihre Summe ein Indikator der JI1lLIIL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 91 Fähigkeit selbst sein muss. Indirektes Prüfen mündlicher Handlungsfähigkeit setzt voraus, dass alle kognitionspsychologisch relevanten Faktoren, die zusammengenommen die Sprechkompetenz ausmachen, einzeln und in ihrem Zusammenspiel miteinander beschrieben werden. Dies ist mit dem heutigen Wissen noch nicht möglich. Zur Validierung des Konstrukts mündliche Handlungsfähigkeit müssen mindestens die folgenden vier Vorarbeiten geleistet werden (vgl. Cumming 1997 für das Konstrukt schriftliche Handlungsfähigkeit): 1. Es muss eine Liste der wesentlichen Merkmale, mit deren Hilfe mündliche Texte nicht-nativer Sprecher unterschiedlicher Kompetenzniveaus unterschieden werden können, erstellt werden. 2. Es muss ein Modell zweitsprachlicher mündlicher Kompetenz entwickelt werden. 3. Es müssen die Skalen und Kriterien, mit deren Hilfe mündliche Texte bewertet werden sollen, empirisch validiert werden. 4. Es müssen die subjektiven Kriterien der Bewerter und die Entscheidungswege, auf denen sie zu ihren Beurteilungen kommen, empirisch untersucht werden. Die Forschung zu allen Punkten (außer dem zweiten) steht teilweise noch recht weit am Anfang. Fest steht, dass das Konstrukt „zweitsprachliche mündliche Kompetenz" mehr enthalten muss als die Fähigkeit grammatische Strukturen zu beherrschen und die richtigen Vokabeln zu kennen. Obwohl die Arbeit an der Spezifikation des Konstrukts sicherlich noch länger dauern wird, können aus den vorhandenen Studien die folgenden Konsequenzen gezogen werden: • Die Qualität zweitsprachlicher mündlicher Texte kann nicht durch ein einfaches Zusammenzählen von Fehlern bewertet werden. • Da sowohl Skalen wie auch Beurteilungskriterien von Bewertern subjektiv interpretiert und subjektiv gewichtet werden, ist es unbedingt notwendig, eine angemessene Bewerterschulung durchzuführen, damit so weit wie möglich Objektivität hergestellt werden kann. • Indirekte Tests mündlicher Handlungsfähigkeit sind erst dann vertretbar, wenn die Forschung, vor allem zu Punkt 1 und 2, größere Fortschritte gemacht hat. Dies ist im Moment noch nicht der Fall. Weil das indirekte Prüfen integrierter Fertigkeiten mit so vielen Problemen behaftet ist, hat sich bei den produktiven Fertigkeiten des Sprechens und Schreibens das direkte Testen durchgesetzt. Es gibt zwei Möglichkeiten, ein Konstrukt zu definieren, auf Grund dessen ein Test entwickelt werden kann. Es kann theoretisch definiert werden, und zwar dadurch, dass es auf einem Modell zweitsprachlicher Kompetenz und zweitsprachlichen Lernens beruht, und es kann empirisch über eine Bedarfsdiagnose definiert werden. Damit beschäftigen sich die nächsten beiden Abschnitte. lFLillL 30 (2001) 92 Erwin Tschirner 3.2 Mündliche Handlungsfähigkeit Mündliche Kompetenz wird heute in erster Linie als Sprechhandlungskompetenz verstanden als die Fähigkeit, in authentischen kommunikativen Situationen im Zielsprachenland bzw. mit Sprechern der Zielsprache sprachlich richtig und kommunikativ angemessen zu handeln. Canale/ Swain (1980) waren die ersten, die versuchten, ein umfassendes Modell kommunikativer Kompetenz zu entwickeln. Grundlage ihres Modells war das Konstrukt kommunikative Kompetenz, das von Hymes (1972) entwickelt wurde, um die reduktionistische Sprachauffassung Chomskys zu überwinden. Dieses Modell umfasst in der Version von Canale (1983) vier Komponenten: grammatische Kompetenz, Diskurskompetenz, soziolinguistische Kompetenz und strategische Kompetenz. Bachman (1990) übernimmt dieses Modell, erweitert und präzisiert es, und benutzt es als Grundlage für Tests kommunikativer Kompetenz. In der geringfügig überarbeiteten Fassung von Bachman/ Palmer (1996) unterscheidet Bachman zwischen organisatorischer Kompetenz, pragmatischer Kompetenz und strategischer Kompetenz (s. Abbildung 1). Unter organisatorischer Kompetenz versteht er die Fähigkeit, Wörter zu Sätzen und Sätze zu Texten zu verbinden. Dies bedeutet die Beherrschung phonologischer, morphologischer, syntaktischer, lexikalischer und textlinguistischer Regeln. Zu letzteren gehören das Wissen darüber, wie mündliche Texte und Interaktionen aufgebaut sind (Rhetorische Organisation) und darüber, wie man Sätze mit Hilfe von Konjunktionen, Pronomen, Adverbien u.Ä. zu Texten verknüpft (Kohäsion). Organisatorische Kompetenz Pragmatische Kompetenz Strategische Kompetenz Grammatische Textkompetenz Funktionale Soziolinguistische Kompetenz Kompetenz Kompetenz Phonologie Rhetorische Ideationale Sprachvarianten Ziele setzen Organisation Funktion Morphologie Kohäsion Imaginative Register Planen Funktion Syntax Heuristische Idiomatik Evaluieren Funktion Abb. 1. Bachmans Modell kommunikativer Kompetenz (Bachman/ Palmer 1996) Unter pragmatischer Kompetenz versteht Bachman, die Fähigkeit Sprechhandlungen durchzuführen, d.h. Sprache für einen bestimmten Zweck zu benutzen (funktionale Kompetenz), ebenso wie die Fähigkeit dies situations- und adressatengerecht zu tun und dabei Regeln soziokultureller Art zu beachten (soziolinguistische Kompetenz). Zur Sprechhandlungskompetenz gehört die Fähigkeit, Wissen und Informationen zu ver- JFLlllL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 93 mitteln (ideationale Funktion), Inhalte zu erfinden (imaginative Funktion), Wissen zu erlangen (heuristische Funktion) und Menschen zu beeinflussen (manipulative Funktion). Zur soziolinguistischen Kompetenz gehört die Fähigkeit, unterschiedliche Dialekte und Soziolekte zu verstehen oder zu benutzen. Weiter gehört dazu die Fähigkeit, verschiedene Register zu benutzen, die Fähigkeit, idiomatisch zu sprechen, und die Fähigkeit, Verweise und idiomatische Wendungen kultureller Art zu verstehen und zu benutzen. Unter strategischer Kompetenz schließlich versteht Bachman sowohl die Fähigkeit, trotz lexikalischer und grammatischer Beschränkungen sprachlich handlungsfähig zu bleiben, wie auch die Fähigkeit, sprachliche Kompetenz bewusst und zielgerichtet einzusetzen, zu planen und zu evaluieren. Obwohl die Leitlinien mündlicher Handlungsfähigkeit.des American Council on the Teaching of Foreign Languages (ACTFL 1986, 1999) auf empirische Weise entwickelt wurden (vgl. 3.3), sind sie mit Bachmans Modell kompatibel. Damit stellt das ACTFL Oral Proficiency Interview (Swender 1999), das auf diesen Leitlinien aufbaut, eines der wenigen mündlichen Testverfahren dar, das sowohl theoretisch wie empirisch validiert ist (Dandonoli/ Henning 1990). Die unterschiedlichen sprachlichen Kompetenzen des Modells von Bachman sind in ein Gesamtkonzept eingebaut, welches verschiedene Lernstufen unterscheidet. Die organisatorische Kompetenz entwickelt sich z.B. in vier Stufen vom Wort zum Satz und weiter zu einfachen und dann zu komplexen Texten. Die soziolinguistische Kompetenz entwickelt sich von der Benutzung nur eines Registers zur Benutzung unterschiedlicher Register. Ebenso entwickeln sich die funktionale und strategische Kompetenz. Zuerst können nur einige wenige einfache Funktionen und Strategien benutzt werden. Je höher die Kompetenz, desto umfangreicher und komplexer werden auch Funktionen und Strategien. 3.3 Bedarfsdiagnose und repräsentative Auswahl Das Ziel vieler Prüfungen ist es herauszufinden, ob ein Kandidat eine bestimmte Studienreife hat oder die nötigen Qualifikationen für einen bestimmten Beruf besitzt. Das erste Ziel bei der Erstellung solcher Prüfungen ist es, die sprachlichen Handlungen zusammenzustellen, die in der Regel im Studium oder im Beruf ausgeführt werden müssen und die der Kandidat erfolgreich bewältigen soll. Je präziser die Kontexte definiert werden können, in denen die Kandidaten sprachlich handeln sollen, desto einfacher ist es, eine Bedarfsdiagnose herzustellen. Es ist relativ leicht zum Beispiel, die Sprechhandlungen zu erfassen, die eine Fremdsprachensekretärin erledigen muss, die in einer bestimmten Firma Auslandsgespräche annehmen und führen muss. Schwieriger ist es zu bestimmen, welche Sprechkompetenzen zum Beispiel beim Abschluss eines fremdsprachlichen Studiums vorhanden sein müssen, das auf eine Reihe unterschiedlicher Berufe vorbereiten soll. In diesem Fall ist es oft nötig, auf ein theoretisches Modell zweitsprachlicher mündlicher Kompetenz zurückzugreifen, wie es von Zweitsprachenerwerbsforschem entwickelt wurde (vgl. 3.2). Wenn das Konstrukt empirisch über eine Bedarfsdiagnose oder theoretisch über ein Modell kommunikativer Kompetenz definiert wird und die Sprechhandlungen, die die lFLuL 30 (2001) 94 Erwin Tschirner Testkandidaten nachweisen müssen, präzise beschrieben sind, kann aus diesen Sprechhandlungen eine repräsentative Auswahl getroffen werden. Als Faustregel gilt, dass eine Prüfung um so valider ist, je mehr unterschiedliche Handlungen Gegenstand von Prüfungsaufgaben sind. Alle Inhalte und Fertigkeiten können aus ökonomischen Gründen selten geprüft werden. Je präziser ein Test auf eine genau definierte Zielgruppe hin entwickelt wird, desto überschaubarer sind meist die sprachlichen Handlungen, die geprüft werden müssen. Es gibt unterschiedliche Versuche, die Menge der Sprechhandlungen in kleine, überschaubare Gruppen einzuteilen. Dies variiert je nach dem, welche Rollen (Hotelrezeptionist, Diplomat, Lehrer usw.) ausgeübt werden. Viele Sprachtests werden entwickelt, um Studierfä.higkeit in der Zielsprache nachzuweisen. Die folgenden übergreifenden Sprechhandlungen, die dafür nötig sind, werden dabei am häufigsten genannt. • Informationen und Beispiele geben bzw. erfragen • Personen und Objekte beschreiben • einen Vorgang beschreiben, z.B. um anderen Personen sagen zu können, wie man etwas macht • einen Augenzeugenbericht geben • Sachverhalte vergleichen und kontrastieren • Erlebnisse und Erfahrungen schildern • Gelesenes oder Gehörtes berichten • Vor- und Nachteile erörtern • Ziele und Zwecke verbalisieren • einen Sachverhalt beschreiben und kommentieren • Meinungen bzw. Vorlieben ausdrücken und begründen • Möglichkeiten ausdrücken Diese zwölf Sprechhandlungen lassen sich auf fünf reduzieren: (1) Informationen geben und erfragen, (2) beschreiben und erörtern, (3) berichten und erzählen, (4) kommentieren und begründen, und (5) Möglichkeiten ausdrücken. Neben diesen Sprechhandlungen sind eine Reihe weiterer Dimensionen wichtig, um authentische kommunikative Situationen und Prüfungsaufgaben zu beschreiben. • Thema • Register (Grad der Förmlichkeit) • Anzahl der Gesprächsteilnehmer • Alter und Geschlecht der Gesprächsteilnehmer • Status und Rolle der Gesprächsteilnehmer • Bekanntheitsgrad zwischen den Gesprächsteilnehmern Diese sechs Dimension lassen sich auf zwei Hauptdimensionen reduzieren, nämlich (1) Thema und (2) Förmlichkeitscharakter der Situation. Alter, Geschlecht, Status, Rolle, Bekanntheitsgrad und teilweise Anzahl der Gesprächsteilnehmer bestimmen den sozialen Kontext eines Gesprächs und damit den erforderlichen Grad der Distanziertheit und Förmlichkeit bzw. das zu verwendende Register. lFLlllllL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 95 Ein weiterer Aspekt ist die Länge und Dichte der zu produzierenden Texte. Sowohl beim Hören als auch beim Sprechen wird die Länge und Dichte von Texten von der Verarbeitungskapazität des Arbeitsgedächtnisses beeinflusst. Die Verarbeitungskapazität hängt wiederum vom Kompetenzniveau des Fremdsprachenlerners ab. Beim Hörverstehen z.B. werden folgende Schwierigkeitsgrade unterschieden (Cook 1994): • Identifizieren • prozedurales Verstehen • narratives Verstehen • Verstehen argumentierender Texte Diese Hörhandlungen erfordern jeweils größere Gedächtnisleistungen. Das Identifizieren von Namen oder Zahlen erfordert lediglich ein Wiedererkennen von Wörtern. Beim prozeduralen Verstehen geht es darum, einzelne Schritte eines Vorgangs der Reihe nach zu verstehen. Jede einzelne Äußerung wird unabhängig von den anderen verstanden. Das narrative Verstehen erfordert ein Speichern von kohäsionsstiftenden Elementen im Arbeitsgedächtnis oder in einem speziellen grammatischen Gedächtnis (Pienemann 1998). Zeitliche, räumliche und personale Verweise müssen im Gedächtnis behalten werden. Im Vergleich zum Verstehen argumentierender Texte wird das narrative Verstehen allerdings durch die Vorhersagbarkeit vieler Einzelheiten unterstützt, also durch das Weltwissen der Zuhörer und ein Wissen über Schemata und Skripte. Beim Verstehen argumentierender Texte müssen darüber hinaus Makrostrukturen und logische Verweise im Gedächtnis behalten werden. Eine weitere Schwierigkeit dieser Texte ist es, dass sie meist wenig vorhersagbar sind. Beim Sprechen gibt es eine ähnliche Schwierigkeitshierarchie. Die einfachste Form des Sprechens ist ein Aneinanderreihen von Wörtern oder auswendig gelernten Phrasen, die unverbunden nebeneinander stehen. In vielen empirischen Studien hat sich gezeigt, dass dies die erste Stufe des Spracherwerbsprozesses darstellt (vgl. Pienemann 1998). Auf einer zweiten Stufe werden Wörter zu Sätzen verknüpft und auf einer dritten Stufe Sätze zu Texten, d.h. zuerst werden grammatische Elemente wie Subjekt-Verb-Kongruenz und die Satzstellung in Hauptsätzen erworben und zu einem späteren Stadium Kasus und Satzstellung in Nebensätzen (vgl. Diehl [u.a.] 2000, Pienemann 1998, Tschirner 1996). Schließlich sind Texte wie Erzählungen und Beschreibungen, die eine schon vorgegebene innere Struktur haben, leichter zu formulieren, als argumentierende Texte, bei denen größere Einheiten auf vielfältige Art und Weise (kausal, logisch) miteinander verknüpft werden müssen. Diese vier Aspekte kommunikativer Situationen, Texttyp, Sprechhandlung, Thema und Förmlichkeitscharakter der Situation, müssen in mündlichen Prüfungen systematisch variiert werden, vor allem bei umfassenden Prüfungen, die auf kein bestimmtes, präzise beschriebenes Berufsbild abzielen können. Die ACTFL Leitlinien mündlicher Handlungsfähigkeit unterscheiden auf der Basis von fünf Kriterien insgesamt zehn Haupt- und Nebenniveaus. Zu diesen Kriterien gehören Texttyp, Sprechhandlung, Themenbereich, Sozialer Kontext, also die gerade erwähnten vier Aspekte kommunikativer Situationen. Hinzu kommt als fünftes Kriterium die sprachliche Angemessenheit. Die KompetenzstulFLllL 30 (2001) 96 Erwin Tschirner fen reichen vom Nullanfänger bis zum Experten einem Sprecher, der höchste sprachliche Anforderungen erfüllen kann. Die ACTFL Leitlinien gehen ähnlich wie bei Texttyp, Thema und Register von einer Entwicklungshierarchie von Sprechhandlungen aus. Die in diesem Abschnitt geschilderten Sprechhandlungen verteilen sich dabei wie folgt auf die vier Hauptniveaus der Leitlinien : • Einstiegsniveau (Novice): noch keine funktionale Kompetenz • Alltagsniveau (lntermediate): Informationen geben und erfragen • Professionelles Niveau (Advanced): beschreiben und erörtern, berichten und erzählen • Expertenniveau (Superior): kommentieren und begründen, Möglichkeiten ausdrücken 4. Interaktivität, Authentizität, Praktikabilität und Rückwirkung: Das Prüfungsgespräch Mündliche Prüfungen bestehen aus zwei deutlich unterscheidbaren Prozessen: das Prüfungsgespräch und das Bewertungsverfahren. In diesem Kapitel kommen unterschiedliche Elemente des Prüfungsgesprächs zur Sprache, vor allem die Aufgabenstellungen und die Prüfungsstruktur. Aufgabenstellung und Prüfungsstruktur werden dabei vor allem unter den Aspekten Interaktivität, Authentizität, Praktikabilität und Rückwirkung betrachtet. 4.1 Aufgaben Mündliche Prüfungen sollen sprachliches Verhalten über eine repräsentative Auswahl von Texttypen, Sprechhandlungen, Themen, und sozialen Kontexten dokumentieren, damit dieses Verhalten mit dem Verhalten, wie es zum Beispiel durch eine Bewertungsskala definiert wird, verglichen und eingeordnet werden kann. Damit sind zum einen die Aufgaben wichtig, die dafür sorgen, dass das Abschneiden der Testperson in der Prüfung repräsentativ für das sprachliche Können der Testperson außerhalb der Prüfung ist. Zum anderen ist es wichtig, dass die Prüfungsstrategien und Elizitierungstechniken des Prüfers dafür sorgen, dass die Äußerungen von Prüfungskandidaten umfangreich und reichhaltig genug sind, um eine sichere Grundlage für den Vergleich mit den Bewertungskriterien zu gewährleisten. Die Repräsentativität der Auswahl erhöht die Validität; das Elizitieren umfangreicher und interpretierbarer Sprachbeispiele erhöht die Reliabilität der Prüfung. Interaktivität im testwissenschaftlichen Sinne ist eine Eigenschaft sowohl von Testaufgaben wie von Aufgaben in lebensechten sprachlichen Kontaktsituationen. Unter Interaktivität versteht man die Art und Weise, wie Eigenschaften von Aufgaben mit Eigenschaften von Menschen interagieren. Das Ziel der Testforschung ist es, Aussagen über diese menschlichen Eigenschaften zu treffen. Menschen interagieren mit Aufgaben auf vier Ebenen: einer sprachlichen Ebene, einer strategischen Ebene, einer Wissensebene und einer emotionalen Ebene (Bachman/ Palmer 1996). Das Ziel von Testaufgaben ist es, den Effekt der sprachlichen Ebene zu maximieren, denn nur hier können Aussagen lFlLl.llL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 97 über sprachliche Kompetenz getroffen werden. Das Ziel von Testaufgaben ist es weiterhin, den Effekt der strategischen Ebene, der Ebene des Sach- und Fachwissens und der emotionalen Ebene zu minimieren, um die Testergebnisse so weit wie möglich auf den Einfluss der sprachlichen Ebene beruhen zu lassen. Geht man von einer modularen Organisation des Gehirns aus (Fodor 1983), interagieren Aspekte der Aufgabe soweit sie mündlich gestellt ist bzw. bearbeitet werden soll mit dem mentalen Lexikon der Lerner und dabei mindestens mit zwei Modulen, dem phonetisch-phonologischen und dem semantisch-syntaktischen Modul (Aitchison 1994),jeweils unabhängig voneinanderund auf unterschiedliche Weise; Bachman (1990) trennt das semantisch-syntaktische Modul in einen satz- und einen textgrammatischen Teil. Zu diesen Modulen treten eine Reihe von Wissensbeständen, die mit Elementen der Aufgabe in Interaktion treten, z.B. das Wissen darüber, was man mit Sprache macht und bezweckt (funktionale Kompetenz), wie man mit Gesprächspartnern interagiert, die unterschiedliche Rollen bekleiden oder aus unterschiedlichen Kulturen stammen (soziolinguistische Kompetenz), wie man sprachliche Aufgaben effizient und effektiv löst bzw. sie überhaupt löst (strategische Kompetenz) und das allgemeine Wissen, das man über die Welt hat (Sach- und Fachwissen, Schemata und Skripte). Schließlich interagieren Merkmale der Aufgabe mit emotionalen Merkmalen der Kandidaten. Dazu gehören Persönlichkeitsmerkmale, Wertesysteme, die Einschätzung der eigenen Person und der Angemessenheit des eigenen sprachlichen Niveaus zur Lösung einer Aufgabe. Abbildung 2 fasst diese Merkmale zusammen: sprachliche· Kompetenz Wissensbestände emotionale Bestände lexikalische Kompetenz funktionale Kompetenz Persönlichkeit phonetisch-phonologische sozio-linguistische Wertsysteme Kompetenz Kompetenz satzgrammatische Kompetenz strategische Kompetenz Einschätzung der eig. Person textgrammatische Kompetenz. Sach- und Fachwissen Einschätzung der Kompetenz Abb. 2: Merkmale von Kandidaten, die mit Aufgaben interagieren Die Aufgaben, die während des Prüfungsgesprächs gestellt werden, haben eine Reihe von Funktionen zu erfüllen. Sie müssen authentisch sein, interaktiv und eine repräsentative Auswahl aus den authentischen Aufgaben darstellen, für die ein Bestehen der Prüfung qualifizieren soll. Authentisch bedeutet, dass die Prüfungsaufgaben authentischen Sprechhandlungen in authentischen Situationen ähneln. Interaktiv bedeutet, dass die Prüfungsaufgaben die Kandidaten dazu anregen, ihre sprachliche Kompetenz unter Beweis zu stellen. Dabei muss deutlich werden, welchen Anteil die rein sprachliche lFL\IL 30 (2001) 98 Erwin Tschirner Kompetenz beim Lösen der Aufgabe hat und welche Anteile das Sach- und Fachwissen oder die Gefühle der betreffenden Person. Die Anteile des Sach- und Fachwissens können auf zweierlei Art und Weise kontrolliert werden. Zum einen können die Aufgaben so gewählt werden, dass kein spezielles Sach- und Fachwissen nötig ist, um sie zu lösen. Zum anderen können die Themen, über die gesprochen wird, ausgehandelt werden, d.h. dem Kandidaten überlassen werden. Den ersten Weg gehen die meisten nationalen und internationalen Prüfungen, den zweiten Weg z.B. das ACTFL OPI. Die Gefühle der Testperson können das Testergebnis auf unterschiedliche Weise beeinflussen. So kann ein bestimmtes Thema einen Kandidaten gefühlsmäßig stärker belasten als einen anderen. Auch die Einstellung eines Kandidaten seinen fremdsprachlichen Kompetenzen gegenüber kann das Ergebnis unterschiedlich beeinflussen. Schließlich kann das Verhalten des Prüfers einen unterschiedlichen Einfluss auf unterschiedliche Testpersonen haben. Damit die Gefühle eines Testkandidaten das Prüfungsergebnis nicht verfälschen, muss auf die Inhalte des Gesprächs geachtet werden; darauf, dass der Testkandidat ein positives Gefühl von seinen Fähigkeiten bekommt, und darauf, dass die Testaufgaben den Prüfern erlauben, allen Testkandidaten gegenüber gleichmäßig freundlich distanziert zu agieren. Kontroverse Themen wie Krieg, Abtreibung u.Ä. sollten daher, zumindest auf unteren und mittleren Niveaus, eher vermieden werden bzw. nur dann angesprochen werden, wenn man sicher ist, dass die Person damit keine unangenehmen oder emotional aufwühlenden Erinnerungen verbindet. Ein positives Gefühl von ihren Fähigkeiten kann man der Testperson dadurch vermitteln, dass ihr immer wieder und mit Absicht lösbare Aufgaben gestellt werden, die ihr und dem Prüfer zeigen, was sie kann. Die Merkmale der Aufgabe - Sprechhandlung, Thema, Situation üben einen systematischen Effekt darauf aus, wie eine Aufgabe gelöst wird, und damit auf das Prüfungsergebnis. Allerdings weiß man noch nicht sehr viel darüber, welcher Aufgabentyp genau welchen Effekt hat. Vor allem weiß man nicht, wie viele Aufgaben mit unterschiedlichen Sprechhandlungen, Themen und Situationen genügen, um eine repräsentative Auswahl zu erreichen. So lange dies so ist, erscheint es sicherlich ratsam, eher mehr als weniger unterschiedliche Aufgaben zu stellen. Der SPEAK Test des TOEFL Prüfungsverfahrens (Educational Testing Service 1985) z.B. dauert ca. 15 Minuten und besteht in seiner direkten Variante, d.h. von menschlichen Prüfern von Angesicht zu Angesicht gegeben, aus vier unterschiedlichen Teilen: • ein Bild beschreiben • eine Geschichte erzählen (anhand von Bildern) • seine Meinung zu einem aktuellen Thema darlegen • einen Plan oder ein Programm beschreiben Die zentrale Mittelstufenprüfung (ZMP) des Goethe-Instituts (Goethe-Institut 1997) dauert ebenfalls 15 Minuten, weist aber, neben einer unbewerteten Aufwärmphase, in der nach persönlichen Informationen gefragt wird, nur zwei Aufgaben auf. • seine Meinung zu einem aktuellen Thema darlegen (anhand zweier Fotos) • durch Aushandeln gemeinsam mit dem Prüfer ein Problem lösen lFLlllL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 99 Im Gegensatz zum SPEAK Test darf sich ein Prüfungskandidat auf die ZMP vorbereiten und sich dabei sogar Notizen machen. Die Vorbereitungszeit wird zwar kontrolliert und dauert nur 15 Minuten. Trotzdem wird dadurch Variabilität in die Prüfung hineingebracht, da Prüflinge diese Zeit unterschiedlich gut nutzen werden. Jemand, der unter Prüfungsdruck gezielt und konzentriert arbeiten kann, jemand, der sich effektiv Notizen machen und mit diesen Notizen während des Gesprächs effektiv umgehen kann, wird sicherlich ein besseres Ergebnis erzielen als jemand, der das nicht kann. Damit wird aber nicht nur mündliche Handlungsfähigkeit geprüft. Am Ergebnis ist nicht ablesbar, welchen Einfluss mündliche Handlungsfähigkeit darauf hatte und welchen Einfluss andere Faktoren wie ·effektive schulische oder universitäre Arbeitsroutinen. Gleichzeitig spiegelt das Ergebnis eine Mischung aus spontaner und vorbereiteter Handlungsfähigkeit wider, wobei es keine Rückschlüsse darauf zulässt, welche Anteile am Ergebnis die spontane Handlungsfähigkeit trägt und welche Anteile die Vorbereitung. Das ACTFL OPI variiert in der Aufgabenstellung je nach Niveau des Testkandidaten und dauert je nach Niveau zwischen 10 und 30 Minuten. Ein typisches Interview weist neben einer Aufwärmphase und einer Abkühlphase mindestens 9 unterschiedliche Aufgaben auf. Je nach Gültigkeit, Umfang und Reichhaltigkeit der erzielten Antworten können es aber wesentlich mehr werden. Die Aufgabentypen variieren von Niveau zu Niveau. Hier sind einige der Aufgaben, die z.B. auf dem hohen Alltagsniveau (Intermediate) gestellt werden. • Informationen geben bzw. erfragen • eine Person beschreiben • einen Ort oder eine Sache beschreiben • einen Ablauf beschreiben • über Pläne·sprechen • eine Geschichte erzählen • ein aktuelles Thema erörtern • eine einfache Situation aus dem Alltag bewältigen (Fragen stellen, kurze Antworten geben, Vorschläge machen, gemeinsam entscheiden) Einige dieser Sprechhandlungen werden mehrmals elizitiert, z.B. im Rahmen eines weiteren Themas oder im Bezug auf andere Zeitformen (z.B. etwas im Präsens und etwas anderes im Perfekt beschreiben). Die einfache Situation aus dem Alltag wird durch ein Rollenspiel simuliert. Die Anzahl der Aufgaben hängt von der Struktur des Interviews ab. Prüfungsziel ist es, über ca. vier unterschiedliche Themen hinweg zu zeigen, was die Testperson kann und was sie nicht kann. Das ergibt pro Thema zwei Aufgaben. Zusammen mit dem Rollenspiel weist ein typisches Interview damit mindestens neun Aufgaben auf. Da nicht jede Aufgabe zum erwünschten Ziel führt, kommt es oft vor, dass mehr als neun Aufgaben gestellt werden müssen, damit man mindestens neunmal eindeutige sprachliche Belege dafür bekommt,·was eine Person kann und was sie nicht mehr kann. Das OPI enthält damit deutlich mehr Aufgaben als die ZMP und auch als der SPEAK Test. Die Wahrscheinlichkeit, dass es eine repräsentative Auswahl an authentischen Sprechhandlungen enthält, ist damit wesentlich höher. lFLIIL 30 (2001) 100 Erwin Tschirner Eine Reihe von Testspezialisten ist der Meinung, dass eine mündliche Prüfung nur die mündliche Handlungsfähigkeit testen sollte, nicht gleichzeitig auch Leseverständnis oder Hörverständnis oder Persönlichkeitsvariablen wie Kreativität, Wissen oder Intelligenz (Hughes 1989). Wenn andere Variablen zusammen mit der mündlichen Handlungsfähigkeit getestet werden, ist nicht klar, worauf eine bestimmte Bewertung beruht, vielleicht darauf, wie gut das Gedächtnis von Testteilnehmern ist (Beispiel mündliche Nacherzählung), darauf, wie gut ihre Vorstellungskraft ist (Beispiel Rollenspiel) oder darauf, wie umfangreich oder spezifisch ihr Wissen ist (Beispiel Diskussion eines literarischen Werkes). Es ist schwierig, wenn nicht unmöglich, die Validität von Prüfungen, die Fertigkeiten und Persönlichkeitsvariablen vermischen, zu bestimmen. Gleichzeitig verringert eine undurchsichtige Vermischung von Variablen die Reliabilität einer Prüfung. 4.2 Prüfungsstruktur Das Ziel einer mündlichen Prüfung ist es, eine repräsentative Auswahl der Sprechhandlungen, die eine Person ausführen kann, auf ökonomische Weise zu liefern. Gleichzeitig muss bedacht werden, wie die. einzelnen Aufgaben mit den Merkmalen der getesteten Person interagieren, mit ihrer sprachlichen Kompetenz, mit ihrem Sach- und Fachwissen und mit ihren Gefühlen. Schließlich soll das Prüfungsgespräch eine positive Rückwirkung auf die getestete Person haben, auf die Art und Weise, wie sie ihre eigene Kompetenz wahrnimmt, wie zufrieden sie mit ihr ist, und darauf, welche Schlüsse sie im Hinblick auf ihre weitere fremdsprachliche Entwicklung zieht. In diesem Abschnitt soll gezeigt werden, wie zwei bekannte standardisierte mündliche Prüfungformate, das ACTFL Oral Proficiency Interview (OPI) und das Zertifikat Deutsch, versuchen, diese Kriterien zu erfüllen, bzw. nur einzelne dieser Kriterien zu erfüllen. 4.2.1 Das ACTFL OPI Das OPI (Swender 1999) beginnt mit einer unbewerteten Aufwärmphase. Diese Phase verfolgt mehrere Ziele. Zum einen ist sie dafür gedacht, das Gespräch auf einem Niveau zu beginnen, mit dem der Kandidat keinerlei Probleme hat, damit er sich zu Beginn des Prüfungsgesprächs kompetent fühlen kann. Gleichzeitig bewirkt diese Phase, dass sich die Testperson „aufwärmt", d.h. beginnt, auf Deutsch zu denken. Des weiteren ist das Ziel dieser Phase, Prüfer und Prüfling miteinander bekannt zu machen. Dies soll dazu führen, dass das Gespräch authentischer wird. Man unterhält sich, um sich weiter kennen zu lernen. Zum anderen soll dadurch eine freundliche und angenehme Atmosphäre geschaffen werden. Die Aufwärmphase wird weiterhin dazu benutzt, zu erfahren, wofür sich die getestete Person interessiert, um Themen für die Prüfungsphase des Interviews zu gewinnen. Schließlich bekommt der Prüfer im Rahmen dieser Phase bereits erste Eindrücke darüber, auf welchem Niveau sich die getestete Person befinden könnte. Der Hauptteil der Prüfung rankt sich um 4 bis 5 Themen, die sich auf den unteren Niveaus eher auf elementare alltägliche Erfahrungen bzw. Autobiographisches beschränken, auf den höheren Niveaus mit dem Testkandidaten ausgehandelt werden. Dieses lFLIIL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 101 Aushandeln der Themen hat vor allem ein interaktives Ziel, nämlich die sprachliche Kompetenz der Kandidaten in den Mittelpunkt zu stellen und zu vermeiden, dass die Testresultate durch unterschiedliches fachliches Wissen bzw. negative Gefühle unbrauchbar gemacht werden. Gleichzeitig verstärkt das Aushandeln der Themen mit den Kandidaten die Authentizität des Gesprächs. Letztendlich führt es auch zu einer größeren Testökonomie, weil vermieden wird, Themen anzuschneiden, zu denen die Kandidaten nichts wissen bzw. nichts zu sagen haben. Zu jedem Thema werden zuerst Fragen oder Aufgaben gestellt, von denen der Prüfer annimmt, dass sie der Kandidat problemlos beantworten kann, und dann Fragen oder Aufgaben, von denen angenommen wird, dass sie der Kandidat nur mit Mühe bzw. gar nicht beantworten kann. Das Ziel der Prüfung ist, zu zeigen, was die Person kann (Boden) und was sie nicht kann (Decke), um eine Profilbeschreibung zu erreichen, die die Person eindeutig zwischen zwei Niveaus platziert. Der ständige Wechsel zwischen für die Kandidaten einfachen und schwierigen Fragen führt sie immer wieder auf ein Niveau von Mühelosigkeit zurück. Dies verschafft ihnen zum einen immer wieder Erfolgserlebnisse, ein Gefühl von Kompetenz und damit eine positive emotionale Grundstimmung, und zum anderen notwendige Ruhepausen für die schwierigeren Fragen und Aufgaben. Die Proben auf das nächsthöhere Sprachniveau, das die Testperson noch nicht oder nicht gut beherrscht, haben das Ziel, die Prüfung auch nach oben hin bewertbar zu machen, denn nur im Zusammenspiel zwischen Aufgaben, die gelöst werden, und Aufgaben, die nicht gelöst werden, lassen sich Prüfungsteilnehmer präzise einordnen. Ein Vorteil des Wechselns zwischen lösbaren und komplizierten Aufgaben, ist das Feedback, das die getestete Person dadurch erhält. Sie bekommt ein relativ deutliches Bild ihrer Fähigkeiten, darüber, was sie kann und was sie nicht kann. Dies steigert zum einen die Validität der Prüfung für die getestete Person (Augenscheinvalidität), zum anderen vermittelt es ein persönliches Profil, das Ausgangspunkt weiterer Lernwege werden kann. Weil in einem Prüfungsgespräch nicht alle Sprechhandlungen und sozialen Kontexte auf authentische Weise elizitiert werden können, werden die Kandidaten meist gegen Ende des Interviews gebeten, mit dem Prüfer ein Rollenspiel durchzuführen, um z.B. einfache oder komplexe Transaktionen aus dem Alltag zu simulieren oder um die Rollen anders zu verteilen, um z.B. zu einem anderen Register zu gelangen oder um das Autoritätsgefälle in der Prüfung umzukehren, damit die Testperson mehr Eigeninitiative zeigen kann. Testökonomie (Praktikabilität) wird dadurch ins Spiel gebracht, dass ein bestimmtes Thema nur so lange behandelt wird, bis man eindeutige Belege für Boden- und Deckenniveaus bekommt, z.B. dass eine bestimmte Sprechhandlung im Rahmen eines bestimmten sozialen Kontexts auf eine sprachlich akzeptable Art und Weise durchgeführt bzw. nicht durchgeführt wurde. Während andere Prüfungen eine fest vorgegebene Zeit ansetzen, in der eine bestimmte Aufgabe gelöst werden muss, z.B. 5 Minuten für den freien Vortrag im Rahmen der ZOP, kann ein OPI-Prüfer, sobald er die Belege hat, die er braucht, zur nächsten Aufgabe übergehen. IFLllL 30 (2001) 102 Erwin Tschirner Das OPI endet mit einer Abkühlphase, in der die Kandidaten auf das Niveau zurückgebracht werden, auf dem sie sich am wohlsten fühlen. Diese Phase dient dazu, das Prüfungsgespräch für die Testperson mit einem Erfolgserlebnis zu beenden, um eine positive Rückwirkung auf das weitere Lernen zu haben. Das OPI wird sowohl von Angesicht zu Angesicht gegeben als auch per Telefon. Vor allem die kommerzielle Verwendung des OPI, das durch Language Testing International (LTI), das Prüfungsbüro von ACTFL, organisiert wird, findet fast ausschließlich über Telefoninterviews statt. 4.2.2 Das Zertifikat Deutsch Die mündliche Prüfung des Zertifikats Deutsch -(WBT 1998) kann als Paar- oder als Einzelprüfung durchgeführt werden. Wie das eben beschriebene OPI soll es den Charakter einer Konversation haben. In der Paarprüfung fungieren die Prüfer als Moderatoren und sollen selbst möglichst wenig sprechen. Sie sollen nur dann eingreifen, wenn eine der beiden Testpersonen im Gespräch zu stark dominiert oder sich nicht aktiv beteiligt bzw. wenn das Gespräch zusammenbricht. Die Prüfung dauert ohne Vorbereitungszeit 15 Minuten. Sie besteht aus drei Teilen. Im Teil 1 nehmen die Testpersonen miteinander Kontakt auf, indem sie sich gegenseitig zu Herkunft, Wohnung, Familie u.Ä. Fragen stellen und diese Fragen beantworten. Im Teil 2 beschreiben beide Gesprächspartner sich gegenseitig einen jeweils unterschiedlichen und nur ihnen vorliegenden kurzen Text (ca. 30 Wörter) mit einer Grafik zu einem alltäglichen Thema wie Ferien. Im Anschluss daran beschreiben sie, wie sie selbst ihre Ferien verbringen. Im Teil 3 lösen die Testkandidaten in einer Art Rollenspiel eine einfache Alltagsaufgabe, wie z.B. das Planen einer Feier. Wenn sie als Einzelprüfung durchgeführt wird, spielt einer der Prüfer die jeweils andere Rolle. Es gibt weder eine Aufwärmphase noch eine Abkühlphase. Bevor die Testkandidaten die Prüfung bestreiten, haben sie 20 Minuten Zeit, sich unabhängig voneinander auf sie vorzubereiten. Insgesamt müssen die folgenden vier Aufgaben gelöst werden. • Informationen geben bzw. erfragen • eine Grafik beschreiben • einen Ablauf beschreiben • eine einfache Situation aus dem Alltag bewältigen (Fragen stellen, kurze Antworten geben, Vorschläge machen, gemeinsam entscheiden) Ziel der Prüfung ist es, ein Gespräch zwischen Gleichgestellten zu simulieren (unter der Annahme, die Testkandidaten empfinden sich gegenseitig als gleichgestellt). Dies stärkt die Validität und die Authentizität. Geschwächt wird die Authentizität aber dadurch, dass die Themen vorgegeben sind. Ein größeres Problem scheint jedoch die Reliabilität der Prüfung zu sein. Dadurch dass die Prüfer nur eingreifen sollen, wenn eine Person dominiert bzw. wenn das Gespräch zusammen bricht, bestimmen im Großen und Ganzen die Testkandidaten, wie schwierig bzw. wie leicht ihre Fragen zu beantworten sind. In dem oben angegebenen Beispiel würde es einen großen Unterschied machen, wenn jemand ]F][,W: , 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 103 danach fragt, wie man normalerweise seine Ferien verbringt, oder ob er fragt, wie man seine letzten Ferien verbracht hat. Da die Bewertungskriterien nur danach fragen, wie gut etwas beantwortet wurde, und nicht danach, wie schwierig es war, kann es hier zu großen Unterschieden in der Bewertung kommen. Es ist sicherlich auch schwierig für den Prüfer zu entscheiden, wann ein Testkandidat dominiert und wann der Prüfer einzugreifen hat. Neben eindeutigen Fällen gibt es wahrscheinlich eine Vielzahl von Fällen, in denen eher per Zufall eingegriffen wird. Dies alles senkt deutlich die Reliabilität. Problematisch erscheint die Validität im Hinblick auf die repräsentative Auswahl. Im Grunde genommen werden nur vier Sprechhandlungen geprüft: Fragen stellen, Antworten geben, Vorschläge machen, etwas beschreiben. Zudem wäre es für die Prüfung ausreichend, diese Sprechhandlungen im Präsens zu bewältigen. Es wird nicht deutlich, in wie weit dies eine repräsentative Auswahl der Sprechhandlungen darstellt, die nach ca. 400 Unterrichtsstunden beherrscht werden. Zwar ist wahrscheinlich, dass sich eine Reihe weiterer Sprechhandlungen im Laufe einer Prüfung ergeben. Das Problematische daran ist, dass dies unkontrolliert und durch Zufall erfolgt. Dies würde wiederum deutlich die Reliabilität und damit die Brauchbarkeit der Prüfung senken. Schließlich senkt die Tatsache, dass sich die Testkandidaten auf die Prüfung vorbereiten können, die Authentizität. (Auf wie viele einfache Alltagsgespräche bereitet man sich vor? ) Die Interaktivität der Aufgaben ist zum Teil gewährleistet. Die sprachliche Kompetenz steht deutlich im Vordergrund. Unterschiedliches Sach- und Fachwissen spielt bei den vorliegenden Aufgaben kaum eine das Ergebnis beeinflussende Rolle. Emotional allerdings kann sich vieles abspielen, je nachdem wie sich die beiden Testkandidaten auf sprachlicher wie auch auf emotionaler Ebene verstehen. So lange keine komfortable Flüssigkeit in der Fremdsprache erreicht ist - und das ist auf dem Niveau des Zertifikats noch nicht der Fall -, so lange sind Fremdsprachensprecher darauf angewiesen, einen geduldigen und einfühlsamen Gesprächspartner zu haben, um zu zeigen, was sie wirklich können. Einen solchen Gesprächspartner in einer anderen Testperson zu finden, die vielleicht unmaßgeblich besser Deutsch spricht als man selbst, ist eher zufällig und möglicherweise selten. Auch das Fehlen einer Aufwärmphase ist auf diesem Niveau ein Nachteil, da bei nicht stabiler Kompetenz der Beginn einer Prüfung besonders emotional belastend sein kann und den weiteren Verlauf negativ vorbelasten kann. Ein weiterer Mangel im Bereich Interaktivität ist es, dass fast keine Möglichkeit besteht, das Prüfungsgespräch maßzuschneidern, d.h. sowohl vom Niveau her wie von den Themen her den Bedürfnissen, Interessen und Möglichkeiten der Testteilnehmer anzupassen. Eine positive Rückwirkung hat die mündliche Prüfung des Zertifikats insofern, als die Aufgaben authentische Sprechhandlungen erfordern. Problematisch erscheint die restriktive und nicht repräsentative Auswahl, ebenso die im Großen und Ganzen fehlende Berücksichtigung der emotionalen Ebene der Prüfungskandidaten. Besonders problematisch erscheint die geringe Reliabilität, die den Nutzen dieses Teils der Prüfung in Frage stellt und damit diesen Teil für Testteilnehmer wie für Testbenutzer entwertet. JFLlllL 30 (2001) 104 Erwin Tschirner 5. Validität und Reliabilität: Die Bewertung Wie bereits in Abschnitt 4 festgestellt, bestehen mündliche Prüfungen aus zwei deutlich unterscheidbaren Prozessen, dem Prüfungsgespräch und dem Bewertungsverfahren. Das Bewertungsverfahren ist dabei der einzige Prozess, der potentiell objektiv ist bzw. wie wir sehen werden intersubjektiv. Zum Verfahren gehören die Bewertungsskala, die Bewerter und die Maßnahmen, die ergriffen werden, um Bewertungen so zuverlässig wie möglich zu machen. Dazu wiederum gehört die blinde Doppelbewertung und eine solide Prüfer- und Bewerterschulung. In diesem Abschnitt stehen deshalb Bewertungsskalen, Bewertungsverfahren und Bewerterschulungen im Mittelpunkt sowie die Frage, welchen Einfluss sie auf die Validität und Reliabilität einer mündlichen Prüfu~g haben. 5.1 Bewertungsskalen Die Bewertungskriterien einer Prüfung werden durch ihre Ziele bestimmt. Die Ziele bestimmen das Konstrukt. Davon können Aussagen abgeleitet werden, wie sich das Verhalten erfolgreicher Testkandidaten beschreiben lässt bzw. auf Grund welcher Kriterien verschiedene Kompetenzniveaus unterschieden werden können. Wie in Abschnitt 4 beschrieben müssen Bewertungskriterien bei breit angelegten mündlichen Tests Aussagen dazu machen, welche Texttypen, Sprechhandlungen, Register und Themen auf welchen Niveaus wie gut beherrscht werden und wie genau sich dieses Beherrschen zeigt. Eine Bewertungsskala, die auf einem expliziten theoretischen Modell fremdsprachlicher Kompetenz aufbaut, hat den Vorteil, dass nach Ende der Prüfung Aussagen darüber gemacht werden können, wozu Kandidaten fähig und wozu sie nicht fähig sind. Damit lässt sich eine Profilbeschreibung erstellen, die sowohl potentiellen Arbeitgebern nützliche Informationen zu den sprachlichen Kompetenzen des Kandidaten liefert, wie auch den Kandidaten selbst, die auf der Basis der Beschreibung ihrer Stärken und Schwächen selbst bestimmen können; was sie zur Vervollkommnung ihrer sprachlichen Fähigkeiten benötigen. Ein weiterer Vorteil ist der, dass sie die Konstruktvalidität der Prüfung erhöht. Neben der Möglichkeit, die Konstruktdefinition in die Bewertungsskalen einfließen zu lassen, gibt es die Möglichkeit, das Konstrukt in erster Linie über die Aufgabenstellungen zu erfassen. So kann z.B. ein bestimmtes Leistungsniveau festgelegt werden (z.B. Abschluss eines bestimmten Kurses) und das Konstrukt mündliche Leistungsfähigkeit durch Aufgabenstellungen, die diesem Niveau entsprechen, definiert werden. Dabei wird z.B. bestimmt, welche Sprechhandlungen ausgeführt werden sollen, welche Textsorten beherrscht werden sollen, über welche Themen man sprechen können soll und mit welchen Adressatengruppen man umgehen können soll. Aus diesen Handlungen, Textsorten, Themen und Adressatengruppen wird eine repräsentative Auswahl getroffen und über die Aufgaben erfasst. Die Bewertungsskala bestimmt dann in erster Linie, wie gut die Aufgabe inhaltlich und sprachlich gelöst wurde. Beispiele für diese Art von traditionellen Bewertungsskalen finden sich in sehr vielen nationalen und internationalen Prüfungen (z.B. die Prüfungen des Goethe-Instituts, die DSH und TestDaF). ]F][.,llll, 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 105 Bewertungsskalen, die bewerten, wie verständlich, korrekt, fließend u.Ä. bestimmte Aufgaben gelöst werden, sind relativ einfach zu erstellen. Allerdings sind sie für die Testteilnehmer und oft auch für die Bewerter nicht sehr transparent. Die Testkandidaten erfahren zwar, ob sie bestanden haben oder nicht bzw. wie gut sie bestanden haben. Sie erfahren aber meist nichts darüber, was das für die Welt außerhalb des Prüfungszentrums bedeutet. Dadurch verringert sich auch die Validität der Prüfung, weil Testbenutzer nicht wissen, in wie weit ihre Performanz im Test mit ihrer Performanz im wirklichen Leben korrespondiert, d.h. welche Aussagen über das zukünftige sprachliche Verhalten der Testkandidaten auf Grund ihres Verhaltens im Test gemacht werden können. Diese Bewertungsskalen verwenden Kriterien wie „löst die Aufgabe gut", "macht wenig grammatische Fehler" usw. Solche Kriterien sind relativ vage, und Bewerter können Probleme haben, diese Kriterien konsequent auf unterschiedliche Kandidaten auf die gleiche Weise anzuwenden, bzw. es können Probleme zwischen Bewertem auftauchen, weil sie die Kriterien jeweils unterschiedlich interpretieren. Bei solchen traditionellen Bewertungsskalen definieren die Aufgaben, was sich die Testhersteller unter mündlicher Handlungsfähigkeit auf einem bestimmten Niveau vorstellen. Die mündliche Komponente des neuen Zertifikats Deutsch (WBT 1998) z.B. besteht aus drei Teilen: einem Teil 1, in dem die getestete Person mit dem Prüfer oder einer anderen Person Kontakt aufnehmen soll, dabei zu Herkunft, Wohnung, Familie u.Ä. Fragen stellen und Fragen beantworten soll; einem Teil 2, in dem eine Graphik zu einem alltäglichen Thema wie Ferien beschrieben werden soll und dann darüber berichtet werden soll, wie man selbst seine Ferien verbringt; und einem Teil 3, in dem in einer Art Rollenspiel mit dem Prüfer oder einem Partner eine einfache Alltagsaufgabe zu lösen ist, z.B. das Planen einer Feier. Bewertet werden Ausdrucksfähigkeit, Aufgabenbewältigung, formale Richtigkeit und Aussprache und Intonation. Ausdrucksfähigkeit wird verstanden als inhalts- und rollenbezogene Ausdrucksweise, Wortschatz und die Verwirklichung der Sprechabsicht, Aufgabenbewältigung als Gesprächsbeteiligung, die Verwendung von Strategien und die Flüssigkeit der Rede. Formale Richtigkeit bezieht sich auf Syntax und Morphologie. Das Kriterienraster für Ausdrucksfähigkeit und Aufgabenbewältigung reicht von voll angemessen über im großen und ganzen angemessen zu kaum noch akzeptabel und durchgehend nicht ausreichend. Bei formaler Richtigkeit reicht das Raster von keine oder nur vereinzelte Fehler über Fehler beeinträchtigen das Verständnis nicht zu Fehler an zentralen Stellen, die das Verständnis erheblich beeinträchtigen und schließlich so viele Fehler, dass die Kommunikation zu scheitern droht bzw. scheitert. Das Raster der Kategorie Aussprache und Intonation ist ähnlich wie das der formalen Richtigkeit. Über die Aufgaben und vor allem über das Kriterienraster lässt sich erkennen, dass die Testhersteller eine moderne Vorstellung von sprachlicher Kompetenz als Handlungskompetenz haben. Neben traditionellen Kriterien wie Aussprache und Grammatik treten Sprechabsicht hinzu, also pragmatische Kompetenz, inhalts- und rollenbezogene Ausdrucksweise, also soziokulturelle Kompetenz, und strategische Kompetenz. Allerdings wird nicht klar, inwieweit die drei Testaufgaben eine repräsentative Auswahl aus der Menge der Aufgaben treffen, die ein Kandidat nach ca. 400 Unterrichtsstunden bewälti- FLuL 30 (2001) 106 Erwin Tschirner gen können sollte. Problematisch erscheint bei den Bewertungskriterien vor allem das Kriterium Aufgabenbewältigung mit den Teilkriterien Gesprächsbeteiligung, Verwendung von Strategien und Flüssigkeit. Gesprächsbeteiligung scheint eher ein Persönlichkeitsmerkmal zu sein. Wenn es dem Prüfer nicht gelingt, die geprüfte Person am Gespräch zu beteiligen, kann er auch keine Aussagen über die sprachliche Kompetenz dieser Person machen, also auch keine negativen. Problematisch erscheint auch das Kriterium Verwendung von Strategien. Die Verwendung von Strategien wird meist kompensatorisch verstanden. Wenn z.B. jemand ein bestimmtes Wort benutzen möchte, es aber nicht kennt, kann er oder sie versuchen, das Wort zu umschreiben, es in der Muttersprache zu sagen, in der Hoffnung, es handelt sich vielleicht um ein Kognat, oder versuchen, es durch Mimik oder Gestik zu vermitteln. Die Bereitschaft, Strategien zu verwenden, hängt wie die Gesprächsbeteiligung von der Persönlichkeit der Testkandidaten ab. Zudem kann man meistens nicht feststellen, ob Strategien verwendet werden oder nicht. Cohen/ Olshtain (1993) z.B. sind der Meinung, dass Bewerter das Kriterium Strategische Kompetenz nicht konsequent anwenden können. Sie untersuchten den Grad der Übereinstimmung von fünf Bewertern, die jeweils 15 Testkandidaten bewerteten, und fanden, dass die Übereinstimmung bei diesem Kriterium am geringsten war. Ähnlich sieht es mit dem Teilkriterium Flüssigkeit aus, das ein beliebtes Kriterium auch anderer traditioneller Skalen ist. Flüssigkeit wird meist als Sprechgeschwindigkeit oder als Leichtigkeit des Ausdrucks definiert. Da Menschen in ihrer Muttersprache oft große Unterschiede in Bezug auf Sprechgeschwindigkeit und Leichtigkeit des Formulierens aufweisen, ist es schwierig zu beurteilen, ob eine bestimmte Sprechgeschwindigkeit die normale Geschwindigkeit der betreffenden Person ist. Dazu kommt, dass eine höhere Sprechgeschwindigkeit durchaus eine höhere Anzahl von Fehlern mit sich führen kann. Genau das hat z.B. Kato (1977) herausgefunden, als er die Transkripte von Testkandidaten analysierte, die als besonders fließend sprechende Lerner eingestuft worden waren. Er stellte fest, dass gerade diese Sprecher weniger genau in ihrer Wortwahl waren und mehr grammatische Fehler aufwiesen, als Sprecher, die weniger schnell sprachen und weniger Punkte im Bereich Flüssigkeit erzielt hatten. Einfache Skalen, wie die des neuen Zertifikats Deutsch, die beim Teilkriterium Flüssigkeit von voll angemessen über im großen und ganzen angemessen und kaum noch akzeptabel zu durchgehend nicht ausreichend gehen, sind deshalb von zweifelhaftem Wert. Das Kriterium Aufgabenbewältigung des Zertifikats, definiert als Gesprächsbeteiligung, Verwendung von Strategien und Flüssigkeit der Rede, ist also fragwürdig. Unklar ist aber auch, wie zuverlässig mit Hilfe der anderen Kriterien bewertet werden kann, z.B. mit Hilfe des Kriteriums Ausdrucksfähigkeit. Wenn ein Bewerter feststellt, dass die inhalts- und rollenbezogene Ausdrucksweise, der Wortschatz und die Verwirklichung der Sprechabsicht eines Kandidaten kaum noch akzeptabel ist, kann ein anderer Bewerter dies durchaus als durchgehend nicht ausreichend sehen. Wenn ein Bewerter, der viel Erfahrung im Umgang mit Sprechern einer bestimmten Muttersprache hat, die Grenzen zwischen Aussprache- und Intonationsfehlern, die das Verständnis nicht beeinträchtigen, gelegentlich beeinträchtigen oder erheblich erschweren, ganz anders zieht, als jemand, lFLimlL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 107 der wenig Erfahrung im Umgang mit Sprechern dieser Muttersprache hat, so ist dies sicherlich verständlich und nachvollziehbar. Es verringert jedoch die Reliabilität der Bewertung und damit die Nützlichkeit der Prüfung. Hier hilft nur eine rigorose Bewerterschulung und eine blinde Doppelbewertung, wie in den nächsten Abschnitten dargelegt werden wird. 5.2 Analytische und holistische Bewertungsskalen Eine weitere Entscheidung, die bei der Anwendung von Bewertungskriterien getroffen werden muss, ist die, ob sie getrennt angewendet werden sollen (analytische Skala) oder ob man sie zu ganzheitlichen Niveaubeschreibungen zusammenfassen möchte (holistische Skala). Eine analytische Skala besteht aus einer Reihe von Unterskalen, die getrennt bewertet und beurteilt werden. Dabei kann für jedes Kriterium eine unterschiedliche Beurteilung erreicht werden. Die Gesamtbeurteilung setzt sich aus der Summe der Einzelbeurteilungen zusammen. Eine holistische Skala dagegen ist eine Skala, mit der mündliche Interaktionen in ihrer Gesamtheit bewertet werden. Die einzelnen Niveaus werden ganzheitlich beschrieben und es wird danach gefragt, wie ähnlich ein mündlicher Text einer bestimmten Niveaubeschreibung ist. Holistische Bewertungsverfahren beruhen auf der Annahme, dass die Qualität eines mündlichen Textes nur in seiner Gesamtheit bewertet werden kann und nicht durch ein Addieren einzelner Merkmale. Der Blick auf das Ganze stärkt die Validität, da ja auch die Zuhörer mündliche Texte als Ganzes wahrnehmen. Analytische Bewertungsverfahren gehen davon aus, dass sich die Sprechfertigkeit in Teilfertigkeiten gliedern lässt, die getrennt evaluiert werden können und deren Summe die Sprechfertigkeit insgesamt ergibt. Da sich unterschiedliche Teilfertigkeiten unterschiedlich schnell entwickeln, sei es sogar von Vorteil, sie getrennt zu evaluieren. Durch unterschiedliche Gewichtung einzelner Merkmale können die für einen Zuhörer wesentlichen Elemente in den Vordergrund gestellt werden. Allerdings scheint es sehr schwierig zu sein, das Besondere an einem bestimmten Text, das, was ein Zuhörer ganzheitlich wahrnimmt, aus der Summe von Einzelmerkmalen heraus zu bewerten. Beide Beurteilungsverfahren haben also Vor- und Nachteile. Die Entscheidung für ein holistisches oder analytisches Verfahren richtet sich deshalb oft nach den Zielen und den ökonomischen Rahmenbedingungen einer bestimmten Prüfung. Dazu zählen u.a.: • die Zeit, die für die Bewertung zur Verfügung steht • die Anzahl der Bewertungen pro Prüfung • der Zweck der Prüfung • die Größe der Bewertergruppe • die Schulungsmöglichkeiten der Bewertergruppe Holistische Bewertungsverfahren sind meist weniger zeitaufwendig. Dies führt dazu, dass bei gleichen Kosten die gleiche Prüfung von mehreren Personen evaluiert werden kann. Multiple Bewertungen sind ein wichtiger Faktor für die Reliabilität des Bewertungsverfahrens. Besonders bei der Bewertung produktiver Kompetenzen spielt die Anzahl der JFLIIL 30 (2001) 108 Erwin Tschirner Bewerter eine große Rolle. Die Reliabilität der Bewertung erhöht sich drastisch, je mehr Bewerter die gleiche Prüfung beurteilen (Kenyon/ fschirner 2000). Unter der Voraussetzung, dass mehrere Bewerter die Prüfung beurteilen können, sind holistische Verfahren somit immer dann vorzuziehen, wenn es sich um Prüfungen handelt, von denen sehr viel abhängt, z.B. die Entscheidung, ob jemand zu einem Universitätsstudium zugelassen wird oder ob bestimmte berufsqualifizierende Kenntnisse und Fertigkeiten vorhanden sind. Analytische Bewertungsverfahren andererseits lassen sich besser für diagnostische Zwecke einsetzen. Da sich einzelne sprachliche Bereiche (z.B. Aussprache, Wortschatz, Grammatik, rhetorische Organisation, Register) nicht gleich schnell entwickeln, hat eine Konzentration auf Teilbereiche zum einen den Vorteil, dass man den Kandidaten präzises Feedback zu diesen Teilbereichen geben kann; zum anderen kann honoriert werden, dass einzelne Teilbereiche weiter entwickelt sind, auch wenn dies aus einer ganzheitlichen Sicht heraus die Qualität eines mündlichen Beitrags nicht wesentlich erhöht. Während holistische Verfahren oft dann angebracht sind, wenn es sich um eine relative kleine und homogene Bewertergruppe handelt, die sich aus hoch qualifizierten und gut ausgebildeten Fachleuten zusammensetzt, sind analytische Bewertungsverfahren bei einer großen Anzahl von Bewertern vorzuziehen, vor allem, wenn es schwer ist, einen gleich hohen Ausbildungsstandard zu gewährleisten oder wenn die Bewerter eher unerfahren in der Bewertung von mündlichen Prüfungen sind. Analytische Skalen lenken nämlich die Aufmerksamkeit auf Teilbereiche, die sonst vielleicht nicht beachtet werden würden. Untrainierte Bewerter achten vor allem auf phonologische, morphologische und syntaktische Kriterien und reagieren besonders negativ auf Grammatikfehler. Holistische Verfahren leiden dabei mehr darunter, weil sie nicht wie analytische Verfahren den Blick auf andere Kriterien lenken und es dadurch ermöglichen, diese Kriterien in die Beurteilung einfließen zu lassen. Als Nachteil analytischer Bewertungsverfahren hat sich bei weniger,erfahrenen Bewertem der sogenannte Haloeffekt herausgestellt. Bewerter neigen dazu, im Bewertungsprozess aufeinander folgenden Teilbereichen die gleiche Punktzahl zu geben. Teilbereiche werden also nicht getrennt von den anderen bewertet, sondern von ihnen beeinflusst. Damit kann ein bestimmter Teilbereich, z. B. der erste, der bewertet wird, oder derjenige, der am leichtesten zu bewerten ist, eine unverhältnismäßig große Rolle spielen, und damit den Vorteil analytischer Bewertungsverfahren, unterschiedliche Aspekte unterschiedlich zu gewichten, zunichte machen. 5.3 Bewertungsverfahren Aufgaben, Prüfungsstruktur und Elizitierungstechniken tragen in hohem Maße zur Reliabilität und Validität einer mündlichen Prüfung bei. W eitere maßgebliche Anteile an der Reliabilität einer Prüfung haben das Bewertungsverfahren und die Prüferschulung. Wichtige Fragen beim Bewertungsverfahren sind u.a.: • wie viele Bewerter den gleichen Test bewerten müssen, um eine angemessene Reliabilität zu erreichen IFILlllllL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 109 • ob sich Bewerter absprechen können oder ob alle Bewerter für sich bewerten müssen (eine blinde Doppelbewertung) • ob mündliche Prüfungen auf Band aufgenommen werden müssen. Mündliche Prüfungen, vor allem wenn sie den Kriterien Authentizität und Interaktivität genügen wollen, weisen ein hohes Maß an Variabilität auf. Diese Variabilität kann nur teilweise durch Prüfungsstruktur und Aufgabenstellungen aufgefangen werden. Keine zwei mündlichen Prüfungen sind miteinander vergleichbar. Testteilnehmer handeln mit den Prüfern aus, worüber gesprochen wird und wie darüber gesprochen wird. Deshalb lassen sich mündliche Prüfungen nicht im strengen Sinne objektiv bewerten. Ähnlich wie in der literaturwissenschaftlichen Interpretation muss deshalb Intersubjektivität hergestellt werden. Neben der Schulung, mit der sich der nächste Abschnitt beschäftigt, spielt dabei vor allem die Nachvollziehbarkeit der Bewertung eine große Rolle. Gesprochene Sprache ist flüchtig. Zudem ist es schwer, sich im Gespräch gleichzeitig auf inhaltliche und sprachliche Aspekte des Gesagten zu konzentrieren, vor allem, wenn der Prüfer auf den Inhalt achten muss, um sinnvolle weitere Fragen oder Aufgaben stellen zu können. Selbst wenn zwei Prüfer die Prüfung durchführen und einer der Prüfer sich vor allem auf die Sprache konzentrieren kann, weil er oder sie nicht in die Prüfung eingreift, erfordert die Nachvollziehbarkeit der Bewertung, dass die Prüfung auf Band aufgenommen wird. Die menschliche Erinnerung, die sich aus wahrnehmungspsychologischen Gründen vor allem auf das Inhaltliche richtet, trügt, wenn es um das Wortwörtliche geht. Das Wortwörtliche allerdings gibt Auskunft über die sprachliche Kompetenz der Testteilnehmer. Bewerter müssen sich Prüfungen mehrmals anhören können, müssen bestimmte sprachliche Details einander vorführen und miteinander diskutieren können. Erst dann kann Intersubjektivität auf eine Weise hergestellt werden, die zu nachvollziehbaren und damit potentiell zuverlässigen Beurteilungen führt. Zum zuverlässigen intersubjektiven Bewerten genügt es nicht, dass sich zwei oder mehr Bewerter vor Ort einig werden. Zuverlässigkeit verlangt, dass alle Bewerter, die diese Prüfung potentiell bewerten könnten, zum gleichen Ergebnis kommen können. Dies erreicht man nur durch eine intensive Prüfer- und Bewerterschulung, wie sie im nächsten Kapitel beschrieben wird. Um zu gewährleisten, dass die Schulung den gewünschten Effekt hat, nämlich dass unterschiedliche Bewerter in ihren Urteilen so nah wie möglich beieinander liegen, dürfen Ergebnisse nicht abgesprochen werden, sondern müssen unabhängig voneinander, in einem so genannten blinden Verfahren, abgegeben werden. Blindes Bewerten bedeutet, dass beide Prüfer ohne die Bewertung des anderen zu kennen, ihre Bewertungen abgeben. Auf diese Weise kann kein Bewerter den anderen beeinflussen. Aber selbst das Aufnehmen von mündlichen Prüfungen und das blinde Bewerten allein genügen nicht, um hohe Zuverlässigkeitsraten zu erreichen. Intersubjektivität ist nicht Objektivität. Wenn Prüfungen allerdings Lebenswege beeinflussen, müssen sie so zuverlässig wie möglich sein. Bei Prüfungen der mündlichen Ausdrucksfähigkeit erreicht man eine höhere Objektivität und Reliabilität vor allem dadurch, dass man die Zahl der Bewerter erhöht. Kenyon{fschimer (2000) zeigten, dass sich die Zuverlässigkeit der lFLIIL 30 (2001) 110 Erwin Tschirner Bewertung deutlich erhöht, je mehr Bewerter dieselbe Prüfung beurteilen. Ihrer Meinung nach ist für eine wichtige Prüfung eine einzige Bewertung durch einen einzigen Bewerter nicht zuverlässig genug. Erst bei zwei Bewertern wird eine wichtige Zuverlässigkeitsschwelle überschritten, wobei die Zuverlässigkeit durch drei Bewerter noch einmal deutlich erhöht wird. Kenyon/ Tschirner (2000) ziehen dm: aus den Schluss, dass bei mündlichen Prüfungen mindestens zwei Bewerter unabhängig voneinander ihre Bewertungen abgeben müssen. Wenn es dabei zu einer Divergenz kommt, sollte ein dritter Bewerter eingeschaltet werden, der ebenfalls blind bewertet. Auf Grundlage der in diesem Abschnitt angesprochenen Merkmale zuverlässiger Tests - Aufnahme auf Band, blindes Bewerten, mindestens zwei Bewerter sollen nun einige bekannte Prüfungen untersucht werden. Das Zertifikat Deutsch (WBT 1998) wird von zwei Prüfern abgenommen, die während der Prüfung unabhängig voneinander einen Bewertungsbogen ausfüllen. Am Ende der Prüfung vergleichen die Bewerter ihre Ergebnisse miteinander und einigen sich auf eine gemeinsame Bewertung. Die Prüfung wird nicht aufgenommen. Die erste, auf dem ersten Eindruck basierende Bewertung verläuft zwar blind, da jedoch die Prüfung nicht anderweitig dokumentiert wird, kann das entscheidende Gespräch zwischen den Prüfern nur auf der Basis ihrer Erinnerung ablaufen. Zu den unkontrollierten Variablen, die auf diese Weise eingeführt werden, zählen die Güte des Gedächtnisses der Bewerter, die Überzeugungskraft bzw. Dominanz der einzelnen Bewerter u.Ä. Die Zentrale Mittelstufenprüfung (ZMP) und Zentrale Oberstufenprüfung (ZOP) des Goethe-Instituts (Goethe-Institut 1997, Perlmann-Balme 1998) werden ebenfalls von zwei Prüfern abgenommen, die entweder während oder nach der Prüfung unabhängig voneinander ihre Bewertungen festhalten. Die Prüfung wird nicht aufgenommen. Die Prüfer machen sich abwechselnd Notizen zur sprachlichen Leistung. Im Gegensatz zum Zertifikat Deutsch wird das Endergebnis nicht ausgehandelt, sondern es wird der Mittelwert der Ergebnisse beider Prüfer gebildet. Dies erhöht die Zuverlässigkeit der Bewertung, da das Endresultat nicht von der Persönlichkeit der Prüfer abhängt. Auch die Tatsache, dass sich jeweils einer der beiden Prüfer Notizen zur sprachlichen Leistung macht, erhöht die Reliabilität der Bewertung, da das Ergebnis dieses Prüfers nicht nur von der Güte seines Gedächtnisses abhängt und einzelne Aspekte zumindest partiell nachvollziehbar werden. Da der andere Prüfer jedoch keine Notizen von den Teilen der Prüfung besitzt, in denen er oder sie die Fragen oder Aufgaben gestellt hat, verringert dies die Zuverlässigkeit der Beurteilung dieser Teile. Auch das Fehlen eines dritten Bewerters auch bei großen Bewertungsunterschieden lässt eine hohe Bewertungszuverlässigkeit dieser Prüfungen fraglich erscheinen, auch wenn sie im Detail besser dastehen als das Zertifikat. Das ACTFL OPI (Swender 1999) wird von einem einzigen Prüfer abgenommen. Während der Prüfung macht sich der Prüfer keine Notizen, sondern konzentriert sich auf das Prüfungsgespräch. Die Prüfung wird auf Band aufgenommen. Der Prüfer hört sich die aufgezeichnete Prüfung mindestens einmal komplett an, bevor er eine Bewertung abgibt. Das Band mit der aufgenommenen Prüfung wird dann an einen zweiten Bewerter weitergeleitet, der seine Bewertung abgibt, ohne die Bewertung des ersten Bewerters zu JFLuruL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 111 kennen. Wenn die Bewertungen nicht übereinstimmen, wird das Band an einen dritten Bewerter geschickt, der seine Bewertung ebenfalls blind abgibt. Die Zuverlässigkeit des ACTFL OPI wurde in vielen Studien untersucht. Der Reliabilitätskoeffizient nach Pearson erreichte in allen Studien einen Wert von mindestens 0,8 und oft einen deutlich höheren (Kenyon/ Tschirner 2000). Dieser Wert wird international bei wichtigen Prüfungen als die untere Grenze der Zuverlässigkeit angesehen (vgl. für schriftliche Prüfungen Hamp-Lyons 1990). Reliabilitätskoeffizienten für die Prüfungen des Goethe-Instituts, des Zertifikats Deutsch oder der DSH gibt es nicht, oder sie werden nicht veröffentlicht. Es ist daher unklar, ob diese Prüfungen Reliabilitätswerte haben, die internationalen Ansprüchen genügen. 5.4 Prüfer- und Bewerterschulung Aufgabe eines Prüfers ist es, bewertbare Sprachbeispiele zu elizitieren, d.h. Fragen und Aufgaben so zu formulieren, dass sie die Testperson zu den gewünschten Sprechhandlungen in den gewünschten sozialen Kontexten bringen. Das Geschick des Prüfers ist um so mehr gefragt, je adaptiver und interaktiver das Prüfungsgespräch auf die Interessen, Möglichkeiten und Bedürfnisse der Testkandidaten eingehen soll. Dieses Geschick wird oft erst im Rahmen einer intensiven Prüferschulung erworben. Nach Fulcher (1997) ist die Prüfer- und Bewerterschulung der Ausschlag gebende Faktor für das Erreichen hoher Reliabilitätswerte bei der Bewertung mündlicher Leistungen. Wer mündlich prüfen möchte, muss zwei unterschiedliche Fähigkeiten aufweisen. Zum einen muss er oder sie prüfen können, d.h. das Prüfungsgespräch auf eine Weise führen, die zu einem repräsentativen Ausschnitt der mündlichen Handlungsfähigkeit der Testteilnehmer führt. Zum anderen muss er oder sie bewerten können. Beides muss in einer Prüferschulung gelernt werden. Mündliche Prüfungen variieren in der Offenheit der Aufgaben und Aufgabenstellungen. Manche Prüfungen schreiben den Verlauf der Prüfung detailliert vor (Zertifikat Deutsch), andere Prüfungen sind relativ offen (ACTFL OPI). Offene Prüfungen sind meist authentischer und interaktiver, jedoch auch komplexer in der Durchführung und benötigen meist eine intensivere Prüferschulung. In den Prüferblättem zum Zertifikat Deutsch wird detailliert beschrieben, welche Aufgaben gestellt werden, wie die Aufgaben eingeführt werden sollen und wie viel Zeit für eine Aufgabe zur Verfügung gestellt wird. Dazu gibt es zu jedem Thema eine Reihe von Stichpunkten bzw. vorformulierten Fragen, mit deren Hilfe das Prüfungsgespräch geführt werden kann. Ähnlich ist es in der ZMP (Goethe-Institut 1997). Auch hier gibt es genau vorgeschriebene Aufgaben und Zeitvorgaben. Allerdings gibt es keine vorformulierten Fragen. Dies sollte zu einem offeneren und damit authentischeren Gespräch führen, weil Prüfer eher aus dem Gespräch heraus Fragen stellen werden als auf der Basis vorformulierter Fragestellungen. Im ACTFL OPI gibt es keine vorformulierten Aufgaben oder Fragestellungen. Es ist in zwei Richtungen adaptiv: in der Themenwahl und im Schwierigkeitsgrad der Aufgaben. Das Prüfungsgespräch passt sich sowohl inhaltlich wie auch im Schwierigkeitsgrad an die Testkandidaten an. Prüfer entscheiden auf der Basis von Informationen, die FlLUJL 30 (2001) 112 Erwin Tschirner sie vom Kandidaten bekommen, über welche Themen gesprochen wird und überlegen sich Aufgaben oder Fragen dazu. Diese Fragen werden auf natürliche Art und Weise gestellt, sollen aber trotzdem zum gewünschten Resultat führen, nämlich dazu, bewertbare Sprachbeispiele zu elizitieren. Ebenso passen Prüfer die Schwierigkeit der Aufgaben bzw. Fragen an. Die Art und Weise, wie eine bestimmte Frage beantwortet wurde, mit Leichtigkeit, mit Schwierigkeiten oder gar nicht, wird registriert und beeinflusst den Schwierigkeitsgrad der nächstfolgenden Frage. Im Gegensatz zum OPI scheint das Prüfungsgespräch des Zertifikat Deutsch und der ZMP unproblematisch und einfach und wenig Schulung zu verlangen. Dies ist allerdings nur auf den ersten Blick so. Auch wenn die Aufgaben exakt vorgegeben sind, kann ein Prüfer dennoch relativ viel richtig bzw. falsch machen, vor allem im Hinblick auf emotionale Faktoren. Prüfer müssen wissen, wie man mit Nervosität umgeht, mit Sprechangst, Prüfungsangst und anderen Gefühlen. Dazu müssen Prüfer wissen, wie Kommunikationsprobleme umgangen werden können und wie sie Kandidaten helfen können, aus sprachlichen Sackgassen herauszukommen. Es genügt nicht, wenn die meisten Prüfer, die eine bestimmte Prüfung abnehmen, diese Fähigkeiten haben, weil sie vielleicht auch erfahrene Lehrer sind. Erst wenn alle Prüfer diese Fähigkeiten in gleichem Maße haben, führt dies zu einer reliablen Prüfung. Im Folgenden werden zwei etablierte Prüferausbildungsprogramme beschrieben: das Trainingsseminar der ZMP und das Schulungsprogramm des ACTFL OPI. Das Trainingsprogramm der ZMP ist dabei eher als Minimalprogramm anzusehen. Das Schulungsprogramm des ACTFL OPI ist ungleich zeitaufwendiger, erreicht dadurch aber sehr hohe Reliabilitätswerte. Unter dem Prinzip der Praktikabilität liegt es aber möglicherweise an der Grenze des Machbaren. Das Prüfertrainingsseminar der ZMP mit Teilnehmern ohne ZMP-Erfahrung dauert ca. 4 bis 5 Stunden. Ein vom Goethe-Institut vorgeschlagenes Szenario besteht aus zwei jeweils zweistündigen Bausteinen mit Videounterstützung. Baustein 1 fokussiert das Prüferverhalten und Baustein 2 die Bewertung. Pro Baustein wird eine vollständige Prüfung besprochen. Es gibt weder eine Abschlussprüfung für die Teilnehmer noch einen Zertifizierungsprozess zur Abnahme und Bewertung von ZMP-Prüfungen. Die Prüferschulung des ACTFL OPI beginnt mit einem viertägigen Seminar, das insgesamt 30 Stunden umfasst. In diesem Seminar werden von den nicht mehr als zehn Teilnehmern insgesamt 22 Prüfungen durchgeführt, bewertet und analysiert. An dieses Seminar schließen sich drei weitere Runden an. In der ersten Runde, der Bewertungsrunde, bekommen Teilnehmer sechs Kassetten mit vollständigen Prüfungsgesprächen, um das Bewerten trainieren zu können. In der zweiten Runde, der Praxisrunde, führen die Teilnehmer mindestens zwölf Prüfungsgespräche durch. Zwölf dieser Interviews werden eingesandt. Fünf davon werden von einem Testertrainer bewertet und mit ausführlichen Kommentaren versehen zurückgeschickt. In der dritten und letzten Runde, der Zertifizierungsrunde, führen die Teilnehmer noch einmal mindestens 12 Interviews durch und senden wiederum 12 davon ein. Vier dieser Interviews werden von zwei Testertrainern unabhängig voneinander analysiert und bewertet. Wer die Zertifizierungsrunde besteht, bekommt ein Zertifikat. Der gesamte Prozess dauert bis zu einem Jahr. lFLlllL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 113 Der OPI-Zertifizierungsprozess ist ohne Frage aufwendig, zeitintensiv und teuer. Gerade dadurch werden aber zusammen mit der Art des Bewertungsverfahrens hohe Reliabilitätswerte erreicht, die über den international akzeptierten Minimalanforderungen für wichtige Prüfungen liegen. Wenn man das Diktum „nur zuverlässige Prüfungen sind sinnvolle Prüfungen" ernst nimmt, ist das vielleicht der Preis, der dafür bezahlt werden muss, auch bei Prüfungen des mündlichen Ausdrucks zuverlässige, d.h. brauchbare Ergebnisse zu bekommen. 6. Ausblick In diesem Beitrag wurde versucht, die relevanten Elemente fremdsprachlicher mündlicher Prüfungen einzeln zu beschreiben und auf Probleme und Herausforderungen einzugehen, die sich Entwicklern mündlicher Prüfungen stellen. Den theoretischen Rahmen bildeten dabei die Nützlichkeitskriterien von Bachman/ Palmer (1996): Validität, Reliabilität, Authenti: zität, Interaktivität, Praktikabilität und Rückwirkung. Der Aufwand einer mündlichen Prüfung, vor allem wenn sie wie das OPI hohe Reliabilitätswerte erreichen möchte, ohne zu große Abstriche bei der Validität, Authentizität und Interaktivität der Prüfung zu machen, ist sehr hoch, vör allem im Hinblick auf die Prüfer- und Bewerterschulung und auf das Bewertungsverfahren. Während dieser Aufwand bei wichtigen Prüfungen, durch die Lebenswege beeinflusst werden, sicherlich angebracht ist, stößt man bei Lernfortschrittsprüfungen im schulischen und universitären Bereich doch recht bald an die Grenzen der Praktikabilität. Deshalb bemüht man sich schon seit einigen Jahren, Prüfungsverfahren zu entwickeln, die ebenso gültig und zuverlässig, jedoch wesentlich ökonomischer und praktikabler sind. Kassettengestützte simulierte Prüfungsgespräche, wie das SOPI (Kenyon/ Stansfield 1992) oder TestDaF (Kniffka/ Üstünsöz-Beurer in diesem Band) scheinen dabei ein Schritt in die richtige Richtung zu sein. Studien zur · Übereinstimmungsvalidität zwischen ACTFL OPI und SOPI haben z.B. gezeigt, dass beide Prüfungsformen sehr hoch miteinander korrelieren, mit einem Korrelationskoeffizienten von mindestens 0,8, der sogar oft noch deutlich höher lag, bis zu einem Koeffizienten von 0,99 (Kenyon/ Tschirner 2000). Weitere Fortschritte in Richtung Praktikabilität und Testökonomie werden vielleicht im Rahmen computeradaptiver Prüfungsformen gemacht werden, obwohl auch diese Prüfungsfomien nicht unproblematisch sind lFLllL 30 (2001) 114 Erwin Tschirner Literatur ACTFL (1986): Proficiency guidelines. Hastings-on-Hudson, NY: ACTFL. ACTFL (1999): ACTFL proficiency guidelines speaking: Revised 1999. Hastings-on-Hudson, NY: ACTFL. AITCHISON, Jean (1994): Words in the mind: An introduction to the mental lexicon, 2. Aufl. Oxford: Blackwell. BACHMAN, Lyle (1990): Fundamental considerations in language testing. Oxford: Oxford University Press. BACHMAN, Lyle/ PALMER, Adrian (1996): Language testing in practice. Oxford: Oxford University Press. BROWN, Gillian / MALMKJJER, Kirsten/ POLLITT, Alastair / WILLIAMS, John (eds.) ( 1994 ): Language and understanding. Oxford: Oxford University Press. CANALE, Michael (1983): "From communicative competence to communicative language pedagogy". In: RICHARDS, Jack/ SCHMIDT, Richard (eds.): Language and communication. London: Longman, 3-27. CANALE, Michael/ SWAIN, Merrill (1980): "Theoretical bases of communicative approaches to second language teaching and testing". In: Applied Linguistics 1, 3-47. COHEN, Andrew / OLSHTAIN, Elana. (1993): "The production of speech acts by EFL learners". In: TESOL Quarterly 27, 33-56. COOK, Vivian (1994): Second language learning and language teaching. London: Arnold. CUMMING, Alister (1997): "The testing of writing in a second language". In: CLAPHAM, Caroline / COR- SON, David (eds.): Encyclopedia of language and education. Vol. 7: Language testing and assessment. Dordrecht: Kluwer, 51-64. CUMMING, Alister / BERWICK, Richard (1996): Validation in language testing. Philadelphia: Multilingual Matters. DANDONOLI, Patricia / HENNING, Grant ( 1990): "An investigation of the construct validity of the ACTFL proficiency guidelines and oral interview procedure". In: Foreign Language Annals 23, 11-22. DIEHL, Erika/ CHRISTEN, Helen/ LEUENBERGER, Sandra/ PELVAT, Isabelle/ STUDER, Therese (2000): Grammatikunterricht: Alles für der Katz? Untersuchungen zum Zweitsprachenerwerb Deutsch. Tübingen: Niemeyer. EDUCATIONAL TESTING SERVICE (1985): SPEAK examinee handbook and sample questions. Princeton: Educational Testing Service. FODOR, Jerry (1983): The modularity of mind. Cambridge, MA: MIT Press. FULCHER, Glenn (1997): "The testing ofL2 speaking". In: CLAPHAM, Caroline/ CORSON, David (eds.): Encyclopedia of language and education. Vol. 7: Language testing and assessment. Dordrecht: Kluwer, 75-85 . . GOETHE-INSTITUT (1997): Zentrale Mittelstufenprüfung: Trainingsmaterial für Prüfer zum Mündlichen Ausdruck. München: Goethe-Institut. GROTJAHN, Rüdiger (2000): Leistungsmessung und Leistungsbeurteilung. Band A: Einführung, Glossar und Grundlagen. Patras: Hellenic Open University. HAMP-LYONS, Liz (1990): "Second language writing: Assessment issues" In: KROLL, Barbara (ed.): Second language writing: Research insights for the classroom. Cambridge: Cambridge University Press, 69-87. HUGHES, Arthur (1989): Testing for language teachers. Cambridge: Cambridge University Press. HYMES, Dell (1972): "On Communicative Competence". In: PRIDE, John B./ HOLMES, Janet (eds.): Sociolinguistics. Harmondsworth: Penguin, 269-293. KATO, H. (1977): "Some thoughts on oral examinations for advanced students in Japanese". In: System 5, 181-186. lFLlllL 30 (2001) Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz 115 KENY0N, Dorry / TSCHIRNER, Erwin (2000): "The rating of direct and semi-direct oral proficiency interviews: Comparing performance at lower proficiency levels". In: The Modern Language Journal 84, 85-101. N0RTH, Brian (1994): Scales of language proficiency: A survey of some existing systems. Strasbourg: Council of Europe. PERLMANN-BALME, Michaela (1998): Zentrale Oberstufenprüfung: Trainingsmaterial für Prüfer zur Mündlichen Prüfung. München: Goethe-Institut. PIENEMANN, Manfred (1998): Language processing and second language development: Processability theory. Amsterdam: John Benjamins. PIKE, L. W. (1979): An evaluation of alternative item f ormats f or Testing English as a Foreign Language. TOEFL Research Reports. No. 2. Princeton, NJ: Educational Testing Service. SP0LSKY, Bemard (1995): Measured words: The development of objective language testing. Oxford: Oxford University Press. STANSFIELD, Charles/ KENY0N, Dorry (1992): "Research on the comparability of the Oral Proficiency Interview and the Sirnulated Oral Proficiency Interview". In: System 20, 347-364. SWENDER, Elvira (ed.) (1999): ACTFL Oral Proficiency Interview: Tester training manual. Yonkers, NY: ACTFL. TSCHIRNER, Erwin (1996): "Scope and sequence: Rethinking beginning foreign language instruction". In: The Modern Language Journal 80, 1-14. WEITERBILDUNGS-TESTSYSTEME (1998): Die Europäischen Sprachenzertifikate. Zertifikat Deutsch. Modelltest I. Frankfurt: WBT. lFLuL 30 (2001) Erwin Tschirner • Die ACTFL Leitlinien mündlicher Handlungsfähigkeit Abstract. This article presents a short history of the ACTFL Oral Proficiency Guidelines from their early beginnings as the FSI guidelines in the mid fifties of the 20 th century up to their latest revision in 1999. lt also includes the German translation of the latest version of the guidelines (ACTFL 1999). Die Leitlinien mündlicher Handlungsfähigkeit (oral proficiency guidelines) des American Council on the Teaching ofForeignLanguages (ACFfL) sind 1999 in einer überarbeiteten Version herausgekommen (ACTFL 1999). Im Anhang zu dieser Einleitung (SS. 119- 126) findet sich die offizielle deutsche Übersetzung dieser Leitlinien. Die 1999-er Version der Leitlinien unterscheidet sich von der vorhergehenden (ACTFL 1986) vor allem dadurch, dass das alte Advanced Niveau in Advanced Low und Advanced Mid getrennt wurde und dass die Niveaus nun in fallender Reihenfolge gelistet werden, also mit dem höchsten Niveau beginnen und nicht wie früher mit dem niedrigsten Niveau. Daneben gibt es eine Reihe von Präzisierungen und Ergänzungen, wobei jedoch darauf geachtet wurde, dass abgesehen von den Niveaus Advanced Low und Advanced Mid die Übereinstimmung mit der 1986-er Version gewahrt bleibt. Die ACTFL Leitlinien basieren auf dem Kriterienkatalog des Foreign Service Instituts (FSI), das 1952 vom damaligen US-amerikanischen Außenminister beauftragt wurden, eine Prüfung zu entwickeln, die die mündliche Handlungsfähigkeit amerikanischer Diplomaten und Beamter, die im Ausland eingesetzt werden sollten, zuverlässig bewerten konnte. Gefordert wurde eine Prüfung, die mündliche Kompetenz auf allen Niveaus evaluieren konnte, vom Nullanfänger bis zur völligen fehlerfreien Beherrschung der Fremdsprache. Die ersten Prüfungen wurden holistisch und rein numerisch bewertet, von 0 = keine Kompetenz zu 5 = muttersprachliche Kompetenz, bis 1958 die ersten Niveaubeschreibungen entwickelt wurden, die 5 Kategorien zugeordnet wurden, Aussprache, Verständnis, Flüssigkeit, Grammatik und Wortschatz. Damit nahm die mündliche Prüfung des FSI eine entscheidende Vorreiterrolle ein. Andere mündliche Prüfungen begannen erst in den späten 70-er und frühen 80-er Jahren Skalen zu entwickeln, die beobachtbares Verhalten auf unterschiedlichen sprachlichen Kompetenzniveaus beschrieb und diese Beschreibungen zu Evaluationszwecken verwendete (Fulcher 1997). Die Skala und das lnterviewformat des FSI wurden in den sechziger Jahren von immer mehr US-amerikanischen Behörden übernommen, u.a. dem Defense Language Institute * Korrespondenzadresse: Prof. Dr. Erwin TSCHIRNER, Univ.-Prof., Universität Leipzig, Herder-fustitut, Löhrstr. 17, 04105 LEIPZIG. E-mail: tschirner@rz.uni-leipzig.de Arbeitsbereiche: Angewandte Linguistik, Multi- und Telemedien, Testwissenschaft. f'LIIL 30 (2001) Die ACTFL Leitlinien mündlicher Handlungsfähigkeit 117 (DLI), dem Peace Corps und dem CIA, die sich 1968 zusammensetzten und unter dem Namen Interagency Language Roundtable (ILR) eine standardisierte Version für alle staatlichen Stellen und Behörden entwickelten. Die ILR Prüfung breitete sich in den 70er Jahren vor allem aus drei Gründen auch an Schulen und Universitäten aus. Es hatte als direkter Test eine hohe Augenscheinvalidität, die Interrater-Reiiabilität war sehr hoch, mit einem Reliabilitätskoeffizienten von 0,84 und höher, und es passte gut zur Kommunikativen Methode, die in den siebziger Jahren die didaktische Diskussion zu dominieren begann (Barnwell 1987). Anfang der achtziger Jahre überarbeitete ACTFL zusammen mit dem ILR und dem Educational Testing Service (ETS) die Skala erneut, um sie besser auf die sprachlichen Verhältnisse an Schulen und Universitäten anzupassen. ACTFL erweiterte die unteren Niveaus, legte die oberen Niveaus zusammen und präzisierte sowohl das Interviewformat als auch die Beurteilungskriterien. Darüber hinaus wurden Leitlinien zur Erfassung des Hörverständnisses, des Leseverständnisses, der Schreibfertigkeit und des kulturellen Verständnisses verfasst. Diese ACTFL Leitlinien kamen 1982 in einer vorläufigen und 1986 in einer endgültigen Fassung heraus (ACTFL 1986). In den 90-er Jahren etablierten sich die ACTFL Leitlinien und das darauf basierende Oral ProficiencY, Interview (OPI) als die de facto Standardprüfung mündlicher Kompetenz in Nordamerika, sowohl im schulischen und universitären Bereich, wie auch in der Geschäftswelt. Die Anstrengungen ACTFLs, das OPI und die Leitlinien an Schulen und Universitäten bekannt zu machen und zu verbreiten, war so erfolgreich, dass die 90-er Jahre als die Jahre des proficiency movement in die Geschichte der Fremdsprachendidaktik in Nordamerika eingegangen sind. Der Erfolg der Leitlinien und ihr weitergehender methodisch-didaktischer Einfluss wird auch daran deutlich, dass die Leitlinien mündlicher Handlungskompetenz 1999 in einer überarbeiteten Fassung herauskamen, die in den nächsten Jahren von Neufassungen für die Fertigkeiten des Schreibens, Lesens und Hörens ergänzt werden sollen, und dass sie die Grundlage weiterer weit verbreiteter und innovativer Testverfahren wie das Simulated Oral Proficiency Interview (SOPI) (Stansfield/ Kenyon 1992) und das Computerized Oral Proficiency Interview (COPI) (Kenyon 2000) darstellen. Eine kurze Bemerkung zu unserer „Übersetzung" der Niveaubezeichnungen: Eine direkte Übersetzung in Anfangsstufe, Mittelstufe etc. schien uns irreführend, weil zum einen die Mittelstufe vom Leistungsniveau her eher mit dem NiveauAdvanced vergleichbar ist und zum anderen die deutschen Niveaubezeichnungen mit institutionalisiertem Lernen in Verbindung gebracht werden, während die Leitlinien unabhängig von Schule und Unterricht als Kompetenzniveaus definiert wurden. Dazu ist der Lernfortschritt von Niveau zu Niveau nicht linear sondern exponentiell zu verstehen, d.h. der Lernaufwand, der nötig ist, um z.B. vom Niveau Novice Low zum Niveau Novice Mid zu gelangen ist nur ein Bruchteil dessen, was benötigt wird, um vom Niveau Advanced Low zum Niveau Advanced Mid zu gelangen. 1 Für einen Überblick über empirische Ergebnisse im Zusammenhang mit dem OPI vgl. Tschirner / Heilenman 1998 und Tschirner 2000) FLl.! L 30 (2001) 118 Erwin Tschirner Unsere Wahl der Bezeichnungen ist, so hoffen wir, aussagekräftiger, weil sie widerspiegelt, in welchen Kontexten Sprecher eines bestimmten Niveaus sich kompetent bewegen können. Literatur AMERICAN COUNCIL ON THE TEACHING OF FOREIGN LANGUAGES (1986): Proficiency guidelines. Hastings-on-Hudson, NY: ACTFL. AMERICAN COUNCIL ON THE TEACHING OF FOREIGN LANGUAGES (1999): ACTFL proficiency guidelines -speaking: Revised 1999. Hastings-on-Hudson, NY: ACTFL. BARNWELL, D. (1987): "Oral proficiency testing in the United States". In: British Journal of Language Teaching 25, 35-42. FULCHER, Glenn (1997): "The testing of L2 speaking". In: CLAPHAM, Caroline / CORSON, David (eds.): Encyclopedia of language and education, vol. 7: Language testing and assessment. Dordrecht: Kluwer, 75-85. KENYON, Dorry (2000): "Enhancing oral proficiency assessment through multimedia: A model, applications, and research needs". In: TSCHIRNER, Erwin/ FuNK, Hermann/ KOENIG, Michael (Hrsg.): Schnittstellen: Lehrwerke zwischen alten und neuen Medien. Berlin: Comelsen, 171-201. STANSFIELD, Charles/ KENY0N, Dorry (1992): "Research on the comparability ofthe Oral Proficiency Interview and the Simulated Oral Proficiency Interview". In: System 20, 347-364. TSCHIRNER, Erwin (2000): "Das ACTFL OPI als Forschungsinstrument". In: AGUADO, Karin (Hrsg.): Zur Methodologie in der empirischen Fremdspracheriforschung. Hohengehren: Schneider, 105-118. TSCHIRNER, Erwin/ HEILENMAN, L. Kathy (1998): "Reasonable expectations: Oral proficiency goals for intermediate-level students of German". In: Modern Language Journal 82, 147-158. JFJLlllL 30 (2001) Die ACTFL Leitlinien mündlicher Handlungsfähigkeit ACTFL Leitlinien fremdsprachlicher Kompetenz - Sprechen (revidiert 1999) 2 (aus dem Englischen übertragen von Erwin Tschirner und Annett Zupke) 3 Expertenniveau (Superior) 119 Sprecher dieser Stufe beteiligen sich an formellen und informellen Gesprächen fließend und sprachlich sicher. Sie sind in der Lage, viele unterschiedliche Themen sowohl auf einem konkreten als auch abstrakten Niveau zu erörtern. Sie sprechen fließend, mühelos und sprachlich sicher über eigene Interessens- und Spezialgebiete, gestalten Erzählungen ausführlich und gut strukturiert und erklären komplexe Angelegenheiten im Detail. Sie äußern ihre Meinung zu vielfältigen für sie wichtigen Themen, z.B. gesellschaftlichen und politischen Fragen, die sie gut strukturiert und nachvollziehbar begründen können. Sie sind fähig, Hypothesen zu entwickeln und alternative Möglichkeiten zu erschließen. Wenn nötig, bringen sie ausführliche Diskussionsbeiträge, um ihren Standpunkt zu vertreten, und verfallen selbst auf hohem Abstraktionsniveau nicht in ungewöhnlich lange Pausen. Die Struktur dieser Diskussionsbeiträge ist in sich stimmig und nachvollziehbar, mag aber weiterhin von muttersprachlichen rhetorischen Organisationsmustern geprägt sein. Sprecher des Expertenniveaus verwenden eine Reihe Unterschiedlicher Gesprächs- und Diskursstrategien, wodurch sie beispielsweise in der Lage sind, den Gesprächsverlauf zu steuern sowie Hauptgedanken und Hintergrundinformationen sprachlich voneinander zu trennen. Dazu verwenden sie gekonnt syntaktische, lexikalische und prosodische Mittel wie Lautstärke, Betonung und Intonation. Die grammatischen Grundstrukturen des Deutschen werden meist fehlerfrei bzw. ohne erkennbare Fehlermuster verwendet. Bei selten verwendeten bzw. komplexen Strukturen, die eher auf den formellen und schriftlichen Sprachgebrauch beschränkt sind, können einzelne Fehler auftreten. Diese Fehler werden von muttersprachlichen Gesprächspartnern aber kaum wahrgenommen, noch wirken sie sich störend auf die Kommunikation aus. Hohes professionelles Niveau (Advanced High) Sprecher dieser Stufe erfüllen alle Aufgaben des professionellen Niveaus fließend, mühelos und sprachlich sicher. Sie können etwas im Detail erklären und in allen Zeitfor- 2 American Council on the Teaching of Foreign Languages. (2000). ACJFL Proficiency Guidelines - Speakmg. Revised 1999. In: Foreign Language Annals, 33, 13-18. 3 Die Übersetzer bedanken sich bei Nadine Jänike (Universität Leipzig), Arthur Mosher (University of Dayton), Brigitte Nikolai (OS Oker) und Karl F. Otto, Jr. (University of Pennsylvania) für viele wertvolle Anmerkungen und Hinweise. JFL11L 30 (2001) 120 Erwin Tschirner men ausführlich und sprachlich sicher erzählen. Zusätzlich bewältigen Sprecher dieses Niveaus einen Großteil der Aufgaben des Expertenniveaus. Allerdings sind sie weder in der Lage, .das Expertenniveau bei allen Aufgaben bzw. Themen durchzuhalten, noch das dazugehörige hohe Maß an sprachlicher Richtigkeit beizubehalten. Vielmehr treten meist erkennbare Fehlermuster auf. Zum Teil können sie Hypothesen aufstellen und Meinungen gut strukturiert begründen. Manche Themen, insbesondere solche, die mit ihren jeweiligen Interessens- und Fachgebieten verbunden sind, können sie auch abstrakt diskutieren. Im Allgemeinen fällt es ihnen allerdings leichter, Themen konkret zu erörtern. Sprecher des hohen professionellen Niveaus verfügen über eine gut entwickelte Fähigkeit, mangelhaften Gebrauch einiger Formen oder limitierten Wortschatz auszugleichen, indem sie kommunikative Strategien, wie z.B. Paraphrasierungen, Umschreibungen und Illustrationen, sicher anwenden. Zum Ausdruck ihrer Absichten verwenden sie genaues Vokabular und genaue Wort- und Satzbetonung. Sie weisen häufig eine hohe Redegewandheit auf und können mühelos mit Sprache umgehen. Werden sie jedoch aufgefordert, komplexe Aufgaben des Expertenniveaus über verschiedene Themen auszuführen, scheitern sie meist sprachlich oder erfüllen sie nicht auf angemessene Weise. Manchmal gehen sie auch der eigentlichen Aufgabe aus dem Wege, indem sie beispielsweise auf Vereinfachungen zurückgreifen und anstelle von Begründung oder Hypothese Beschreibung oder Erzählung anwenden. Mittleres professionelles Niveau (Advanced Mid) Sprecher dieser Stufe erfüllen eine Vielzahl der Aufgaben des professionellen Niveaus fließend, mühelos und sprachlich sicher. Sie beteiligen sich aktiv an den meisten formellen und informellen Gesprächen und können auf konkrete Weise über eine Vielzahl von Themen sprechen, die sich auf Beruf, Schule/ Universität und Heim beziehen sowie Tätigkeiten aus dem Freizeitbereich, Ereignisse von öffentlichem und persönlichem Interesse und Inhalte von aktueller und individueller Relevanz umfassen. Sprecher des mittleren professionellen Niveaus können relativ ausführlich beschreiben und erzählen, passen sich flexibel den Gesprächsanforderungen an und sind in der Lage, unter Verwendung der dazu nötigen Tempusformen über Gegenwärtiges, Vergangenes sowie Zukünftiges zu sprechen. Sie produzieren dazu kürzere, in sich gegliederte Texte, in denen Erzählung und Beschreibung fließend ineinander übergehen. Im Kontext alltäglicher Situationen meistem Sprecher dieser Stufe sprachliche Herausforderungen relativ mühelos und setzen eine Reihe kommunikativer Strategien wie Umschreiben und Paraphrasieren erfolgreich ein, um Komplikationen oder unvorhergesehene Gesprächsverläufe zu lösen. Aufgaben des professionellen Niveaus bewältigen sie fließend und mühelos. Sie verfügen über einen recht umfangreichen Wortschatz, der sich hauptsächlich aus allgemeinem Wortmaterial zusammensetzt, aber auch ein Spezialgebiet oder ein spezielles Interesse bei einzelnen Sprechern einschließen kann. Die Strukturierung der mündlichen Rede mag weiterhin stärker von rhetorischen Organisationsmustern der Muttersprache als von der Zielsprache geprägt sein. JFLl! L 30 (2001) Die ACTFLLeitlinien mündlicher Handlungsfähigkeit 121 Sprecher dieser Stufe beteiligen sich mit relativ hoher sprachlicher Richtigkeit, Klarheit und Präzision an Gesprächen über relativ viele ihnen vertraute und konkret behandelte Themen. Sie können ihre Gedanken eindeutig und unmißverständlich zum Ausdruck bringen und werden von Muttersprachlern ohne Erfahrung im Umgang mit Ausländern mühelos verstanden. Die Qualität und der Umfang ihrer Rede nimmt unter den Anforderungen des Expertenniveaus ab. Sprecher des mittleren professionellen Niveaus sind fähig, ihre Meinung zu äußern, aber nicht ausführlich und gut strukturiert zu begründen. Sie verzögern, beginnen zu beschreiben oder zu erklären, erzählen Geschichten oder Anekdoten, oder verweigern sich einfach den sprachlichen Anforderungen des Expertenniveaus. Unteres professionelles Niveau (Advanced Low) Sprecher dieser Stufe bewältigen, obgleich noch manchmal stockend, eine Vielzahl kommunikativer Aufgaben. Sie beteiligen sich aktiv an den meisten informellen und einigen formellen Gesprächen, wobei sie in der Lage sind, sich über Beruf, Schule/ Universität oder Heim sowie Tätigkeiten aus dem Freizeitbereich zu äußern. Mit Einschränkungen können sie auch über berufliche Erfahrungen, über Themen von öffentlichem und persönlichem Interesse sowie über Inhalte von aktueller und individueller Relevanz reden. Sprecher des unteren professionellen Niveaus sind fähig, zusammenhängende Texte in Absatzlänge zu produzieren, in denen sie unter Verwendung angemessener Tempusformen über Vergangenes, Gegenwärtiges und Zukünftiges berichten oder es beschreiben. Sie können sprachlichen Herausforderungen mit einer Reihe unterschiedlicher sprachlicher Mittel wie Paraphrasieren und Umschreiben begegnen, wenngleich ihre Rede bei unvorhergesehenen Gesprächsverläufen oder Komplikationen gelegentlich sehr kurz bleibt und nur mühsam produziert wird. Sprecher dieser Stufe verfügen in erster Linie über einen allgemeinen Wortschatz. Sie können beim Erzählen und Beschreiben Sätze zu kurzen Texten verknüpfen. Wenn man sie aber um eine ausführlichere Darstellung bittet, beginnen sie nach Wörtern zu suchen und belassen es bei eher minimalen Aussägen, weshalb ihre Äußerungen selten länger als ein Absatz sind. Ausführliche Beschreibungen gelingen ihnen so gut wie nicht. Die Strukturen der Zielsprache werden besonders in der Gesprächsgliederung meist von denen der Muttersprache überlagert, wie es sich z.B. in der falschen Verwendung formgleicher Wörter und auch in wörtlichen Übersetzungen zeigt. Auch wenn Sprecher des unteren professionellen Niveaus meist relativ fließend und flüssig reden, ist ihre Sprache mit Anstrengung verbunden und zurückhaltend, gespickt mit auffälligen Selbstkorrekturen und einer gewissenen grammatischen Unebenheit. Sie beteiligen sich an Gesprächen mit ausreichender Genauigkeit, Klarheit und Präzision, um ihre Gedanken relativ unmißverständlich zu äußern. Sie werden von Muttersprachlern ohne Erfahrung im Umgang mit Ausländern verstanden, was aber unter Umständen erst durch Wiederholungen und Umformulierungen erreicht wird. Wenn Sprecher dieser lFLllllL 30 (2001) 122 Erwin Tschirner Stufe versuchen, Sprechhandlungen oder Themen, die mit dem Expertenniveau assoziiert sind, zu bewältigen, nehmen Qualität und Quantität ihrer Sprache gravierend ab. Hohes Alltagsniveau (Intermediate High) Sprecher dieser Stufe begegnen den meisten Routineaufgaben und gesellschaftlichen Situationen des Alltagsniveaus mit Leichtigkeit und Sicherheit. Sie bewältigen erfolgreich eine Vielzahl unkomplizierter sprachlicher Aufgaben und gesellschaftlicher Situationen, die einen Austausch grundlegender Informationen erfordern und die sich auf Arbeit, Schule/ Universität, Freizeit sowie spezielle Interessen und Kenntnisbereiche beziehen. Allerdings meistem sie solche Aufgaben manchmal nur zögernd und fehlerhaft. Sprecher des hohen Alltagsniveaus bewältigen Aufgaben des professionellen Niveaus, obgleich sie nicht in der Lage sind, dieses Niveau über unterschiedliche Themenbereiche durchzuhalten. Sie produzieren zwar teilweise zusammenhängende mündliche Texte in Absatzlänge, in denen sie über Vergangenes, Gegenwärtiges oder Zukünftiges berichten oder es beschreiben, aber ihre Sprache weist bei der Bewältigung von Aufgaben auf diesem Niveau deutliche Einbrüche auf. Es gelingt ihnen nicht, Erzählungen und Beschreibungen semantisch oder syntaktisch vollständig in den angemessenen Zeitformen durchzuführen. Sie verlieren die Fähigkeit, zusammenhängende mündliche Texte zu produzieren, Konnektoren richtig zu gebrauchen und erfolgreich zu umschreiben. Schließlich verringert sich sowohl der Umfang als auch die passende Verwendung von Vokabular, und es entstehen lange Gesprächspausen. Sprecher des hohen Alltagsniveaus werden im allgemeinen auch von Gesprächspartnern verstanden, die keine Erfahrung im Umgang mit Ausländern haben, wenngleich rhetorische Organisationsprinzipien der Muttersprache u.a. durch Codeswitching, falsche Freunde, wörtliche Übersetzungen noch sehr stark erkennbar bleiben und Brüche in der Kommunikation auftreten. Mittleres Alltagsniveau (Intermediate Mid) Sprecher dieser Stufe sind fähig, eine Reihe unkomplizierter Kommunikationsaufgaben in einfachen Alltagssituationen zu bewältigen. Ihre Kommunikationsfähigkeit beschränkt sich im allgemeinen auf solche vorhersagbaren und konkreten Gespräche, die notwendig sind, um Grundbedürfnisse zu befriedigen. Dazu gehören persönliche Angaben zur eigenen Person, Familie, Zuhause, Tagesablauf, Interessen und Vorlieben sowie körperliche und soziale Bedürfnisse wie essen, einkaufen, reisen oder übernachten. Sprecher des mittleren Alltagsniveaus neigen dazu, die Gesprächsführung dem Gesprächspartner zu überlassen, und bevorzugen es beispielsweise, auf direkte Fragen zu antworten oder gewünschte Auskünfte zu geben. Sie sind aber in der Lage, selbst eine Vielzahl einfacher Fragen zu stellen, um einfache Auskünfte wie Wegbeschreibungen und Preise einzuholen und um einfache Dienstleistungen in Anspruch zu nehmen. Sie lFLi.llL 30 (2001) Die ACTFL Leitlinien mündlicher Handlungsfähigkeit 123 können auch bereits einige Aufgaben des professionellen Niveaus bewältigen, haben allerdings häufig Schwierigkeiten, ihre Gedanken zu strukturieren und zusammenhängend darzustellen, Zeitformen und Aspektunterschiede einzuhalten bzw. kommunikative Strategien anzuwenden, wie zum Beispiel das Ausgleichen fehlenden Wortschatzes durch Umschreibungen. Sprecher dieser Stufe sind fähig, persönliche Anliegen durch eigenständige Formulierungen auszudrücken, und können dabei bekannte oder gerade gehörte sprachliche Wendungen benutzen bzw. neu miteinander verbinden, um satzwertige Äußerungen zu produzieren bzw. aneinander zu reihen. Ihre sprachlichen Äußerungen können durch Pausen, Umformulierungen und Selbstkorrekturen geprägt sein, da sie oft nach angemessenen Wörtern und angemessener Sprache suchen, um sich auszudrücken. Aufgrund von Ungenauigkeiten in Wortwahl, Aussprache, Grammatik und Syntax können Mißverständnisse auftreten. Trotzdem werden Sprecher des mittleren Alltagsniveaus generell von geduldigen Gesprächspartnern, insbesondere von jenen, die oft mit Ausländern interagieren, verstanden. Unteres Alltagsniveau (Intennediate Low) Sprecher dieser Stufe sind fähig, eine begrenzte Anzahl einfacher kommunikativer Aufgaben durch eigenständiges Formulieren erfolgreich zu bewältigen. Gespräche beschränken sich auf konkrete Alltagssituationen und vorhersagbare Themen, die notwendig sind, um Grundbedürfnisse zu befriedigen. Diese Themen beziehen sich auf grundlegende persönliche Angaben, die z.B. die eigene Person, die Familie, einige alltägliche Tätigkeiten und persönliche Vorlieben betreffen und auf grundlegende sprachliche Kontaktsituationen wie z.B. etwas im Restaurant bestellen oder kleinere Einkäufe tätigen beruhen. Auf dieser Stufe operieren Sprecher vorwiegend reaktiv und haben manchmal Mühe, direkte Fragen zu beantworten und Auskünfte zu geben. Dennoch sind sie fähig, situationsangemessene Fragen zu stellen. Sprecher des unteren Alltagsniveaus machen persönliche Angaben, indem sie sich bekannter oder gerade gehörter sprachlicher Wendungen bedienen bzw. diese zu neuen kurzen Aussagen zusammenstellen. Ihre Äußerungen sind häufig zögerlich und fehlerhaft, da sie nach angemessenen sprachlichen Formen und Wörtern suchen, um sich mitzuteilen; zudem sind sie durch viele Pausen, umständliche Formulierungen und Selbstkorrekturen gekennzeichnet. Aussprache, Wortschatz und Syntax sind noch sehr stark von ihrer Muttersprache beeinflusst. Obwohl häufig noch Mißverständnisse auftreten, die Wiederholungen und Umformulierungen erfordern, werden Sprecher dieser Stufe generell von geduldigen Gesprächspartnern, insbesondere von jenen, die oft mit Ausländern interagieren, verstanden. lFLllL 30 (2001) 124 Erwin Tschirner Hohes Einstiegsniveau (Novice High) Sprecher dieser Stufe sind in der Lage, viele Aufgaben des Alltagsniveaus zu bewältigen, können dieses Niveau allerdings nicht durchgängig aufrecht erhalten. Sie sind fähig, eine Reihe einfacher Kommunikationsaufgaben in unkomplizierten gesellschaftlichen Situationen vorwiegend mit Hilfe von auswendig gelerntem Material zu erfüllen. Gespräche sind auf ganz wenige vorhersagbare Themen beschränkt, die notwendig sind, um in der Zielkultur auf einfachste Weise zu leben. Dazu gehören beispielsweise einfache persönliche Angaben, elementare Gegenstände, und in beschränktem Umfang, elementare Tätigkeiten, Vorlieben und grundlegende Bedürfnisse. Sprecher dieser Stufe antworten auf direkte einfache Fragen und geben auf Anfragen auf einfache Weise Auskunft. Wenn sie darum gebeten werden, sind sie in der Lage, einige wenige formelhafte Fragen zu stellen. Sprecher des hohen Einstiegsniveaus sind in der Lage, persönliche Anliegen zu äußern, wobei sie aber darauf angewiesen sind, in hohem Maße auswendig gelernte Wendungen zu benutzen oder diese Wendungen mit unmittelbar vom Gesprächspartner verwendeten sprachlichen Elementen zu verknüpfen. Ihre Äußerungen bestehen meist aus kurzen und manchmal unvollständigen Sätzen im Präsens. Sie sind oft fehlerhaft und stockend, obgleich Äußerungen manchmal auch erstaunlich fließend und korrekt klingen können, wenn sie sich aus auswendig gelerntem Material und im Ganzen gespeicherten Satzteilen und Teilsätzen zusammen setzen. Bei dem Versuch, ihre Äußerungen zu personalisieren, werden Aussprache, Wortwahl und Satzbau jedoch deutlich von der Muttersprache der Sprecher beeinflusst. Obwohl häufig Missverständnisse auftreten können, machen sich Sprecher dieser Stufe durch Wiederholungen und Umformulierungen im allgemeinen für geduldige Gesprächspartner mit Erfahrung im Umgang mit Ausländern verständlich. Wenn sie aufgefordert werden, Sprechhandlungen und Themenbereiche des Alltagsniveaus zu bewältigen, sind sie nur teilweise fähig, ihren Mitteilungswünschen Ausdruck zu geben. Mittleres Einstiegsniveau (Novice Mid) Sprecher dieser Stufe kommunizieren minimal und mühevoll mittels einiger einzelner Wörter und auswendig gelerntem Material und sind durch den jeweiligen Kontext, in dem die Sprache gelernt wurde, eingeschränkt. Antworten auf direkte Fragen bestehen selten aus mehr als zwei oder drei Wörtern oder gelegentlich aus kurzen auswendig gelernten Sätzen. Sprecher des mittleren Einstiegsniveaus machen häufig lange Pausen, in denen sie nach einfachen Wörtern suchen oder versuchen, Wörter, die von ihnen selbst oder vom Gesprächspartner bereits benutzt wurden, wiederzuverwerten. Aufgrund der vielen Pausen, des sehr begrenzten Wortschatzes, des inkorrekten Sprachgebrauchs oder der Unfähigkeit, angemessen zu antworten, werden sie selbst von geduldigen Gesprächspartnern mit Erfahrung im Umgang mit Ausländern manchmal nur schwer verstanden. Wenn sie aufgefordert werden, Sprechhandlungen und Themenbereiche des Alltagsni- JFLulL 30 (2001) Die ACTFL Leitlinien mündlicher Handlungsfähigkeit 125 veaus zu bewältigen, verfallen sie häufig in ihre Muttersprache, in Schweigen oder in wortwörtliches Wiederholen. Unteres Einstiegsniveau (Novice Low) Sprecher dieser Stufe besitzen im Grunde keine Kommunikationsfähigkeit und sind wegen ihrer mangelhaften Aussprache häufig nicht zu verstehen. Gibt man ihnen ausreichend Zeit und benutzt sprachliche Wendungen, die sie kennen, dann sind sie eventuell in der Lage, zu grüßen, sich vorzustellen und einige wenige Gegenstände ihrer unmittelbaren Umgebung zu benennen. Sie sind aber nicht in der Lage, Sprechhandlungen und Themenbereiche des Alltagsniveaus zu bewältigen. lFLIIL 30 (2001) 126 Erwin Tschirner ACTFL Leitlinien fremdsprachlicher Kompetenz - Sprechen (Überblick) Expertenniveau Professionelles Niveau Alltagsniveau Einstiegsniveau (Superior) (Advanced) (Intermediate) (Novice) Sprecher dieser Stufe Sprecher dieser Stufe Sprecher dieser Stufe Sprecher dieser Stufe sind in der Lage, sind in der Lage, sind in der Lage, sind in der Lage, • sich gründlich und • sich aktiv an einigen • sich an einfachen Ge- • einfache Fragen zu effizient an formelformellen und den sprächen von Angesehr einfachen alltäglen und informellen meisten informellen sieht zu Angesicht zu liehen Dingen zu be- Gesprächen über Gesprächen über Theallgemein vorherantworten praktische und bemen von persönlichem sagbaren Themen mit • sich Gesprächspartrufsbezogene und/ und öffentlichem In- Bezug auf Alltagsgenern mit Erfahrung oder wissenschaftliteresse zu beteiligen schehen und persönim Umgang mit Ausehe Themen zu be- • Gegenwärtiges, Verliehe Umgebung zu ! ändern verständlich teiligen gangenes und Zukünfbeteiligen zu machen, mittels • mit Hilfe ausführlitiges zu beschreiben, • eigenständig zu foreinzelner Wörter, eher, gut strukturierdarüber zu berichten mulieren und ihre Wortlisten, auswenter Diskussionsbei- und zu erzählen, unter Anliegen geduldigen dig gelernter Wenträge überzeugende angemessener Markie- Gesprächspartnern dungen, und einiger Hypothesen zu entrung aspektueller Vermitzuteilen, indem sie selbst formulierter wickeln und Standhältnisse satzwertige Äußerun- Neuzusammensetpunkte zu erklären • unvorhergesehene gen produzieren bzw. zungen gelernter und zu begründen Probleme im Geaneinander reihen sprachlicher Elemen- • Themen auf konkrete sprächsverlauf mit un- • durch Fragen und te und abstrakte Weise terschiedlichen sprach- Antworten Auskünfte • eine sehr begrenzte zu erörtern liehen Mitteln zu lösen einzuholen oder zu Anzahl unmittelbarer • sprachlich unge- • zusammenhängende geben Bedürfnisse zu bewohnte Situationen Texte (Beschreibun- • einfache sprachliche friedigen zu bewältigen gen, Erzählungen u.a.) Interaktionen und • ein hohes Maß an mit angemessener Transaktionen durchsprachlicher Korrekt- Richtigkeit und Sizuführen und zu beheit einzuhalten cherheit zu produzieenden, wenn auch • professionelle ren primär reaktiv sprachliche Anfor- • die sprachlichen An- • Grundbedürfnisse derungen des Berufsforderungen von Schu- und soziale Anfordelebens bzw. der akale, Universität oder rungen der Zielkultur demischen Welt zu Beruf zu erfüllen. zu befriedigen, um erfüllen auf einfache Weise in der Zielkultur zurecht zukommen lFLIIL 30 (2001) Gabriele Knif.fka, Dörthe Üstünsöz-Beurer • TestDaF: Mündlicher Ausdruck Zur Entwicklung eines kassettengesteuerten Testformats Abstract. TestDaF (Test Deutsch als Fremdsprache), the new German language test designed to assess the language proficiency of foreign students seeking entry to German universities, employs a tapemediated format to test the candidates' oral proficiency. Tue paper explains the reasons why a technology-based format was chosen, and outlines the most important features of this subtest as well as some crucial aspects of the empirical research undertak: en to evaluate this much-discussed format. 1. Zielsetzung Der „Test Deutsch als Fremdsprache" (TestDaF) wird künftig neben der „Deutschen Sprachprüfung für den Hochschulzugang ausländischer Studienbewerber" (DSH) als Nachweis ausreichender deutscher Sprachkenntnisse anerkannt. Die Entwicklung von TestDaF wurde von Anbeginn an von den betroffenen Fachkreisen aufmerksam verfolgt und rege diskutiert. Besondere Kritik wurde dabei am Subtest Mündlicher Ausdruck geübt, dessen kassettengesteuertes Format in Deutschland relativ wenig bekannt ist und unseres Wissens nach bislang in keiner Prüfung verwendet wurde. Bei einem kassettengesteuerten Prüfungsformat werden die Prüfungsleistungen mittels eines Tonbandes elizitiert. Das bedeutet, dass die Prüfung in der Regel im Sprachlabor stattfindet; Prüfungsaufgaben und Anweisungen kommen vom Band, dem Masterband. Alle Aufgaben sind in einem Aufgabenheft abgedruckt, welches dem Prüfungsteilnehmer vorliegt. Seine Antworten werden auf einer Audiokassette 1 aufgenommen. Ziel dieser Arbeit ist, das Format umfassend darzustellen und insbesondere seine Vorteile herauszuarbeiten: Es werden die Gründe für die Wahl gerade des kassettengesteuerten Formats dargelegt und die wesentlichen Entwicklungsschritte und empirischen Evaluierungen der vorliegenden Form nachgezeichnet. Korrespondenzadresse: Dr. Gabriele KNIFFKA, , Enunastraße 2, 50937 KÖLN. E-mail: gabriele.knif: fka@netcologne.de Arbeitsbereiche: Deutsch als Fremdsprache, Testentwicklung Dr. Dörthe ÜSTÜNSÖZ-BEURER, Schwärzlocher Str. 3, 72070 TüBINGEN. E-mail: beurer.uestuensoez@t-online.de Arbeitsbereiche: Testmethodik, Arbeits- und Organisationspsychologie 1 Zur Zeit werden für die Masterbänder und die Kandidatenbänder Audiokassetten verwendet; bei Neuerungen der Sprachlabortechnik bzw. der Entwicklung des TestDaF zu einem computerbasierten Test werden andere Tonträger (CDs) zum Einsatz kommen. lFLllL 30 (2001) 128 Gabriele Knif.fka, Dörthe Üstünsöz-Beurer 2. Kassettengesteuertes Format 2.1 Gründe für die Wahl eines kassettengesteuertes Formats Die Entwicklung des TestDaF erfolgte unter Berücksichtigung bestimmter, von den auftraggebenden Institutionen gemachter Vorgaben. 2 Diese lauten in Stichworten: zentrale Erstellung und Korrektur der Prüfung Standardisierung der Prüfung Dokumentation eines differenzierten Leistungsprofils Prüfung für den Hochschulzugang weltweiter Einsatz der Prüfung. Jede dieser Vorgaben zeitigt bestimmte Konsequenzen. Zum Beispiel bestimmt die Vorgabe „Prüfung für den Hochschulzugang" den zu wählenden Sprachausschnitt, also die Sprachverwendung im Kommunikationsbereich Hochschule. Die Vorgabe, nach der die Prüfung ein differenziertes Leistungsprofil dokumentieren soll, hat zur Folge, dass im TestDaF (a) nach den Fertigkeiten Leseverstehen, Hörverstehen, Schriftlicher Ausdruck und Mündlicher Ausdruck getrennt geprüft wird und dass (b) die Prüfungsleistungen jeweils einer von drei Niveaustufen (TestDaF-Niveaustufen 3-5, fortan TDN 3,TDN 4, TDN 5) 3 zugeordnet werden. Letztere Vorgabe bewirkt, dass es im TestDaF überhaupt einen Subtest Mündlicher Ausdruck gibt. Die Frage, inwieweit und auf welche Art und Weise sich die einzelnen Vorgaben in der vorgelegten Prüfung manifestieren, kann im Rahmen dieser Arbeit nicht umfassend diskutiert werden. Im Folgenden werden daher lediglich die Aspekte aufgeführt, die für das Format des Subtests Mündlicher Ausdruck von Relevanz sind. Unmittelbaren Einfluss auf die Wahl eines kassettengesteuerten Formats hatten die Vorgaben „zentrale Korrektur", "Standardisierung" und „weltweiter Einsatz". Bei zentraler Korrektur (in Deutschland) werden die mündlichen Prüfungsleistungen von unabhängigen Bewertem beurteilt. 4 Dazu müssen die Prüfungsleistungen aufgezeichnet werden, als Audiound/ oder Videodatei. Diese Bedingung ist prinzipiell auch beim Format einer traditionellen mündlichen Prüfung (Face-to-Face) erfüllbar. 5 Ein Problem 2 Vgl. dazu u.a. die Erklärung der damaligen Bundesminister Kinkel und Rüttgers auf einer gemeinsamen Pressekonferenz am 13.06.1998: "Bundesregierung, KMK, DAAD, HRK und weitere Institutionen bereiten zur Zeit einen zentralen, standardisierten Test für Deutsch als Fremdsprache (TestDaF) nach dem Muster des englischen Test Of English as a Foreign Language vor. Er soll Ausländern in zwei Jahren die Möglichkeit eröffnen, bereits in ihrem Heimatland den für den Hochschulzugang in Deutschland erforderlichen Sprachtest abzulegen, und den deutschen Hochschulen eine differenzierte Einstufung der Studierenden bei der Hochschulzulassung ermöglichen." Zitiert aus: Gutzat, B. / P. Pauen / J.Voss (2001 ): "Computer- und Internet-Einsatz bei TestDaF". Erscheint in: Tagungsband zur 21. AKS-Tagung in Saarbrücken (9. bis 11.03.2000). 3 Die TestDaF-Niveaustufen TDN 3 - TDN 5 sind nach~ulesen auf der Homepage des TestDaF-Instituts: http: / / www.testdaf.de/ test/ stufen.html 4 Im Unterschied zur gängigen Praxis bei traditionellen mündlichen Prüfungen sind bei zentraler Korrektur Prüfer und Bewerter nicht identisch. 5 Dieses Verfahren wird beispielsweise beim International EnglishLanguage Testing System (/ ELTS), einer sprachlichen Zulassungsprüfung für britische und australische Hochschulen, angewandt. lFL1lllL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 129 ergibt sich hier allerdings hinsichtlich der zu bewertenden Daten: Können die Redebeiträge eines Interaktionspartners (des Prüfungsteilnehmers) isoliert und unabhängig von den Redebeiträgen des anderen Interaktionspartners (des Prüfers) bewertet werden, wenn doch ein Gespräch auch ein Prüfungsgespräch eine gemeinsame kommunikative Aktivität darstellt? "[...] As soon as you try to test use (as opposed to usage) you cannot confine yourselfto the single individual. So whose perlormance are we assessing? " (McNamara 2000: 84) Die Standardisierung der Prüfung bedeutet, dass sowohl die Durchführung als auch die Auswertung eindeutig geregelt sind und in gleicher Weise erfolgen. Diese Vereinheitlichungen schaffen die Voraussetzung dafür, dass das Testgütekriterium der Objektivität, d.h. die weitgehende Unabhängigkeit der Ergebnisse von Durchführungsbedingungen und Auswertern, erfüllt werden kann. Hier weist das kassettengesteuerte Format gegenüber einer traditionellen mündlichen Prüfung deutliche Vorteile auf. Eine kassettengesteuerte mündliche Prüfung ermöglicht ein deutlich höheres Maß an Durchführungsobjektivität, da für alle Prüfungsteilnehmer die gleichen Prüfungsbedingungen gelten. Da mit dem kassettengesteuerten Format nicht allein ein Instrument zur Erhebung von Prüfungsleistungen bezeichnet ist, sondern dazu ein standardisiertes Bewertungsverfahren und genau definierte Bewertungskriterien erarbeitet wurden, wird gleichzeitig ein hohes Maß an Auswertungsobjektivität gewährleistet. Objektive und damit vergleichbare Durchführung und Auswertung der Prüfung sind wiederum wesentliche Voraussetzungen dafür, dass die Kriterien der Reliabilität und Valididät erfüllt werden können. Der weltweite Einsatz der Prüfung zu einheitlichen Terminen setzt voraus, dass zu diesen Terminen an allen Prüfungsorten ausreichend qualifizierte Prüfer 6 zur Verfügung stehen - und bei einer großen Teilnehmerzahl auch entsprechend viele Prüfer, damit sich der Prüfungsvorgang nicht über einen längeren Zeitraum erstreckt. Dies ist vermutlich nur unter hohem Kostenaufwand zu leisten. Unter diesem Aspekt bringt ein kassettengesteuertes Format klare Vorteile, denn dabei ist es möglich, eine größere Anzahl von Prüfungsteilnehmern gleichzeitig zu prüfen, d.h., der Gesamtaufwand an Personal und Zeit fällt eindeutig geringer aus als bei traditionellen mündlichen Prüfungen. Die angeführten Gesichtspunkte erlauben nüchtern bilanziert keine andere Wahl als die eines kassettengesteuerten Formats, da die Vorteile unter den vorgegebenen Bedingungen deutlich überwiegen. 2.2 Beschreibung des Subtests Mündlicher Ausdruck Zur Erhebung mündlicher Prüfungsdaten wird bei TestDaF somit eine technisierte Prüfung eingesetzt, die sich folgender Instrumente bedient: Sprachlabor/ Kassettenrekorder, Masterband, Aufgabenheft und Kandidatenband. 6 Prüfungen im traditionellen Format müssten mit mindestens zwei Prüfern durchgeführt werden. JFLIIL 30 (2001) 130 Gabriele Knif.fka, Dörthe Üstünsöz-Beurer Das Masterband hat eine Gesamtlänge von ca. 30 Minuten, in denen die Prüfungsteilnehmer 10 Aufgaben zu lösen haben. Dabei werden ca. 15 Minuten an „Gesprächsdaten" der einzelnen Teilnehmer erhoben. Das Masterband beginnt mit einem technischen Check-up, anschließend werden einige Daten (Name, Prüfungsort und -datum) erfragt. Danach setzt die eigentliche Prüfung ein. Der Subtest gliedert sich in vier Teile: Teil 1, der nur eine Aufgabe umfasst, dient dem „Aufwärmen" und wird in der Regel 7 nicht bewertet. Teil 2 enthält vier Aufgaben; hier werden verschiedene Situationen aus dem studentischen Alltag simuliert, in denen Sprechhandlungen wie Informationen geben/ einholen oder eine dringende Bitte vortragen gefordert sind. In Teil 3 steht „Beschreiben" im Rahmen einer Lehrveranstaltung im Mittelpunkt. Dazu müssen zwei Aufgaben bearbeitet werden. In Teil 4 sind drei Aufgaben, die Sprechhandlungen aus dem Bereich „Argumentation" fordern, gestellt. Innerhalb eines Teils sind die Aufgaben nach aufsteigender Schwierigkeit geordnet. Jede Aufgabe besteht aus einer Aufgabenstellung, festgelegter Denk- und Sprechzeit und einem Stimulus. In der Aufgabenstellung werden die Situation (z.B. räumliche Situierung, Interaktionspartner), Thema und geforderte Sprechhandlung aufgeführt. Die anschließende Denkzeit dient der kurzen Überlegung, dem Notieren von Stichworten. Je nach Aufgabe sind dafür zwischen 15 und 45 Sekunden vorgesehen. Das Ende der Denkzeit wird durch den sog. Stimulus markiert. Im Stimulus kommt der simulierte Gesprächspartner zu Wort und spricht den Prüfungsteilnehmer direkt an. Auf den Stimulus folgt die Sprechzeit, d.h. die Zeitspanne, die dem Prüfungsteilnehmer für seine Antwort maximal zur Verfügung steht. Die Sprechzeiten variieren je nach Aufgabe zwischen 30 Sekunden und 1 Minute 45 Sekunden. Fünf Sekunden vor Ablauf der Sprechzeit ertönt ein Signalton (Länge 0,58 Sek; 2000 Hz Sinus, Dämpfung -25dB vom Maximalton), der dem Teilnehmer das Ende der jeweiligen Aufgabe signalisiert, ohne ihn beim Sprechen zu stören. Alle Aufgaben und Anweisungen auf dem Masterband sind auf Deutsch gestellt. 2.3 Simulated Oral Proficiency Interview (SOPI) und TestDaF Mündlicher Ausdruck Das Format des Subtests MA bei TestDaF orientiert sich am Simulated Oral Proficiency Interview (SOPI), einem kassettengesteuerten Testformat, das Anfang der Achtzigerjahre am Centerfor Applied Linguistics (CAL) in Washington entwickelt wurde. Mittels SO PI s wird die mündliche Ausdrucksfähigkeit von Fremdsprachenlernern in Bezug auf die Kriterien des American Council on the Teaching of Foreign Languages (ACTFL) 8 festgestellt. Der Aufbau eines prototypischen SO PI basiert auf dem des Oral Proficiency Interview (OPI), einem Test in Form eines streng geleiteten Gesprächs, in dem der 7 Die Bewertungsanleitung sieht Ausnahmefälle vor, in denen die Lösung der Aufgabe in Teil 1 in die Bewertung einbezogen wird, z.B. wenn im Bereich der Aufgaben auf dem Niveau TDN 3 eine Störung auftritt (Lärm, technischer Defekt o.Ä.). 8 Vgl. American Council on the Teaching of Foreign Languages: 1999. ACTFL proficiency guidelines speaking: Revised 1999. Hastings-on-Hudson, NY: Author. [vgl. auch in diesem Band, SS. 116-126]. JFJL1.IIL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 131 Prüfungsteilnehmer gefordert ist, eine Folge von sprachlichen Aufgaben mit ansteigendem Schwierigkeitsgrad auszuführen. Charakteristischerweise besteht ein OPI aus vier Phasen: Warm-up, probe, level check und wind down. Die Leistungen des Prüfungsteilnehmers in den einzelnen Phasen werden vom Prüfer anhand der ACTFL-Kriterien beurteilt und der entsprechenden Leistungsstufe (Novice, Intermediate, Advanced, Superior) zugeordnet. Der Aufbau einer Prüfung ist bei OP/ und SOPI sehr ähnlich, die Bewertungskriterien identisch. Unterschiedlich ist die Art der Datenerhebung: beim SOP/ werden sie mittels Band und Aufgabenheft erhoben. Der Terminus SOPI dient heute nicht mehr nur zur Bezeichnung der von CAL entwickelten Tests mit den ACTFL-Kriterien als Referenzrahmen, sondern bezieht sich auf jegliche Art kassettengesteuerter mündlicher Prüfung. Das Center for Applied Linguistics hat SOP/ s für mehr als zehn Sprachen entwickelt, darunter auch für Deutsch, den German Speaking Test (GST), der den Ausgangspunkt für die Entwicklung eines eigenen kassettengesteuerten Tests bei TestDaF bildete. 9 Der Subtest Mündlicher Ausdruck im TestDaF unterscheidet sich im Hinblick auf Inhalt 10 und die spezifische Ausgestaltung des Formats jedoch deutlich vom SO PI/ GST. Den beiden Prüfungen liegen unterschiedliche Konstrukte zugrunde, d.h., sie unterscheiden sich in den Eigenschaften, dem Bündel von sprachlichen Fähigkeiten, die gemessen werden sollen. Auf der Basis der Testergebnisse des TestDaF sollen Schlussfolgerungen über das sprachliche Verhalten des Prüfungsteilnehmers in Situationen des Kommunikationsbereichs Hochschule gezogen werden. Im SOPI! GST hingegen geht es um Prognosen hinsichtlich des sprachlichen Verhaltens in Alltagssituationen (vgl. ACTFL Guidelines). Der SO PI/ GST bildet also einen anderen Sprachausschnitt ab als TestDaF. Folglich sind die Themen und die geforderten Sprechhandlungen in den beiden Prüfungen unterschiedlich. Auch das Leistungsspektrum (engl. band), welches von den beiden Prüfungen jeweils abgedeckt wird, ist verschieden. SOPI! GST prüft die sprachlichen Leistungen in einem Spektrum von Unterstufenbis Oberstufenniveau (die ACTFL-Stufen Novice - Superior) in einer längeren Version bzw. Unterstufenbis Mittelstufenniveau (die ACTFL-Stufen Novice -Intermediate) in einer kürzeren Version. TestDaF hingegen prüft ausschließlich Leistungen im oberen Leistungsspektrum 11 , da die Aufnahme eines Studiums Deutschkenntnisse auf fortgeschrittenem Niveau voraussetzt. TestDaF weist eine vom SOPI! GST verschiedene, den Anforderungen entsprechende spezifische Ausgestaltung des Formats auf. Dies zeigt sich am augenscheinlichsten in der Sprache, die als Instruktionsmedium eingesetzt wird. Im SO PI/ GST werden alle Anweisungen und Aufgaben auf Englisch, d.h. der Mutter- oder Zweitsprache der Prüfungsteilnehmer, gestellt und nur der Stimulus in der Zielsprache Deutsch präsentiert. Das ist Die nachstehenden Ausführungen beziehen sich ausschließlich auf den Vergleich mit diesemSOP/ / GST. 10 Die inhaltlichen Unterschiede sind relativ unabhängig vom Format der Tests und werden hier nur kurz aufgeführt. 11 Genauer: Nach den Kompetenzskalen des Europarates liegt das mit TDN 3, TDN 4 und TDN 5 anvisierte Leistungsspektrum zwischen B 2.1 (Vantage leve[) und C 1.2 (Ejfective Proficiency leve[). lFLIIL 30 (2001) 132 Gabriele Knif.fka, Dörthe Üstünsöz-Beurer möglich, da der SOPI! GST ausschließlich in den USA Anwendung findet. Mit dem Gebrauch des Englischen soll sichergestellt werden, dass alle Prüfungsteilnehmer, auch die auf Anfängerniveau, genau verstehen, was von ihnen verlangt wird. Der TestDaF ist dagegen völlig einsprachig. Alle Anweisungen, Aufgaben und Stimuli werden in der Zielsprache Deutsch dargeboten. Diese Lösung ist darauf zurückzuführen, dass TestDaF weltweit eingesetzt wird. Dem Prinzip des SOPI ("directions are given in the native language ofthe examinees" (Kenyon 2000: 92)) zu folgen, hätte bedeutet, dass eine Vielzahl von (Sprach-)Varianten eines jeden Prüfungssatzes hätten erarbeitet werden müssen. Abgesehen vom personellen und finanziellen Aufwand, der damit entstände, wäre die Parallelität der verschiedensprachigen Prüfungssätze nur sehr schwer und durch umfangreiche, zusätzliche Untersuchungen sicherzustellen. So müsste man prüfen, ob die vorgenommenen Übersetzungen im Hinblick auf die Zielsprache adäquat sind und die verschiedenen Sprachfassungen zugleich noch untereinander vergleichbar. Weiterhin stellt sich die Frage, welche Sprache in Ländern mit unterschiedlichen Landessprachen zu verwenden ist und ob das Kriterium der Testfairness in jedem Fall eingehalten werden kann. Wählt man beispielsweise für die beiden afrikanischen Staaten Kamerun und Gabun deren offizielle Verkehrssprache Französisch für die Anweisungen und Aufgabenstellungen, dann wären die französischsprachigen Prüfungsteilnehmer aus Frankreich möglicherweise deutlich im Vorteil gegenüber den afrikanischen. Denn für letztere ist Französisch in der Regel Zweit- oder Drittsprache. Die Verwendung des Französischen in der Prüfung würde für sie daher vermutlich einen zusätzlichen Schwierigkeitsfaktor darstellen. Ein direkter Vergleich der Prüfungsergebnisse mit denen französischer Muttersprachler wäre dann nicht fair. Ähnliche Probleme lassen sich für eine Reihe weiterer Weltregionen aufzählen. Die Wahl der Zielsprache Deutsch als lnstruktionsmedium hat zur Folge, dass in noch viel stärkerem Maße als dies für kassettengesteuerte Formate ohnehin gilt, Konstruktionsmittel und -prinzipien Anwendung finden, die das Verstehen erleichtern. Das nachstehende Beispiel auf der folgenden Seite macht dies anhand eines Vergleiches mit dem SOPI! GST deutlich. Im TestDaF sind ausnahmslos alle zehn Aufgaben nach demselben Konstruktionsmuster gestaltet, während es beim SOP/ ! GST leicht variierende Konstruktionsmuster für Aufgaben gibt. Das Konstruktionsmuster beim TestDaF sieht folgendermaßen aus: (1) Beschreibung der Situation; (2) Benennung der auszuführenden Sprechhandlungen (fett gedruckt); (3) ikonische Darstellung der Elemente Denkzeit - Stimulus - Sprechzeit. 12 12 Der Stimulus ist nicht im Aufgabenheft abgedruckt, sondern hier der Infornrntion halber wiedergegeben. (Aus: TestDaF Modellsatz 2001.) lFLllL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 133 Sie sitzen mit einigen Erstsemester-Studenten in der Cafeteria. Sie unterhalten sich über ihr Abitur. Ina, eine deutsche Mitstudentin, fragt Sie, wie die Abschlussprüfung in den Schulen Ihres Heimatlandes aussieht. Informieren Sie Ina darüber, • in welchen Fächern man geprüft wird • wie lange die Prüfung dauert • ob es eine mündliche Prüfung gibt. SIE: DENKZEIT: p INA: SIE: SPRECHZEIT: [Stimulus: Sag mal, wie sieht das Abitur bei Euch eigentlich aus? ] Obwohl eine typische SOPI-Aufgabe u.a. die Elemente 13 englische Anweisungen, Kontextualisierung, Denk- und Sprechzeit, Stimulus umfasst, finden sich nicht durchgängig alle Elemente in den Aufgaben des GST. Bei einer Aufgabe ist der Prüfungsteilnehmer beispielsweise gefordert, zu den vier Bildern, die in der Aufgabe präsentiert werden, jeweils eine oder mehrere Fragen zu stellen. In dieser Aufgabe wirdim Gegensatz zu anderen keine Denkzeit gewährt und kein zielsprachlicher Stimulus eingesetzt: "Imagine that you are at your school's German club meeting one evening. Helmut an exchange student from Frankfurt has brought along some pictures of his friends from home. (...) You want to ask Helmut some questions about these pictures to find out about his friends. After you hear the directions for each picture, you will have 20 seconds to ask your question or questions. Ask your questions immediately after you hear the directions for each picture. There will be no other signal to alert you to begin asking your questions. 13 Vgl. Kenyon (2000: 100): "Whatever the task, each SOPI task developed by CAL has several elements. [ ... ] Table 11: Elements of a SOPI task - English directions - Contextualization - Thinking and response time - Target-language prompt - Endtone - Picture(s) if required" IFLIIL 30 (2001) 134 Gabriele Kniffka, Dörthe Üstünsöz-Beurer Now look at Picture 1, which shows Helmut's friend Karl-Heinz. Now ask Helmut one or more questions to find out more about Karl-Heinz. (20 seconds) Now look at Picture 2, which shows Helmut's school. Now ask Helmut one or more questions to find more about about his school. (20 seconds) [...]" (Kenyon 2000: 95) Die folgende Aufgabe repräsentiert ein anderes Konstruktionsschema, das sowohl eine Denkzeit wie einen zielsprachlichen Stimulus umfasst: "(Narrator) Now silently read the first task printed at the top of page 6, while I read it aloud. Note that for this task you will have 20 seconds to think about your answer. Then, after you hear the German speaker, you will have 1 minute for your response. (2 seconds) Your German teacher has invited a speaker to your dass to talk about student life in her native country, Switzerland, and how students in Switzerland typically spend their weekends. After her talk, the speaker, Mrs. Riede! , is talking with you. She asks you how you usually spend your weekend. After Mrs. Riede! asks her question, teil her how you usually spend your weekend. (20 seconds) (Native Speaker) ** Was machen Sie normalerweise am Wochenende? (55 seconds) TONE (5 seconds)" (Kenyon 2000: 101) Der Warm-Up-Teil des SOPI setzt sich prinzipiell von den übrigen Aufgaben des Tests ab: "The Warm-Up is the only section in the SOPI containing questions posed solely in the target language." (Stansfield 1996, 89) Dass ein rein zielsprachlicher kassettengesteuerter Test noch rigoroserer Konstruktionsprinzipien bedarf als ein SOPI mit einem hohen muttersprachlichen Anteil, stellte sich im Laufe der Erprobungen heraus. Das Format, zunächst eng am SOPI! GST ausgerichtet, wurde daher weiterentwickelt und mit einem Profil ausgestattet, welches der Zielsetzung von TestDaF und den Bedingungen, unter denen TestDaF eingesetzt wird, stärker entspricht. 2.4 Beschränkungen eines kassettengesteuerten Formats In den vorangegangenen Abschnitten wurden die Gründe, die zur Wahleineskassettengesteuerten Formats beim TestDaF beitrugen, und die Vorteile, die es unter den gegebenen Umständen mit sich bringt, angeführt. Der Subtest Mündlicher Ausdruck wurde kurz beschrieben und mit dem SOPIIGST verglichen. Im Folgenden werden die Beschränkungen, die die Wahl dieses Formates mit sich bringt, dargelegt. lFLIIL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 135 Die wichtigste Beschränkung betrifft die Eigenschaften bzw. Fähigkeiten, die gemessen werden sollen. So lassen sich mit einem kassettengesteuerten Format keine dialogischen Muster simulieren. Das heißt, sprachliches Handeln in einer über mehrere Sprecherwechsel andauernden Interaktion kann nicht überprüft werden und ist somit nicht Bestandteil der Operationalisierung des Konstrukts „Mündliche Kommunikationsfähigkeit" des Subtests Mündlicher Ausdruck. Dass die Simulation einer Interaktion sich nicht in befriedigender Weise durchführen lässt, zeigte sich an der Entwicklung des Teil 1, der, in Anlehnung an den SOPIIGST, zunächst die Form eines Gesprächsgerüsts hatte; vgl. den folgenden Ausschnitt aus dem TestDaF-Erprobungssatz E00l: „Für den Teil 1 brauchen Sie das Aufgabenheft nicht. Bitte legen Sie es auf die Seite und hören Sie zu. (5 Sek.) Stellen Sie sich vor: Sie möchten ein Jahr in Deutschland studieren und wollen sich um ein Stipendium bewerben. Informationen über Studienmöglichkeiten in Deutschland und über Stipendien können Sie bei der neuen Deutsch-Lektorin an Ihrer Heimatuniversität bekommen. Sie besuchen die Lektorin in ihrem Büro. (2 Sek.) Die Lektorin stellt Ihnen einige Fragen. Bitte antworten Sie sofort. Ein Signalton (PIEP) zeigt Ihnen, dass Ihre Antwortzeit zu Ende geht. Lektorin: Guten Tag. Mein Name ist Miriam Peters. Ich bin die neue Deutsch-Lektorin. Und wie heißen Sie? Prüfungsteilnehmer: (5 Sek. - SIGNALTON) Lektorin: Es freut mich, Sie kennenzulernen. Woher kommen Sie denn? Prüfungsteilnehmer: (5 Sek. - SIGNALTON) Lektorin: Und was machen Sie? Studieren Sie hier oder gehen Sie noch zur Schule? Prüfungsteilnehmer: (20 Sek. - SIGNALTON) Lektorin: Sie sprechen aber schon gut Deutsch! Wo haben Sie das denn gelernt? Prüfungsteilnehmer: (20 SEK. - SIGNALTON) Lektorin: Ah ja. Aber nun zum Anlass Ihres Besuches. Was. kann ich für Sie tun? Prüfungsteilnehmer: (45 Sek. - SIGNALTON) Lektorin: Hm. Da helfe ich Ihnen gerne. Ich gebe Ihnen erst mal Informationsmaterial mit. Wenn Sie das durchgesehen haben, melden Sie sich bei mir. Wir vereinbaren dann einen Termin, ja? Was meinen Sie? Prüfungsteilnehmer: (20 Sek. - SIGNALTON) Lektorin: Ja, viel Spaß bei der Lektüre wünsche ich Ihnen. Und Sie melden sich dann, ja? Prüfungsteilnehmer: (5 Sek. - SIGNALTON)" Im Unterschied zum SOPI! GST besteht die vorgegebene Struktur in diesem Beispiel nicht nur aus einfachen Fragen zu Name, Herkunft, Alter usw., sondern es wird versucht, eine Interaktion zu simulieren, die zum einen dem anvisierten Leistungsniveau Mittelbis JFLuL 30 (2001) 136 Gabriele Knijfka, Dörthe Üstünsöz-Beurer Oberstufe und zum anderen dem für TestDaF gewählten Sprachausschnitt angemessen ist.Die sprachlichen Realisationen, die sich auf den Kandidatenbändern dieses Testdurchlaufs fanden, machten allerdings deutlich, dass sich eine solche Interaktion auf fortgeschrittenem Niveau nicht simulieren lässt. Eine Interaktion ist ja gerade dadurch charakterisiert, dass die Redebeiträge der einzelnen lnteraktionspartner sich aufeinander beziehen und ein Gespräch durch das Zusammenwirken beider Partner erst entsteht. In diesem Beispiel sind die Beiträge des simulierten Gesprächspartners zwangsläufig vorab festgelegt und auf dem Masterband festgehalten, nicht aber im Aufgabenheft abgedruckt - und daher für den Prüfungsteilnehmer nicht einschätzbar. So steuert der simulierte Gesprächspartner die Redebeiträge des Prüfungskandidaten, ohne dass dieser eine Möglichkeit hätte, seinerseits den Redebeitrag des (gedachten) Gegenübers zu beeinflussen. So hatten die Antworten/ Repliken der Prüfungsteilnehmer bei dieser Aufgabe häufig keinen direkten Zusammenhang mit der nachfolgenden Äußerung des simulierten Gesprächspartners und die Passagen wiesen insgesamt einen erheblichen Mangel an Kohärenz und Kohäsion auf. Daher wurde nach zwei Erprobungen auf die Simulation einer Interaktion verzichtet und der erste Teil des Tests in der Weise umgestaltet, dass er nach dem gleichen Muster wie die übrigen Aufgaben des Tests konstruiert wurde. Ein weiteres Argument für die Umgestaltung des ersten Teils ergab sich als ein „Nebenprodukt" aus einer Untersuchung über die Angemessenheit der vorgegebenen Sprechzeiten (vgl. 3.4). Bei der Analyse der Kandidatenbänder stellte sich heraus, dass es jeweils bei Aufgabe 2.1, der ersten Aufgabe, die dem in 2.2. beschriebenen Konstruktionsmuster Denkzeit - Stimulus - Sprechzeit folgt, zu Falscheinsätzen und deutlichen Überschreitungen der Sprechzeit kam. Bei der Aufgabe 2.2 nahmen diese merklich ab. Dieses Ergebnis wurde dahingehend interpretiert, dass es zwischen Aufgabe 2.1 und Aufgabe 2.2 zu einem Gewöhnungseffekt kommt, d.h., dass die Prüfungsteilnehmer mit dem Konstruktionsmuster der Aufgaben vertrauter wurden. Mit der Revision des Aufgabenformats in Teil 1 wurde der Gewöhnungseffekt quasi vorverlegt und für die Lösung von Aufgabe 2.1 nutzbar gemacht. Geprüft werden können also keine Interaktionen, sondern nur einzelne Sprechhandlungen. Dabei lassen sich grundsätzlich drei Optionen unterscheiden: (1) Sprechhandlungen, die als Teil einer größeren Interaktionseinheit aufgefasst und aus dieser isoliert werden können, wie die Sprechhandlung „Informationen geben'' im Beispiel, welches in Abschn. 2.3 gegeben wurde. (2) Sprechhandlungen, die Teil eines längeren Monologes bilden, z.B. Beschreiben einer Grafik zu Beginn eines Referats. . (3) Kürzere monologische Sprechhandlungen wie „eine Nachricht/ dringende Bitte auf dem Anrufbeantworter hinterlassen". Auch die Auswahl der bei einem kassettengesteuerten Format eingesetzten Medien (Tonband und Aufgabenheft) stellt eine Beschränkung dar: In realen Face-to-Face-Gesprächssituationen liefern nonverbale Kommunikationskomponenten wie Gestik, Mimik und Körperhaltung den Gesprächspartnern zusätzliche Informationen, die zum VerlFLuulL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 137 ständnis der verbal übermittelten beitragen. Diese Dimension fehlt naturgemäß bei dem vorgestellten Prüfungsformat. Der Prüfungsteilnehmer muss in den meisten simulierten Gesprächssituationen folglich mit weniger Informationen auskommen, als ihm in der vergleichbaren realen Gesprächssituation zur Verfügung ständen. Aus testmethodischer Perspektive hat diese Beschränkung, die für alle Teilnehmer gleichermaßen gilt, aber zugleich auch einen positiven Aspekt, da sie zur Erhöhung der Durchführungsobjektivität beiträgt. Denn es ist zu erwarten, dass das Ausmaß der nonverbalen Unterstützung durch reale Gesprächspartner (die Prüfer) nicht für alle Teilnehmer gleich wäre. Dies lässt sich aus den Ergebnissen der experimentalpsychologischen Forschung zum so genannten Versuchsleitereffekt ableiten. Dort hat sich gezeigt, dass das nonverbale Verhalten des Versuchsleiters (z.B. häufige Blickkontakte, Lächeln, Nicken, räumliche Nähe) bei verschiedenen Untersuchungsteilnehmern stark variieren und massiven Einfluss auf die Ergebnisse im Sinne eines Störfaktors nehmen kann. 14 Eine weitere Beschränkung ist dadurch gegeben, dass der Test, nachdem er einmal angefangen hat, ohne Unterbrechung bis zum Ende durchläuft. Dieses Verfahren ist zur Einhaltung der Zeitvorgaben und damit für die Gewährleistung eines einheitlichen Prüfungsablaufes (Standardisierung) unbedingt notwendig. Der Prüfungsteilnehmer ist diesem Ablauf vollständig unterworfen, d.h., er hat zum Beispiel keine Möglichkeit rückzufragen oder nachträglich eine Lösung zu verändern. Die beiden zuletzt aufgeführten Einschränkungen, Fehlen der nonverbalen Kommunikationsdimension und rigoroser Zeitablauf, bedeuten neben der durchgängig eingesetzten Zielsprache (vgl. oben) eine Erschwernis und möglicherweise auch einen Stressfaktor für den Prüfungsteilnehmer. Daher müssen sie durch bestimmte Konstruktionsprinzipien so gut es geht kompensiert werden. Zu diesen Prinzipien zählen (1) eine strenge Standardisierung von Strukturen und Abläufen und (2) Redundanzen. Die Testsätze, Prüfungs-, Übungs- und Modellsätze, sind alle nach demselben Muster aufgebaut, die einzelnen Aufgaben immer nach dem gleichen Schema konstruiert (vgl. Abschn. 2.3). Die möglichen Themen und Inhalte, Register und Gesprächspartner sind für jede Aufgabe festgelegt, ebenso die Denk- und Sprechzeiten. Dies erlaubt potenziellen Prüfungsteilnehmern, sich bereits vor Ablegen der Prüfung auf das Format einzustellen. Das Skript für den Subtest Mündlicher Ausdruck ist durch ein hohes Maß an Redundanz gekennzeichnet. Anweisungen, Hinweise werden regelmäßig auf dem Masterband wiederholt. Die folgende Sequenz beispielsweise leitet immer zur nächsten Aufgabe über: "Bitte schlagen Sie nun die Seite x auf. Lesen Sie die Aufgabe y. Ich lese sie Ihnen vor. Teil z, Aufgabe y ..." Auch die einzelnen Aufgaben sind durch ein bestimmtes Wiederholungsmuster gekennzeichnet. Wichtig ist hierbei, dass jeweils die Sprechhandlung, die der Prüfungsteilnehmer realisieren soll, in irgendeiner Form wiederholt wird. So heißt es in Aufgabe 4.3 des 14 Vgl. z.B. Überblick bei Bortz/ Döring (1995). lFlLllilL 30 (2001) 138 Gabriele Knijfka, Dörthe Üstünsöz-Beurer Modellsatzes 15 zunächst in der Situationsbeschreibung: "Frau Professor Meister fragt Sie nach Ihrer Ansicht." Kurz darauf wird die erwartete Sprechhandlung benannt: "Verdeutlichen Sie Ihren Standpunkt ...". Im Stimulus folgt dann: "Was halten Sie denn davon, ...? " Die Darbietung der Aufgaben über zwei Kanäle (auditiv und visuell), wie beim SO PI, kann auch als eine Realisierung des Redundanzprinzips aufgefasst werden. Weitere Prinzipien, die in TestDaF zur Kompensation der durch das Format auferlegten Beschränkungen angewendet werden, beziehen sich auf die sprachlich-inhaltliche Gestaltung des gesamten Skripttextes 16 und das Layout von Grafiken und Aufgabenblättern. So wird auf komplexe sprachliche und inhaltliche Konstrnktionen verzichtet und darauf geachtet, dass Aussagen eindeutig sind und jede Aufgabe auf eine Sprechhandlung fokussiert ist. Die Aufgabenblätter und die Grafiken müssen klar und übersichtlich gegliedert, der Inhalt der Grafiken innerhalb kürzester Zeit zu erfassen sein. Wieweit diese kompensatorischen Konstrnktionsprinzipien von den Prüfungsteilnehmern als solche wahrgenommen und positiv bewertet wurden, war Teil umfangreicher empirischer Evaluierungen von TestDaF. Sie werden im Folgenden beschrieben und in ihren wichtigsten Ergebnissen für den Mündlichen Ausdruck skizziert. 3. Empirische Daten 3.1 Erprobungen TestDaF wurde über einen Zeitraum von mehr als zwei Jahren entwickelt. Zentraler Bestandteil der Entwicklung war die Erprobung der erarbeiteten Testsätze mit allen Subtests. Die Erprobung erfolgte dabei jeweils in zwei Schritten: 1. Vorerprobungen in Deutschland Für den Subtest Mündlicher Audruck wurden drei Vorerprobungen mit 30, 8 und 11 Deutschlernern sowie vier Vorerprobungen mit jeweils 6 Muttersprachlern durchgeführt. 2. Weltweite Erprobungen Für den Subtest Mündlicher Ausdruck wurden fünf Vorerprobungen mit 99, 57, 160, 77 und 92 Deutschlernern durchgeführt. Vorerprobungen dienen dazu, in einem frühen Stadium Unstimmigkeiten und Fehler in Inhalten, Arbeitsanweisungen, ltemformulierung oder Aufgabendesign ausfindig zu machen und zu verbessern. Bei den Vorerprobungen des Subtests Mündlicher Ausdruck wurden die Prüfungssätze jeweils nur mit einer kleinen Zahl von Probanden getestet (zwischen 6 und 30), was für den Zweck einer ersten Vorabprüfung ausreichend ist. Dabei wurde großer Wert darauf gelegt, dass die Personen, die für die Vorerprobung ausgewählt wurden, für die mit TestDaF angesprochene Zielgruppe repräsentativ waren, 15 Der Modellsatz ist einsehbar unter: http: / / www.testdaf.de 16 Der Skripttext umfasst alle Anweisungen, Aufgaben und Stimuli. lFLlllL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 139 d.h., es wurde mit Studierenden aus studienvorbereitenden Deutschkursen und mit DSH- Kandidaten vorerprobt. Im Rahmen der Vorerprobungen wurde der Subtest Mündlicher Ausdruck einmal komplett mit Muttersprachlern, in diesem Fall deutschen Studenten, durchgeführt. Das heißt, die deutschen Studenten unterzogen sich der Prüfung zu den gleichen Bedingungen wie die ausländischen Probanden: Die Prüfung fand in einem Sprachlabor statt, die Aufgaben und Anweisungen kamen vom Masterband, und die deutschen Studenten sprachen ihre Antworten auf eine Kassette. Diese Kassetten wurden allerdings nicht in der gleichen Weise ausgewertet wie die der nicht-muttersprachlichen Probanden. Ziel der Auswertung war, Aufschluss darüber zu erhalten, was bezüglich Inhalt und Umfang der Antworten tatsächlich erwartet werden kann. Außerdem wurden die Muttersprachler gebeten, Kommentare zur Authentizität der gewählten Situationen und zu den Aufgaben allgemein zu geben. Bei späteren Vorerprobungen wurde auf die Durchführung des Subtests mit Muttersprachlern verzichtet. Den deutschen Studenten wurden die Aufgaben lediglich zur Kommentierung vorgelegt. Bei den eigentlichen Erprobungen wurde der Subtest Mündlicher Ausdruck von jeweils 57 bis 160 für die späteren Prüfungsteilnehmer repräsentativen Deutschlernern unter Prüfungsbedingungen bearbeitet. Die Erprobungen erfolgten sowohl in Deutschland als auch weltweit. Somit war nicht nur eine Repräsentativität in Bezug auf die Versuchspersonen gegeben, sondern auch in Bezug auf die geografische Verteilung. Zugleich konnte die technische Machbarkeit in verschiedenen Weltregionen (neben dem europäischen Ausland auch in Asien, Afrika und Südamerika) geprüft werden. Bei allen Vorerprobungen und Erprobungen wurden zusätzliche Teilnehmerbefragungen mittels Fragebogen direkt im Anschluss an die Testbearbeitung durchgeführt. Diese Befragungen dienten zum einen dazu, nähere Angaben zu den Prüfungsteilnehmern zu erhalten. Neben Demographie wurden auch Informationen über Sprachkenntnisse/ erwerb und Angaben zur Teilnahmemotivation erbeten. Zum anderen wurden die Teilnehmer anhand von geschlossenen Fragen um eine allgemeine Bewertung der Subtests und um ausführliche Kommentare zu einzelnen Aufgaben in Form von offenen Fragen gebeten. Beim Subtest Mündlicher Ausdruck wurden zusätzlich detaillierte Fragen zum Tonband-Format gestellt. Diese zusätzlichen Teilnehmer-Befragungen erwiesen sich als sehr nützliche Ergänzung zur Bewertung der Erprobungsergebnisse. Bei allen Erprobungen bzw. Vorerprobungen nutzten die Teilnehmer bereitwillig die Möglichkeit zur ausführlichen Kommentierung einzelner Aufgaben und zur Bewertung des Testformates, obwohl die Angaben auf Deutsch zu machen waren und das Ausfüllen des Fragebogens zusätzliche Zeit von ca. 10 Minuten in Anspruch nahm. Das Ausfüllen direkt im Anschluss an die Testbearbeitung diente dazu, die Eindrücke möglichst unmittelbar zu erfassen. Die Ergebnisse der Vorerprobungen und Erprobungen zeitigten bestimmte Konsequenzen. Darunter zum Beispiel die nachstehenden: - Sprachliche und inhaltliche Änderung von Aufgaben: Es wurden beispielsweise zu komplexe Formulierungen entzerrt oder Aufgaben mit nicht eindeutigem Fokus revidiert. - Revision von Denk- und Sprechzeiten: So wurden im Laufe der Erprobungen die Denkzeiten bei FL1.! L 30 (2001) 140 Gabriele Knijfka, Dörthe Üstünsöz-Beurer den Grafikaufgaben heraufgesetzt. Bei einigen Aufgaben erwiesen sich die Sprechzeiten als zu knapp und wurden in der Folge erweitert. - Änderung des Layouts von Grafiken: In der Regel fand eine weitere Vereinfachung statt. - Änderung des Layouts der Aufgabenseiten: U.a. wurden Sprechblasen und „Denkwolken" zur Verdeutlichung des Aufgabenablaufs eingeführt. - Änderung der Bewertungskriterien: Die Auswertung der Bänder der deutschen Studenten z.B. führte zu einer wesentlich stärkeren Berücksichtigung der Merkmale gesprochener Sprache in den Bewertungskriterien. - Eliminierung nicht-authentischer Aufgaben/ Situationen auf der Basis der muttersprachlichen Kommentare bzw. Eliminierung von Aufgaben, die nicht genügend sprachliches Material elizitierten.17 3.2 Schwierigkeitsniveau Die Verteilungen der Erprobungsergebnisse weisen auf eine zufriedenstellende Gesamtschwierigkeit der Subtests Mündlicher Ausdruck. Angestrebt wurde eine Differenzierung im oberen Leistungsbereich. Diese zeichnet sich an den Verteilungen auf die TON-Stufen zum Mündlichen Ausdruck ab; höhere Bewertungsstufen werden von zunehmend weniger Prüfungsteilnehmern erreicht: unterTDN3 TDN3 TDN4 TDNS Legende: Mündlicher Ausdruck - TDN = TestDaF-Niveaustufe lill] Form 1 ~ Form 2 ■ Form 3 Abb. 1: TestDaF-Erprobungen, Ergebnisverteilungen zum Mündlichen Ausdruck (gerundete Prozentwerte) 17 In diesem Zusammenhang spielten die Rückmeldungen der Korrektoren (Auswerter) der Kandidatenbänder eine wesentliche Rolle. f'l[,ui][., 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 141 Die Abbildung 1 fasst die Ergebnisverteilungen bei den Erprobungen von drei Parallelformen des Subtests Mündlicher Ausdruck zusammen. Die Prozentwerte wurden gerundet. Für jede der Bewertungsstufen (unter TDN 3, TDN 3, TDN 4 und TDN 5) ist angegeben, wieviel Prozent der jeweiligen Erprobungsteilnehmer diese erreicht haben. Diese Verteilungen sind jedoch nur ein erster Anhaltspunkt für die Bewertung der Schwierigkeiten, da sie stichprobenabhängig sind und sich ein möglicher Stichprobeneffekt (der Test erscheint schwerer als er ist, wenn die Prüfungsteilnehmer besonders schwach waren oder umgekehrt erscheint der Test leichter, als er ist, wenn die Prüfungsteilnehmer besonders stark waren) nicht ausschließen lässt. Ein genaueres Bild liefert hier der Multi-Facetten-Ansatz von Linacre (1989), eine Weiterentwicklung des Rasch- Modells (vgl. McNamara 1996). Damit lässt sich eine stichprobenunabhängige Schwierigkeitsschätzung vornehmen, darüber hinaus können auch Aspekte der Urteilerstrenge miteinbezogen werden. Dieser rechnerisch komplexe Ansatz ist für künftige Analysen des Subtests Mündlicher Ausdruck geplant. Zur Beurteilung der Schwierigkeit einzelner Aufgaben wurden zusätzlich zu den Auswerter-Urteilen die Kommentare der Teilnehmer hinzugezogen, die diese im Rahmen der oben erwähnten ausführlichen Teilnehmer-Befragung zum Mündlichen Ausdruck abgegeben hatten. 3.3 Testgüte 3.3.1 Objektivität Eingangs wurde erläutert, dass die standardisierte Durchführung und Auswertung des Subtests Mündlicher Ausdruck zur Erfüllung des Testgütekriteriums der Objektivität dienen. Auf der Grundlage empirischer Daten wurden weitere Überprüfungen der Objektivität vorgenommen. Ein wichtiges Mittel zur Sicherstellung der Durchführungsobjektivität sind die Handreichungen für Prüfer mit genauen Anleitungen zur Durchführung. Anhand von Prüferprotokollen zur Testdurchführung wurde kontrolliert, wieweit diese Anleitungen zur Durchführung verständlich und vollständig waren und wieweit die darin gemachten Vorgaben eingehalten werden konnten. Es zeigte sich, dass dies weitgehend möglich war. Soweit Schwierigkeiten bei der Durchführung bestanden, handelte es sich vor allem um technische Probleme (z.B. Defekte an einzelnen Sprachlaborplätzen), die jedoch durch entsprechende Vorkehrungen zu vermeiden sind. Hinweise auf solche Maßnahmen wurden daher in die Durchführungsanleitungen aufgenommen. Eine besonders anspruchsvolle Aufgabe bei produktiven Tests (Mündlicher Ausdruck und Schriftlicher Ausdruck bei TestDaF) ist die Sicherstellung einer möglichst objektiven Auswertung. Aus dem Bereich der Lehrerurteile zu Schüleraufsätzen und mündlichen Leistungen ist bekannt, dass es hier zu sehr unterschiedlichen Bewertungen kommen kann, wenn keine systematische Auswertungsvorschrift besteht (vgl. z.B. Kieweg 1999). Bei TestDaF ist dieses Problem durch drei aufeinander bezogene und verschränkte Maßnahmen berücksichtigt: FLuL 30 (2001) 142 Gabriele Kniffka, Dörthe Üstünsöz-Beurer 1. Bewertungskriterien und Bewertungsanleitung 2. regelmäßige Schulungen der Auswerter und 3. standardmäßige Doppelauswertung, in Zweifelsfällen Drittauswertung. Die Bewertungskriterien geben vor, unter welchen Gesichtspunkten die Leistungen zu beurteilen sind. Für den Subtest Mündlicher Ausdruck sind dies die Kriterien Gesamteindruck, Umsetzung der Aufgabenstellung und Sprachliche Realisation, die für die einzelnen Leistungsstufen (TDN 3, TDN 4 und TDN 5) weiter spezifiziert sind. In der Bewertungsanleitung ist Schritt für Schritt festgelegt, wie die Kandidatenbänder ausgewertet werden. Die Auswerter (Korrektoren) werden in regelmäßigen Schulungen mit den Bewertungskriterien und dem Auswertungsverfahren vertraut gemacht, d.h. sie werden dahingehend trainiert, dass alle an einem Korrekturgang beteiligten Auswerter die Bewertungskriterien in der gleichen Weise interpretieren und bei der Auswertung der Bänder nach dem gleichen Verfahren vorgehen. Die Auswertung der Bänder erfolgt grundsätzlich durch zwei Auswerter, die unabhängig voneinander arbeiten. Stimmen die Auswerter in ihrem Urteil nicht überein, erfolgt eine dritte Auswertung, bei der das endgültige Ergebnis des Prüfungsteilnehmers festgelegt wird. Dieses Verfahren mag etwas umständlich und aufwendig anmuten. Es ist aber unseres Erachtens unerlässlich, wenn der Anspruch der objektiven Auswertung eingelöst werden soll, da die Güte des Urteils immer sowohl von der Güte der Bewertungsanleitung bzw. der -kriterien als auch von den Personen, die diese anwenden, abhängt. Grundsätzlich ist im Zusammenhang mit der Objektivität darauf hinzuweisen, dass eine hundertprozentige Objektivität ein Ideal darstellt und gerade bei produktiven Tests immer nur näherungsweise erreicht werden kann. Dies spiegelt sich auch in der Tatsache, dass man üblicherweise bei den verwendeten statistischen Maßen zur Überprüfung der Auswertungsobjektivität schon deutlich unter 100 % liegende Übereinstimmungswerte als zufriedenstellend ansieht (vgl. z.B. Bortz 1984: 208). Die empirischen Daten sprechen für diese Überlegungen: Die Urteile der Erst- und Zweit-Auswerter wurden bei jedem Subtest Mündlicher Ausdruck mit dem gewichteten Kappa-Koeffizienten von Cohen (Cohen's Weighted Kappa) überprüft. Hierbei handelt es sich um ein statistisches Maß zur Überprüfung der Auswertungsobjektivität, das den Vorteil hat, nicht nur absolute Übereinstimmungen bzw. gleiche Urteile zu berücksichtigen, sondern auch unterschiedliche Urteile und das Ausmaß ihrer Abweichungen. So ergibt sich z.B. ein anderes Bild, je nachdem ob zwei Auswerter in ihren Urteilen jeweils nur eine Stufe auseinander liegen oder zwei und mehr (vgl. Bortz 1984; Bortz u.a. 1990; Krauth 1995). Es hat sich gezeigt, dass auch erfahrene Auswerter, die mehrmals geschult wurden, zwar zufriedenstellende, jedoch nicht absolute Übereinstimmungen erreichen. Im Vergleich zu weniger erfahrenen und weniger geschulten Auswertem schneiden sie aber deutlich besser ab. Dies spricht für die Praxis der regelmäßigen Auswerterschulung und für die Beibehaltung der Doppelauswertung als Regelverfahren. lFLllL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 143 3.3.2 Reliabilität Der im vorigen Abschnitt angeführte Kappa-Koeffizient wird beim Subtest Mündlicher Ausdruck nicht nur für die Bewertung der Auswertungsobjektivität, sondern zugleich auch für die Reliabilitätsprüfung benutzt (Interrater-Reliabilität, d.h. für die Ermittlung der Messzuverlässigkeit in Abhängigkeit von verschiedenen Auswertern). Die Reliabilitätswerte können daher immer nur so gut wie die Auswertungsobjektivität des Tests sein. Da diese bei produktiven Testformaten schwieriger sicherzustellen ist als etwa bei geschlossenen, quantitativen Testformaten, sind derzeit auch die Reliabilitäten für den Mündlichen Ausdruck niedriger als vergleichbare Werte für geschlossene Lese- und Hörverstehensaufgaben. Da sich aber über eine zunehmende Erfahrung der Auswerter und deren regelmäßige Schulung größere Übereinstimmungen erreichen lassen, wird auch die Messzuverlässigkeit des Subtests Mündlicher Ausdruck künftig vermutlich weiter verbessert. Es darf hierbei auch nicht vergessen werden, dass die traditionellen mündlichen Prüfungen in der Regel keine solchen systematischen Qualitätskontrollen vorweisen können. 3.3.3 Validität Die Inhaltsvalidität, d.h. das Ausmaß, in dem die Testaufgaben geeignet sind, diese Fertigkeit auch tatsächlich zu erfassen, wurde über Experten-Ratings bestimmt und erbrachte für den Subtest Mündlicher Ausdruck sehr zufriedenstellende Einstufungen. Die ursprünglich geplante umfangreiche Überprüfung der Kriteriumsvalidität konnte nur sehr stark eingeschränkt vorgenommen werden mangels eines geeigneten Kriteriums und mangels ausreichender Datenbasis. Mit der Kriteriumsvalidität wird überprüft, wieweit die Testergebnisse mit einem unabhängigen Außenkriterium, z.B. einem anderen Test, übereinstimmen. Üblicherweise lässt sich die Kriteriumsvalidität statistisch bestimmen über die Korrelationsprüfung mit einem geeigneten, d.h. möglichst reliablen und validen Kriterium. Genau dieses fehlt jedoch für den Subtest Mündlicher Ausdruck. Es war zunächst geplant, die mündlichen Prüfungen, die im Rahmen der DSH erfolgen, als Validierungskriterium heranzuziehen. Diese Prüfungen sind jedoch nicht standardisiert, die Durchführungs- und Auswertungsmodalitäten an den verschiedenen Universitäten unterscheiden sich zum Teil erheblich. Dies ergaben unsere Recherchen im Zusammenhang mit der geplanten Validierungsstudie. Als Folge fehlen auch Informationen über die Reliabilität oder Validität. Die Tatsache, dass sich auch kein anderes geeignetes (statistisches) Validierungskriterium finden ließ, zeigt deutlich, dass mit der Entwicklung des standardisierten und empirisch auf seine Testgüte geprüften TestDaF-Subtests Mündlicher Ausdruck Pionierarbeit geleistet wird. 3.3.4 Akzeptanz des Testformates Die Akzeptanz zählt bei einer Reihe von Autoren zu den Nebengütekriterien, was eine geringere Relevanz suggerieren mag (vgl. z.B. Darstellung der Testgütekriterien bei lFL1.IIL 30 (2001) 144 Gabriele Kniffka, Dörthe Üstünsöz-Beurer Lienert/ Raatz 1994). Bei anderen Autoren stellt sie hingegen ein wichtiges Kriterium dar (vgl. z.B. Bachmann/ Palmer 1996; Grotjahn 2000). Auch für den Subtest Mündlicher Ausdruck wird sie wegen des ungewöhnlichen bzw. ungewohnten kassettengesteuerten Formates als ein wichtiges Merkmal erachtet. Dahinter steht die Überlegung, dass gerade für mündliche Leistungen eine positive Einstellung zum Test und eine gute Handlungsmotivation Stress reduzierend und dadurch indirekt ergebnisrelevant sein dürften. Ein Teilnehmer, der die Tonband-Prüfung als zu unpersönlich ablehnt und Hemmungen hat, "mit einer Maschine zu sprechen", könnte hingegen benachteiligt sein. Die Äußerungen der Teilnehmer im Rahmen der durchgeführten Befragung sprechen für eine gute Akzeptanz dieses Testformats. So würde zwar, wenn die Wahlmöglichkeit bestünde, die traditionelle Face-to-Face-Prüfung vorgezogen, bei der Begründung dieser Präferenz werden jedoch häufig auch Vorteile der Tonband-gestützten Form gefunden. So äußert z.B. ein Erprobungsteilnehmer aus Neu Delhi: „Der Tonband-Test ist völlig unabhängig von hurnorische Aspekte, die Beziehung zwischen Exarniner und die Unternehmer usw. Und vielleicht gibt es eine besser Chance zu Gleicheit. Aber die Spannung ist mehr in diesem Fall und überhaupt keine Chance zu rekorrigieren oder verbessern." Diese Aussage fasst gut zusammen, was im Laufe der Erprobungen häufig von den Teilnehmern geäußert wurde: Die Sprechsituation selbst wird bei der traditionellen Prüfungsform als angenehmer empfunden, das Sprechen mit einer Maschine als ungewohnt und daher stressig. Im Hinblick auf die Leistungsbewertung aber wird die Tonband-Prüfung als objektiver und fairer eingeschätzt, da alle die gleichen Bedingungen und Fragen vorfinden. Einige Teilnehmer wiesen auch darauf hin, dass Prüfer nicht nur eine beruhigende, sondern durchaus auch eine Nervosität steigernde Wirkung haben können, was beim Tonband-Test entfällt. Gewissermaßen ließe sich hier ein sozialer Stress (beim Face-to-Face-Format) dem „maschinellen Stress" beim Tonband-Format gegenüberstellen. Es wird auch oft geäußert, dass einfach die Vertrautheit mit der Tonband-Situation fehlt. Wieweit das Ausmaß der Vertrautheit mit dieser Prüfungsform tatsächlich Einfluss auf die Testergebnisse hat, wird derzeit in einer eigenen Studie geprüft, deren Ergebnisse zum gegenwärtigen Zeitpunkt noch nicht vorliegen. Die mangelnde Vertrautheit mit diesem Testformat dürfte aber unseres Erachtens nur von kurzfristiger Bedeutung sein, da davon auszugehen ist, dass bei der Vorbereitung auf TestDaF künftig schon im Unterricht die Tonband-Prüfung eingeübt wird 18 • Betrachtet man die Bewertungen der Teilnehmer bei weiteren, im Hinblick auf die Akzeptanz relevanten Aspekten, so zeichnet sich eine insgesamt positive Wahrnehmung des für TestDaF gewählten Prüfungsformates ab. Die Qualität bzw. Verständlichkeit der Sprecher etwa wird durchgängig sehr positiv beurteilt. Auch die verfügbare Zeit zum Nachdenken und Sprechen wird bei den meisten Aufgaben als ausreichend empfunden. Eine Ausnahme bilden die beiden Grafikaufgaben, bei denen häufig mehr Zeit zum Nachdenken gewünscht wurde (vgl. 3.4). Die Gesamtbewertungen des Tonband-Tests, 18 Als Material steht hierfür z.B. der Mündliche Ausdruck des TestDaF-Modellsatzes zur Verfügung. lFLIIL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 145 der Gestaltung der Aufgabenblätter sowie der Textmenge im Aufgabenheft waren in der Tendenz ebenfalls positiv. 3.4 Analyse der Sprechzeiten Neben den geschilderten Erprobungsläufen wurden einzelne Fragestellungen zum Subtest Mündlicher Ausdruck in separaten Studien, auf der Basis zusätzlicher Daten, untersucht. So wurde nach der Erprobung und Auswertung des zweiten Testsatzes eine Untersuchung durchgeführt, deren primäres Ziel es war, die Angemessenheit der vorgegebenen Sprechzeiten anhand der tatsächlichen Realisationen zu überprüfen. Des Weiteren sollte festgestellt werden, inwieweit die Prüfungsteilnehmer mit dem Ablaufmuster für die Aufgaben (Anweisung - Denkzeit ~ Stimulus - Sprechzeit) zurechtkamen, denn eine gute Abstimmung zwischen Aufgabenstellung und Bearbeitungszeiten (Denk- und Sprechzeit) ist eine wichtige Voraussetzung für ausreichende Leistungsdaten. Für diese Untersuchung wurde pro Testsatz eine bestimmte Anzahl von Kandidatenbändern (N = 30) digitalisiert, und zwar je zehn Bänder von zufällig ausgewählten Prüfungsteilnehmern der Leistungsniveaus TDN 3, TDN 4 und TDN 5. An diesen Bändern wurden folgende Messungen vorgenommen: 1. der zeitliche Umfang der realen Sprechzeiten 2. Überschreitungen der Sprechzeit (= Überschneidungen mit dem nachfolgenden Anweisungstext) 3. Anzahl und Position verfrühter Einsätze, d.h. Sprecheinsätze, die vor dem Stimulus erfolgten. Auf der Grundlage dieser Daten wurde geprüft, ob (a) die Prüfungsteilnehmer das Ablaufmuster „Denkzeit - Stimulus - Sprechzeit" befolgen, (b) die Zeitvorgaben ausreichend sind und (c) sich Unterschiede zwischen den Leistungsgruppen ergeben. (a) Einhaltung des Ablaufmusters: Mit der Einhaltung des Ablaufmusters (Denkzeit- Stimulus - Sprechzeit) hatten die Prüfungsteilnehmer im allgemeinen keine Probleme. Als Indikatoren hierfür lassen sich die Anzahl verfrühter Sprecheinsätze (d.h. vor dem Stimulus) und überzogener Sprechzeiten (d.h. Überschneidungen mit dem nachfolgenden Anweisungstext) heranziehen. Lediglich bei zwei Aufgaben gab es einige verfrühte Sprecheinsätze. Überschreitungen der Sprechzeiten kamen an bestimmten Stellen vor, die nachfolgend besprochen werden. (b) Adäquatheit der Zeitvorgaben: Alle drei Kandidatengruppen hatten deutliche Schwierigkeiten mit der Einhaltung der Zeitvorgaben bei der Aufgabe 2.1, der ersten, die das Format Denkzeit- Stimulus - Sprechzeit (vgl. Abb. 2 [S. 147], Aufgabe 2.1) 19 auf- 19 Bei den beiden analysierten Subtests Mündlicher Ausdruck waren die ersten, nicht bewerteten Aufwärm- Aufgaben (Aufgabe 1.1) noch als Dialog gestaltet, bei dem abwechselnd der Sprecher vom Band und dann der Kandidat sprachen. Dadurch ergab sich hier noch nicht das Problem der Einhaltung von Denk- und direkt anschließenden Sprechzeiten. lFJLlllL 30 (2001) 146 Gabriele Knif.fka, Dörthe Üstünsöz-Beurer wies. Bereits bei der folgenden Aufgabe war dies nicht mehr in gleichem Umfang der Fall (Aufgabe 2.2). Dies spricht für eine schnelle Gewöhnung der Prüfungsteilnehmer an die Zeitvorgaben und lässt sich als Gewöhnungseffekt interpretieren. Als Konsequenz aus diesen Ergebnissen wurde das Format der Aufgabe 2.1 vorangehenden Warming Up- Aufgabe (Aufgabe 1.1) an die restlichen Aufgaben angepasst und ebenfalls in die Form Denkzeit - Stimulus - Sprechzeit gebracht, damit diese Abfolge bereits zu einem früheren Zeitpunkt eingeübt werden kann. Ein Aufgabeneffekt zeigte sich in beiden Subtests Mündlicher Ausdruck bei der jeweils ersten Grafikaufgabe (Aufgabe 3.1), bei der es zu deutlichen Sprechzeitenüberschreitungen kam. Bei der zweiten Grafikaufgabe waren in beiden Fällen die Sprechzeitenüberschreitungen nur marginal. Da die erste Grafikaufgabe die Beschreibung statistischer Daten erfordert, während bei der zweiten ein Ablauf zu beschreiben ist, legt dies die Vermutung nahe, dass es den Teilnehmern schwerer fällt, die Beschreibung der Grafik innerhalb der vorgegebenen Zeit vorzunehmen. Dies lässt sich als Aufgabeneffekt interpretieren. Allerdings sagt eine Zeitüberschreitung nichts über die Qualität der Aussage, wie die Subgruppenanalyse zeigte (vgl. c). Auch in der subjektiven Wahrnehmung waren vor allem die Grafikaufgaben bei allen Testsätzen von den Prüfungsteilnehmern als zeitkritisch kommentiert worden, d.h., sie hatten sowohl die Denkwie auch die Sprechzeiten als unzureichend empfunden. (c) Unterschiede zwischen Leistungsgruppen: Im Hinblick auf die zur Verfügung stehende Sprechzeit ergaben sich einige Unterschiede zwischen den Leistungsgruppen. Bei den Grafikaufgaben überschritten eher die höher eingestuften Prüfungsteilnehmer die Zeit, die niedriger eingestuften (TON 3) hörten besonders schnell auf zu sprechen, gaben also vorzeitig auf. Es sei aber darauf hingewiesen, dass die Überschreitungen den Prüfungsteilnehmern keinen Nachteil bringen, da sie nicht in die Bewertung einfließen. Aufgrund der Teilnehmerkommentare und aufgrund der Rückmeldungen durch die Korrektoren, nach denen es bei Aufgabe 3.1 in Testsatz EOOl zu deutlichen Sprechzeitenüberschreitungen kam was später durch die vorgelegte Studie bestätigt wurde wurde die Sprechzeit für diese Aufgabe heraufgesetzt, so dass für beide Grafiken nun einheitlich 1 Min. 45 Sek. Sprechzeit zur Verfügung steht. Im Testsatz E002 gab es bei der Aufgabe 3.1 zwar einen leichten Rückgang der Sprechzeitenüberschreitungen gegenüber Testsatz EOO 1, im Vergleich zu den übrigen Aufgaben waren die Überschreitungen jedoch immer noch deutlich erhöht, so dass man hier weiterhin von einem Aufgabeneffekt ausgehen muss. JFLU! L 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 147 Anzahl Personen 30 25 20 15 10 5 Überschreitungen Erprobungsform E00l 0 +--~ Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. 1.1 2.1 2.2 2.3 2.4 3.1 3.2 4.1 4.2 1; ; ; J TDN 5 0 3 1 0 1 7 2 1 1 EE1 TDN 4 0 2 3 0 2 5 0 0 0 f-----+---+-----+---+---+----+---+---t-----+~· ■ TDN 3 0 4 0 0 1 3 1 0 0 Anzahl Personen 30 25 20 15 10 5 Überschreitungen Erprobungsform E002 0+--~---._,.. ____ ..,., __ ~......,.....,.---~--~-~ Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. Aufg. 1.1 2.1 2.2 2.3 2.4 3.1 3.2 4.1 4.2 1; ; ; JTDNS 0 3 0 0 0 5 0 0 0 EEITDN4 0 5 1 0 2 6 0 0 0 ■ TDN3 0 3 1 1 2 0 1 2 0 Legende: TDN = TestDaF-Niveaustufe Hinweis: In beiden Erprobungsformen ist jeweils die erste Aufgabe (Aufg. 1.1) als "Warming Up" im Dialog gestaltet, d.h. Tonband-Gesprächspartner und Kandidat sprechen abwechselnd. Daher ergeben sich hier keine Sprechzeit-Überschreitungen. Abb. 2: Sprechzeitenanalyse zum Mündlichen Ausdruck für die Erprobungsformen E001 und E002, Verlauf der Überschreitungen FLlllL 30 (2001) 148 Gabriele Kniffka, Dörthe Üstünsöz-Beurer Die Abbildung 2 (S. 147) zeigt den Verlauf der Sprechzeiten-Überschreitungen für zwei verschiedene Erprobungsformen. Für jede Aufgabe ist die Anzahl der Personen in den jeweiligen Leistungsstufen (TDN 3, TDN 4 und TDN 5) aufgeführt, die über die vorgegebene Sprechzeit hinaus gesprochen haben. Die jeweiligen Häufigkeiten sind sowohl grafisch als auch tabellarisch dargestellt. Zusammenfassend lässt sich sagen, dass sich die Abstimmung zwischen Aufgabenstellung und Bearbeitungszeiten insgesamt als sehr gut erwies und die Prüfungsteilnehmer gut mit dem Ablaufmuster für die Aufgaben zurechtkamen. Aufgrund des gefundenen Gewöhnungseffektes wurde bereits für die (nicht gewertete) "W arming up"-Aufgabe das gleiche Format wie für die gewerteten Aufgaben gewählt. Der Aufgabeneffekt bei der ersten Grafikaufgabe, bei der besonders häufig und vorrangig die leistungsstarken Prüfungsteilnehmer die Sprechzeit überschritten, ergab sich vor allem aufgrund der höheren Aufgabenschwierigkeit und nicht durch die fehlende Sprechzeit. Hier wurde die Sprechzeit daher nur geringfügig heraufgesetzt und so für beide Grafikaufgaben vereinheitlicht. 4. Ausblick Das kassettengesteuerte Format, welches für den Subtest Mündlicher Ausdruck des TestDaF in Anlehung an die vom Center for Applied Linguistics entwickelten SOP/ s erarbeitet wurde, hat sich im Rahmen der durchgeführten Erprobungen zunächst einmal in zufriedenstellender Weise bewährt. Eine Reihe von Fragen konnten bislang allerdings noch nicht oder nicht befriedigend geklärt werden (vgl. dazu Grotjahn/ Kleppin 2001: 428f), z.B. inwieweit die Einstufung der mündlichen Kommunikationsfähigkeit eines Prüfungsteilnehmers auf der Basis von TestDaF-Daten mit der Einschätzung auf der Basis eines Face-to-Face-Prüfungsgespräches korreliert. Zur Qualitätssicherung des Tests sind in Zukunft kontinuierliche und umfassende wissenschaftliche Untersuchungen zu diesen und ähnlichen Fragestellungen erforderlich. Literatur BACHMANN, Lyle F. / PALMER, Adrian S. (1996): Language testing in practice: Designing and developing useful language tests. Oxford: Oxford University Press. B0LT0N, Sibylle (Hrsg.) (2000): TESTDAF: Grundlagen für die Entwicklung eines neuen Sprachtests. Beiträge aus einem Expertenseminar. Köln: VUB Gilde. B0RTZ, Jürgen (1984). Lehrbuch der Empirischen Sozialforschung. Berlin: Springer. B0RTZ, Jürgen/ DÖRING, Nicola (1995): Forschungsmethoden und Evaluation. Für Sozialwissenschaftler. 2., vollst. überarbeitete und aktualisierte Auflage. Berlin: Springer. B0RTZ, Jürgen / LIENERT, Gustav Adolf/ / BOEHNKE, Klaus (1990): Verteilungsfreie Methoden in der Biostatistik. Berlin: Springer C0UNCIL OF EUROPE (1998): Modern Languages: Learning, Teaching, Assessment. A Common European Framework. Strasbourg. lFlLUllL 30 (2001) TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats 149 GR0TJAHN, Rüdiger (2000): "Testtheorie: Grundzüge und Anwendungen in der Praxis". In: W0LFF, Armin / T ANZER, Harald (Hrsg.): Sprache - Kultur - Politik. Regensburg: Fachverband Deutsch als Fremdsprache (Materialien Deutsch als Fremdsprache 53), 304-341. GR0TJAHN, Rüdiger/ KLEPPIN, Karin (2001 ): "TestDaF: Stand der Entwicklung und einige Perspektiven für Forschung und Praxis". In: AGUAD0, Karin/ RIEMER, Claudia (Hrsg.) (2001): Wege und Ziele. Zur Theorie, Empirie und Praxis des Deutschen als Fremdsprache. Baltmannsweiler: Schneider Verlag Hohengehren, 419-433. KENY0N, Dorry, M. (2000): "Tape-mediated Oral Proficiency Testing: Considerations in Developing Simulated Oral Proficiency Interviews (SOPis)". In: B0LT0N 2000, 87-106. KIEWEG, Werner. (1999): "Allgemeine Gütekriterien für Lernzielkontrollen". In: Der fremdsprachliche Unterricht Englisch 1/ 1999, 4-11. KRAUTH, Jürgen (1995): Testkonstruktion und Testtheorie. Weinheim: Beltz/ PVU LIENERT, Gustav A. / RAATZ, Ulrich (1994): Testaufbau und Testanalyse. 5., überarbeitete Auflage. München: Beltz PVU LINACRE, John M. (1989): Many-faceted Rasch measurement. Chicago II.: MESA Press MCNAMARA, Tim (1996): Measuring Second Language Performance. London: Longman McNAMARA, Tim (2000): Language Testing. Oxford: Oxford University Press. STANSFIELD, Charles, W. (1996): Test Development Handbook. Simulated Oral Proficiency Interview. Washington: Center for Applied Linguistics. Y 0UNG, Richard/ HE, Agnes W. ( eds.) (1998): Talking and Testing. Discourse Approaches to the Assessment of Oral Proficiency. Amsterdam/ Philadelphia: Benjamins. lFLllL 30 (2001) Peter Paschke * Zum Problem der Authentizität in 12-Hörverstehenstests 1 Abstract. Listening comprehension (LC) is the most important basic ability in everyday communication and hence a fixed part of most L2 proficiency tests. But what do these tests tel1 us about the ability to comprehend spoken language in the real world? After some preliminary remarks about the cognitive aspects of LC, the article breaks down the general question into a (non-exhaustive) series of issues conceming the authenticity of LC tests: the importance of comprehension that goes beyond facts and literal meaning, the role of spontaneous discourse with its specific phonetic and syntactic features, the problematic omission of listening in two-way-interaction, the lack of visual elements which normally assist LC, the question of how many times to administer the LC text and, finally, the influence of different question formats on the test-taker's cognitive operations. 0. Fragestellung Hörverstehen (HV)-mit einem zeitlichen Anteil von 45% (Feyten 1991: 174) die wichtigste Einzelfertigkeit in der Alltagskommunikation ist fester Bestandteil von Sprachstandstests. Was aber sagen die Ergebnisse von HV-Tests tatsächlich über die Fähigkeit aus, im Alltag gesprochene Texte zu verstehen? Inwieweit sind Test- und Realsituation hinsichtlich der Bedingungen, Ziele und Prozesse des Hörverstehens vergleichbar? "Any language test is by its very nature inauthentic, abnormal language behaviour, for the test taker is being asked not to answer a question giving information but to display knowledge or skill". Der von Spolsky (1985: 39) pointiert formulierten prinzipiellen Nicht- Authentizität von L2-Tests kann auch das Hörverstehen nicht entrinnen. Wie kann man dennoch aus der im Test gezeigten Performanz auf eine zugrunde liegende HV-Kompetenz und damit aufHV-Leistungen außerhalb des Tests schließen? D.h. wie lässt sich die Validität von HV-Tests sichern? Bachmann (1990: 316) fordert, "[...] the characterization of authenticity in language tests must take cognizance of the critical features, or essential characteristics of communicative language use, rather than attempting to capture holistic language use situations". Aus dieser Sicht ist nicht die (theorielose) Imitation der Realsituation als solcher das Ziel eines authentischen (und somit validen) HV-Tests, sondern die Auswahl und gezielte Reproduktion der entscheidenden (sprachlichen und kognitiven) Merkmale echter Hörverstehensaufgaben. Allerdings fehlt bisher eine umfassende, empirisch gesicherte und operationalisierbare Definition des Hörverstehens in der Fremd- Korrespondenzadresse: Peter PASCHKE, M.A. Universita di Venezia, Centro Linguistico Interfacolta, S. Croce 2161, 1-30100 VENEZIA. E-mail: paschke@unive.it Arbeitsbereiche: Prüfen und Testen, Lesekurse für Geisteswissenschaftler. 1 Der vorliegende Beitrag beruht in wesentlichen Teilen auf Paschke (2000). lFLllL 30 (2001) Zum Problem der Authentizität in L2-Hörverstehenstests 151 sprache (BuckJ997: 69; Dunkel/ Henning/ Chaudron 1993: 180; Rubin 1994). Ebendaher rührt umgekehrt die Attraktivität eines imitatorischen Begriffs von Authentizität: "The reason is simple: given that there is doubt about exactly what knowledge, skills and abilities need to be included in a communicative test, one way to ensure that all the vital aspects are included is to replicate 'real-world' communication." (Buck 1997: 69 f) Im Spannungsfeld dieser unterschiedlichen Konzepte von Authentizität (vgl. auch das Begriffspaar Kompetenz-/ Performanztest in McNamara 1997; Grotjahn 2000b: 322 ff), erörtert der vorliegende Beitrag nach einer Vorbemerkung zu den kognitiven Grundlagen des Hörverstehens ausgewählte Fragen zur AuthentizitätNalidität von HV-Tests: • Inwieweit sind subjektive Verstehensprozesse objektiv überprüfbar? • Müssen Hörtexte in jedem Fall im strikten Sinn authentisch sein? • Welche unterschiedlichen Hörerrollen sind im Test zu berucksichtigen? • Welche Folgen hat der Verzicht auf visuelle Stimuli im HV-Test? • Darf der Hörtext (anders als in der Sprachrealität) mehrfach präsentiert werden? • Welche Aufgabenformate stellen realistische HV-Anforderungen? 1. Hörverstehen Um die Mitte des 20. Jahrhunderts wurde sprachliche Kommunikation als Übertragung von Nachrichten über einen Kanal von einem Sender zum Empfänger konzipiert. Ein gemeinsamer Code (Grammatik, Lexik) gewährleistete in diesem information processing model eine eindeutige Dekodierung, unabhängig vom Empfänger/ Hörer (vgl. u.a. Hörmann 1981: 139; Rost 1990: 2 f). Dass der Rezipient eine aktive Rolle beim Aufbau von Bedeutung spielt, wurde zunächst im Rahmen der Pragmalinguistik deutlich: Der Hörer muss das Gemeinte, also die Sprecherintention (Illokution) aus dem Gesagten (Lokution) erschließen. Einen grundlegenden Paradigmenwechsel des Verstehensmodells führte jedoch vor allem die kognitive Psychologie herbei, die sprachliches Verstehen als aktiven, komplexen Prozess der Bedeutungskonstitution auffasst, bei dem Daten des rezipierten Textes mit sprachlichen, pragmatischen, soziokulturellen und enzyklopädischen Wissensbeständen des Hörers/ Lesers verknüpft werden. Textverstehen entspringt aus einer „Interaktion" zwischen Text und Rezipient. Modellhaft kann Verstehen als Wechselwirkung „aufsteigender" und „absteigender" kognitiver Prozesse vorgestellt werden: Situative Elemente oder Textelemente führen (bottom up) zur Aktivierung von Vorwissen, welches seinerseits die Einordnung und Verknüpfung von Textdaten (top down) steuert. Texte enthalten in dieser Sicht keine „Informationen", sondern liefern Daten, aus denen erst der Rezipient Bedeutung „konstruiert" (vgl. Hörmann 1981: 137). Dabei werden „untere" und „obere" Ebenen des Verstehens unterschieden: Erstere umfassen akustische Wahrnehmung (speech perception), Worterkennung, syntaktische Analyse (parsing) und (auf dieser Basis) die Rekonstruktion des propositionalen Gehalts einer Äußerung; letztere betreffen das Erkennen von Textsorte und Sprecherintention, das inhaltliche Inferieren und schließlich die Bewertung. Die Verarbeitungsprozesse auf JFJLulL 30 (2001) 152 Peter Paschke diesen Stufen werden nicht nacheinander durchlaufen, sondern finden parallel statt, stehen in Wechselwirkung und kompensieren sich in gewissem Maße gegenseitig (vgl. Rost 1990: 83 f). Verstehen ist also das Ergebnis einer doppelten Interaktion: einerseits zwischen Hörer(wissen) und Text(daten), andererseits zwischen Verarbeitungsprozessen auf verschiedenen Ebenen. Verstehen, d.h. das Herstellen von Bedeutung, hängt damit ganz wesentlich vom Wissen des Rezipienten ab: Derselbe Text kann von verschiedenen Subjekten bzw. (vom selben Subjekt) zu verschiedenen Zeitpunkten ganz unterschiedlich verstanden werden. Verstehen ist aber auch deshalb subjektiv, weil Hörer denselben Text mit unterschiedlichen Intentionen rezipieren können. Nicht nur Sprechen, auch Hören ist ein „zielgerichteter Vorgang" (Hörmann 1981: 135). Unter anderem können wir uns beim Hören je nach Interesse/ Intention auf den globalen Sinn konzentrieren, auf inhaltliche Details oder sogar einzelne Formulierungen. Drei solcher „Hörstile" globales, selektives und detailliertes Hören 2 sind zu gängigen Kategorien in HV-Tests geworden. Mit Solmecke (1993: 26) sei freilich bedacht, dass globale Sinnerfassung und Detailverstehen kaum je in Reinform vorkommen: "Globalverstehen ohne Verstehen relevanter Details ist kaum möglich. Detailverstehen ohne ein gewisses Verstehen des Gesamtzusammenhangs ist ebenfalls nicht gut möglich". Für HV-Tests stellt sich angesichts der Subjektivität des Verstehens die Frage, inwieweit eine objektive Überprüfung möglich ist. Das L2-Hörverstehen unterscheidet sich nicht grundlegend vom muttersprachlichen, d.h. die Prozesse der Interaktion zwischen perzipiertem Signal und Hörerwissen verlaufen prinzipiell ähnlich. Der Unterschied liegt im beschränkteren Vorwissen: "Der L2-Verarbeiter besitzt geringere und weniger automatisierte Kenntnisse über das phonemische Inventar und die lautlichen Kombinationsmuster der L2 als der Muttersprachler, sein syntaktisches Wissen ist weniger ausgeprägt, auch kann er vielen Wortformen keine Bedeutungen zuordnen. Für die höherrangigen Verarbeitungsstufen darf zumindest davon ausgegangen werden, dass der Lerner häufig nicht über das kulturspezifische Weltwissen verfügt, welches für die Verarbeitung eines L2-Textes oder einer Äußerung erforderlich ist. Auch das Diskurswissen ist bei ihm zumindest anders ausgebildet als beim Muttersprachler" (Wolff 1999: 29 f). Wie Wissens- und Fertigkeitsdefizite auf den einzelnen Ebenen im Hinblick auf die Hörverständnisfähigkeit zu gewichten sind, darüber gehen die Meinungen auseinander. Pallier/ Christophe/ Mehler (1997: 129) und Hirschfeld (1992: 17) z.B. machen „fehlende phonetische Grundlagen" für viele Hörverstehensprobleme verantwortlich, Goh (2000) dagegen warnt davor, Probleme mit der Phonemdiskriminierung in ihrer Bedeutung zu überschätzen. Richtig ist, dass sich dysfunktionale Hörmuster durch wissensgeleitete Inferenzen teilweise ausgleichen lassen; auch LI-Sprecher nehmen ja nicht jeden Laut wahr. "[...] der Fremdsprachler besitzt jedoch nur eine Annäherungskompetenz der zu erlernenden Sprache, kann deswegen nicht oder nur beträchtlich weniger kompensieren und benötigt daher in höherem Maße 'unmarkierte' akustisch-phonetische Eingabesignale" (Dirven 1992: 250). Begrenzte Sprachkenntnisse versuchen manche L2-Hörer durch top-down-Inferenzen zu kompensieren, die sich auf außersprachliches Wissen 2 Definitionen und alternative Begrifflichkeiten in Eggers (1996), Neuf-Münkel (1988), Wiemer (1999). Vgl. auch die listener functions von Lund (1990) und die purposes bei Oxford (1993). lFLllllL 30 (2001) Zum Problem· der Authentizität in L2-H örverstehenstests 153 stützen: "Der Dekodierungsprozess verlagert sich[...] auf eine höhere Ebene. Diese kompensatorische Strategie findet sich bei Muttersprachlern seltener" (Wolff 1999: 30). Auch Rubin (1994: 209) berichtet von Studien, die den positiven Einfluss von thematischem Hintergrundwissen auf die Verstehensleistung zeigen und damit auf top-down-Prozesse hindeuten. Den genannten Beobachtungen widerspricht freilich die vielfach erhobene Klage (vgl. Solmecke 1993: 35; Wolff 1983: 291), L2-Lerner seien nicht imstande, muttersprachliche Verstehensstrategien auf das fremdsprachliche Hören zu übertragen, d.h. zielgerichtet an Hörtexte heranzugehen, das Gehörte mit dem Vorwissen in Beziehung zu setzen, Erwartungen aufzubauen und durch Inferenzen Lücken zu schließen. Es heißt, Lerner nutzten ihr Welt 0 und Textwissen zu wenig, hafteten zu sehr an der sprachlichen Oberfläche und ließen sich durch Schwierigkeiten bei den bottom-up-Verstehens~ prozessen zu stark irritieren (Vgl. Anderson/ Lynch 1988: 42f; Eggers 1996: 101; Frerch/ Kasper 1986: 264; Wiemer 1999: 41). Auch wenn sich diese Aussagen möglicherweise vorrangig auf den gesteuerten Erwerb beziehen, wo Nichtverstehen und Abbruch der Kommunikation (in der Fremdsprache) als legitim gelten, während risikobehaftete 3 topdown-Verstehensstrategien eher in Realsituationen zum Einsatz kommen, so wird gleichwohl deutlich, wie wenig über die Rolle von Strategien beim L2-Hörverstehen bekannt ist. Aussagen darüber, welche Strategien wirksam oder weniger wirksam sind, haben nach Solmecke (1993: 100) bislang nur den Charakter begründeter Hypothesen, da ihre Effektivität nicht ausreichend empirisch erforscht ist. 4 Für die Testpraxis heißt dies: Aufgaben sollten so gestaltet sein (Angabe des Kontextes, authentische Textsorten, adressatengerechte Themen), dass sie den Einsatz von Strategien (Aufbau von Erwartungen, Einsatz von Text- und Weltwissen) erlauben bzw. nahe legen; ein gezieltes Testen einzelner Verstehensstrategien ist jedoch nicht sinnvoll. Hörverstehen ist nicht möglich ohne einen komplexen Prozess der Speicherung von Informationen. Zunächst werden die perzipierten Lautfolgen im Kurzbzw. Arbeitsgedächtnis zu kleinsten Sinneinheiten weiterverarbeitet (vgl. Neuf-Münkel 1988: 230); der Aufbau solcher mentalen Repräsentationen, d.h. die Konstruktion von Bedeutung, ist Bedingung für das Behalten und führt in der Regel zum Verlust des genauen Wortlauts (Hörmann 1981: 133; Rost 1994: 66). Darüber hinaus muss das Arbeitsgedächtnis neu einlaufende Daten in Beziehung setzen mit bereits aktivierten oder aufzurufenden Schemata sowie zuvor aufgenommenen Informationen. "Denn verstandene und gespeicherte Informationen sind sozusagen die Anknüpfungspunkte für noch nicht gesprochene Rede ohne Erinnerung an bereits gesprochene Rede ist die zukünftige Rede ohne Basis" (Neuf-Münkel 1992: 34). Eine Überlastung des Arbeitsgedächtnisses ist vermutlich an 3 Dass kontextgestütztes Rati: : n durchaus nicht immer zum Verstehenserfolg führt, zeigt folgendes Telefonat, in dem ein non native speaker (NNS) die Aufgabe hatte, das Abtippen einer Examensarbeit mit einem native speaker (NS) zu vereinbaren: "NS: Which University is it for? -NNS: Yes I have a more lO0-NS: Pardon me? - NNS: I have more lO0 page - NS: Yes but is it for UCLA? or USC? - NNS: UCLA- NS: I see well is.it typed? -NNS: Type? Yes uh for the I don't I don't type -NNS: Is it handwritten? -NS: Uh pardon me? Excuse me? -[ ... ]" (Anderson/ Lynch 1988: 4lf). 4 Zu empirischen Studien über den Strategieeinsatz beimL2-HV vgl. O'Malley/ Chiunot/ Küpper (1989) sowie Rubin (1994: 21 lt). FL11L 30 (2001) 154 Peter Paschke den meisten HV-Problemen in der Fremdsprache mitbeteiligt. Darauf deutet z.B. die Lernerbefragung von Goh (2000: 60 ff) hin: Unter den fünf meistgenannten Hörproblemen rangierten hier "Quickly forget what is heard" und "Neglect the next part when thinking about meaning". Manchmal scheitert sogar die Nutzung klarer visueller Hilfen an einer Überlastung des Arbeitsgedächtnisses. Ur (1984: 21) führt Fälle von Lernern an, die horse statt hause verstehen, obwohl sie eine eindeutige Illustration vor sich haben, oder die sich setzen, wenn der Lehrer come here sagt und dies mit Gestik unterstützt. Auch der bei Anfängern häufige Versuch, "die verstandenen Teile einer Äußerung durch Übersetzung in die Muttersprache zu sichern und in einen Zusammenhang zu bringen" (Solmecke 1993: 36), belastet das Arbeitsgedächtnis. Für die Testpraxis bedeutsam ist die Erkenntnis, wie leicht zusätzliche Stimuli (z.B. die visuell dargebotenen Aufgabenstellungen) den Verstehensprozess behindern und somit die Ergebnisse von HV-Tests verzerren können. 2. L2-Hörverstehenstests 2.1 Verstehensebenen Kann Hörverstehen überhaupt objektiv überprüft werden, wo es doch ganz wesentlich durch Interesse, Aufmerksamkeit und Vorwissen des Rezipienten determiniert ist? Zu bedenken ist, dass Tests versuchen, den Einfluss (konstruktirrelevanter) subjektiver Faktoren weitgehend zu neutralisieren: Unter der Voraussetzung (künstlich) gesteigerter Aufmerksamkeit, einheitlicher Aufgaben (statt subjektiver Verstehensabsichten) sowie zielgruppenadäquater Textinhalte sind Unterschiede in den individuellen Bedeutungskonstruktionen im Idealfall weitgehend auf Unterschiede in der L2-Kompetenz zurückführbar. Der Einfluss des thematischen Vorwissens bereitet in der Praxis freilich die größten Probleme: "How to deal with the potential effects of differing levels of topic knowledge on language test scores is a problem fundamental to all language tests. There are no easy solutions, and there is certainly no universal solution for all testing situations" (Bachman/ Palmer 1996: 127). Wir stehen vor einem Dilemma: Einerseits ist kulturspezifisches und thematisches Vorwissen konstitutives und notwendiges Element der Hörer- Text-Interaktion, uns interessiert also durchaus die Fähigkeit des L2-Hörers, solches Wissen im Verstehensprozess nutzbringend einzusetzen; andererseits soll das Testergebnis aber von diesem Wissen selbst möglichst unbeeinflusst bleiben. Dies kann eigentlich nur dann gewährleistet werden, wenn alle Testteilnehmer über ein vergleichbares Vorwissen verfügen eine Bedingung, die bei weltweit eingesetzten Tests kaum kontrollierbar ist. Schwer operationalisierbar sind besonders solche HV-Lernziele, die bei "vertrauten The~en" bzw. in Bezug auf den eigenen beruflichen Tätigkeitsbereich bestimmte Verstehensleistungen verlangen (vgl. die HV-Deskriptoren in Council ofEurope 1996). Trotz der genannten Probleme ist HV tendenziell objektivierbar, wenn sich die geforderten Verstehensleistungen auf einen Bereich beziehen, der traditionell mit „im Text lFLIIL 30 (2001) Zum Problem der Authentizität in L2-Hörverstehenstests 155 enthaltene Informationen" umschrieben wird, d.h. auf Bedeutungen, welche die ursprünglichen Adressaten des Textes in weitgehend übereinstimmender Weise konstruieren können. Andererseits ist evident, dass es Bedeutungskonstruktionen wie „Interpretation" oder „Bewertung" gibt, die sich nicht unter den Begriff (objektiver) "Information" subsumieren lassen. Solmecke (1992: 7 f; 1993: 26 f) unterscheidet vier „Verstehensebenen", die mit abnehmender Objektivierbarkeit korrelieren: 1. "Wiedererkennen" bezeichnet die Fähigkeit, den Lautgestalten Bedeutung zuzuordnen. 2. "Verstehen" heißt globale oder selektive Entnahme von Informationen, die gespeichert und ggf. wiedergegeben werden können. 3. "Analytisches Verstehen" beinhaltet Schlussfolgerungen bezüglich Sprecherintention und -einstellung sowie nicht explizierten Orts-, Zeit- und Personenbezügen, die „über den unmittelbaren Textinhalt hinausgehen". 4. "Evaluation" meint Verknüpfung von Textinhalt und -darbietung mit eigenen Erfahrungen und Wertvorstellungen als Grundlage für eine angemessene sprachliche oder außersprachliche Reaktion. - Testaufgaben legen fest, auf welcher Ebene die Verstehensleistungen liegen sollen, d.h. sie bestimmen die geforderte „Verstehenstiefe". Je mehr das Verstehen an der Textoberfläche verbleibt, desto einheitlicher ist das Rezeptionsergebnis: Dass ein Wetterbericht das Wort „Gewitter" enthält (1. Ebene) oder warmes Wetter ankündigt (2. Ebene), darüber werden kompetente Hörer schnell Einigkeit erzielen können; ob aber ein „Du" eine freundschaftliche Beziehung signalisiert (3. Ebene) oder ob eine bestimmte Äußerung von Arroganz zeugt (4. Ebene), ist schon eher kontrovers. Der Kernbereich des Verstehens, welcher objektiven HV-Tests zugänglich ist, umfasst die 2. und teilweise die 3. Ebene. Reines „Wiedererkennen" 5 (1. Ebene) gilt als nicht hinreichend, Evaluation des Gehörten (4. Ebene) als nicht notwendig für das Verstehen (vgl. Dunkel/ Henning/ Chaudron 1993: 181). Problematisch sind vor allem die Verstehensprozesse auf der 3. Ebene (implizite „Information" und Intention/ Motivation des Sprechers): Während sich grundlegende Sprechhandlungen (z.B. ein Kompliment) durchaus objektivieren und testen lassen, entzieht sich die „Frage nach den Motiven, Einstellungen und unausgesprochenen Werthaltungen eines Sprechers" (Solmecke 1993: 27) der notwendigen Objektivierung. Allerdings sollte darauf geachtet werden, das Verstehenskonstrukt in HV-Tests nicht unnötig zu verkürzen. Der Begriff „Information" etwa kann das Missverständnis nahe legen, der Bereich objektivierbaren Verstehens beschränke sich auf die Mitteilung von "Tatsachen". Kühns (1996: 112 ff) Kritik an der PNdS-typischen Konzeption der Vorlesung als „Faktenschleuder" ist daher beizupflichten, wenn er die mit dem Begriff „Inhaltsmomente" operierende Nivellierung vorlesungstypischer Handlungsmuster wie "Tatsachenmitteilung, Problemaufriss, Lösungsvorschläge, Begründungen usw." kritisiert. HV-Tests müssen sich durchaus nicht auf Tatsachenmitteilungen beschränken, sondern können und sollen diverse textuelle und pragmatische Aspekte berücksichtigen. Vgl. Glaboniat 1998: 163 f. Auch Testformen wie Diktat (Macht 1997) und Transkription (Voss 1984: 79 ff), von Lund (1990: 109) als replication zusammengefasst, veranlassen den Hörer, sich mehr auf „surface processing than meaningful processing" (ebd.) zu konzentrieren und gelten deshalb nicht als valide Tests der HV-Kompetenz. FLIIL 30 (2001) 156 Peter Paschke 2.2 Authentische Texte Müssen Hörtexte in Sprachstandstests einem „strikten" Authentizitätskriterium genügen, also "in response to real life communicative needs rather than as an imitation of real life communicative needs" (Underwood 1989: 98) erstellt worden sein? Oder dürfen wir uns mit einer „gemäßigten" Authentizität begnügen, was bedeutet"[... ] dass Texte durchaus auch vereinfacht, gekürzt oder sogar eigens für den Unterricht erstellt werden können, vorausgesetzt die Textmerkmale stimmen" (Bolton 1996: 21; vgl. auch Grotjahn 2000a: 13 f)? Die Antwort hängt davon ab, welche Textmerkmale man als relevant erachtet und ob es gelingt, sie in eigens erstellten Hörtexten zu reproduzieren. Für die Produktion von dialogischen Texten nennt Solmecke (1996: 86 f) folgende Kriterien: Beschränkung auf situativ wahrscheinliche Äußerungen; Beachtung von Gesprächskonventionen (z.B. Einleitung, Beendigung); Rückmeldesignale des Hörers; Pausen, Abbrüche, Reformulierungen (wenigstens in begrenztem Umfang); Einschluss von Missverständnissen (und ihre Behebung); Elemente der Beziehungsregelung (Höflichkeit, Vertrautheit, Fremdheit ausdrücken etc.); gesprächsorganisatorische Elemente (z.B. für Sprecherwechsel). In welchem Maße es gelingt, solche Merkmale authentischer Texte im Studio zu reproduzieren, hängt u.a. vom Grad der Formalität bzw. Spontaneität ab: Je informeller und spontaner gesprochene Texte sind, desto stärker unterscheiden sie sich nämlich von schriftlichen bzw. vorgelesenen Texten in syntaktischer, lexikalischer und phonologischer Hinsicht (vgl. Dirven 1977: 4 ff; Ur 1984: 6 ff). Syntaktische Phänomene spontaner Sprache wie Ellipsen, Topikalisierungen, Häsitationen, Satzabbrüche, Selbstkorrekturen, Wiederholungen, Füllwörter und -formeln lassen sich nicht immer bewusst reproduzieren, zumal sie eng verknüpft sind mit prosodischen Merkmalen wie Melodie, Akzent und Rhythmus (und indirekt mit Assimilation, Elision, Reduktion, Sehwachformen). Wenn Transkriptionen (z.B. der Gesprächsforschung) schwer lesbar sind, weil die Syntax spontan gesprochener Sprache der phonetischen Zusatzinformation bedarf, um verstehbar zu werden, dann erhebt sich umgekehrt die Frage, ob Hörtexte, die (wie im L2-Sprachunterricht meist der Fall) in transkribierter Form auf Anhieb erschlossen werden können, überhaupt die in der Sprachrealität geforderte Fähigkeit involvieren, aus syntaktisch "ungeordneten" Sprachdaten unter Rückgriff auf prosodische (und paralinguistische) Elemente Bedeutung zu konstruieren. Fazit: Prinzipiell ist eine „gemäßigte" Authentizität akzeptabel,. solange entscheidende Textmerkmale (und somit HV-Anforderungen) gewahrt werden. Fraglich aber ist insbesondere bei spontan gesprochenen, dialogischen Texten, ob es gelingt, relevante Textmerkmale im Studio zu reproduzieren. Wenig hilfreich ist im Übrigen eine „Schein-Authentizität" (Solmecke 1991b: 288), die massiv auf erschwerende Momenten wie Dialektfärbung, undeutliches, schnelles Sprechen und Störgeräusche zurückgreift und Texte „wirklicher als die Wirklichkeit" macht (Solmecke 1991a: 147). JF[,ll]L 30 (2001) Zum Problem der Authentizität in L2-Hörverstehenstests 157 2.3 Hörerrollen Idealtypisch lassen sich drei Hörerrollen unterscheiden (vgl. Rost 1990: 5 f): (a) Als Dialogteilnehmer, d.h. Adressat, der selbst zum Sprecher werden kann, hat der Hörer die Chance, Bedeutung durch eigene Beiträge mit auszuhandeln: Er kann nachfragen, Gehörtes wiederholen oder umformulieren (reframing, vgl. Rost 1994: 87 ff) und durch Themensteuerung präzise Vorerwartungen aufbauen. Auch durch back-channelling (Rost 1994: 84 f), d.h. mimische und akustische Hörersignale, nimmt er Einfluss auf den Verlauf der „direkten Kommunikation"; (b) der Zuhörer ist als Teil eines Publikums Adressat der Äußerung, kann aber in der Regel weder eingreifen noch die Äußerung des Sprechers sonst wie beeinflussen; dies gilt besonders für mediale Texte wie Radio- und Fernsehsendungen "indirekte Kommunikation"). Größere inhaltliche und phonetische Explizitheit gleichen diese Erschwernis aber zum Teil wieder aus; (c) ein Mithörer ist weder Adressat der „belauschten" Interaktion von Dritten noch kann er in sie eingreifen. Fehlendes, nur den Beteiligten verfügbares Situations- und Sachwissen (shared knowledge) sowie reduzierte phonetische Redundanz können das Verständnis von mitgehörten Interaktionen stark behindern. Offenbar gibt es Übergangsformen: Ein im Rundfunk ausgestrahltes Interview z.B. ist zwar mitgehörte Interaktion, richtet sich aber explizit an ein Publikum, steht also der Kategorie (b) nahe. Ähnliches gilt für Gruppengespräche und -diskussionen, an denen der L2-Hörer teilnimmt, ohne sich aktiv zu beteiligen. HV-Tests beschränken sich im Allgemeinen auf die Rolle des Zuhörers: Die Probanden hören Texte, die an ein Publikum gerichtet sind und in die sie nicht eingreifen können. Problematisch ist vor allem die Vernachlässigung des Hörens in der Interaktion, da es in den Lernzielen des Fremdsprachenunterrichts eine gewichtige Rolle spielt. Besonders auf den unteren Lernstufen nimmt Alltagskommunikation einen hohen Stellenwert ein, während mediale Texte allenfalls global verstanden werden sollen. Ist es legitim, sich in Tests auf das Verständnis von Durch- und Ansagen zu beschränken6, während in den Lernzielen das Verstehen in der Interaktion mit einem lebendigen Gesprächspartner dominiert? Ist die HV-Kompetenz in gängigen Sprachstandstests unterrepräsentiert oder dürfen wir aus der Performanz in der Zuhörer-Rolle auf eine allgemeine HV-Kompetenz schließen (inkl. Hören in der Interaktion)? Vermutlich ist eine rollenübergreifende Generalisierung insofern vertretbar, als Hörverstehen in jedem Fall die verzögerungslose Verarbeitung auditiv wahrgenommener L2-Daten voraussetzt. Das Spezifikum des interaktiven Hörens, also die Möglichkeit des Hörers, die Produktion der L2-Daten zu beeinflussen und Bedeutungen auf diese Weise interaktiv auszuhandeln, wird freilich nicht erfasst. Allerdings lässt sich die Hypothese aufstellen, dass eine Generalisierung eher zulässig ist, wenn nicht ausschließlich stark vorbereitete bzw. abgelesene Texte (wie Wettervorhersagen, Durch- 6 Die „kommunikativen Aufgaben" im HV-Teil der Prüfung „Deutsch im Alltag" zeigen, in welch engen Grenzen sich die Überprüfung "interaktiven" Hörverstehens in den üblichen Gruppenprüfungen bewegt: Die Kandidaten hören vom Tonband fünf Äußerungen zur Situation „Im Bus": "A: Möchten Sie sich setzen? - B: Wie weit ist es bis zum Bahnhof? - C: Bitte, einmal Stadtzentrum. - D: Fahren Sie zum Postplatz? - E: Wann kommt der nächste Bus? " (Koll/ Müller 1995: 57) und sollen aus sieben schriftlich dargebotenen Antworten die fünf passenden auswählen. JFLIIL 30 (2001) 158 Peter Paschke sagen etc.) präsentiert werden, sondern auch solche, die in ihren Textmerkmalen der spontanen Rede in direkter Kommunikation ähneln, also Texte mitgehörter Interaktion. Authentische Mitschnitte von „belauschten" Alltagsgesprächen gelten dabei vielfach als zu schwierig (vgl. Dirven 1984: 23; Kuntz 1986: 36) bzw. lassen nur sehr globale Verstehensleistungen zu. In der Regel greift man auf authentische dialogische Texte aus den Medien zurück (z.B. Rundfunk-Interviews) oder man setzt im Studio aufgenommene Gespräche ein, wobei sich auch in diesem Fall das Interview wachsender Beliebtheit erfreut (z.B. im HV-Teil der ICCNHS-Zertifikatsprüfungen, vgl. von der Handt 1997: 148), da es sich explizit an ein Publikum wendet und somit eine größere inhaltliche Explizitheit und phonetische Klarheit rechtfertigt. Wegen der im vorigen Abschnitt dargestellten Probleme, spontane Sprache zu bewusst nachzuahmen, sollte man freilich, wo immer möglich, Originaltexten gegenüber Studioproduktionen den Vorzug geben. 2.4 Visuelle Komponente Zwar kann die gleichzeitige Beanspruchung des auditiven und des visuellen Kanals das Arbeitgedächtnis überlasten, insbesondere bei der berüchtigten „Ton-Bild-Schere" (vgl. Solmecke 1993: 14), aber wo Bild und Ton sich gegenseitig stützen und die Rezipienten den visuellen Kanal tatsächlich nutzen, wird wie zahlreiche Studien belegen (Rubin 1994: 204 f)das Verstehen meist verbessert (vgl. auch Brett 1997). Im Alltag befindet sich der Hörer überwiegend in Hör-Seh-Situationen; dabei erweist es sich als Vorteil, dass der optische Kanal „eine bis zu sechsmal größere Verarbeitungs- und Speicherkapazität als der auditive Kanal hat" (Wiemer 1999: 51). Visuelle Wahrnehmungen betreffen den situativen Rahmen (Ort, Tageszeit, beteiligte Personen) und liefern Hinweise auf die Textsorte (Bahnhofsdurchsage, Podiumsdiskussion, SmaJI talk usw.); sie umfassen Gegenstände oder Hilfsmittel der Kommunikation (Schaubilder, Tafelanschrieb, Straßenkarte o.ä.), aus denen Inhalte ersichtlich sind; Aufschluss über Stimmungen und Intentionen geben Mimik und Gestik der Sprechenden; beobachtbare Handlungen (z.B. Einkaufsvorgang in einer Bäckerei) lassen Rückschlüsse auf den Inhalt der Kommunikation zu; bei mehreren Sprechern wird durch visuelle Wahrnehmung (und räumliches Hören) die Identifizierung der Sprecher ermöglicht. Nur bei wenigen Textsorten fehlen visuelle Hilfen; wie sehr das Verständnis dadurch erschwert werden kann, erfahren Lerner einer Fremdsprache besonders bei Telefongesprächen. Obwohl visuelle Reize für das Verständnis einer Vielzahl von Textsorten von Bedeutung sind, fehlen sie in den meisten HV-Tests. Jedenfalls hat sich der Wunsch "[... ], dass demnächst das Videogerät den Cassettenrecorder als Eingabemedium für Verstehenstests ablöst" (Grotjahn/ Klein-Braley 1998: 379) bisher nicht erfüllt (vgl. Dirven 1992: 255; Wiemer 1999: 51 f). Im Hinblick auf die Rdevanz des visuellen Kanals sind drei Kategorien von Texten zu unterscheiden: (A) Durchsagen, Radiosendungen, Nachrichten auf dem Anrufbeantworter usw., bei denen visuelle Stimuli nur die situative Einbettung angeben; (B) Texte, bei denen visuelle Informationen in Form von Mimik, Gestik und besprochenen Gegenständen in die Verstehensprozesse einfließen, weshalb die Ausblendung des visuellen Kanals u.U. verbale Explizierungen erfordert; (C) Texte, die als Hör-Seh-Texte lFLlllllL 30 (2001) Zum Problem der Authentizität in L2-Hörverstehenstests 159 produziert wurden, also Fernsehsendungen, Filme und Multimedia-Darbietungen. Texte der Kategorie A können offenbar ohne weiteres rein auditiv dargeboten werden; die visuelle Kontextualisierung kann ebenso gut schriftlich oder durch texttypische Hintergrundgeräusche geleistet werden. In der Kategorie C ist die visuelle Komponente umgekehrt Teil des Textes (statt nur des Kontextes) und daher unverzichtbar. Hier sieht von der Handt (1997: 148) "[...] das Erfordernis, von einem neuen Lernziel Hör-Seh-Verstehen auszugehen". Insoweit dieses (auch im Europäischen Referenzrahmen vorgesehene) Lernziel in Sprachstandstests nicht berücksichtigt wird, ist das Konstrukt Hörverstehen bzw. kommunikative Kompetenz indiesen Tests unterrepräsentiert. Bei Texten der Kategorie B sind visuelle Stimuli zwar nicht konstitutiver Teil des Textes, tragen aber dazu bei, Sprecher und ihre Rollen zu erkennen, Stimmungen und Intentionen zu verstehen, deiktische Bezüge zu erfassen, besprochene Gegenstände zu identifizieren, Abläufe zu verstehen usw. Ob rein auditiv gestaltete Tests in diesem Fall die Validität in Frage stellen, hängt davon ab, welchen Stellenwert man der visuellen Wahrnehmung zuerkennt: Ist sie lediglich ein erleichternder Faktor (leveling variable, Dunkel/ Henning/ Chaudron 1993: 187), dann genügt es, bei der Testgestaltung die fehlenden visuellen Stimuli durch Hilfen auf anderen Ebenen auszugleichen, etwa durch Explizierung von nur visuell interpretierbarer Deixis, durch Steigerung der inhaltlichen Redundanz, Verlangsamung der Sprechgeschwindigkeit o.ä. Kommt der visuellen Wahrnehmung dagegen eine strukturelle Bedeutung im Verstehensprozess zu, dann liefern rein auditive Tests mit Texten der Kategorie B Ergebnisse, die nur bedingt als Grundlage für Angaben über die HV-Kompetenz in den entsprechenden Realsituationen dienen können. Da hier sichere Antworten fehlen, beschränkt man sich unter Berufung auf das Prinzip der Authentizität in HV-Tests oftmals auf „rein auditive" Textsorten der Kategorie A. Wenn es jedoch tatsächlich einen strukturellen Unterschied zwischen „reinem" und „visuell eingebettetem" Hörverstehen gibt, dann liegt auch in dieser Beschränkung eine Unterrepräsentation des Gesamtkonstrukts Hörverstehen: "To claim external validity, construct definitions_ of listening assessment must extend beyond an ability to comprehend discourse presented through audio-tape or the telephone" (Gruba 1997: 336). 2.5 Präsentationshäufigkeit Im Sinne maximaler Wirklichkeitsnähe dürfte man die meisten Hörtexte 7 im Test nur ein einziges Mal präsentieren: « Combien de fois faire ecouter le document? II est clair que si l'on cherche a placer l'apprenant dans une situation la plus proche possible de l 'authentique, on devrait se limiter a une seule ecoute » (Roux 1997: 101 ). In vielen Sprachstandstests hingegen erscheint die Zahl der Präsentationen vor allem ari die Anforderungen der Höraufgabe gekoppelt: Im neuen Zertifikat Deutsch (WBT u.a. 1999) werden die fünf Meinungsäußerungen des ersten HV-Teils (mit je einer, auf globales Verstehen zielenden R/ F-Aufgabe) nur einmal zu Gehör gebracht; in den Teilen zum Detailverstehen (Gespräch/ Interview) bzw. zum selektiven Verstehen (Durchsagen, Wet- Zu den Ausnahmen zählen z.B. Ansagen und Nachrichten auf dem Anrufbeantworter. lFlLllL 30 (2001) 160 Peter Paschke terberichte o.ä.) ist dagegen jeder Text zweimal zu hören. Auch in der Zentralen Mittelstufenprüfung (ZMP) des Goethe-Instituts wird der Hörtext mit Aufgaben zum Detailverstehen zweimal dargeboten: einmal im Ganzen, dann in Abschnitten (vgl. Dittrich/ Frey 1999). Das Österreichische Sprachdiplom Grundstufe 1 8 hingegen ist bemüht, das Kriterium der Authentizität stärker zu berücksichtigen: HV-Aufgabe 1 besteht aus drei inhaltlich gleichen, aber sprachlich (z.B. im Formalitätsgrad) verschieden realisierten medialen Informationstexten (Wetterberichte, Verkehrsfunkdurchsagen o.ä.). "Im Gegensatz zur realitätsfernen Praxis, bei Prüfungen jeden Text prinzipiell zwei (bis drei-)mal vorzuspielen, kann hier im Sinne der Authentizitätsforderung von einem durchaus legitimen Vorgehen gesprochen werden" (Glaboniat 1998: 161). Die zweite HV-Aufgabe besteht aus einer Tonbandansage oder Nachricht auf dem Anrufbeantworter (von hoher Informationsdichte) und wird (da in der Realität beliebig oft wiederholbar) dreimal präsentiert; die Kandidaten müssen selektiv Informationen entnehmen. Die dritte HV- Aufgabe bezieht sich auf ein Alltagsgespräch oder Radiointerview, das nur einmal gehört werden kann; in Anbetracht der Lernstufe wurden deshalb „Sprechsituationen ausgewählt, die sich durch besonders hohe Redundanz auszeichnen" (Glaboniat 1998: 174). Gegen eine solch strikte Orientierung an der Sprachrealität führt Bolton folgende Argumente ins Feld: "[...] Hörverstehen über eine Tonaufnahme ist immer schwieriger als das Hörverstehen in der Realität, wo das situative Umfeld, Gestik, Mimik und die Lippenbewegungen der Sprechenden beim Verstehen helfen. Dazu kommt, dass die mangelhafte Qualität von Tonaufnahmen manchmal das Hören erschwert. [...] Bei Tests zum Hörverstehen auf der Grundstufe sollten die Lernenden deshalb den Text zuerst einmal als Ganzes hören, dann die Aufgabe(n) lesen (um beim zweiten Hören zielgerichteter zuhören zu können), dann den Text zum zweiten Mal hören und dabei- oder danachdie Aufgabe lösen" (Bolton 1996: 47). In jedem Fall (auch außerhalb der face-tojace-Kommunikation) aber gilt, dass der Testkandidat sich Kontext, Rolle und Verstehensziel vergleichsweise mühsam (meist lesend) aneignen muss. Zu fragen ist mit Bachman, ob die Validität von HV-Tests berührt wird, wenn man diese Erschwernis durch zweifache Darbietung kompensiert: "Does this [=mehrmaliges Hören] really compensate for lack of adequate contextualization, or does this change the very nature of the activity, vis-a-vis the TLU [= target language use]? Does it change the construct we're measuring? " 9 Im Gegensatz zu anderen hier aufgeworfenen Fragen (Vernachlässigung des HV in der Interaktion, Unnatürlichkeit nachgeahmter spontaner Rede, Fehlen visueller Stimuli) hat die mehrfache Präsentation m.E. kaum Einfluss auf Art und Struktur der involvierten bzw. gemessenen Fähigkeiten und Fertigkeiten, sondern modifiziert lediglich den Schwierigkeitsgrad der Aufgabe. Bezeichnenderweise kommen bei einmaliger Präsentation häufig andere Mittel der Vereinfachung zum Zug (globale Verstehensziele, erhöhte inhaltliche Redundanz). Ob die Validität eines HV-Tests durch mehrfache Textdarbietung beeinflusst wird, ist aus dieser Entspricht dem Waystage-Level des Common European Framework, vgl. http: / / www.osd.at/ 9 Aus einem Beitrag von Lyle Bachman vom 10.6.2000 zur Sprachtester-Diskussionsliste „Ltest-L" (vgl. http: / / www.surrey.ac.uk/ ELI/ ltest-1.html). lFLlllL 30 (2001) Zum Problem der Authentizität in L2-Hörverstehenstests 161 Sicht keine prinzipielle Frage, sondern hängt davon ab, ob sich (im Vergleich zum realen Sprachgebrauch) die diversen erschwerenden und erleichternden Faktoren letztlich ausgleichen. 2.6 Aufgabentypen HV-Aufgaben sollen beobachtbare Reaktionen auslösen, die „Rückschlüsse auf das stattgehabte HV" (Voss 1984: 74) zulassen, zugleich jedoch verändern sie die Art der sprachlichen Tätigkeit, also den Gegenstand der Messung: Aufgaben müssen nämlich gelesen und verstanden werden; visueller und auditiver Input sind ständig aufeinander zu beziehen; auch Schreibfertigkeiten sind zuweilen gefordert. Ziel der Testgestaltung ist es, den Einfluss dieser (konstruktirrelevanten) Faktoren auf das Messergebnis möglichst gering zu halten. Wer das Hörziel erreicht hat, soll mit einer möglichst hohen Wahrscheinlichkeit die Aufgabe richtig lösen. Umgekehrt lassen korrekte Testantworten nicht immer den Rückschluss auf gelungene Verstehensprozesse zu. Bei geschlossenen Aufgabenformaten können richtige Lösungen auch Zufallstreffer sein. Außerdem entspricht ein Vergleich des Inputs mit vorgegebenen Alternativen nur partiell der Realität des Hörverstehens: Die von Multiple-Choice-Aufgaben (MC) geforderte kognitive Operation des Auswählens ist nur dort realistisch, wo der Verstehensprozess durch präzise Vorerwartungen und/ oder Fragen gelenkt wird und die Bandbreite erwartbarer Antworten beschränkt ist. Richtig-Falsch-Aufgaben (RF) haben zwar den Vorzug, dass ihre Struktur „viele ebenfalls binäre Phänomene in der Sprache" (Klein-Braley 1992: 662) sowie den Vorgang des Testens von Hypothesen (z.B. Erwartungen oder Schemata) reflektiert. Gleichwohl aber lässt sich Hörverstehen außerhalb der Testsituation kaum auf die Überprüfung vorher formulierter und für alle Rezipienten einheitlicher Hypothesen reduzieren. Dasselbe Problem stellt sich bei Zuordnungsaufgaben (ZO): "Authentisch wäre es, wenn die einzelnen Auswahlitems (Aussagen) jenen Erwartungen und Assoziationen entsprechen würden, die ein Hörer aufgrund seines Kontextwissens ohnehin bilden würde" (Glaboniat 1998: 209). In welchem Ausmaß die für geschlossene Aufgabenformen kennzeichnende Operationalisierung des Verstehens (als Auswahlvorgang) die zugrunde liegenden Prozesse und somit das gemessene Konstrukt verfälschen, ist freilich nur schwer abzuschätzen. Halboffene und offene Aufgaben (vgl. zur Abgrenzung Grotjahn/ Klein-Braley 1998: 298) dürfen im Zweifelsfall als „authentischer" gelten, bringen aber neben Hören und Lesen zusätzlich die Schreibfertigkeit ins Spiel: "The tasks which have been labelled open tasks [...] are likely to yield scores which may not be accepted as reflections of listening skill as an isolated construct" (Rost 1990: 179). Gegenüber geschlossenen Aufgaben bieten sie immerhin den Vorteil, die Möglichkeit des Ratens drastisch einzuschränken. Bei RF-Aufgaben führt ja schon blindes Raten zu einer durchschnittlichen Erfolgsquote von 50%, und selbst für MC-Aufgaben wurde in zahlreichen Studien gezeigt, dass Probanden unter Einsatz ihres Weltwissens häufig in der Lage sind, 50--90% der Aufgaben zu lösen, ohne den Text überhaupt rezipiert zu haben (Klein- Braley 1992: 661). Praktisch alle Aufgabenformate setzen voraus, dass geschriebener Text verstanden wird. Falschantworten können also auch durch mangelndes LeseverlFLIIIL 30 (2001) 162 Peter Paschke stehen bedingt sein bzw. durch eine „Leselast", die das Arbeitsgedächtnis überfordert. Besonders MC-Optionen sollten daher so knapp wie möglich und sprachlich nicht schwieriger als der Hörtext selbst ausfallen. Das Problem: Um direktes Zitieren aus dem Hörtext (und somit reines Diskriminationshören) zu vermeiden, beruht die korrekte Antwort oft auf einer (sprachlich schwierigen) Paraphrase bestimmter Textelemente (vgl. Klein-Braley 1992: 661). Eine bessere Lösung ist es, wörtliche Textzitate auch in den Distraktoren zu verwenden. In sprachlich homogenen Zielgruppen kann die Leselast durch LI-Verwendung vermindert werden, möglicherweise aber treten Code Switching- Probleme auf und verzerren ihrerseits die Messung der HV-Kompetenz. Einen weiteren Ausweg bietet die Verwendung.von Bildmaterial (z.B. als Alternativen in MC- oder ZO- Aufgaben), der Einsatzbereich ist allerdings recht beschränkt. Die Gefahr einer Überlastung des Arbeitsgedächtnisses besteht prinzipiell, wenn neben Gehörtem auch Gelesenes zu verarbeiten ist: "Auditiver und visueller Input müssen in ständigem, sich gegenseitig bedingendem Wechsel verarbeitet werden" (Bickes 1996: 152). Eine echte Herausforderung sind manche ZO-Aufgaben, z.B. wenn Meinungen den Gesprächsbeteiligten zugeordnet werden sollen wie in der ZMP-Hörverstehensprüfung (vgl. Dittrich/ Frey 1999: 171 ff, 182 fund 190 f; Hantschel/ Krieger 1998: 47 und 69) oder in der ÖSD-Mittelstufenprüfung (vgl. Glaboniat 1998: 208-220). Da die zuzuordnenden Positionen nicht in chronologischer Folge erscheinen können, müssen die Probanden ständig bis zu zehn Aussagen „im Blick" behalten und mit dem Gehörten vergleichen. Bei komplexeren Sachverhalten ist hier sogar ein Muttersprachler überfordert, d.h. der konstruktiv relevante Störfaktor ist von beträchtlichem Gewicht (vgl. Glaboniat 1998: 213). Hinsichtlich eines möglichen information overload durch schriftliche Stimuli sind RF-Aufgaben am wenigsten problematisch; der Vergleich zwischen auditivem und schriftlichem Input wird durch die Ja-Nein-Struktur deutlich erleichtert. Dies ist vermutlich der Hauptgrund dafür, dass man von MC-Aufgaben verstärkt zu RF-Aufgaben übergeht (vgl. Klein-Braley 1992: 662). In der Prüfung zum neuen „Zertifikat Deutsch" z.B. haben sämtliche HV- Aufgaben dieses Format (WBT u.a. 1999: 384-386; WBT 1999: 16-18). 3. Resümee HV-Tests unterscheiden sich beträchtlich von Situationen authentischer L2-Sprachverwendung, müssen mit diesen aber in wesentlichen Punkten vergleichbar sein, wenn sie valide Aussagen über im Sprachgebrauch relevante Kompetenzen erlauben sollen. Auf welche Merkmale es genau ankommt, dazu lassen sich gegenwärtig kaum mehr als plausible Hypothesen formulieren. So darf man annehmen, valide HV-Tests sollten (wenigstens auf bestimmten Lernstufen) neben reinem Faktenverständnis (implizite) pragmatische und textuelle Aspekte berücksichtigen. Problematisch erscheint die Vernachlässigung des Hörverstehens in der Interaktion (wenn dieses in den Lernzielen vorgesehen ist); ob ersatzweise HV-Leistungen in der Mit-/ Zuhörerrolle generalisiert werden können, wenn die eingesetzten Hörtexte typische Merkmale spontaner Rede aufweisen, wäre empirisch zu prüfen. Bei spontanen dialogischen Texten ist der.Einsatz lFlLIDlL 30 (2001) Zum Problem der Authentizität in L2-Hörverstehenstests 163 von Originalaufnahmen (z.B. aus dem Rundfunk) angezeigt, da sich Phänomene wie Versprecher, Häsitationen, Sprechtempowechsel u.a. nur schwer bewusst nachahmen lassen. Dass als Hörspiel inszenierte, syntaktisch „geglättete" Dialoge die Messung der HV-Kompetenz verfälschen, ist allerdings ebenfalls nur eine Hypothese. In vielen Fällen fragt sich, ob Abweichungen von den Merkmalen der intendierten Sprachgebrauchssituation lediglich eine Erleichterung/ Erschwerung der Aufgabe bewirken oder dazu führen, dass eine andersgeartete Kompetenz gemessen wird. So entspricht die mehrfache Präsentation von Hörtexten im Test zwar u. U. nicht der Sprachwirklichkeit, scheint aber lediglich den Grad der Aufgabenschwierigkeit zu vermindern, ohne die Prozesse des HV strukturell zu modifizieren. Ob dies auch für den Verzicht auf visuelle Stimuli gilt, musste im Rahmen dieses Beitrags jedenfalls für eine bestimmte Klasse von Texten offen bleiben. Da Verstehen als solches nicht beobachtbar ist, sondern nur indirekt aus (mittels Aufgaben elizitierten) Reaktionen erschlossen werden kann, kommt es im Test wohl oder übel zu einer Modifizierung der kognitiven Prozesse des Verstehens; es gilt allerdings, die Verzerrung der Messung möglichst gering zu halten. Zusammenfassend müssen wir sagen, dass sich Bachmans struktureller Authentizitätsbegriff beim gegenwärtigen Stand der Forschung zum L2-Hörverstehen nur begrenzt einlösen lässt; hilfsweise wird man sich in vielen Fällen mit begründeten Hypothesen oder einer imitatorischen Annäherung an reale Sprachgebrauchssituationen zufrieden geben müssen. Literatur ANDERSON, Anne/ LYNCH, Tony (1988): Listening. Oxford: Oxford University Press. BACHMAN, Lyle (1990): Fundamental considerations in language testing. Oxford: Oxford University Press. BACHMAN, Lyle/ PALMER, Adrian S. (1996): Language testing inpractice: designing and developing useful language tests. Oxford: Oxford University Press. BICKES, Gerhard (1996): "Hörverstehensüberprüfungen als methodisches Problem". In: KÜHN, Peter (Hrsg.): Hörverstehen im Unterricht Deutsch als Fremdsprache. Frankfurt/ M.: Lang, 149-170. BOLTON, Sibylle (1996): Probleme der Leistungsmessung. Lernfortschrittstests in der Grundstufe. München: Langenscheidt. BRETT, Paul (1997): "A comparative study of the effects of the use of multimedia on listening comprehension". In: System 25.I, 39-53. BUCK, Gary (1997): "The Testing of Listening in a Second Language". In: CLAPHAM, Caroline / CüR- S0N, David (eds.): Encyclopedia of language and education. Vol. 7: Language testing and assessment. Dordrecht: Kluwer, 65-74. C0UNCIL0FEUR0PE (ed.) (1996): Modern languages: learning, teaching, assessment. A common Europeanframework of reference. Strasbourg 1996. DIRVEN, Rene (1977): "Aspekte der Hörverstehensfertigkeit". In: DIRVEN, Rene (Hrsg.): Hörverständnis im Fremdsprachenunterricht. Listening comprehension in foreign language teaching. Kronberg: Scriptor, 1-13. DIRVEN, Rene (1984): "Was ist Hörverstehen? Synopse vorhandener Theorien und Modelle". In: SCHU- MANN, Adelheid/ V0GEL, Klaus/ Voss, Bernd (Hrsg.): Hörverstehen. Grundlagen, Modelle, Materialien zur Schulung des Hörverstehens im Fremdsprachenunterricht der Hochschule. Tübingen: Narr, 19-40. lFLlllL 30 (2001) 164 Peter Paschke DIRVEN, Rene (1992): "Von der Hörfertigkeit zum Hörverstehen". In: JUNG, Udo O.H. (Hrsg.): Praktische Handreichung für Fremdsprachenlehrer. Frankfurt/ M.: Lang, 249-257. DITTRICH, Roland/ FREY, Evelyn (1999): Training Zentrale Mittelstufenprüfung. Band 1: Leseverstehen. Hörverstehen. München: Verlag für Deutsch. · DUNKEL, Patricia/ HENNING, Grant/ CHAUDRON, Craig (1993): "The Assessment of an L2 Listening Comprehension Construct: A Tentative Model for Test Specification and Development". In: The Modern Language Journal 77.2, 180--191. EGGERS, Dietrich (1996): "Hörverstehen: Bestandsaufnahme und Perspektiven". In: Kühn, Peter (Hrsg.): Hörverstehen im Unterricht Deutsch als Fremdsprache. Frankfurt/ M.: Lang, 13-44. FiERCH, Claus / KASPER, Gabriele (1986): "The role of comprehension in second language learning". In: Applied Linguistics 7, 257-274. FEYTEN, Carine M. (1991): "The power of listening ability: an overlooked dimension in language acquisition". In: The Modern Language Journal 75, 173-180. GLABONIAT, Manuela (1998): Kommunikatives Testen im Bereich Deutsch als Fremdsprache. Innsbruck- Wien: Studienverlag. GOH, Christine C.M. (2000): "A cognitive perspective on language learners' listening comprehension problems". In: System 28.1, 55-75. GROTJAHN, Rüdiger (2000a): "Determinanten der Schwierigkeit von Leseverstehensaufgaben: Theoretische Grundlagen und Konsequenzen für die Entwicklung des TESTDAF". In: BOLTON, Sibylle (Hrsg.): TESTDAF: Grundlagen für die Entwicklung eines neuen Sprachtests. Beiträge aus einem Expertenseminar. Köln: VUB Gilde, 7-55. GROTJAHN, Rüdiger (2000b): "Testtheorie: Grundzüge und Anwendungen in der Praxis". In: WOLFF, Armin / TÄNZER, Harald (Hrsg.): Sprache -Kultur -Politik. Beiträge der 27. Jahrestagung Deutsch als Fremdsprache vom 3. -5. Juni 1999 an der Universität Regensburg. Regensburg: FaDaF, 304-341. GROTJAHN, Rüdiger / KLEIN-BRALEY, Christine (1998): "Testen". In: JUNG, Udo 0.H. (Hrsg.): Praktische Handreichung für Fremdsprachenlehrer. Frankfurt/ M.: Lang, 294-301. GRUBA, Paul Andrew (1997): "The role of video media in listening assessment". In: System 25.3, 335- 345. HANDT, Gerhard von der (1997): "Lernzielinventare und Tests im Fremdsprachenbereich: Möglichkeiten und Tendenzen der Weiterentwicklung der ICC-Sprachenzertifikate". In: GARDENGHI, Monica/ O'CONNELL, Mary (Hrsg.): Prüfen, Testen, Bewerten im modernen Fremdsprachenunterricht. Frankfurt/ M.: Lang, 145-149. HANTSCHEL, Hans-Jürgen/ KRIEGER, Paul (1998): Mit Erfolg zur Mittelstufenprüfung Deutsch als Fremdsprache. Testbuch. Stuttgart: Klett Verlag, HIRSCHFELD, Ursula (1992): "Wer nicht hören will ...". In: Fremdsprache Deutsch 7, 17-20. HöRMANN, Hans (1981): Einführung in die Psycholinguistik. Darmstadt: Wissenschaftliche Buchgesellschaft. KLEIN-BRALEY, Christine (1992): "Objektives Erfassen von Hör- und Leseverstehen. Einige Erkenntnisse aus der Theorie der Leistungsmessung und deren Bezug zur Prüfung zum Nachweis deutscher Sprachkenntnisse". In: lnformationen Deutsch als Fremdsprache 19, 649--663. KOLL, Rotraut / MÜLLER, Heidrun (1995): Prüfung „Deutsch im Alltag". Übungstests zum Hörverstehen, Leseverstehen, schriftlichen Ausdruck und zu den kommunikativen Aufgaben. München: Verlag für Deutsch. KÜHN, Peter (1996): "Lernziel: Vorlesungen verstehen. Zur Prüfungspraxis in der PNdS/ DSH". In: KÜHN, Peter (Hrsg.): Hörverstehen im Unterricht Deutsch als Fremdsprache. Frankfurt/ M.: Lang, 93-147. KUNTZ, Helmut (1986): "Das Hörverstehenstraining und seine Progression. Überlegungen zur Konzeption des HV-Unterrichts auf der Mittelstufe 1". In: Informationen Deutsch als Fremdsprache 13, 25- 41. lFLll! L 30 (2001) Zum Problem der Authentizität in L2-Hörverstehenstests 165 LUND, Randall J. (1990): "A Taxonomy for Teaching Second Language Listening". In: Foreign Language Annals 23, 105-115. MACHT, Konrad (1997): "Das Diktat: ein zu Unrecht verdammtes Testinstrument". In: GARDENGHI, Monica/ O'CONNELL, Mary (Hrsg.): Prüfen, Testen, Bewerten im modernen Fremdsprachenunterricht. Frankfurt/ M.: Lang, 109-116. MCNAMARA, Tim F. (1997): "Performance testing". In: CLAPHAM, Caroline/ CORSON, David (eds.): Encyclopedia of language and education. Vol. 7: Language testing and assessment. Dordrecht: Kluwer,.131-139. NEUF-MÜNKEL, Gabriele (1988): "Hörverstehen". In: lnformationenDeutsch als Fremdsprache 15, 229- 241. NEUF-MÜNKEL, Gabriele (1992): "Der dicke Junge weint, weil ... Übungen zur Ausbildung der Antizipations- und Speicherfähigkeit". In: Fremdsprache Deutsch 7, 31-35. O'MALLEY, J. Michael/ CHAMOT, Anna Uhl / KÜPPER, Lisa (1989): "Listening comprehension strategies in second language acquisition". In: Applied Linguistics 10.4, 418--437. OXFORD, Rebecca (1993): "Research Update on Teaching L2 Listening". In: System 21.2, 205-211. P ALLIER, Christophe / CHRISTOPHE, Anne/ MEHLER, J. ( 1997): "Language-specific listening". In: Trends in Cognitive Sciences 1.4, 129-132. PASCHKE, Peter (2000): Fremdsprachliches Hörverstehen: Grundlagen, Lernziele und Probleme der Leistungsmessung. University College Dublin 2000 (M.A.-Thesis). ROST, Michael (1990): Listening in language learning. Harlow: Longman. ROST, Michael (1994): lntroducing listening. London: Penguin. Roux, Pierre-Yves (1997): « La comprehension orale en langue etrangere et son evaluation ». In: GARDENGHI, Monica/ O'CONNELL, Mary (Hrsg.): Prüfen, Testen, Bewerten im modernen Fremdsprachenunterricht. Frankfurt/ M.: Lang, 95-107. RUBIN, Joan (1994): "A review of second language listening comprehension research". In: The Modern Language Journal 78.2, 199-221. SOLMECKE, Gert (1991a): "Hörverstehenstexte". In: BAUSCH, Karl-Richard [u.a.] (Hrsg.): Texte im Fremdsprachenunterricht als Forschungsgegenstand. Arbeitspapiere der 11. Frühjahrskonferenz zur Erforschung des Fremdsprachenunterrichts. Bochum: Brockmeyer, 145-149. SOLMECKE, Gert (1991 b ): "Wie schwierig ist eine Hörverstehensübung? " In: Informationen Deutsch als Fremdsprache 18, 287-295. SOLMECKE, Gert (1992): "Ohne Hören kein Sprechen. Bedeutung und Entwicklung des Hörverstehens im Deutschunterricht". In: Fremdsprache Deutsch 7, 4-11. SOLMECKE, Gert (1993): Texte hören, lesen und verstehen. Eine Einführung in die Schulung der rezeptiven Kompetenz mit Beispielen für den Unterricht Deutsch als Fremdsprache. München: Langenscheidt. SOLMECKE, Gert (1996): "Authentische Texteauthentisches Hören? " In: KÜHN, Peter (Hrsg.): Hörverstehen im Unterricht Deutsch als Fremdsprache. Frankfurt/ M.: Lang, 79-92. SPOLSKY, Bernard (1985): "The limits ofauthenticity in language testing". In: Language Testing 2.1, 31- 40. UNDERWOOD, Mary (1989): Teaching listening. London: Longman. UR, Penny (1984): Teaching listening comprehension. Cambridge: Cambridge University Press. Voss, Bernd (1984): "Zur Überprüfung von Hörverstehen im Fremdsprachenunterricht". In: SCHUMANN, Adelheid/ VOGEL, Klaus / Voss, Bernd (Hrsg.): Hörverstehen. Grundlagen, Modelle, Materialien zur Schulung des Hörverstehens im Fremdsprachenunterricht der Hochschule. Tübingen: Narr, 69-85. WBT (Weiterbildungs-Testsysteme GmbH) (Hrsg.) (1999): Die Europäischen Sprachenzertifikate: Zertifikat Deutsch. Modelltest 2. Frankfurt/ M.: WBT. WBT / Goethe Institut/ ÖSD / EDK (Hrsg.) (1999): Zertifikat Deutsch. Lernziele und Testformat. Frankfurt/ Main: WBT. lFlLllL 30 (2001) 166 Peter Paschke WIEMER, Claudia (1999): "Aspekte des Hörverstehens im fremdsprachlichen Lernprozess". In: Eggers, Dietrich (Hrsg.): Sprachandragogik Jahrbuch 1998: Hörverstehen aus andragogischer Sicht. Sprachlern- und Spracherwerbsstrategien im Fremdsprachenunterricht mit Erwachsenen. Mainz: Zentralstelle für universitäre Fort- und Weiterbildung, 37-55. WOLFF, Dieter (1983): "Überlegungen zum Hörverstehen im Fremdsprachenunterricht". In: Die Neueren Sprachen 82, 282-297. WOLFF, Dieter (1999): "Hörverstehen in einer Fremdsprache: Ein psycholinguistisches Ratespiel? " In: EGGERS, Dietrich (Hrsg.): Sprachandragogik Jahrbuch 1998: Hörverstehen aus andragogischer Sicht. Sprachlern- und Spracherwerbsstrategien im Fremdsprachenunterricht mit Erwachsenen. Mainz: Zentralstelle für universitäre Fort- und Weiterbildung, 17-35. lFJLlllL 30 (2001) Gerhard von der Handt • DIALANG ein diagnostisches Online-Testverfahren (Schwerpunkt Hörverstehen) Abstract. DIALANG stands for Diagnostic Language Testing. The article describes the airns and the approach of this project which is financed within the Sokrates prograrn. The main focus is on listening comprehension. Possibilities and restraints of online diagnostic tests like DIALANG are explored, and ways offurther developing the DIALANG systemare suggested. This may allow.a more specific analysis of test-takers' input as a basis for a more detailed and individualized instruction on improving their language competence. 0. Einleitung DIALANG steht für Diagnostic Language Testing. Der nachfolgende Artikel beschreibt Ansatz und Ziele dieses Sokrates-Projekts, wobei das Hörverstehen im Mittelpunkt steht. Im Anschluss daran werden Besonderheiten und Einschränkungen untersucht, welche mit dem Online-Testen verbunden sind zumindest beim heutigen Stand der Technik. In einzelnen Punkten sind die Einschränkungen DIALANG-spezifisch. Die Einschränkungen können sich sowohl auf den Verstehens-Input beziehen (z.B. Textlänge, keine visuellen Komponenten) als auch auf die Aufgabenstellung (es sind fast ausschließlich Mehrfachwahlaufgaben möglich). DIALANG bezieht sich auf den Gemeinsamen Europäischen Referenzrahmen fü.r Sprachen: Lernen, Lehren und Beurteilen, ein Vorhaben, dessen endgültige Fassung im Europäischen Jahr der Sprachen vorgestellt wird, aber schon jetzt auch in der deutschen Fassung über Internet öffentlich ist (http: / / www.goethe.de/ z/ 50/ commeuro/ i00.htm). Aus dem Referenzrahmen wurden Forderungen für die Testkonstruktion abgeleitet. Die praktischen Konsequenzen dieser Ableitungen für DIALANG werden in einem weiteren Abschnitt diskutiert. Dabei werden auch die Probleme ausgewiesen, die durch die DIA- LANG-spezifischen Aufgabenformen einerseits und gewisse Prinzipien der Kompetenzbeschreibungen des Referenzrahmens andererseits entstehen. Der Hauptteil des Beitrags beschäftigt sich mit der Weiterentwicklung der Diagnosefunktion von DIALANG in Richtung auf Differenzierungsmöglichkeiten und Individualisierung. Abgesehen von der Möglichkeit des jederzeit möglichen freien Zugriffs (vorausgesetzt natürlich, man verfügt über die technischen Voraussetzungen) ist DIALANG der Korrespondenzadresse: Gerhard VON DER HANDT, wissenschaftlicher Angestellter, Deutsches Institut für Erwachsenenbildung, Abteilung Planung und Entwicklung, Hansaallee 150, 60320 FRANKFURT. E-mail: von-der-Handt@die-frankfurt.de Arbeitsbereiche: ,Selbstgesteuertes Lernen, Lernorganisation, Neue Medien lFLiulL 30 (2001) 168 Gerhard von der Handt Fremdevaluation verpflichtet. Die im Rahmen des Gesamtsystems vorgesehene Selbsteinschätzung dient ebenso wie ein vorgeschalteter Wortschatztest der Groborientierung auf eine der Niveaustufen hin, in deren Bereich die ersten Aufgaben gestellt werden. Die Selbsteinschätzung ist somit eine Vorstufe zu dem eigentlichen Test. Vorgesehen ist allerdings eine Rückmeldung über Unterschiede zwischen Selbstevaluation und den Testergebnissen, um das Bewusstsein für die Angemessenheit der Selbsteinschätzung zu entwickeln. Im Unterschied dazu beruht der PORTFOLIO-Ansatz (vgl. http: / / www.unifr.ch/ ids/ Portfolio/ bzw. den Beitrag von Günther Schneider in diesem Band) entschiedener auf Selbstevaluation. Jedes der Systeme hat sowohl Vorals auch Nachteile. Im abschließenden Kapitel wird versucht, die Möglichkeiten einer Weiterentwicklung von DIALANG unter Stärkung der diagnostischen Funktion zu beschreiben. DIALANG und PORTFOLIO würden sich auf dieser Grundlage (noch stärker als bisher) gegenseitig ergänzen. Damit wird im vorliegenden Zusammenhang mit Fremdevaluation ein Verfahren bezeichnet, bei welchem der gesamte Evaluationsprozess, angefangen von der Zielauswahl bis zur Auswertung/ Bewertung der Testergebnisse abgesehen von der Lösung der Testaufgaben -, ohne eine aktive Beteiligung des Testanden abläuft. Im Gegensatz dazu erfordern selbstevaluative Verfahren wenigstens in Teilbereichen eine selbständige Leistung. Im Prinzip kann sich diese auf alle Elemente des Prozesses beziehen: was will ich lernen was kann ich schon wie stellt sich das Ziel im Einzelnen dar was ist dabei wichtig oder weniger wichtig auf welcher Grundlage kann ich meirie Leistungen mit einer Norm oder den Leistungen anderer vergleichen? Wenn dieser Ablauf völlig unangeleitet oder ohne Beratung verläuft, kann sich die Selbsteinschätzung bestenfalls auf den individuellen Lernfortschritt beziehen. Allein die genauere Vorstellung von sprachlichen Lernzielen setzt schon ein gewisses Maß von Sprachbewusstsein voraus; der Bezug auf eine Leistungsstufe oder der Vergleich mit anderen Leistungen ist ohne vereinbarte Erfassungskategorien und Bewertungskriterien nicht möglich. In den als selbstevaluativ bezeichneten Verfahren (z. B. PORTFOLIO) werden für diese Bereiche Vorgaben gemacht; der eigentliche Einschätzungsprozess auf Grund dieser Vorgaben erfolgt jedoch nicht durch ein Auswertungsprogramm oder Experten, sondern durch den Testanden selbst. Die hier als Selbsteinschätzung angesprochenen Verfahren sind also Mischtypen. 1. Der sprachenpolitische und lemtheoretische Hintergrund von DIALANG DIALANG ist Teil des europäischen sprachenpolitischen Konsenses, dass • jeder europäische Bürger mehr als eine Fremdsprache beherrschen sollte und • seltener gelernte, Minderheiten- und Migranten-Sprachen im europäischen „Sprachengesamthaushalt" eine wichtige Rolle spielen sollen. Der erste Spiegelpunkt schließt das Konzept der differenzierten Mehrsprachigkeit ein: z. B. Englisch+ eine weitere Sprache, so dass jeder europäische Bürger einschließlich seiner Muttersprache mindestens drei Sprachen beherrschen soll, jedoch nicht notwendilFLd 30 (2001) DIALANG ein diagnostisches Online-Testverfahren (Schwerpunkt Hörverstehen) 169 gerweise mit demselben Kompetenzgrad bzw. in der aktiven Sprachbeherrschung. Über diesen allgemeinen Konsens hinaus besteht eine Reihe von Modellen für Sprachenfolgen und -auswahl, deren Umsetzung in erster Linie über die Schule möglich ist da die „Verordnung" bestimmter Sprachen in der Erwachsenenbildung nicht möglich ist. Als Beispiel für die Auswahlkriterien mögen Sprachen in grenzriahen Nachbarregionen oder im Land gesprochene Migranten- oder Minderheitensprachen gelten. In der Weiterbildung folgt die Auswahl in erster Linie individuellen Interessen und Bedürfnissen; über diese können sich als Tendenz wirtschaftliche Bedarfe ausdrücken, wenn z. B. (ebenfalls in Grenzregionen) ein Beruf im anderssprachigen Nachbarland ausgeübt wird. Durch die freie individuelle Wahl im Weiterbildungsbereich gibt es nur eingeschränkte Möglichkeiten einer bildungspolitischen Lenkung der Sprachauswahl. Allerdings sind bildungspolitische bzw. bildungsstrukturelle Entscheidungen in vielen Fällen die Voraussetzung für die Möglichkeit, überhaupt eine bestimmte Sprache zu lernen, so z.B. die selten(er) gelernten Sprachen (zweiter Punkt). Erreichen kann man diese ehrgeizigen Ziele nur, indem man die Strukturen des Lernens grundlegend ändert und das Lernen als lebenslanger Prozess angelegt ist, der zu einem großen Teil nicht mehr in den klassischen formalen Lernstrukturen (Schule, normierte Kurssysteme in der Weiterbildung) stattfinden kann. Komplementär zu organisiertem Lernen in angeleiteten Gruppen werden Sprachen zunehmend in selbstgesteuerten Formen gelernt werden. Die Notwendigkeit hierzu ist nicht allein in der Reaktion auf ad-hoc-Anforderungen oder auf individuelle Bedürfnisse zu sehen, die in einer Gruppe nur sehr bedingt über Binnendifferenzierung berücksichtigt werden können. Vielmehr erfordern das komplexe Lernziel interkulturelle sprachliche Kommunikationsfähigkeit und neuere (konstruktivistische) Auffassungen integrierte Phasen von Lernen und Anwendung. Über die Einschätzung, ob gesteuerte Vorbereitungsstufen auf das Lernen in und über Anwendungssituationen hin sinnvoll sind oder als kontraproduktiv anzusehen sind, gibt es keine Einigkeit. Aber auch unter den Befürwortern der Möglichkeit (und Notwendigkeit) von Instruktion beim Zweitsprachenerwerb, was wohl die Mehrheitsmeinung darstellt, hat sich die Auffassung verbreitet, dass ein hoher Selbstlernanteil notwendig ist, um die angestrebten Ziele zu erreichen. DIALANG ist ein Schritt (neben vielen anderen notwendigen, die hier nicht ausgeführt werden können) auf dem Weg zu dem neuen Lernen mit hohen selbstgesteuerten Anteilen. Mit Hilfe von DIALANG soll der einzelne in die Lage versetzt werden, seinen aktuellen Kenntnisstand festzustellen, ohne große fachlich/ inhaltliche und zugangsorganisatorische Schwellen überwinden zu müssen, was eine wichtige Voraussetzung für Selbstlernaktivitäten darstellt 2. Diagnose-Tests: eine nutzerorientierte Bestimmung Als Diagnoseinstrument ist DIALANG nicht Selbstzweck; eigentliches Ziel ist es, über eine „Therapie~' eine Zustandsverbesserung einzuleiten. DIALANG wird dementsprechend in einem zweiten Entwicklungsabschnitt gezielte Hinweise für das Weiterlernen geben. lFLl! lL 30 (2001) 170 Gerhard von der Handt Die Kennzeichnung eines Tests als Diagnoseinstrument ergibt sich aus dem Zweck, dem er dienen soll. Im Hinblick auf den Nutzungsaspekt kann weiterhin unterschieden werden zwischen: • Einstufungstests, welche einen Lerner in eine definierte Lernabfolge einsortieren sollen, • Sprachstandstests, welche z.B. einen Kompetenzgrad (mit Bezug auf ein vereinbartes Referenzsystem) dokumentieren, sowie • Lernfortschritttests, die Auskunft darüber geben, ob oder in welchem Maße ein bestimmtes vorgegebenes Ziel erreicht wurde, wobei nicht wie bei Sprachstandstests notwendig ein Bezug auf ein Referenzsystem gegeben ist und das zu erreichende Ziel und der methodische Weg unabhängig voneinander sind. Die Systematik darf nicht zu dem Schluss führen, dass die Testformen völlig unterschiedlich sind. Es gelten zumindest teilweise dieselben Testformen und -kriterien, und erst der konkrete Einsatz lässt einen Test zu dem einen oder anderen werden. So ist nicht auszuschließen, dass bestimmte Sprachstandstests zu diagnostischen Zwecken eingesetzt werden können und ein Diagnostiktest Auskunft über den Sprachstand gibt. In der Praxis geschieht dies oft und manchmal durchaus erfolgreich. Allerdings kann man keine Regel daraus machen, und eine deutliche Trennung zwischen Sprachstands- und Diagnosefunktion besteht u.a. darin, dass im ersten Fall holistische Verfahren eingesetzt werden können (oder sollen), während im zweiten ein möglichst hoher Differenzierungsgrad als Voraussetzung für die detaillierte Lernplanung das Ziel ist. DIALANG stützt sich in den Kompetenzbeschreibungen und deren Stufung auf die Systematik des Europarats (s. die Beiträge von Günther Schneider und Michael Milanovic in diesem Band) und operationalisiert sie weiter als Handlungsanweisungen für die Testkonstrukteure. DIALANG umfasst bisher die traditionellen drei Teilfertigkeiten Hören, Lesen, Schreiben; zusätzlich gibt es Testbatterien zu Wortschatz und Grammatik. Es fehlt sowohl das monologische Sprechen als auch die mündliche Interaktion. Für das erstere war ein Benchmark-Ansatz vorgesehen, bei dem der Testand die von ihm produzierten Texte mit Modelltexten (Benchmarks) verglich, die für die Stufen des Europarats charakteristisch sind. Offensichtlich konnten die hierbei auftretenden Probleme noch nicht gelöst werden, denn ein entsprechender Teil fehlt in der demnächst vorgestellten DIA- LANG-Version. Die im Referenzrahmen definierte Fertigkeit mündliche Interaktion ist über ein automatisiertes online-Testverfahren z. Z. nicht realisierbar. Das DIALANG-System ist über Internet verfügbar, steht also allen Personen offen, die über einen PC, Internet-Anschluss und die nötigen Basiskenntnisse im Umgang mit beiden verfügen. Die Nutzung ist kostenfrei. Über einen einleitenden Vokabeltest und/ oder eine Selbsteinschätzung (noch sind nicht alle Komponenten in allen Sprachen verfügbar) wird der Kandidat grob hinsichtlich des Niveaus voreingeschätzt und erhält per Internet Aufgaben. Die Lösungen werden online übermittelt und ausgewertet. Abhängig von der gelungenen/ misslungenen Lösung werden die weiteren Aufgaben auf einem höheren oder niedrigeren Anspruchsniveau gestellt. Dies erfolgt, bis sich die Antworten auf einem Niveau stabilisieren oder eine bestimmte Anzahl von Aufgaben gelöst wurde. lFlLw. 30 (2001) DIALANGein diagnostisches Online-Testverfahren (Schwerpunkt Hörverstehen) 171 Der Kandidat erhält eine Rückmeldung zu folgenden Bereichen: Kompetenzstufe, Vergleichsresultat von Selbsteinschätzung und Test (einschließlich möglicher Gründe für eine Diskrepanz zwischen beiden), Überblick über die richtig und falsch gelösten Aufgaben (mit der Möglichkeit, sich jede Aufgabe noch einmal anzusehen). Weiterhin erhält er eine Beschreibung der Stufe, der er zugeordnet wurde, sowie die Beschreibung der anderen Stufen und schließlich konkrete Hinweise, wie er seine Hörverstehensfertigkeit weiter entwickeln kann. Der technische Rahmen bedingt eine Reihe von Beschränkungen, die für die Teilfertigkeit Hörverstehen validitätswirksam werden. Die Vorgaben für die Testkonstrukteure waren für das Hörverstehen: nur zwei Medien, was eine automatische Beschränkung auf Text und Ton bedeutete. Interessante Varianten mit visuellen Elementen waren vorerst nur als sog. Demonstrations- oder Experimental-ltems möglich. Der Tonteil sollte im allgemeinen zwischen 30 bis 60 sec. dauern. Wie wenig Zeit das ist, merkt man, wenn man möglichst „authentische" Tonaufnahmen mit den üblichen Pausen, Redundanzen, Rückfragen etc. anstrebt. Ein bestimmter Anteil von Aufgaben soll dem inferencing/ schließenden (Hör-)Verstehen gewidmet sein, was ebenfalls eine bestimmte Informationsmenge bzw. Textumfang voraussetzt. Eine weitere Einschränkung bestand im Aufgabentypus; im Grunde sind nur Mehrfachwahlaufgaben (multiple choice/ MC) möglich; eine Auswertung offener Antworten ist z. Z. und realistischerweise auch in naher Zukunft nicht gegeben. Für die rezeptiven Fertigkeiten stellt MC m. E. ein durchaus akzeptables und sogar empfehlenswertes Testformat dar, aus Gründen, die im weiteren Verlauf zur Sprache kommen. Diese Angaben sind als eine erste Einführung in ein komplexes System anzusehen. Folgende Internet-Adresse bietet eine umfassende Information über das Internet-System und zusätzlich einen Überblick über aktuelle Entwicklungen: http: / / www.dialang.org. Die Testentwicklung für Deutsch in der ersten Projektphase oblag einer Gruppe aus mehreren Universitäten (FU Berlin, Hohenheim, Münster und Linz/ Österreich) sowie dem Deutschen Institut für Erwachsenenbildung. Der Teil Hörverstehen wurde vom Autor dieses Beitrags sowie Beate Zeidler von der Weiterbildungstestsysteme gGmbH und im Rahmen eines Seminars des Aufbaustudiengangs DaF an der Universität Mainz zusammen mit den Studierenden entwickelt. 3. Die DIALANG-Vorgaben für die Testkonstruktion: vom Konstrukt zur Aufgabe Die DIALANG Assessment Specifications (DAS) differenzieren die Teilfertigkeit Hörverstehen in vielfältiger Weise. Im Folgenden werden die wichtigsten Kategorien mit einigen Beispielen benannt, d. h., die Aufzählungen sind nicht vollständig. Für unangemessene Übersetzungen des englischen Originals ist allein der Autor des vorliegenden Beitrags verantwortlich. Es sollen sowohl monologische als auch dialogische Hörszenarien zu Grunde gelegt werden. Beispiele für Diskursformen monologischen Sprechens sind: beschreibend lFLIIIL 30 (2001) 172 Gerhard von der Handt "descriptive"); "impressionistische/ technischeBeschreibungen''), erzählend (Geschichten, Witze, Anekdoten/ Berichte), darlegend (= "expository"; Definitionen/ Erklärungen/ „Abriss" = "outlines"/ Zusammenfassungen/ lnterpretationen) etc. Das Erkenntnisinteresse des (Zu-)Hörers kann in erster Linie bestehen im Suchen von Informationen, Erkennen von Haltungen, Erkennen von Versuchen der Einflussnahme "recognising persuasion"/ "persuading"). Der Hörer kann als Teilnehmer (im Rahmen eines Gesprächs), als Adressat, als Teil eines größeren Zuhörerkreises "audience member"), als Lauscher "overhearer") etc. in das Hörszenario eingebunden sein. Inhalte werden als Liste von Themen erfasst (u. a.: die eigene Person und das persönliche Umfeld, Essen und Trinken, Wirtschaft, Politik, Arbeitswelt). Die Informationen können aus dem Blickwinkel des Sprechers objektive Fakten darstellen oder subjektive Meinungen, Wünsche etc. Das Verstehensinteresse des Hörers kann sich auf eine Kerninformation beziehen oder auf besondere Einzelheiten. Manche Informationen lassen sich nicht unmittelbar dem Text entnehmen, sondern sind erst verfügbar, wenn man sie über eine Verbindung verschiedener Hinweise im Text erschließt "inferencing"). Alle diese Parameter sollten bei der Testkonstruktion möglichst gleichmäßig berücksichtigt werden, und zwar verteilt auf sechs Schwierigkeitsniveaus "estimated difficulty"), die den Kompetenzstufen des Europarats entsprechen. Die Multiplikation aller Faktoren ergibt eine astronomische Zahl, die den vorgesehenen Aufgabenpool bei weitem übersteigt. Es kommt letztlich darauf an, dass eine ausgewogene Verteilung/ Parameterkombination erreicht wird und der Testkonstrukteur keine unbewusste einseitige Auswahl trifft. Dies wird erreicht durch die Vorgaben für die Testkonstrukteure, die Evaluation von Hörtexten und Testaufgaben/ items, durch unabhängige Gutachter sowie über die Erprobung mit Gruppen, deren Kompetenzstand bekannt ist. Der folgende Abschnitt beschreibt Tendenzen, die sich trotz dieser qualitätssichernden Maßnahmen beim Abtesten der Teilfertigkeit Hörverstehen über ein internet-gestütztes, fremdauswertendes System ergeben. 4. Tendenzen bei der Entwicklung von online-gestützten Hörverstehens- Tests Die den DIALANG-Nutzern vorgelegten Aufgaben sindabgesehen von der Ausrichtung auf einen mutmaßlichen Kompetenzgrad hin (auf der Grundlage der Selbsteinschätzung und/ oder des vorgeschalteten Vokabeltests) nicht weiter in Bezug auf den Einzelnen sortiert. Eine solche Sortierung hätte z.B. im Hinblick auf die unter Abschnitt 3 genannten Aspekte erfolgen können. Jeder erhält also im Prinzip dieselben Aufgaben (in unterschiedlicher Auswahl) das DIALANG-Verfahren sieht noch nicht vor, Zielgruppen bestimmte Aufgaben zuzuordnen. DIALANG unterscheidet sich darin nicht von der überwiegenden Mehrzahl anderer Hörverstehenstests. Daraus ergeben sich einige "Effekte", die im Folgenden ausführlicher erörtert werden. Sowohl für Unterricht/ Lernen als auch für Tests werden „authentische" Texte eingefordert. Ein vereinfachtes Verständnis von „Authentizität" definiert sich über den TatlFJLll.llL30(2001) DIALANG ein diagnostisches Online-Testverfahren (Schwerpunkt Hörverstehen) 173 bestand, dass entsprechende Hörtexte aus „echten" Kommunikationszusammenhängen genommen wurden bzw. diese nicht aus didaktischen oder sonstigen Gründen manipuliert wurden. Wahlweise kann man auch Texte konstruieren und sich von einer Anzahl von Muttersprachlern bestätigen lassen, dass diese ihrem (unreflektierten) Eindruck nach "authentische" Texte seien (vgl. auch den Beitrag von Paschke in diesem Band). Angemessen sind solche Verfahren, wenn es sich um Texte aus alltäglichen Kommunikationsvorgängen ohne Adressatenspezifik handelt oder wenn die Bewertung von Muttersprachlern erfolgt, für die Texte gleichermaßen lebensweltspezifisch sind. Dass selbst "alltägliche" Texte, wie sie im Rahmen von Rundfunknachrichten verbreitet werden, eigentlich nicht selbstverständlich „authentisch" sind, zeigen die seit der Verbreitung kommerzieller Rundfunksender entstandenen vielfältigen Varianten, die der unterschiedlichen Ausrichtung eines Senders auf eine bestimmte Zielgruppe folgen. Die deutschen HV-Texte entstammen weitgehend Nachrichtensendungen „seriöser" Rundfunkanstalten, ergänzt durch Beispiele regionaler Sendungen. Letzteres erschließt eine größere thematische Vielfalt, da die überregionalen Nachrichtensendungen sich auf politische Großereignisse, Katastrophen etc. beschränken, während die Lokalnachrichten alltagsnaher sind. Allerdings ist mit der Nähe zu alltäglichen Abläufen ein Bezug zu lokalen Besonderheiten verbunden. Die Kenntnis des entsprechenden Hintergrunds ist oft entscheidend für das Verständnis ganz abgesehen davon, dass der ferne Hörer eigentlich kein Interesse an den jeweiligen Informationen hat, da kein Bezug zu seiner Lebenswelt besteht. Solche Hörtexte sind in Bezug auf den Hörer also kaum authentisch zu nennen. An diesem und anderen Beispielen zeigt sich, dass eine „Vollauthentizität" nie erreicht werden kann, da dies u.a. eine Differenzierung auf den Hörer hin erfordert. Aber auch die standardisierten Nachrichtentexte „für alle" weisen schon wegen der unvermeidlichen Zeitparallaxe ein „Authentizitäts-Defizit" auf. Zum Verstehen eines Nachrichtentextes greift der Hörer nicht nur auf ein allgemeines Weltwissen zurück, seine Verstehensaktivität ist eingebunden in eine Vielzahl kommunikativer Vorgänge (Zeitungslektüre auch in der Muttersprache, Gespräche mit anderen über das jeweilige Thema etc.). Wenn durch fehlende Aktualität diese Einbettung fehlt, verläuft der Verstehensprozess anders; u. a. wird der notwendige Anteil von schließendem Verstehen "inferencing") größer. Dementsprechend ist die Versuchung groß, Nachrichtentexte mit schnellem Aktualitätsverfall zu meiden und solche mit weniger zeitgebundenen Inhalten zu bevorzugen. Damit wird die für die meisten Testanden relevante Kategorie von Nachrichtensendung mit aktuellem Inhalt ausgeschlossen. Selbst wenn unter Verzicht auf die Aktualität die Vollform einer früheren Nachrichtensendung verwendet wird, ist eine Beschränkung auf die klassische Nachrichtensendung nicht zwangsläufig „rest-authentisch". Für eine große Zahl von Sendern stellt sie inzwischen ganz einfach nicht mehr die vorherrschende Form dar. Die Nachrichten in auf Sendung populärer Musik abgestellte Sender sind in Themenwahl und Sprache sehr unterschiedlich von den klassischen Formaten, die ihrerseits beeinflusst werden von den flapsigen Formen, die ursprünglich nur den Jugend- und Popsendern eigen waren. Die „neuen" Nachrichtensendungen sind „mündlicher" und entfernen sich vom Typus des schriftsprachlichen Textes, mit der Tendenz zu paratakti- FlLuL 30 (2001) 174 Gerhard von der Handt sehen Konstruktionen, Beschränkung auf wenige Kernaussagen etc. Sie müssten somit auch „einfacher" zu verstehen sein. Andererseits werden sie meist sehr viel schneller gesprochen und weisen keine Redundanz mehr auf, sind also gleichzeitig „schwieriger". Welches Schwierigkeitskriterium ist gewichtiger? Führen die Veränderungen dazu, dass die entsprechenden Nachrichtentexte in eine niedrigere Referenzstufe eingeordnet werden? Sicherlich hängt es auch von den Hörgewohnheiten (oder Informationsverarbeitungsgewohnheiten) in der Muttersprache ab, auf welchem Niveau eine solche Aufgabe einsortiert wird. Diese Hörerabhängigkeit hat zu der (nicht ganz ernst gemeinten) These Anlass gegeben, dass es eigentlich unmöglich ist, überhaupt Hörverstehen abzutesten. Wenn selbst in so selbstverständlichen Fällen wie den Nachrichten prinzipielle Schwierigkeiten zu verzeichnen sind, ist es kaum verwunderlich, wenn diese in anderen Hörszenarien noch viel gravierender sind. Das im folgenden beschriebene Hörszenario Wohngemeinschaft soll dies verdeutlichen. Wie schon erwähnt, wurde ein Teil der Aufgaben im Rahmen eines Seminars an der Universität Mainz erstellt. Die Studenten machten Vorschläge für Hörszenarien, die sie „selbstverständlich" aus ihrer Lebenswelt entnahmen die also für sie authentisch sind. Eine Kritik lautete prompt: zu speziell. Sortiert man alle diese „zu speziellen" Hörszenarien aus, die sich auf die Lebenswelt einzelner Gruppen beziehen, verbleibt ein Rest von kommunikativen Standardabläufen "Auf dem Postamt"). Diese können zwar für sich „authentisch" sein, der Ausschluss anderer Hörszenarien ergibt jedoch einen Aufgabenpool, der nur einen Teilbereich der sprachlichen Anforderungen umfasst. Mögen die Restbeispiele auch „authentisch" sein, so ist es der Pool in seiner Gesamtheit jedoch nicht. Dieser Effekt könnte auch auftreten, wenn zwar die Beschränkung auf Standardszenarien im Gesamtpool nicht gilt, die zufällige Auswahl für einen Testanden aber eben denselben Effekt zeitigt. Alternativ zum Weglassen lebensweltspezifischer Hörszenarien ist das Verfahren des „Plausibilisierens", indem man Hörszenarien jeglicher einen Einzelfall charakterisierenden Besonderheiten entkleidet. Die ausgeblendeten Besonderheiten mögen für jedes Ereignis unterschiedlich sein, sie gehören jedoch als solche zum Szenario. Eine Einbuße an Authentizität kann auch entstehen, wenn die Auswahl von Verständnisfragen zu den Hörtexten allein dadurch gesteuert wird, dass zu ihrer Beantwortung keine hohen Anforderungen an Weltwissen gefordert werden. Besonders problematisch ist die Kategorie der „Lauscher-Szenarien" "overhearer"), in denen um es überspitzt zu sagen der zufällige Zuhörer einen ihn eigentlich nicht interessierenden Dialog fremder Menschen über Inhalte, deren Hintergrund nicht bekannt sind und deren Verständnis in hohem Maße von einem gemeinsamen Hintergrundwissen abhängt, auf bestimmte Informationen absuchen soll. Natürlich kann man den Test auch hier wieder auf Informationen abstellen, die zweifelsfrei und unmittelbar (ohne „inferencing") aus dem Gehörten zu entnehmen sind. Dies brauchen keinesfalls die wichtigen oder den potentiellen Hörer interessierenden zu sein. Es ist im Gegenteil oft so, dass die Hauptinformationen/ Aussagen erst durch Hypothesen des Hörers zu dem vermuteten Hintergrund des Dialogs generiert werden. Das ist eine interessante Variante des schließenden Hörverstehens, die wegen ihrer Mehrdeutigkeit nicht über ein Programm ausgewertet werden kann. In den realen Lauscher-Szenarien fehlen dem Hörer nicht nur das lFJLl! lL 30 (2001) DIALANG ein diagnostisches Online-Testverfahren (Schwerpunkt Hörverstehen) 175 Hintergrundwissen zum Dialog (in erster Linie das „shared knowledge" der beiden Sprecher), zudem ist das Gehörte meist ein Ausschnitt eines längeren Gesprächszusammenhangs, welches mannigfaltigen Störungen und Unterbrechungen ausgesetzt ist. DIA- LANG beschränkt sich deshalb auf das schließende Verstehen innerhalb eines Textes. Die Problematik der Authentizität entsteht nicht nur durch den notwendigen Bezug auf die Lebenswelt von Hörergruppen. Der Verstehensvorgang ist grundsätzlich individuell und als solcher von den besonderen Informationsinteressen abhängig. Selbst wenn ein und derselbe Text im Rahmen der Hörgewohnheiten der Lerner als authentisch anzusehen ist, können aus ihm unterschiedliche Informationen entnommen werden, wobei alle "richtig" sind. Abgefragt wird meist eine „plausible" Auswahl, da die individuell unterschiedlichen Perspektiven nicht oder nur eingeschränkt (s. u.) eingenommen werden können. Die genannten Effekte verlaufen meist wenig bewusst im Rahmen der Testkonstruktion; sie sind insbesondere bei den unteren Niveaustufen wirksam. Sie sind nicht auf DIALANG beschränkt. Offensichtlicher sind hingegen folgende Reduktionen: • das fehlende visuelle Umfeld der Hörszenarien, die nur als akustische Information vermittelt werden (dies gilt nicht für bestimmte Kategorien, z.B. Radiosendungen; ein gewisser Ausgleich ist durch die Möglichkeit einer kurzen verbalen Situierung gegeben) • die einkanalige Wiedergabe von Hörereignissen; insbesondere, wenn sich mehrere Tonquellen überlagern, gewährleistet die stereofone Wiedergabe eine Vorsortierung im Raum und ermöglicht gezieltes Hören und Wegblenden von Überlagerungen aus anderen Richtungen • die Beschränkung auf das Hören monologischer Texte; interaktives Hören/ Sprechen ist hingegen nicht möglich das Vorhandensein von Dialogen als Hörtexte stellt keinen Ersatz für die interaktive Teilnahme im Rahmen eines Gesprächs dar 5. Besonderheiten der DIALANG-Aufgabenstellung Das DIALANG-Format erlaubt aus technischen Gründen in erster Linie Mehrfachwahl- Aufgaben/ multiple-choice. Die angegebenen Alternativen gap filling oder short answer sind entweder nur oberflächlich Optionen, da sie letztlich wiederum auf eine Auswahl von vorgegebenen Alternativen hinauslaufen, oder ihr Einsatz ist nur sehr eingeschränkt möglich. Bildliche Darstellungen (Fotos, Zeichnungen), sei es zur Visualisierung/ Situierung eines Hör-Szenarios, sei es als nichtsprachliche Aufgabenstellung, sind aus technischen Gründen nicht möglich. (Eine Reihe von Beispielen mit visuellen Elementen wurde als „experimental items" erstellt, diese sind jedoch nicht im eigentlichen Testkorpus enthalten). Gerade für die unterste Kompetenzstufe von DIALANG/ REFERENZRAHMEN sind nonverbale Alternativen unentbehrlich. Andererseits sind MC-Aufgaben nicht per se ungeeignet, insbesondere bei den rezeptiven Fertigkeiten. Voraussetzung ist allerdings, dass man die Distraktoren nicht nach dem Prinzip der größtmöglichen Gemeinheit (in Form JFLuL 30 (2001) 176 Gerhard von der Handt sehr attraktiver falscher Optionen wenn ein Distraktor z. B. fast identisch mit einer Hörpassage ist aber eben nur fast. Gemeinheit ist sicherlich kein Begriff aus der Testtheorie, aber manche Tests vermitteln eben diesen Eindruck) konstruiert. Vielmehr sollten die Mehrfachwahlaufgaben in erster Linie erwartbare Verstehenshypothesen darstellen. Da es sich um einen Diagnostik-Text handelt, hält der Autor auch die testtheoretische Ablehnung von nur zwei- oder drei Auswahlantworten wegen zu hoher Ratewahrscheinlichkeit für nicht begründet: wichtiger als das solchermaßen begründete Minimum von drei (falschen) Alternativaussagen zusätzlich zur richtigen ist die Angemessenheit der Anzahl vernünftiger Hypothesen. Für manche Aussagen ist nur die Richtig/ Falsch-Alternative angemessen, für andere drei oder mehr, und man sollte entsprechend auch Aufgaben mit unterschiedlicher Distraktorenzahl kombinieren. Hinzu kommt beim Hörverstehen, dass bei mehreren Aufgaben zu einem Hörtext nicht wie beim Leseverstehen die verschiedenen Alternativen noch einmal an Hand eines vorliegenden (schriftlichen) Textes im Detail gegengeprüft werden können. Dementsprechend findet man bei den (deutschen) DIALANG-HV-Aufgaben, wenn zu einem Text mehrere Items gestellt wurden, keine Vierfachalternativen. Wenn nur eine einzige Frage/ Aufgabe zu einem Text (die vorherrschende Form bei DIALANG) gestellt wurde, gelten die genannten Einwände nicht in demselben Maße und die Vierfachalternative wurde bevorzugt. 6. Praxisnahe Lösungen für konkurrierende Ansprüche Eine Vielzahl der erwähnten Schwierigkeiten teilt DIALANG mit anderen Testverfahren, die seit langer Zeit eingesetzt werden und die trotz aller Defizite akzeptierte Aussagen über die Hörverstehenskompetenz liefern. Die dort gefundenen Kompromisse finden sich bei den Testaufgaben von DIALANG wieder. So stellen zwar die meisten Dialoge im Prinzip „Lauscher-Szenarien" dar; im Falle von Alltagssituationen ist oft die Identifikation mit einer der Sprecherrollen möglich (z. B. als Kunde in einem Geschäft), ebenso ist der Handlungskontext bekannt. Auch die Unmöglichkeit, die individuellen Hörziele der einzelnen Testanden abzubilden, kann (wenigstens teilweise) dadurch kompensiert werden, dass der Testand die Aufgabenstellung vor dem Hören erfährt und auf diese Weise eine Fokussierung der Hörinteressen gewährleistet ist. Trotz solcher erfahrungsbewährter Verfahren bleiben bestimmte Aspekte ausgeschiossen. Der Ausgleich der unterschiedlichen Ansprüche (wie siez. B. in den Hinweisen für die DIALANG-Konstrukteure als parallele Listen ohne Verknüpfungshinweise vorgegeben sind) ist sehr komplex. Der Abgleich dieser unterschiedlichen Ansprüche liegt beim Testkonstrukteur und kann nur begrenzt durch feste Regeln oder Verfahrensvorschriften erfolgen. Vielmehr ist es die lange Erfahrung des Testkonstrukteurs und der intensive Diskurs mit anderen Testkonstrukteuren/ Gutachtern, welche bezogen auf die einzelne, konkrete Aufgabe zu einer „vernünftigen" Lösung führen. Dergestalt werden Extreme vermieden, aber vielleicht auch Traditionen begründet, die nicht immer sinnvoll sind. Sicherlich wird es Tendenzen geben; z. B. werden die Testautoren mehr oder minder lfllLIIL 30 (2001) DIALANG ein diagnostisches Online-Testverfahren (Schwerpunkt Hörverstehen) 177 bewusst Hörszenarien aus ihrer eigenen Lebenswelt bevorzugen. Solange die Identifikation mit der vorgegebenen Hörerrolle gegeben ist, müssen solche Tendenzen nicht unbedingt gravierend sein. Es wird interessant sein, bei der Auswertung und Erprobung der Aufgaben für alle DIALANG-Sprachen solche Tendenzen aufzuspüren. In jedem Falle beruht die Testkonstruktion von DIALANG im Bereich des Hörverstehens unabhängig von der Innovation des Online-Testens und der geschilderten Schwierigkeiten/ fendenzen auf bewährten Verfahren, so dass man davon ausgehen kann, dass das Ziel, eine individuelle Hörerleistung einer der sechs Kompetenzstufen .auf der Skala des Referenzrahmens zuzuweisen, erreicht wird. Es sei erwähnt, dass Zuordnungsprobleme zusätzlich durch die Niveaustufencharakterisierungen des Referenzrahmens Unsicherheiten entstehen (können); denn die Deskriptoren in Form von 'can-do-statements' sind in hohem Maße interpretationsfähig und -bedürftig (Beispiel: für die Stufe B 2: I can understand extended speech and lectures and follow even complex lines of argument provided the topic is reasonably familiar (http: / / culture.coe.fr/ lang/ eng/ eedu2. 4i.htm, Chapter 8: Scaling and Levels -A Common European Framework of Reference). Auch die Prinzipien der Gradierung werfen noch Fragen auf, die jedoch im Rahmen dieses Beitrags nicht diskutiert werden können (vgl. hierzu die detaillierte Darstellung im Beitrag von Günther Schneider in diesem Band). 7. Weiterentwicklungsmöglichkeiten der diagnostischen Funktion Für den Nachweis von Sprachkenntnissen erbringt die Stufeneinsortierung die gewünschte Leistung; für einen diagnostischen Test jedoch ist diese Rückmeldung allein nicht ausreichend. Über die Stufenzuordnung hinaus (und die Differenz zwischen Eigen- und Fremdeinschätzung) wäre eine detaillierte Auskunft über Teilbereiche der Hörverstehenskompetenz wünschenswert sowie Hinweise, warum etwas nicht verstanden wurde. Beides setzt eine ausformulierte Theorie des (Hör-)Verstehens voraus. Zumindest für die Differenzierung bieten die Vorgaben für die Testerstellung/ DAS eine Grundlage, da sie Operationalisierungen einer entsprechenden Theorie darstellen (inwieweit diese umfassend, wiederspruchsfrei etc. ist, soll in diesem Zusammenhang außen vor bleiben). Ob sich jede der Kategorien (s. Abschnitt 3: Vom Konstrukt zur Testaufgabe) gleichermaßen als Basis für Lernhinweise eignet, müsste sich noch in den weiteren Phasen des Projekts erweisen. Neben dem thematischen Bereich sind es sicherlich die Unterkategorien Verstehen der Kernbotschaft "main ideas/ information/ purpose" = Globalverstehen? ), Detailverstehen "listening intensively for specific detail"), (er)schließendes Verstehen "inferencing including lexical inferencing"). Während die beiden ersten Kategorien über das Hörerinteresse generiert wird, gehört das schließende Verstehen zu einem anderen Paradigma, welches verstehenspsychologische Prozesse oder Strategien aufschlüsselt. Eine (unvollständige) Auflistung umfasst: • Hypothesenbildung über kommende Informationen (oder zu bestimmten Bereichen) • schließendes Verstehen (bei unvollständiger und/ oder gestörter Information; bei FlLlUIL 30 (2001) 178 Gerhard von der Handt Fremdsprachen auch aus nicht verstandenen Textteilen; Einbettung einer Information in umfassendes Szenario) • Monitoring: Bewusstsein der Verläufe beim Verstehensprozess. DIALANG legt den Testkonstrukteuren nahe, für experimental items solche Strategien bei der Aufgabenstellung zu berücksichtigen und liefert hierzu eine differenzierte Liste (S. 21, 2.5 Specifications for demonstration tasks in listening/ DAS). Ein systematischer Einbezug dieser Dimension ist in der vorliegenden Fassung jedoch nicht vorgesehen, da mit dem augenblicklichen technischen Rahmen und über eine automatisierte Aufgabenauswertung Verstehensstrategien nicht unmittelbar erfassbar sind. Die z. Z. verwendeten Aufgaben weisen zwar das Verstehen oder Nichtverstehen für bestimmte Bereiche aus; sie lassen aber bestenfalls indirekt Rückschlüsse darauf zu, ob der Hörer bewusst oder unbewusst erfolgreiche Strategien einsetzt. Der DIALANG-Nutzer erhält im augenblicklichen System Aufgaben ausschließlich im Hinblick auf die Stufenfunktion zugeteilt. Es ist dem Zufall überlassen, um welches Thema oder eine sonstige Charakteristik es sich bei der zugewiesenen Aufgabe handelt. Eine Aussage, ob der Hörtext wegen des Themas oder auf Grund anderer Aspekte nicht verstanden wurde, ist z. Z. nicht möglich. Eine Querauswertung aller einer Person zugewiesenen Aufgaben im Hinblick auf Teilaspekte des Gesamtbereichs Hörverstehen würde bei der vergleichsweise geringen Zahl von Aufgaben und der Vielzahl der Aspekte nicht zuverlässig und systematisch eine Rückmeldung ermöglichen (Beispiel: in allen Aufgaben mit dem Thema Politik ist die Lösungsrate niedrig). Sie kann trotzdem als Ausgangspunkt für Erklärungen über das Warum der Verstehensleistung genutzt werden, dem man über weitere einschlägige Aufgaben nachgehen kann. Dabei wäre der thematische Aspekt weniger wichtig als die Verstehensstrategien; denn er ist in hohem Maße von den individuellen Interessen abhängig. Demzufolge ist es näherliegender, erst thematische Interessenbereiche abzufragen und dann entsprechende Aufgaben zuzuweisen. Die Möglichkeiten der Individualisierung des Diagnoseverfahrens wird im Vergleich des DIALANG- Verfahrens mit dem PORTFOLIO-Ansatz noch einmal aufgegriffen. Zuvor sei noch einmal auf das Problem der Vielfalt der Verknüpfungen der einzelnen Teilbereiche eingegangen und zwar am Beispiel Thema plus weitere Kategorien. Verstehensstrategien sind an Wissen geknüpft; denn ohne dieses ist die Entwicklung vernünftiger Hypothesen (als wesentliche Operation des Verstehens) nicht möglich. Versucht man dieses Wissen im Falle der DAS zum Bereich Themen näher zu bestimmen, dann sieht man sich der Schwierigkeit gegenüber, dass die Themen nur indirekt über ihre Kombination mit den anderen Kategorien genauer charakterisiert .sind, also z. B. über die Schwierigkeitsstufen. Es ist nicht eindeutig, ob das Themafood and drink im Sinne sprachlichen Handelns in Szenarien wie Einkauf oder Restaurantbesuch aufzufassen ist und/ oder ob es sich (auf einer höheren Stufe? ) um ein argumentatives Gespräch über dieses Thema handelt. Eine systematische Verbindung aller Elemente ist wegen der astronomischen Vielzahl möglicher Kombinationen ausgeschlossen. Eine Möglichkeit, die ungeheuere Zahl der Kombinationen in den Griff zu bekommen, ist der Ausweis von Kriterienbündeln, die in der Lebenswelt der Hörer eine wichtige lFJL1111L 30 (2001) DIALANG ein diagnostisches Online-Testverfahren (Schwerpunkt Hörverstehen) 179 Rolle spielen. So kann man zwar die thematische Kategorie Wetter mit allen möglichen anderen Kategorien verbinden (z. B. Diskursformen: beschreibend, erzählend, instruierend etc.), gleichermaßen mit der Rolle des Hörers (Dialogpartner, Zuhörer etc.); doch nicht alle dieser Verbindungen entsprechen realem sprachlichen Verhalten. Die Testkonstrukteure haben „vernünftigerweise" mehr oder minder bewusst Hörszenarien ausgesucht, die Standardverknüpfungen in der alltäglichen Kommunikation darstellen: einen Wetterbericht im Radio hören oder im Small Talk über das Wetter schimpfen und wahrscheinlich weniger (jedoch durchaus vorstellbar auf den höheren Niveaus) als wissenschaftliches Feature (z. B. als Radiobeitrag über klimatische Veränderungen). In solchen typischen (in unserem Falle Hör-)Szenarien ist auch der Lebensweltbezug der Hörer ein notwendiger Bestandteil, während er zwischen den parallelisierten Kategorienlisten leicht verloren geht. Es wäre notwendig, auch diese Ebene auszuweisen, um u. a. die Vergleichbarkeit der Tests in den einzelnen Sprachen schon auf der Ebene der Konstruktion zu fördern. Der Gemeinsame Europäische Referenzrahmen (auf den sich auch DIALANG bezieht) und das PORTFOLIO weisen in ihren Stufenbeschreibungen ähnliche Bündel/ Deskriptoren aus, allerdings nicht mit dem Detailreichtum der hier aufgeführten Beispiele. Sie enthalten dafür oft eine Angabe, dass sich der Deskriptor auf einen eingeschränkten Bereich bezieht (z.B. auf den bekannten/ persönlichen Bereich; eins der Gradierungsprinzipien ist die Weite des Geltungsbereichs, so dass die Deskriptoren der unteren Stufen oft durch diese Einschränkung charakterisiert sind). Dieser Individualisierungsansatz ist in dem Referenzrahmen/ PORTFOLIO (also z.B. für die Selbsteinschätzung) zwar nicht problemlos, aber im Prinzip durchführbar. Die Deskriptorenbündel und -auswahl sind in erster Linie der Stufenzuweisung verpflichtet, erst in zweiter Linie der diagnostischen Funktion. Die Diagnosefunktion kann z. T. nur über Extrapolation bzw. eine Art stufenübergreifendes inferencing erreicht werden, da nicht jedes Deskriptorenmerkmal von der untersten bis zur obersten Stufe repräsentiert ist eine bewusste Entscheidung der Autoren von Referenzrahmen/ PORTFOLIO, welche die Stufeneinordnung erst praktikabel macht, die Diagnosefunktion jedoch erschwert. DIALANG steht hier vor grundsätzlichen Schwierigkeiten; eine Individualisierung durch den Bezug auf die individuelle Lebenswelt des Lerners, wie es im Referenzrahmen/ PORTFOLIO geschieht, ist nicht möglich. Die augenblickliche Lösung (die im Sinne einer Individualisierung keine ist), besteht darin, die Hörszenarien soweit zu „entindividualisieren", dass sie für „jeden" angemessen sind. In dem Instrument „Deskriptor" steht ein Mittel zur Verfügung, mit dessen Hilfe auch in einem System wie DIALANG die Individualisierung - und damit ein entscheidender Gewinn an Lebensweltbezug und somit Validität erreicht werden kann. Der Individualisierung entspricht eine aktive Beteiligung an der Auswahl von zu testenden Aspekten durch den Einzelnen und erweitert das weitgehend fremdevaluative Verfahren von DIALANG um eine Selbststeuerungskomponente. Was könnte die Basis für das Auswahlsystem sein? Die im DAS (Vorgaben für den Testkonstrukteur) enthaltenen isolierten Kategorien können die Grundlage für ein Auswahlsystem abgeben. Sicherlich sind nicht alle gleichermaßen geeignet, denn einige der Kategorien dürften dem nicht durch eine (Sprach-, Lern-)Bewusstseinsbildung ausgezeichneten Lerner, für den DIALANG einen JFL111L 30 (2001) 180 Gerhard von der Handt ersten, möglichst niedrigschwelligen Zugang zum Wieder-/ Weiterlemen darstellt, erst einmal ratlos lassen: z. B. die einzelnen Verstehensstrategien. Andere hingegen (z. B. Themen, Domänen, bestimmte Anwendungsparameter) dürften für ihn unmittelbar verständlich sein, so dass er hier eine Auswahl treffen kann. Die gesamte Vielfalt von möglichen Kombinationen ist hierdurch eingeschränkt, aber noch immer zu groß. Die weiter oben geforderte Bündelung muss für den Testanden nicht weiter sichtbar auf der Aufgabenebene geleistet werden, was eine beträchtliche Erweiterung und Systematisierung des Aufgabenpools darstellt. Bestimmte Ebenen (wie die verschiedenen Verstehensstrategien) gehören nicht zu den wählbaren Kriterien, werden aber in den Aufgaben systematisch berücksichtigt und können in der Analyse ausgewiesen werden. Es ergibt sich ein differenziertes Diagnoseinstrument mit individualisierend-auswählenden Anteilen (Beispiel: Themen) und solchen individualisiert 0 auswertenden Charakters (z.B. Verstehensstrategien). Sicherlich wird man bei einer Systematisierung entsprechender Merkmalbündel für die Aufgabentypisierung und -auswahl zu anderen Ergebnissen kommen als sie im Falle von Referenzrahmen/ PORTFOLIO vorliegen; Der Arbeitsaufwand für die Weiterentwicklung dürfte erheblich sein und viele Praxiserprobungen einschließen. Zu vermuten ist, dass die Betonung der Diagnosefunktion zu Lasten der Eindeutigkeit der Stufenzuweisung geht; aber das wäre zu untersuchen. In jedem Fall würde eine entsprechende Weiterentwicklung es ermöglichen, (noch) stärker als bisher DIALANG und PORTFOLIO als sich ergänzende Teilsysteme aufzufassen und mit unterschiedlichen Funktionsschwerpunkten den Lerner gezielt zu unterstützen. Literatur • zu DIALANG: http: / / www.dialang.org/ • zu DIALANG und diagnostischen Tests (Symposium on Language Assessment - How to Design Adaptative and Diagnostic Assessment): http: ! ! www.languages .dkleurocall! eurocall99/ recordings/ symposium _ on_language _ assessment.htm • zu Tests im Internet (The Language Tester's Guide to Cyberspace): http: ! lwww.surrey.ac .uk! EU! ltr.html • Eine Praxis-Evaluation von Fremdsprachentests im Internet: LANGNER, Michael (2000): "Online-Tests, ausprobiert! - Was leisten Fremdsprachen-Tests im Internet? " In: Babylonia 1, 55-59. • Grundsätzliche Ausführungen zu adaptiven Tests: DUNKEL, P.A. (1999): "Considerations in developing or using second/ foreign language proficiency computer adaptive tests". In: Language technology 2(2), 77-93. http: / / www.polyglot.cal.msu.edu.ltt! • Die deutsche Fassung des Gemeinsamen Europäischen Referenzrahmens für Sprachen: Lernen, Lehren und Beurteilen: http: / / www.goethe.de/ z/ 50/ commeuro! iOO.htm • Englischer (französischer) Referenzrahmen des Europarates: http: / / culture.coefr! langleng! eedu2.4.html • Portfolio-Seite des Europarates: http: ! Iculture.coe fr! langl engleedu2 .5 .html • Schweizer Portfolio: http: llwww.unifr.ch/ ids! Portfoliol JFLuL 30 (2001) Carsten Röver * Web-basiertes Testen fremdsprachlicher Fähigkeiten und Fertigkeiten Abstract. Web-based language testing is an area with tremendous growth potential. This article reviews the background and history of web-based language tests, and discusses their advantages, particularly flexibility in space and time and low costs, as well as their challenges, such as browser incompatibilities, possible server problems, and data storage issues. To illustrate the potential of webbased tests, it shows an example of a sophisticated and complex test, and contrasts it with a simple and easily produc~able test, in the latter case including a discussion of the HTML code. 0. Einleitung Web-basiertes Testen für den Fremd- und Zweitsprachenunterricht ist ein bisher.noch unterentwickelter Bereich des Sprachtestens mit enormem Wachstumspotential. Webbasiertes Testen eignet sich nicht nur für formale Sprachprüfungen genau genommen eignet es für solche Situationen bisher am wenigsten (Röver 2001b). Es ist vielmehr am nützlichsten als ein unterrichtsbegleitendes Element, das Lernern selbstständiges Arbeiten ermöglicht, Übungen enthält, die im Unterricht kostbare Zeit verschwenden würden, und Lernern 'feedback' über ihre Lernfortschritte gibt. Darüber hinaus können web-basierte Tests (WBTs) Fernlernkurse begleiten, unter Aufsicht als Einstufungstests dienen und bieten sich immer dann an, wenn geographisch weit verstreute Lernergruppen dieselben Aufgaben bearbeiten sollen, z.B. in Forschungsvorhaben. Im Folgenden werde ich einen Abriss über den Hintergrund von web-basierten Tests sowie eine Definition geben, Vor- und Nachteile von WBTs diskutieren und Beispiele für komplexe und einfache WBTs geben. 1. Web-basierte Tests: Historischer Hintergrund und Definition Das Testen von fremdsprachlichen Fähigkeiten mit Hilfe von Computern blickt auf eine ca. zwanzigjährige Geschichte zurück (Brown 1997), und in anderen Bereichen sind computer-basierte Tests (CBTs) seit den frühen 70ern im Einsatz (Chalhoub-Deville/ Deville 1999). Der Einsatz von Computern als Testinstrumente ist aus mehreren Gründen Korrespondenzadresse: Carsten RöVER, Ph.D., Department of Second Language Studies, University of Hawai'i at Manoa, 1890 East-West Rd, Honolulu, HI 96822, USA. E-mail: roever@hawaii.edu Arbeitsbereiche: Zweitsprachenerwerbsforschung, Sprachtests, Sprachunterricht. JFlLuL 30 (2001) 182 Carsten Röver attraktiv. Vom psychometrischen Standpunkt her sind computer-basierte Tests weitaus nützlicher als traditionelle „Papier und Bleistift" Tests, denn sie ermöglichen die Benutzung der Item Response Theory (IRT; Hambleton/ Swaminanthan/ Rogers 1991), die nicht nur psychometrisch und statistisch der klassischen Testtheorie in vielerlei Hinsicht überlegen ist, sondern auch zu kürzeren und präziseren Tests führen kann, indem der Computer kontinuierlich seine Einschätzung des Fähigkeitsniveaus eines Testteilnehmers präzisiert und hauptsächlich Aufgaben auswählt, die dem Fähigkeitsniveau des Testteilnehmers angemessen sind. Somit wird einerseits das Fähigkeitsniveau genauer festgelegt und andererseits müssen Testteilnehmer nicht viele Aufgaben bearbeiten, die wenig Aussagekraft haben, da sie entweder viel zu schwierig oder viel zu einfach sind. Neben den o.g. psychometrischen Vorteilen erlauben CBTs auch die Einbeziehung von Medien wie Bildern, Tonaufnahmen und Video. Auf diese Weise wird der gesamte Test über eine integrierte Plattform abgewickelt, und der Einsatz externer Medien mit all seinen technischen und administrativen Schwierigkeiten wird vermieden. Schließlich sind CBTs auch sehr praktisch und arbeitssparend für Tester. Wenn 'multiple-choice' oder 'true/ false' Aufgaben verwendet werden, die nur eine richtige Antwort zulassen, können Antworten automatisch ausgewertet werden, was Testteilnehmern eine sofortige Ansicht ihres Testergebnisses ermöglicht und Testern langwierige Auswertungen per Hand erspart. Trotz ihrer Vorteile sind CBTs auch mit Problemen behaftet. Zum einen sind CBTs sehr viel störungsanfälliger und verlangen hohes technisches Fachwissen für ihre Entwicklung, was den gesamten Entwicklungsprozess sehr teuer macht. Es ist einer der größten Vorteile von WBTs, dass sie mit recht wenig technischem Wissen und geringem Aufwand realisierbar sind (siehe unten). Unter dem Gesichtspunkt der Validität kann sowohl bei CBTs wie auch bei WBTs die unterschiedliche Vertrautheit mit Computern seitens der Testteilnehmer konstruktirrelevante Varianz induzieren (Kirsch/ Jamieson/ Taylor/ Eignor 1998), da Testteilnehmer mit wenig Computererfahrung durch Anpassungsschwierigkeiten an die neuartige Testform Zeit und Energie verlieren. Dieses Problem existiert auch für WBTs, aber durch die allgemeine Verbreitung des Internet und somit seiner bekannten Benutzerumgebung, ist es u. U. weniger gravierend. WBTs können als eine besonderen Form von CBTs betrachtet werden, die ihre eigenen Vor- und Nachteile haben. 2. Web-basierte Tests Web-basierte Sprachtests sind noch ein relativ neues Phänomen, obwohl das Interesse an ihnen zunimmt (Röver 2001b; Sawaki 2001) und das komplett web-basierende europäische Sprachtestprojekt DIALANG einen Quantensprung in ihrer Nutzung und Erforschung darstellen wird (Alderson 2001 sowie auch von der Handt im vorliegenden Heft). Ein WBT ist ein Testinstrument, das in HTML sowie möglicherweise JavaScript oder einer ähnlichen Skriptsprache geschrieben ist. Der Test selbst befindet sich als eine einzelne lFLUIL 30 (2001) Web-basiertes Testen fremdsprachlicher Fähigkeiten und Fertigkeiten 183 Datei oder eine Gruppe von Dateien auf einem Server und wird von diesem zum Computer des Testteilnehmers, dem 'dient', herunter geladen. Der Test kann komplett oder Aufgabe für Aufgabe herunter geladen werden. Der 'dient computer' benutzt einen Standard 'web browser' (z.B. Netscape Navigator oder MS Internet Explorer), um die herunter geladenen HTML Daten als Webseite darzustellen. Das Web wäre nutzlos als Testmedium, wenn Testteilnehmer nicht ihre Antworten eingeben und an den Tester schicken könnten. Erfreulicherweise ermöglichen Webseiten ein gewisses Maß an Interaktivität, und es existieren vorgefertigte HTML Elemente, mit deren Hilfe 'multiple choice' Aufgaben, Kurzantwortaufgaben und Aufgaben mit längeren Antworten erstellt werden können. Die Antworten der Testteilnehmer werden anschließend als Emails an den Tester geschickt. Diese einfachste Form des WBT ist ohne große Schwierigkeiten für jeden Tester erstellbar, der einen web browser, ein HTML Einführungsbuch und (nicht unbedingt notwendig) ein Editorprogramm hat, das als Teil der kostenlosen web browser Pakete Netscape Communicator und Microsoft Internet Explorer problemlos erhältlich ist. Natürlich sind komplexere und komfortable Testformen denkbar: mit Hilfe der Fast- Programmiersprache JavaScript können z.B. automatische Auswertungsroutinen geschrieben werden, so dass Testteilnehmer am Ende einer Multiple-Choice-Sektion ihr Ergebnis sehen können. Den höchsten Komplexitätsgrad weisen Tests auf, die servergesteuert ablaufen. 2.1 Aufgabentypen für web-basierte Tests Ein schwerer Nachteil des Internet zum jetzigen Zeitpunkt (Frühjahr 2001) ist die Schriftlastigkeit des Mediums: es können zwar Audiodateien erstellt und über das Internet verteilt werden, aber Spracherkennung und damit die Möglichkeiten für tatsächlich kommunikative Testaufgaben stecken noch in den Kinderschuhen. Trotzdem sind eine Reihe nützlicher Aufgabentypen möglich: 'radio buttons' helfen bei der Erstellung von Multiple-Choice-Aufgaben für Grammatik und Vokabelübungen, einzeilige Textlauffelder sind benutzbar für Lückentexte und C-Tests, mehrzeilige Textlauffelder eignen sich für Langantworten, Aufsätze und 'discourse completion tests', und schließlich stehen 'frames' zur Verfügung für Leseverstehenstexte, wo ein 'frame' den Text und der andere 'frame' die Fragen darstellt. Aufgaben können zudem durch Bilder und Videos kontextualisiert werden, wobei zu bedenken ist, das v.a. Videodateien sehr groß sein und zu unerträglich langen 'download'-Zeiten führen können. 2.2 Räumliche Ungebundenheit vs. Testsicherheit Sicherlich der größte Vorteil des Internet als Testmedium ist die räumliche und zeitliche Ungebundenheit des Mediums. Testteilnehmer können den Test zu jedem Zeitpunkt, Tag oder Nacht, und an jedem Ort absolvieren, wo ein Computer mit Internetverbindung zur Verfügung steht. Dies flexibilisiert die Testdurchführung und vermeidet ein Problem lFLuL 30 (2001) 184 Carsten Röver traditioneller CBTs, die sehr teuer in der Einführung sind, da spezielle Testzentren eingerichtet werden müssen. Für die Durchführung von WBTs eignet sich jeder Heimcomputer und jedes Computerlabor. Ein potentiell schwerwiegendes Problem von WBTs betrifft die Testsicherheit. Wenn der web-basierte Test so angelegt ist, dass die Testteilnehmer ihn zu Hause bearbeiten können, besteht natürlich keinerlei Testsicherheit. Der Testteilnehmer kann von Freunden und Verwandten umgeben sein, die jede Antwort intensiv diskutieren. Zudem besteht in solchen Fällen auch keine Sicherheit für den 'item pool': nichts hindert Testteilnehmer daran, Items aufzuschreiben oder sie in ein Dokument zu kopieren. Das Problem der mangelnden Testsicherheit ist prinzipiell auf zwei Wegen lösbar. Zum einen kann man web-basiertes Testen auf Tests beschränken, die wenige oder keine Konsequenzen für den Testteilnehmer haben ("low-stakes tests"). Beispiele für solche Tests sind 'self-assessment' Instrumente, oder Tests, die Teilnehmern in einem Kurs oder in der Prüfungsvorbereitung zeigen, wie weit sie noch vom Lernziel entfernt sind. Die andere Möglichkeit besteht darin, den Test unter Aufsicht durchzuführen. Dafür müssten Testzentren geschaffen und beaufsichtigt werden, aber jegliche Einrichtung mit Computern und Internetverbindung wäre prinzipiell benutzbar. 2.3 Ein Test für arme Leute Traditionelle computer-basierte Tests verlangen ein hohes Maß an technischer Expertise, was Kosten und Entwicklungszeit in die Höhe treibt. Tatsächlich ist. das notwendige Programmierwissen so umfangreich, dass es nahezu unmöglich ist, solche Tests zu erstellen, ohne umfangreiches Wissen über eine Programmiersprache wie C oder C++ zu haben. Ganz anders web-basierte Tests: HTML ist keine Programmiersprache, sondern nur ein Reservoir von Formatierungsanweisungen, und HTML Regeln sind recht einfach zu lernen. Tests können mit Hilfe von Javascript oder komplexen 'server-side' Programmen wie Java oder Pearl komfortabler gemacht werden; aber HTML alleine ist völlig ausreichend, um einen funktionalen und professionell aussehenden Test zu erstellen. Wenn der Test einmal geschrieben ist, ist seine Unterhaltung und Benutzung sehr billig oder kostenlos für Tester und Teilnehmer. Tester können den Test auf servern ihrer Heimatinstitution oder auf kostenlosen Websites ansiedeln (www.geocities.com ist ein Beispiel), und wenn der Test automatisches feedback für Testteilnehmer hat, bedürfen Testteilnehmerantworten keiner weiteren Auswertung. Testteilnehmer benutzen ihren kostenlosen Webbrowser, um den Test zu absolvieren, und die einzigen Kosten, die entstehen könnten, sind Telefongebühren, wenn der Test komplett online vervollständigt werden muss. Wenn Komplettversionen vorhanden sind, die es erlauben, den gesamten Test herunter zu laden und offline zu vervollständigen, dürften selbst Telefongebühren gering bleiben. JFJLlUlL 30 (2001) Web-basiertes Testen fremdsprachlicher Fähigkeiten und Fertigkeiten 185 2.4 Browser Probleme: Inkompatibilität, andere Alphabete Ein zuweilen unerfreuliches Problem sind die kleinen Unterschiede zwischen den beiden meist verbreiteten Browser, Netscape Navigator und Microsoft Internet Explorer. Es ist nicht von. vornherein gewiss, dass beide Browser sich gleich verhalten und einen gegebenen.Test gleich darstellen. Zusätzlich können sich auch unterschiedliche Versionen der Browser unterschiedlich verhalten. Daher muss ein Test grundsätzlich in beiden Browsern ausprobiert werden, und es kann notwendig sein, die Benutzer auf einen bestimmten Browser und/ oder eine bestimmte Browser Version festzulegen. ·Dieses Kompatibilitätsproblem ist verschärft spürbar in Fällen, wo Sprachen mit nichtlateinischen Alphabeten dargestellt werden müssen, z.B. Chinesisch, Russisch oder Arabisch. Netscape und Internet Explorer lösen dieses Problem auf sehr verschiedene Weise, und es existieren zusätzlich eine Reihe von Hilfsprogrammen (z.B. NJStar für Chinesisch und Japanisch), die im Hintergrund laufen und bei der.Darstellung helfen. Hier ist eine Festlegung des zu benutzenden Browsers und ggf. Hilfsprogramms·unvermeidbar. 2.5 Validitätsprobleme in web-basierten Tests: Computererfahrung Wie schon erwähnt ist ein potentiell schwerwiegendes Problem für alle Artencomputerbasierter Tests die unterschiedliche Computererfahrung seitens der Testteilnehmer. Wie Kirsch [et al.] (1998) für den computer-basierten TOEFL zeigten, kann Unterschiedliche Computererfahrung als konstrukt-irrelevante Varianz das Testergebnis beeinflussen. Allerdings zeigten Taylor [et al.] (1998), dass eine kurze Einführung in die Grundlagen der Computerbenutzung fehlende Computererfahrung ersetzt und Unterschiede verwischen kann. Es ist allerdings bemerkenswert in diesem Zusammenhang, dass beide Untersuchungen ausschließlich 'multiple-choice' Aufgaben betrafen. Der Effekt von Computererfahrung und Tippfähigkeit kann sich auf andere Aufgabentypen anders auswirken. 2.6 Serverprobleme Wenn der Test nicht als ganzes auf den Computer der Testteilnehmerinnen herunter geladen wird, sondern Aufgabe für Aufgabe, kann sich das Problem ergeben, dass durch Überlastung des Internet oder Probleme des Servers, auf dem die. Testitems abgelegt sind, das Laden neuer Items unverhältnismäßig lange dauert. Im Extremfall kann es völlig fehlschlagen und eine Fehlermeldung erscheinen. Diese Problem stellt sich verschärft für ltems, die Audio- oder Videodateien enthalten, da die pure Datenmasse einer solchen Datei viele Internetverbindungen überfordert. Solche Probleme sind ein Albtraum jedes Testadministrators. Sie können vermieden werden, indem die ltems lokal von einer Diskette, CD-Rom oder einem lokalen Netzwerk geladen werden. Eine technisch weit komplexere Methode ist es, mehrere items zur gleichen Zeit vom Internet zu laden und vorübergehend lokal zu speichern, so dass man bei Verlangsamung der Ladegeschwindigkeit auf diesen Vorrat zurückgreifen kann. lFLIIL 30 (2001) 186 Carsten Röver 2.7 Datenspeicherung Computer sind insgesamt Papier darin weit unterlegen, dass sie sehr viel störanfälliger sind: ein kurzer Stromausfall oder ein "System Error" und alle Daten können verloren sein. Solche Totalverluste sind vermeidbar, indem die Antwort für jedes Item über das Internet an den Tester geschickt wird. Aber das löst nur das halbe Problem, denn Testteilnehmer können anschließend nicht einfach dort fortfahren, wo der Test unterbrochen war. Das ist nur möglich, wenn Antworten und bearbeitete Items auch lokal gespeichert werden und zwar mit Hilfe von Cookies. Cookies sind Textsequenzen, die in der sog. "cookie file" gespeichert werden, und die einzige Möglichkeit für den Browser darstellen, auf die Festplatte des Computers zu schreiben (Schreiboperationen sind ansonsten aus Sicherheitsgründen blockiert). Im Cookie können mit Hilfe eines handgeschriebenen Skripts Identifikationsnummern bearbeiteter Items und andere Informationen gespeichert werden, auf die der Browser dann nach Neustart des Tests zurückgreifen kann. Dies funktioniert allerdings nur im MS Internet Explorer, da nur dieser Browser 'cookies' sofort bei ihrer Erstellung physisch auf die Festplatte schreibt. Netscape Navigator hält den 'cookie' in RAM, wo er bei einem Strom- oder Systemausfall gelöscht würde. 3. Ein komplexer web-basierter Test: Röver's Test of interlanguage pragmalinguistic knowledge Als Beispiel für die Möglichkeiten von WBTs mag Rövers "Test of interlanguage pragmalinguistic knowledge" dienen (Röver 2001a). Es handelt sich um einen web-basierten proficiency test für pragmalinguistisches Wissen über amerikanisches Englisch. Röver definiert das Konstrukt „pragmalinguistisches Wissen" als offline Wissen über die linguistische Realisierung von situativen Routinen (Coulmas 1979; 1981; Röver 1996), Implikatur (Bouton 1988, 1994, 1999) und den Sprechakten „Entschuldigung", "Aufforderung" und „Ablehnung" (Hudson/ Detmer/ Brown 1995; Yamashita 1996). Der Test benutzt eine 'frame' Struktur, in der der untere Rahmen statisch blieb und sämtliche Skriptfunktionen enthielt, während der mittlere Rahmen Aufgaben und andere Testteile darstellte und der obere Rahmen eine Uhr und einen Aufgabenzähler enthielt. Rövers Test besteht aus je 12 Multiple-Choice-Aufgaben zum Testen von Routinen und Implikaturen. Ein Beispiel findet sich in Abbildung 1. lF'L11lllL 30 (2001) Weh-basiertes Testen fremdsprachlicher Fähigkeiten und Fertigkeiten Jack was just introduced to Jamal by a ftiend They're shaking hands. What would Jack probably say? r, l. "Nice to meet you." r 2. "Good to run into you." r- 3. ''Happy to find you." C" 4. "Glad to see you." Abb. 1: Multiple-Choke Routinenaufgabe 187 Für Sprechakte verwendet Röver 12 Situationsbeschreibungen und 'rejoinder', wie sie Johnston/ Kasper/ Ross (1998) vorschlagen. Ein Beispiel ist in Abbildung 2 wiedergegeben. Abb. 2: Multiple-Choke Sprechaktaufgabe IFLlJIL 30 (2001) 188 Carsten Röver Zusätzlich enthält der Test eine Eröffnungsseite, einen Hintergrundfragebogen und Instruktionen zu den drei Untertests. Obwohl die Aufgaben selbst auch mit einfachem HTML erstellt werden könnten, enthält Rövers Test eine Reihe von speziellen Funktionen, die nur mit Hilfe von Java- Script realisierbar waren, aber wichtig für Testqualität und Testvalidierung sind. 3.1 Zeitbegrenzung des Tests und von Testteilen Obwohl proficiency Tests nicht zeitbegrenzt sein sollten, ist es in der Praxis notwendig, die Testzeit zu begrenzen. Mit Hilfe von Skriptfunktionen kann die Zeit für einen Testteil oder den gesamten Test gemessen werden und wenn ein vorher eingestelltes Maximum erreicht ist, kann das Skript den Test automatisch abbrechen. In Rövers Test waren die Testteile zeitbegrenzt, aber nicht der Test insgesamt. Testteilnehmer konnten mit Hilfe der Uhr im oberen Rahmen jederzeit sehen wie viel Zeit ihnen noch verblieb. 3.2 Aufzeichnung von Antwortprozessen Eine Javascript Funktion misst die Zeit vom Laden eines ltems bis zur Anforderung des nächsten Items. Dies erlaubt einen Vergleich der durchschnittlichen Antwortzeiten pro ltem und pro Testteil, aber ist nicht zwangsläufig ein Indikator von Itemschwierigkeit, denn ltems mit mehr Text erfordern längere Lesezeit und produktive ltems bedürfen sehr viel längerer Antwortzeiten. Röver (2001a) fand keine signifikante Korrelation zwischen Antwortzeit und Testergebnis. Eine fortgeschrittene Variante der Aufzeichnung von Antwortprozessen ist Aufzeichnung jeglichen Mausklicks und Tastendrucks, was es ermöglicht, auch ursprüngliche, später geänderte Antworten zu speichern. Dieses Vorgehen erzeugt allerdings immense Datenmengen, und ein besserer Einblick in Antwortprozesse kann in vielen Fällen durch verbale Protokolle (Ericsson/ Simon 1993) erreicht werden. 3.3 'Randomisierung' von Items und Testteilen Es kann aus verschiedenen Gründen wünschenswert sein, dass ltems und Testteile in zufälliger, nicht vorher festgelegter Reihenfolge dargestellt werden. Zum einen wird dadurch ein Reihenfolge-Effekt vermieden, da so gut wie nie dieselben Items aufeinander folgen. Außerdem erschwert 'Randomisierung' auch unerwünschte Kooperation seitens der Testteilnehmer, denn es ist sehr unwahrscheinlich, dass zwei Testteilnehmer dasselbe ltem zur selben Zeit bearbeiten. 'Randomisierung' wird erreicht mit Hilfe einer vorgefertigten JavaScript Funktion, die eine Zufallszahl innerhalb einer vorgegebenen Spanne erzeugt. Leider hat diese Funktion kein „Gedächtnis", d.h., sie erzeugt diesselbe Zahl auch mehrfach, weshalb eine (mühsam per Hand geschriebene) Funktion feststellen muss, ob diese Zahl schon benutzt wurde, damit nicht dasselbe Item mehrfach angefordert wird. IFL\IIL 30 (2001) Web-basiertes Testen fremdsprachlicher Fähigkeiten und Fertigkeiten 189 3.4 Hilfe Funktion Die Schaltfläche "Show instructions" im unteren Rahmen erlaubt es, die Instruktionen für den aktuellen Untertest anzufordern. Eine Skriptfunktion prüft, welcher Testteil gerade bearbeitet wird und ruft die entsprechende Instruktionsseite auf. 3.5 Rückmeldung Als letzte Seite in Rövers Test wurde den Testteilnehmern ihr Ergebnis für die Multiple- Choice-Testteile angezeigt. Das Ergebnis für den Testteil Sprechakte konnte nicht angezeigt werden, denn die produktiven Antworten in diesem Testteil mussten zuerst ausgewertet werden. 3.6 Andere Funktionen Rövers Test enthielt noch eine Reihe andere Funktionen, deren Diskussion hier zu weit führen würde, z.B. 'cookies' zur Datenspeicherung, Blockieren des Programcodes, automatische Reaktivierung eines abgebrochenen Testlaufs und automatische Generierung von 'score reports'. Aber ein nützlicher web-basierter Test kann auch mit weniger als Rövers 660 Zeilen JavaScript Code realisiert werden. 4. Ein einfacher Test: Langantwort Rövers oben diskutierter Test ist ein Beispiel für einen programmierintensiven und komplexen Test mit vielen verschiedenen Funktionen. Ein solcher Test verlangt umfangreiche HTML- und JavaScript-Kenntnisse und einen hohen Zeitaufwand zum Programmieren und Überarbeiten. Im Folgenden möchte ich einen viel einfacheren Test diskutieren, der auch ohne große Programmierkenntnisse realisierbar ist: die beliebte Langantwortaufgabe (Essay). Abbildung 3 (auf der folgenden Seite) zeigt eine Langantwortaufgabe in Netscape Navigator 4.7. Der Test besteht aus den folgenden Elementen: Aufgabentext, einem Textfeld, in das Testteilnehmer ihre Antwort tippen einem Inputfeld, in das Teilnehmer ihren Namen tippen, einer Schaltfläche zum Absenden der Antworten. lFLw. 30 (2001) 190 Carsten Röver Please answBr the jo/ lowüig questton. The political landscape in the US has been strongl.y influenced by political action committees. Discuss 1 Yourname: J Abb. 3: Langantwortaufgabe Der HTML Code für diesen Test ist sehr einfach und auch problemlos ohne große HTML Kenntnisse erstellbar. Alle sog. tag Elemente, die in< ... > eingeschlossen sind (hier fett), sind Teil des Codes und auf dem Bildschirm nicht sichtbar: sie dienen nur als Formatierungsanweisungen, die die Darstellung der Seite steuern. 1. <html> 2. <head> 3. <title>Essay<ltitle> 4. <lhead> 5. <body> 6. <P><i>Please answer the following question.<li><lp> 7. <form action="mailto: bigteacher@niceschool.de" method="POST" name="test"> 8. <p> The political landscape in the US has been strongly influenced by political action committees. Discuss.<lp> 9. <p><textarea name="PAC item" rows="l0" cols="74" wrap="virtual"> <ltextarea><ip> 10. <p> Your name: <input typi"="text" size="20" name="testtaker"><ip> 11. <br> 12. <input type="button" name="submit_button" value="Submit"> 13. </ form> 14. <lbody> 15. <lhtml> Zeilen 1-5 sind Standard Eröffnungs-tags, die dem browser mitteilen, dass es sich um eine HTML Seite handelt, dass der Titel "Essay" im Kopfteil der Seite erscheinen soll, und dass nunmehr der Hauptteil der Seite (<body>) beginnt. lFLllL 30 (2001) Web-basiertes Testen fremdsprachlicher Fähigkeiten und Fertigkeiten 191 Zeile 6 ist sichtbarer Text, formatiert als kursiv durch die <i> und </ i> tags. Der <i> tag legt fest, wo die kursive Formatierung beginnt, der </ i> tag, wo sie endet. Fehlte letzterer, wäre die gesamte Seite kursiv. Der Paragraphentag <p> eröffnet diese Zeile als einen neuen Paragraphen. Zeile 7 ist essentiell, denn der <form> tag definiert den folgenden Abschnitt (bis zum </ form> tag in Zeile 13) als Formular, was es ermöglicht, dass Lerner Antworten eingeben und abschicken können. Der <form> tag ist unbedingt notwendig, um die beiden Texteingabefelder und die Schaltfläche darzustellen. Fehlt <form>, sind diese Felder nicht sichtbar. Der method Teil der Formulardefinition ist fast immer als POST definiert, der Name des Formulars ist optional aber empfohlen, und der action-Teil steuert die Versendung der Antworten. In diesem Fall werden selbige als email an den Lehrer geschickt. Eine andere Möglichkeit ist die Nutzung von Serverskripts, aber dann muss der genaue Inhalt für method beim Webmaster erfragt werden. Zeile 8 ist die Aufgabenstellung für das Essay, und Zeile 9 definiert das Textfeld, in das die Testteilnehmer ihre Antwort tippen. Das Feld wird als 10 Zeilen hoch und 74 Zeichen breit dargestellt, aber selbstverständlich können Testteilnehmer mehr als 10 Zeilen tippen. Der optionale tag "wrap=virtual" führt dazu, dass am rechten Rand des Eingabefeldes ein Zeilenumbruch erzwungen wird. Anderenfalls würde der Text endlos über den Rand hinauslaufen, was bei der Eingabe unangenehm ist. Zeile 10 ist ein kleineres Textfeld, das sich für Kurzantworten eignet und hier der Eingabe des Namens dient. Zeile 11 ist ein einfacher Zeilenumbruch und Zeile 12 definiert die Schaltfläche, mit deren Hilfe das Formular an den Tester (hier: bigteacher@niceschool.de) abgeschickt wird. Zeilen 13 bis 15 beenden das Formular, den Hauptteil der Seite und den Code an sich. Dieser kurze Test ist vollkommen funktional und erzeugt eine email, die ungefähr folgendermaßen aussieht: PAC item: Political action committees are a relatively recent development in American politics. [ ... ] testtaker: John Q. Doe Selbstverständlich bleibt es weiterhin dem Tester/ Lehrer überlassen, die Antwort zu bewerten. 5. Schlusswort Web-basiertes Testen fremdsprachlicher Fähigkeiten und Fertigkeiten steckt noch in den Kinderschuhen, aber hat großes Potential als eine einfache Methode zur Erstellung "hausgemachter" Tests für kurze, unterrichtsbezogene Aufgaben bis hin zu komplexen, wissenschaftlich orientierten Testbatterien für Einstufung und Leistungsmessung. In der Zukunft werden v.a. die Einbindung von Audio- und Videodateien erweiterte Möglichkeiten für kommunikative Übungen bieten, obwohl gesprochene Kommunikation sicherlich noch ein Fernziel ist. Insgesamt ist die Praktikabilität web-basierter Tests ein gewichtiges Argument für ihren Einsatz, darf aber nicht über die Notwendigkeit hinweg täuschen, dass auch diese Tests einer empirischen Absicherung bedürfen. lFLIIL 30 (2001) 192 Carsten Röver Literatur ALDERSON, Charles (Organisator) (März 2001). Leaming-centred assessment using information technology. Symposium auf dem 23. Annual Language Testing Reserach Colloquium, St. Louis. BOUTON, Lawrence (1988): "A cross-cultural study of ability to interpret implicatures in English". In: World Englishes 17, 183-196. BOUTON, Lawrence (1994): "Conversational implicature in the second language: Leamed slowly when not deliberately taught". In: Journal of Pragmatics 22, 157-167. BOUTON, Lawrence (1999): The amenability of implicature to focused classroom instruction. Vortrag auf der TESOL Tagung 1999, New York City. BROWN, James Dean (1997): "Computers in language testing: Present research and some future directions". Language Learning & Technology 1 (1), 44-59. [http: / / polyglot.cal.msu.edu/ llt/ voll numl/ brown/ default.html] CHALHOUB-DEVILLE, Micheline / DEVILLE, Craig (1999): "Computer-adaptive testing in second language contexts". Annual Review of Applied Linguistics 19, 273-299. COULMAS, Florian (1979): "On the sociolinguisüc relevance of routine formulae". In: Journal of Pragmatics 3, 239-266. COULMAS, Florian (1981): Routine im Gespräch: Zur pragmatischen Fundierung der Idiomatik. Wiesbaden: Athenaion. HAMBLETON, Ronald H. / SWAMINANTHAN, Hariharan / ROGERS, H. Jane (1991): Fundamentals of item response theory. Newbury Park, CA: Sage. HUDSON, Thom / DETMER, Emily / BROWN, James Dean (1995): Developing prototypic measures of cross-cultural pragmatics (Technical Report #7). Honolulu: University of Hawaii, Second Language Teaching and Curriculum Center. JOHNSTON, Bill/ KASPER, Gabriele/ Ross, Steve ( 1998): "Effect ofrejoinders in production questionnaires". In: Applied Linguistics 19.2, 157-182. KIRSCH, Irving / JAMIESON, Jane / TAYLOR, Carol/ E! GNOR, Daniel (1998): Computerfamiliarity among TOEFL examinees. (TOEFL Research Report No. 59). Princeton, NJ: Educational Testing Service. RöVER, Carsten (1996): "Linguistische Routinen: Systematische, psycholinguistische und fremdsprachendidaktische Überlegungen". In: Fremdsprachen und Hochschule 46, 43-60. RÖVER, Carsten (2001a): A web-based test of interlanguage pragmatic knowledge: Speech acts, routines, and implicature. Unveröffentlichte Dissertation, University of Hawai'i at Manoa. RöVER, Carsten (2001b): "Web-based language testing". In: Language Learning & Technology 5.2, 84-94. RöVER, Carsten [im Druck]: "Ein web-basierter C-Test". In: GROTJAHN, Rüdiger (Hrsg.): Der C-Test. Theoretische Grundlagen und praktische Anwendungen. Band 4. Bochum: AKS. SAWAKI, Yasuyo (März 2001). How examinees take conventional versus web-based Japanese reading tests. Vortrag auf dem 23. Annual Language Testing Reserach Colloquium, St. Louis. TAYLOR, Carol/ JAMIESON, Jane / EIGNOR, Daniel/ KIRSCH, Irving (1998): The relationship between computer familiarity and performance on computer-based TOEFL test tasks_(Research Report 61). Princeton, NJ: Educational Testing Service. YAMASHITA, Sayoko (1996): Six measures of JSL pragmatics (Technical Report #14). Honolulu: University of Hawaii, Second Language Teaching and Curriculum Center. lFlLIIIL 30 (2001) Günther Schneider • Kompetenzbeschreibungen für das „Europäische Sprachenportfolio" Abstract. The European Language Portfolio (ELP) fulfils two basic functions: on the hand, it is intended to motivate for and to facilitate language learning. On the other hand, it is meant to enable language learners to document their plurilingualism and intercultural experiences in a comprehensive, informative, transparent, credible and internationally comparable way. For either function the pedagogic function as well as the documentation and presentation function descriptions of language competence play an irnportant role. Through such descriptions the Language Portfolio is related to the reference levels contained in the Council of Europe's Common European Framework of Reference for Languages. In the first part, the article explains the airns and functions of the Language Portfolio and demonstrates the great importance the descriptions of language competence have. Then it describes the method used for developing a scale of language competence and outlines the characteristics the level descriptors used in the Language Portfolio have in comparison with descriptors used in other scales. Finally, it is shown how descriptions of competence could be adapted or developed for the use in new Language Portfolios. 0. Vorbemerkungen Das Europäische Sprachenportfolio (ESP) hat zwei Grundfunktionen. Es will zum einen zum Sprachenlernen motivieren und beim Sprachenlernen helfen. Es soll zum andern den Lernenden ermöglichen, ihre Mehrsprachigkeit und ihre interkulturellen Erfahrungen möglichst umfassend, informativ, transparent, glaubwürdig und international vergleichbar zu dokumentieren. Für beide Funktionen, für die pädagogisch-didaktische Funktion sowie für die Dokumentations- und Vorzeigefunktionen spielen Kompetenzbeschreibungen eine wichtige Rolle. Durch sie wird der Bezug zu den Referenzniveaus im Gemeinsamen europäischen Referenzrahmen für Sprachen des Europarats hergestellt. Im Folgenden werden in Abschn. 1 zunächst die Ziele und Funktionen des Sprachenportfolios und der Stellenwert der Kompetenzbeschreibungen erläutert. Abschn. 2 gibt einen kurzen Überblick über Typen von Kompetenzskalen und Methoden der Skalenentwicklung und situiert die Skalen und Kompetenzbeschreibungen des Sprachenportfolios und deren Entwicklung innerhalb dieses Spektrums. Abschn. 3 charakterisiert die Kompetenzbeschreibungen und vergleicht deren Merkmale zur Illustration mit denen anderer Skalen. Abschn. 4 schließlich enthält Überlegungen und Hinweise für die Adaptierung und Entwicklung zusätzlicher Kompetenzbeschreibungen für Sprachenportfolios. Korrespondenzadresse: Prof. Dr. Günther SCHNEIDER, Univ.-Prof., Lern- und Forschungszentrum Fremdsprachen (Bereich DaF), Universität Freiburg/ Schweiz, Criblet 13, CH-1700 FRIBOURG. E-mail: guenther.schneider@unifr.ch Arbeitsbereiche: Sprachprüfungen, Selbstbeurteilung, autonomes Lernen. lFLuL 30 (2001) 194 Günther Schneider 1. Ziele des Sprachenportfolios und Stellenwert der Kompetenzbeschreibungen 1.1 Ziele und Funktionen Der Europarat verfolgt mit der Entwicklung und Verbreitung des Sprachenportfolios verschiedene Ziele. Es soll • dazu motivieren, Kompetenzen in mehreren Sprachen zu erwerben und die Lernenden ermutigen, ihre Sprachkenntnisse und ihre interkulturellen Erfahrungen zu erweitern, • den Wert von Mehrsprachigkeit und Multikulturalität aufzeigen und so zur gegenseitigen Achtung und Verständigung beitragen, • die Mobilität erleichtern, indem es sprachliche Qualifikationen transparent und vergleichbar dokumentiert, • lebenslanges Sprachenlernen fördern, • autonomes Lernen und die Fähigkeit zur Selbstbeurteilung fördern. Diesen allgemeinen Zielen entsprechen die zwei Hauptfunktionen, die in allen Versionen des Europäischen Sprachenportfolios berücksichtigt werden müssen 1• Es soll zum einen als Vorzeigeinstrument, als Ausweis dienen (Dokumentationsfunktion) und zum andern Lernbegleiter und Lernhilfe sein (pädagogisch-didaktische Funktion). Diese beiden Funktionen sind für den einzelnen Lernenden nicht in allen Lebensabschnitten von gleicher Bedeutung. Die Dokumentationsfunktion steht in Momenten der Mobilität im Vordergrund: bei Mobilität zwischen Sprachgebieten und Institutionen oder Mobilität in Ausbildung und Beruf. Während der Schulzeit, in Zusammenhang mit dem Besuch eines Sprachkurses oder während eines Sprachaufenthalts kann die Rolle des Portfolios, Lernanregungen und Lernhilfen zu bieten, in den Vordergrund treten. Entsprechend müssen die beiden Grundfunktionen in Portfolioversionen für verschiedene Lernergruppen nicht unbedingt gleich gewichtet sein. In Portfolioversionen für jüngere Kinder und für Lernende während der Schulzeit kann der Akzent darauf liegen, Lernanregungen und Lernhilfen zu geben, ohne dass den Lernenden die Möglichkeiten vorenthalten werden, zu beschreiben und zu zeigen, welche Sprachkenntnisse sie innerhalb und auch außerhalb der Schule erworben haben. Für Lernende gegen Ende der obligatorischen Schulzeit und für Erwachsene erhält die Dokumentationsfunktion des Portfolios besondere Bedeutung, ohne dass im Zeichen lebenslangen Lernens die Rolle des Portfolios als Lernbegleiter irrelevant würde. ► Die Dokumentations- und Vorzeigefunktion Die verschiedenartigen Instrumente im Portfolio, darunter solche, die Kompetenzbeschreibungen enthalten, sollen den Lernenden helfen, für bestimmte Zwecke eine Bilanz oder eine Zwischenbilanz zu ziehen, um detailliert und international vergleichbar über Die Anforderungen sind festgelegt in „Principles and Guidelines", Online: http: / / culture2.coe.int/ portfolio/ / documents/ JFL1.! L 30 (2001) Kompetenzbeschreibungen für das „Europäische Sprachenportfolio" 195 den gegenwärtigen Stand, den sie beim Erlernen einer oder mehrerer Fremdsprachen erreicht haben, Auskunft zu geben. Typische Gelegenheiten, ein auf den aktuellen Stand gebrachtes Portfolio zu präsentieren, sind die Bewerbung um eine neue Stelle, einen Studienplatz oder ein Stipendium, Qualifikationsgespräche im Beruf, ein Schulwechsel, der Übertritt in eine höhere Schulstufe, der Beginn eines Sprachkurses oder eines Austauschprogramms. Adressaten des Portfolios sind in diesen Fällen Personen, welche an Entscheidungen beteiligt sind, die für die Besitzer des Portfolios Wichtigkeit haben. Diese Adressaten sind möglicherweise vor allem an Ergebnissen einer relevanten und zuverlässigen summativen Evaluation interessiert. Für sie ist die Dokumentation von Diplomen und Zeugnissen wichtig. Dabei möchten sie in der Regel nicht nur wissen, dass diese oder jene Prüfung mit diesem oder jenem Erfolg abgelegt wurde, sondern auch, was das bedeutet, also was jemand in und mit den jeweiligen Sprachen tun kann. Neben aussagekräftigen Prüfungen und Diplomen haben aber auch andere Informationen für solche Adressaten ihren Stellenwert. Denn erworbene Sprachkompetenzen können nicht immer durch Prüfungen oder Diplome erfasst werden. Zum Beispiel kann ein Lernender nach dem Erwerb eines Diploms durch einen Aufenthalt im Sprachgebiet sehr viel dazu gelernt haben oder aber wegen fehlender Sprachpraxis viel vergessen haben, möchte aber nicht wieder eine Sprachprüfung ablegen (und bezahlen). Zudem werden manche Bereiche, wie beispielsweise die interkulturellen Kompetenzen, nur selten durch Prüfungen erfasst. Und schließlich gibt es für einzelne Sprachen, zum Beispiel für manche Herkunftssprachen von Migranten und ihren Kindern, möglicherweise gar keine Prüfungsmöglichkeiten oder Sprachdiplome. Deshalb dokumentiert das Portfolio den Stand und die Entwicklung der Mehrsprachigkeit seines Besitzers auch durch „Zeugnisse" anderer Art. Das sind insbesondere aktualisierte Selbsteinschätzungen zu den Kompetenzen in den verschiedenen Sprachen. Diese werden ergänzt durch Informationen und Bestätigungen dazu, was der Lernende in und mit diesen Sprachen schon getan hat, z. B.: Schulbesuch/ Studium in einer anderen Sprache als der Erstsprache, Austausch/ Praktikum in einem anderen Sprachgebiet, regelmäßige private Kontakte, fremdsprachliche Korrespondenz usw. Hinzu kommen noch Informationen über die Geschichte des Sprachenlernens und ausgewählte Beispiele eigener Arbeiten. Was ein Lernender mit dem Portfolio dokumentiert und anderen vorzeigen kann, vermittelt also ein sehr viel reicheres, aussagekräftigeres Bild, als es Prüfungen und Diplome allein tun könnten. Durch die sich gegenseitig stützenden und ergänzenden Informationsquellen und Informationsarten entsteht auch ein verlässlicheres Bild. Voraussetzung ist, dass alle Dokumente und Einträge im Portfolio transparent sind. Dies bedeutet unter anderem, dass ersichtlich und nachprüfbar sein muss, welche Person oder welche Instanz eine Aussage verantwortet und beglaubigt. Ganz wesentlich für die Transparenz und Vergleichbarkeit ist der Bezug auf ein gemeinsames Referenzsystem, insbesondere auf die im Gemeinsamen europäischen Referenzrahmen für Sprachen (Common European Framework) beschriebenen Referenzniveaus. lFLw... 30 (2001) 196 Günther Schneider ► Die pädagogisch-didaktische Funktion Als pädagogisches Instrument soll das Sprachenportfolio die Motivation der Lernenden stärken, ihre Kommunikationsfähigkeit in verschiedenen Sprachen zu erweitern, neue Sprachen hinzuzulernen und neue interkulturelle· Erfahrungen zu sammeln. Es soll anregen und helfen, sich mit Lernzielen, Lernwegen und Lernerfolgen auseinander zu setzen und so reflexives und selbstständiges Lernen fördern. Besondere Bedeutung kommt hier der Förderung der Selbstbeurteilung zu (Little 1999; Oscarson 2000). Die pädagogische Funktion ist für die jüngeren Lerner ebenso wichtig wie für Jugendliche und Erwachsene. Während unter dem Aspekt der Präsentation die Lernresultate, Produkte, Ergebnisse von summativer Evaluation sowie Transparenz und Vergleichbarkeit besonderes Gewicht haben, rücken unter pädagogisch-didaktischem Gesichtspunkt vor allem die Lernprozesse und formative Evaluation sowie Lernanreize und Lernmöglichkeiten ins Zentrum. 1.2 Die Teile des Sprachenportfolios und Instrumente mit Kompetenzbeschreibungen Die zwei Grundfunktionen, Dokumentationsinstrument und Lernbegleiter zu sein, sind auf unterschiedliche Weise in den drei Teilen des ESP präsent. Es besteht aus den drei zusammengehörenden Teilen Sprachenpass, Sprachbiografie und Dossier. Der Sprachenpass gibt einen Überblick über Sprachkenntnisse, Zertifikate und Diplome sowie über sprachliche und interkulturelle Erfahrungen in verschiedenen Sprachen. Für Sprachenportfolios, die sich an Jugendliche und Erwachsene wenden, gibt es einen standardisierten gesamteuropäischen Sprachenpass, der jedoch immer nur als Bestandteil eines Sprachenportfolios abgegeben wird. Die Sprachbiografie soll den Lernenden helfen, ihre Sprachkenntnisse selbst zu beurteilen, schulische und außerschulische Erfahrungen beim Sprachenlernen, interkulturelle Erfahrungen sowie ihre Bedürfnisse und Ziele zu reflektieren, sie zu dokumentieren und das weitere Sprachenlernen zu planen. Das Dossier sammelt persönliche Arbeiten unterschiedlicher Art, die exemplarisch veranschaulichen, welche Leistungen die Lernenden in verschiedenen Sprachen erbracht haben. Instrumente mit Kompetenzbeschreibungen spielen im Sprachenpass und in der Sprachbiografie eine zentrale Rolle. Sie basieren auf den Niveaubeschreibungen im Gemeinsamen europäischen Referenzrahmen und wurden zum großen Teil zusammen mit den Deskriptoren in den Beispielskalen des Referenzrahmens entwickelt. Diese Instrumente sind: 1. Der Raster zur Selbstbeurteilung im Sprachenpass. Dieser Raster entspricht der Tabelle 3 im Referenzrahmen (Europarat 2001: 3.3). Er ist ein gemeinsamer fester Bestandteil aller Versionen des Europäischen Sprachenportfolios mit Ausnahme der Fassungen für ganz junge Lernende, in denen die Formulierungen sprachlich dem Alter der Lernenden anpasst werden müssen. Abweichend von der üblichen Unterteilung in die vier Fertigkeiten enthält er Beschreibungen für die Fähigkeit in den lFLllllL 30 (2001) Kompetenzbeschreibungen far das „Europäische Sprachenportfolio" 197 Bereichen: 1. Hörverstehen (in Einwegsituationen), 2. Leseverstehen, 3. mündliche Interaktion, 4. mündliche Produktion (= zusammenhängendes Sprechen) und 5. Schreiben.2 Diese Auffächerung ermöglicht es, ein differenziertes Kompetenzprofil zu zeigen, zum Beispiel ein höheres Niveau im Hörverstehen als in der Gesprächsfähigkeit usw. Sie erlaubt es auch, erworbene Teilkompetenzen anzugeben, etwa wynn jemand in einer Sprache Lesekompetenz erworben hat, ohne auch sprechen oder schreiben zu lernen. 2. Detaillierte niveauspezifische Checklisten zur Selbsteinschätzung im Teil Sprachbiografie für jedes der Referenzniveaus Al bis C2. Sie sind wie der Raster nach den fünf Fertigkeitsbereichen eingeteilt und enthalten zusätzlich noch die zwei Rubriken „Strategien" und „Qualität/ Sprachliche Mittel". 3 3. Die Globalskala aus dem Referenzrahmen(= Tabelle 1). Sie soll Schulen und Prüfungsinstitutionen dazu dienen, ihre Prüfungen und Abschlüsse in Bezug auf die Referenzniveaus des Europarats zu situieren. Die Globalskala findet sich als Kopiervorlage z. B. in der Schweizer Version des Sprachenportfolios für Jugendliebe und Erwachsene. Die Erfahrungen während der Erprobung des Sprachenportfolios haben gezeigt, dass die Lernenden mit den Kompetenzbeschreibungen umgehen können (Lenz 2000a,b) und bei der Selbstbeurteilung besonders dann plausible Resultate erreichen, wenn der Raster und die Checklisten in sinnvoller Kombination genutzt werden: Es empfiehlt sich, für die verschiedenen Fertigkeitsbereiche zuerst eine grobe Situierung anhand des Rasters vorzunehmen, diese dann mit Hilfe der entsprechenden Checklisten einer detaillierten Überprüfung zu unterziehen und schließlich zum Raster zurückzukehren, um die Einstufung für die verschiedenen Bereiche zu bestätigen. oder zu korrigieren. Die drei Instrumente mit Kompetenzbeschreibungen haben nicht den gleichen Status. Der Selbstbeurteilungsraster und die Globalskala bilden Referenzpunkte und müssen Vergleichbarkeit nach aussen ermöglichen. Sie dürfen daher auch nicht verändert werden. Die Checklisten dagegen, die in erster Linie dem Lernenden selbst helfen oder der Kommunikation zwischen Lerner und Lehrer über Lernfortschritte dienen, müssen zwar den Bezug zu den Referenzniveaus wahren, aber sie können und sollen für die jeweilige Lernsituation adaptiert und erweitert werden. Raster und Checklisten zur Selbstbeurteilung ermöglichen es, andere detailliert über die eigenen Sprachkenntnisse zu informieren. Der Raster zur Selbstbeurteilung kann als eine Art Landkarte gelesen werden, die den Lernenden zum einen zeigt, welche Etappen sie schon durchlaufen und welche Ziele sie erreicht haben. Die Kompetenzbeschreibungen können aber auch als Zielbeschreibungen gelesen werden. Zusammen mit anderen 2 Abweichend vom Referenzrahmen wurde bei „Schreiben" auf die Unterscheidung zwischen „Interaktion" und „Produktion" verzichtet, da diese für Laien nicht leicht nachvollziehbar ist. 3 Die sechs umfangreichen Checklisten wurden ursprünglich für die Schweizer Version des Sprachenportfolios entwickelt. Sie sind unverändert auch im Portfolio für Erwachsene von EAQUALS/ ALTE enthalten und wurden, teilweise verändert, in andere Portfolioversionen, z.B. in Frankreich, Russland und Portugal und auch in den Entwurf eines universitären Sprachenportfolios (ELC-Projekt, Forster-Vosicki 2000b) übernommen. JFLuL 30 (2001) 198 Günther Schneider Instrumenten, welche die Reflexion über Lernziele und Lernwege anregen, sollen sie eine flexible Planung des weiteren Lernens ermöglichen und so die Motivation zu lebensbegleitendem Sprachenlernen und zur Erweiterung der Mehrsprachigkeit stärken (Schneider 1999a). 1.3 Anforderungen an Kompetenzbeschreibungen für das Sprachenportfolio Aus den beschriebenen Zielsetzungen und Funktionen lässt sich ableiten, welchen Anforderungen Niveaubeschreibungen im Sprachenportfolio genügen müssen, wobei die Dokumentationsfunktion in mancher Hinsicht strengere Maßstäbe verlangt als die pädagogische Funktion. 1. Die Kompetenzskala des ESP muss Beschreibungen für alle Niveaus (nicht nur für ausgewählte Niveaus) umfassen. Denn es soll lebenslanges Sprachenlernen unterstützen. 2. Das ESP ist ein Instrument zur Förderung der Mehrsprachigkeit. Daher dürfen die Niveaubeschreibungen nicht sprachspezifisch sein, sondern müssen sprachübergreifend formuliert sein. 3. Die Niveaubeschreibungen sollen relevante Aspekte der kommunikativen Kompetenz abdecken. Weil das ESP die Lernenden idealerweise von einer Schulstufe iur anderen begleitet und als Informationsinstrument beim Wechsel in andere Institutionen dient, dürfen die Inhalte sowie die Interpretation der Kompetenzbeschreibungen nicht (nur) für bestimmte Bildungssektoren spezifisch sein. 4. Das ESP hat verschiedene Adressaten. Die Niveaubeschreibungen müssen für alle verständlich und akzeptabel sein: für die Lernenden, für die Unterrichtenden, für Prüfer, für Schulen und andere Bildungsinstitutionen und nicht zuletzt für Unternehmen, Dienststellen, Arbeitgeberinnen und Arbeitgeber. Das bedeutet auch, dass die Beschreibungen ohne besondere Einführung von allen - oder bescheidener: von möglichst vielen in gleicher Weise verstanden werden sollten und dass sie ohne Training verwendbar sein müssen. 5. Das ESP misst den verschiedenen Formen des Sprachenlernens in Schulen und Kursen ebenso Bedeutung bei wie dem außerschulischen Lernen durch Sprachgebrauch in Realsituationen z. B. durch private Kontakte, Reisen, Auslandspraktika u. Ä.; die Kompetenzbeschreibungen sollten sich daher vor allem unter dem Gesichtspunkt der Dokumentation nach außen in erster Linie auf reale Sprachverwendungssituationen beziehen. 6. Die Beschreibungen müssen sich sowohl für Fremdbeurteilung (Lehrerbeurteilung oder Bericht über Ergebnisse in Sprachprüfungen) als auch für die Selbstbeurteilung eignen. 7. Damit die Kompetenzbeschreibungen motivierend wirken und auch als (interessante und relevante) Lernziele gelesen werden können, sollten sie auch für untere Niveaus das sprachlich-kommunikative Können positiv formulieren und nicht demotivierend formulieren, was die Lernenden (noch) nicht können. lFL1l! lL 30 (2001) Kompetenzbeschreibungen für das „Europäische Sprachenportfolio" 199 8. Die Kompetenzbeschreibungen müssen in verschiedenen äquivalenten Sprachfassungen vorliegen, damit sowohl die Inhaber als auch die Adressaten des Portfolios die Beschreibungen für die Kompetenzniveaus in ihrer Erstsprache oder in einer Sprache, die sie gut verstehen, zur Kenntnis nehmen können. Der folgende Abschnitt gibt einen kurzen Überblick über Typen von Kompetenzskalen und Methoden der Skalenentwicklung, um auf diesem Hintergrund zu zeigen, in welcher Hinsicht sich die Kompetenzbeschreibungen im Sprachenportfolio von manchen anderen Niveaubeschreibungen unterscheiden. 2. - Sprachkompetenzskalen: Typen und Entwicklungsmethoden 2.1 Typen von Sprachkompetenzskalen Die verschiedenen Arten von Sprachkompetenzskalen lassen sich nach verschiedenen Gesichtpunkten unterscheiden. Unterscheidungskriterien sind z. B. ihre Funktionen, die visierten Adressatengruppen, die Ausführlichkeit der Niveaubeschreibung, der Umfang des erfassten Kompetenzspektrums, die Differenzierung nach Fertigkeiten, die Zahl der Niveaus, die Ausrichtung auf allgemeine Sprachkompetenz bzw. auf die Kompetenz für spezifische Sprachverwendungssituationen, die Art der Formulierung und die Ausformung für Fremd- oder Selbstbeurteilung (North 1994, 2000; Schneider/ North 2000). Viele Skalen, die in der Nachfolge der ersten amerikanischen Skala aus den fünfziger Jahren entwickelt wurden, haben einen Ansatz, den Bachman (1990: 325-330) als „reallife (RL) approach" beschrieben hat, da sie ein Bild davon zu geben versuchen, was ein Lerner auf einem bestimmten Niveau in Realsituationen tun kann. Andere Skalen sind einem Ansatz verpflichtet, den Bachman „interactional/ ability (IA) approach" nennt. Sie richten sich auf bestimmte Aspekte der Sprachfähigkeit, die sich in einem Test zeigen, wie beispielsweise grammatische Korrektheit, Umfang des Wortschatzes, Verknüpfung der Äußerungen usw. Auf Alderson (1991: 72-74) geht die wichtige Unterscheidung in user-, assessor- und constructor-oriented scales zurück. Er betont, dass sich Probleme ergeben können, wenn die verschiedenen Funktionen nicht auseinander gehalten werden und Skalen mit einer bestimmten Ausrichtung für einen anderen Zweck gebraucht werden. Allerdings hat Alderson seine Unterscheidungen im Hinblick auf die Verwendung von Skalen im Zusammenhang mit Qualifikationstests getroffen. Da sind die Rollen klar verteilt: auf der einen Seite Fachleute das sind die Testautoren und Prüfer -, auf der anderen Seite Laien das sind die Lernenden und eventuell weitere Interessierte. Eine andere Sicht drängt sich dann auf, wenn man nicht nur die summative Fremdevaluation, sondern auch die in den Lern-/ Lehrprozess eingebundene formative Evaluation in den Blick nimmt und zudem berücksichtigt, dass ein Skalentyp für verschiedene Personengruppen relevant sein kann und dass bestimmte Personen bzw. Personengruppen mehrere Rollen übernehmen können. Skalen des konstruktionsorientierten Typs mit ihren Beschreibungen kommunikativer FJLUl]L 30 (2001) 200 Günther Schneider Aufgaben können beispielsweise nicht nur für die Testkonstruktion, sondern ebenfalls für die Curriculum-, Lehrplan- und Materialkonstruktion oder für Checklisten zur permanenten formativen Evaluation genutzt werden. Damit ist auch der Kreis der potentiellen Benutzer dieser Skalen nicht auf den der Testautoren begrenzt. Bei der Selbstevaluation ist die klare Rollenverteilung, wie sie bei Tests besteht, aufgehoben und der Lernende ist zugleich auch Beurteilender. Pollitt und Murray (1996) haben Aldersons Ansatz erweitert, indem sie einen vierten Grundtyp „diagnoseorientierter" Skalen ansetzen. Während es für Beurteilerskalen wichtig ist, dass sie sich auf ein überschaubares Set mit wenigen niveauspezifischen Schlüsselkriterien beschränken, ist es im Hinblick auf eine Diagnose und ein hilfreiches Feedback sinnvoll, möglichst viele Aspekte zu berücksichtigen, um ein differenziertes Lernerprofil mit Informationen über die Stärken und Schwächen in verschiedenen Bereichen zu ermöglichen (Pollitt/ Murray 1996: 88-89; vgl. Europarat 2001: Kap. 9). Der Referenzrahmen und das Sprachenportfolio enthalten sowohl aufgabenorientierte als auch beurteilungsbzw. diagnoseorientierte Deskriptoren. In vielen Deskriptoren aber sind die Aufgabenbeschreibungen mit qualitativen Aussagen verbunden. Denn Checklisten und Skalen für die kontinuierliche Beurteilung durch Lehrende oder für die Selbstbeurteilung funktionieren am besten, wenn sie nicht nur aussagen, was Lernende tun können (aufgabenorientiert), sondern auch, wie gut sie es können (Europarat 2001: 3.8). 4 2.2 Methoden der Skalenentwicklung Es ist erstaunlich, wie viele Skalen am Schreibtisch entstehen. Oft wurden und werden Skalen von einem Experten oder einer Expertengruppe formuliert. Damit stellt sich die Frage, inwieweit die Skalenwerte unabhängig sind von den Meinungen derer, die an der Konstruktion der Skala beteiligt waren. In der Regel wird das Problem durch Training der Anwender angegangen, eine Lösung, die für den Gebrauch innerhalb einer Institution, nicht aber bei institutionsübergreifendem Gebrauch praktikabel ist. Eine ganze Reihe von Autoren merken kritisch an, dass auch die in den 80er-Jahren entwickelten Skalen, einschließlich der ACTFL-Skala, keine empirische Grundlage haben (Lantolf/ Frawley 1985, 1988; Pienemann/ Johnson/ Brindley 1988; North 1994; Fulcher 1997). Ein neueres Beispiel einer rein intuitiv entwickelten Skala ist die UNicert-Skala. 5 4 Einen Überblick über die Kritik an Sprachkompetenzskalen geben North (1994; 1996a), Fulcher (1997) und Brindley (1998). Eine ausführliche Diskussion bezog sich auf die ACTFL-Skala (Pollitt 1991; Bachman/ Cohen 1998, Brindley 1998). Sprachkompetenzskalen dürfen nicht im Widerspruch zu Ergebnissen der Spracherwerbsforschungen stehen. Allerdings lassen die Ergebnisse der Spracherwerbsforschung sich zurzeit noch kaum direkt für die Skalenbildung nutzen. Das gilt erst recht für sprachübergreifende Skalen. Zum einen beschränken sich die Untersuchungen zu Spracherwerbssequenzen weitgehend auf einzelne linguistische Bereiche wie Morphologie und Syntax. Zum andern ist schwer zu sehen, wie die beobachtete große Variabilität der Lernerproduktionen in Skalen, die eine gewisse Generalisierung und Vereinfachung vornehmen müssen, angemessen berücksichtigt werden könnte. · 5 Bei UNicert ist der Charakter der Setzung auch daran erkenntlich, dass die Niveaudefinition mit der Festlegung einer bestimmte Zahl von Semesterwochenstunden verknüpft ist. JF[,u]L 30 (2001) Kompetenzbeschreibungen für das „Europäische Sprachenportfolio" 201 Die Kritik an den intuitiv entwickelten Skalen führte dazu, dass in jüngster Zeit vermehrt versucht wird, bei der Skalenkonstruktion von Beobachtungsdaten auszugehen, wobei sowohl qualitative als auch quantitativ-statistische Verfahren angewendet werden. Man kann vereinfachend vier Gruppen von Methoden der Skalenentwicklung unterscheiden: 1. intuitive Methoden, 2. qualitative Methoden (Rater beobachten und diskutieren Lernerproduktionen, um Schlüsselmerkmale für die Performanz auf verschiedenen Niveaustufen zu identifizieren), 3. quantitative Methoden (entweder indirekte Skalierung durch statistische Analyse von Testergebnissen und ansch.ließender Zuordnung zu Deskriptoren oder direkte Skalierung der Deskriptoren durch eine statistische Analyse der Verwendung von Deskriptoren bei der Beurteilung), 4. Methodenkombination, wie sie bei der Entwicklung der Skalen für den Referenzrahmen und das Sprachenportfolio angewendet wurde. 6 Die Kompetenzbeschreibungen, die im Gemeinsamen europäischen Referenzrahmen enthalten sind und Kernelemente der Europäischen Sprachenportfolios bilden, wurden in einem Schweizer Projekt im Rahmen des Nationalen Forschungsprogramms „Wirksamkeit unserer Bildungssysteme" entwickelt. Das im Projektbericht (Schneider/ North 2000) und im Referenzrahmen (Europarat 2001: Anhang B) ausführlicher geschilderte methodische Vorgehen wird hier kurz zusammengefasst. Das Projekt orientierte sich am handlungs- und sprachgebrauchsorientierten Konzept der kommunikativen Sprachfähigkeit, das den Modellen von Canale/ Swain (1981, modifiziert in Canale 1983), von Bachman (1990) und dem Gemeinsamen europäischen Referenzrahmen (Europarat 2001) zu Grunde liegt, und stützte sich auf die Messtheorie des Rasch-Modells. Intuitive Phase: Schritt 1: Detaillierte Analyse vorhandener Sprachkompetenzskalen, um auf dem Fachwissen und der Erfahrung, die in diese Skalen eingegangen sind, aufzubauen. Schritt 2: Zerlegung und Vereinfachung von längeren und komplexen Deskriptoren dieser Skalen; Formulierung neuer Deskriptoren, wo dies für bestimmte Kategorien (z. B. Kommunikationsstrategien) nötig war; Zuordnung der Einzelaussagen zu Kategorien des Referenzrahmens; Aufteilung der Deskriptoren in Datenbanken zur Interaktion, Produktion und Rezeption mit insgesamt rund 2000 Einzelaussagen. Qualitative Phase: Schritt 3: Analyse von Tonbandaufnahmen, in denen Lehrende über Videoaufzeichnungen von Lernergesprächen diskutieren, mit dem Ziel zu überprüfen, ob die Kategorien und die Metasprache von Praktikern in den Deskriptoren angemessen vertreten waren. Schritt 4: Über 30 Workshops, in denen Lehrerinnen und Lehrer aus verschiedenen Sprachregionen und Bildungssektoren, die Englisch, Französisch oder Deutsch als Fremdsprache unterrichten, die Deskriptoren erstens nach Kategorien und/ oder Niveaus sortierten, und außerdem anmerkten, welche Deskriptoren sie für unbrauchbar oder 6 Detailliertere Übersichten über die verschiedenen Methoden der Skalenentwicklung findet man bei North (1994, 2000), North/ Schneider (1998), Brindley (1998), Schneider/ North (2000) und im Referenzrahmen (Council ofEurope 2001: 207-212; Europarat 2001: Anhang A). lFLlUIL 30 (2001) 202 Günther Schneider unwichtig oder aber für klar und relevant hielten und welche sich ihrer Meinung nach für die Selbstbeurteilung eigneten. Schritt 5: Erstellen von einander überlappenden Fragebögen mit Deskriptoren, welche sich in den Workshops bewährt hatten; Übersetzung der englischen Deskriptoren ins Deutsche und Französische. Quantitative Phase: Schritt 6: Datensammlung: Lehrpersonen beurteilen Lernende aus ihren Klassen sowie fremde Lernende in Videoaufzeichnungen mit Hilfe der Fragebögen. Ein Teil der beurteilten Lernenden hat zusätzlich einen Selbstbeurteilungsbogen mit ausgewählten Kompetenzbeschreibungen in „Ich-kann"-Form ausgefüllt. Um eine äussere Kontrolle zu ermöglichen, haben Lernende teilweise Tests und Diplomprüfungen abgelegt. Schritt 7: Rasch-Analyse mit dem Programm FACETS (Linacre 1992); Berechnung des Schwierigkeitswerts für jeden einzelnen Deskriptor und Untersuchung im Hinblick auf statistisch signifikante Variation bei der Interpretation von Deskriptoren je nach Bildungssektor, Sprachregion und Zielsprache. Identifizieren derjenigen Deskriptoren, die über unterschiedliche Kontexte besonders stabil verwendet wurden und sich deshalb für die Definition der gemeinsamen Referenzniveaus eignen. Interpretationsphase: Schritt 8: Identifizieren von Niveaugrenzen auf der Skala; Aufteilung der skalierten Deskriptoren in die sechs Referenzniveaus. Schritt 9: Zusammenfassung der Referenzniveaus in einer holistischen Skala und Rastern (Tabelle 1-3 des Referenzrahmens), für die Deskriptoren ausgewählt wurden, deren Schwierigkeitswerte nicht an der unteren oder oberen Grenze eines Niveaus lagen und die sich als ganz besonders konsistent und stabil erwiesen hatten; Zusammenstellung von Beispielskalen für diejenigen Kategorien, die sich als skalierbar erwiesen (Kapitel 4 und 5 des Referenzrahmens). Erstellung der Instrumente für das Sprachenportfolio Schritt 10: Auswahl von skalierten Deskriptoren, die sich für die Selbstbeurteilung eignen; Umformulierung in die „Ich kann"-Form, Vereinfachung der Formulierungen, Konkretisierung durch Angabe von Beispielen; Zusammenstellung des Rasters zur Selbstbeurteilung (später als Tabelle 2 in den Referenzrahmen aufgenommen); Zusammenstellung von Checklisten für die sechs Referenzniveaus. Schritt 11: Erweiterung der Checklisten um zusätzliche Deskriptoren. Vor allem Gymnasiallehrer und -lehrerinnen hatten mehr Deskriptoren für das Lesen von literarischen und generell von längeren Texten gewünscht. Da das aufwändige Verfahren der quantitativen Phase nicht wiederholt werden konnte, wurde ein informelleres Vorgehen mit den folgenden Schritten gewählt: 1. Ausgehend von existierenden, aber noch nicht validierten Beschreibungen aus der ursprünglichen Deskriptorensammlung formulierte eine Gruppe von erfahrenden Lehrpersonen Deskriptoren, die sie für relevant hielten. 2. Lehrergruppen sortierten und kommentierten wie in den früheren Workshops (siehe Schritt 4) diese Deskriptoren, unter die bereits skalierte Anker-ltems gemischt waren. 3. Die PortfoliolFLIIL 30 (2001) Kompetenzbeschreibungen für das „Europäische Sprachenportfolio" 203 Autoren werteten die Niveauzuordnungen und die Kommentare aus, trafen eine Auswahl und formulierten die Deskriptoren gestützt auf die im Verlauf des Forschungsprojekts gemachten Erfahrungen teilweise um. Erprobungsphase Schritt 12: Erprobung eines ersten Portfolioentwurfs im Jahr 1996 durch Lehrerinnen und Lehrer, die im Schweizer Forschungsprojekt mitgewirkt hatten; Diskussion und Auswertung der Erfahrungen an der Abschlusskonferenz zum Forschungsprojekt; umfangreiche Erprobung und Evaluation verschiedener Portfolioversionen auf europäischer Ebene 1998-2000 (Lenz 2000a,b; Schärer 2000; Schneider 2000a). Überarbeitungsphase Schritt 13: Auswertung der Erprobung; kleine Verbesserungen an der Formulierung des Rasters zur Selbstbeurteilung und seiner Übersetzungen; Überarbeitung der Checklisten aufgrund der Evaluationsergebnisse, vor allem: geringere und ausgeglichenere Anzahl von Deskriptoren pro Rubrik und Checkliste (wobei das unterste und das höchste Niveau weniger Items enthalten als die anderen Niveaus, denn auf der Stufe Al ist noch nicht so viel vorhanden, was zu beschreiben wäre, und auf C2 muss nicht so viel differenziert werden, weil die Lernenden praktisch alles können)7; stellenweise Umformulierung der Deskriptoren und der Übersetzungen, um die Verständlichkeit zu verbessern. Auf die Anpassung der Deskriptoren für bestimmte Alters- oder Adressatengruppen geht der Abschnitt 4 ein. 3. Merkmale der Kompetenzbeschreibungen im Sprachenportfolio Im Verlauf des Forschungsprojekts haben sich teilweise schon in den Lehrer-Workshops, teilweise bei der statistischen Prüfung eine Reihe von Deskriptoren als problematisch erwiesen, die dann entweder geändert oder ausgeschieden wurden. Das waren einerseits Deskriptoren bestimmter Bereiche wie „Soziokulturelle Kompetenz", "Strategien", "Lektüre literarischer Texte", "Aussprache und Intonation" (siehe dazu Schneider/ North 2000: 88-92; 117-128; Europarat 2001: Anhang B). Es handelte sich andererseits um Deskriptoren mit einem oder mehreren der folgenden Merkmale. Verworfen wurden in den verschiedenen Entwicklungsphasen vor allem: • längere Beschreibungen; • Aussagen, bei denen verschiedene Aspekte durch „und" verbunden sind; • allgemeine, abstrakte, vage Formulierungen; • Deskriptoren mit relativen Aussagen wie „besser als (Niveau 3)"; "weiterhin"; • Formulierungen im Fachjargon oder mit linguistischen Fachbegriffen, die den Laien 7 Gegenüber der ersten Version des Schweizer Portfolios von 1999 wurde die Anzahl der Deskriptoren in den Checklisten (ohne Raster) von 245 auf 220 reduziert (Der Referenzrahmen enthält ohne die Tabellen 1-3 über 330 Deskriptoren). lFLllllL 30 (2001) 204 Günther Schneider und auch nicht allen Lehrpersonen vertraut sind (z.B. "Konnektoren", "Gliederungssignale", "Kohäsion", "Schema" u. Ä.); • Beschreibungen, die sagen, was jemand nicht tun kann, Mängellisten; • Deskriptoren, die positive und negative Aussagen verbinden (kann x, aber kann nicht y); • Deskriptoren, bei denen die Niveauunterscheidung wesentlich von Graduierungen wie "kaum", "selten", "mehrfach" abhängt; • stark unterrichtsbezogene Aufgabenbeschreibungen. Manche Skalen, wie die bekannte ACTFL-Skala, enthalten für jedes Niveau einen längeren Abschnitt mit ausführlichen Beschreibungen, die sich auf verschiedene Aspekte wie Flüssigkeit, Korrektheit, Wortschatzspektrum u. Ä. beziehen. Das Problem mit solchen zusammenhängenden Beschreibungen besteht darin, dass sie im konkreten Fall oft nur „teilweise" oder „mehr oder weniger" zutreffen, dass man also (bei Fremd- und Selbstbeurteilung) selten sagen kann „Diese Beschreibung trifft zu" oder „sie trifft nicht zu". Andere Skalen verwenden sehr allgemeine Formulierungen mit einer systematischen Variation von Formulierungselementen. Der Leser, der verstehen möchte, was denn für ein Niveau typisch ist, sieht sich vor einer Aufgabe wie bei Rätseln des Typs „Suche fünf Unterschiede in den Bildern". Ein extremes Beispiel sind die Beschreibungen im ESU- Framework. Die folgenden Anfänge von Beschreibungen aufeinander folgender Niveaus der Sprechfähigkeit zeigen die Problematik (Unterstreichungen nicht im Original): Handles moderate speech situations with good confidence and competence, but some problems with higher Level situations. Hand/ es moderate speech situations with adequate confidence and competence. Hand/ es simple speech situations with good confidence and competence, but some problems with moderate Level situations. Handles simple speech situations with adequate confidence and competence, but many oroblems with moderate Level situations. (Carroll/ West 1989: 28-29) Die Tendenz, Beschreibungen für verschiedene Niveaus möglichst gleichartig zu formulieren und nur einzelne Abstufungsmittel auszutauschen, ist in vielen Skalen zu beobachten. Hier ein Beispiel aus der Beschreibung der Leistungsmerkmale zum mündlichen Ausdruck (Spektrum) aus der TestDaF-Skala 8: Die Wahl der sprachlichen Mittel ist der Situation und dem Gesprächspartner angemessen. Die Wahl der sprachlichen Mittel ist der Situation und dem Gesprächspartner insgesamt angemessen. Die Wahl der sprachlichen Mittel ist der Situation und dem Gesprächspartner nicht immer angemessen. Man könnte sich fragen, ob solche Graduierungen (hier mit einer Null-Form) wirklich echte Niveauunterschiede repräsentieren. Vor allem aber nimmt man solche Beschreibunhttp: / / www.testdaf.de/ test/ stufen.html lFL11llL 30 (2001) Kompetenzbeschreibungen für das „Europäische Sprachenportfolio" 205 gen anders wahr, je nachdem ob man sie einzeln oder zusammen liest. Im letzteren Fall wird die Aufmerksamkeit des Lesers ganz auf die Abstufungen gelenkt (und er müsste eigentlich nicht jedes Mal den ganzen Satz lesen). Im Unterschied dazu fällt bei den Kompetenzbeschreibungen im Referenzrahmen und im Sprachenportfolio auf, dass sie verschieden lang und nicht immer nach dem gleichen Muster formuliert sind. Das ist zum Teil durch die Entstehungsgeschichte und die Herkunft der Beschreibungen aus Skalen mit unterschiedlichem Formulierungsstil begründet. Denn, wenn sich im Verlauf der Untersuchung ergab, dass eine Beschreibung den Benutzern etwas sagte und die Benutzer die Beschreibung gleich interpretiert und verwendet haben, dann wurde an der Formulierung eines kalibrierten Deskriptors möglichst nichts mehr geändert. Dass die Deskriptoren nicht alle nach dem gleichen Muster formuliert sind, ist aber auch gewollt und bringt einen nicht zu unterschätzenden Vorteil mit sich: Die Leser werden so angehalten, jede Aussage für sich und als Ganzes zu lesen. Es zwingt zu genauem Lesen der Beschreibungen, in denen Schlüsselmerkmale formuliert werden, die für das jeweilige Niveau charakteristisch sind, wobei in den Beschreibungen des Portfolios vielfach zur Verdeutlichung Beispiele angeführt werden. Zur Illustration des Gesagten werden hier die holistischen Beschreibungen aus dem Sprachenpass zur mündlichen Interaktion auf den Niveaus B 1 und B2 zitiert: Ich kann die meisten Situationen bewältigen, denen man aufReisen im Sprachgebiet begegnet. Ich kann ohne Vorbereitung an Gesprächen über Themen teilnehmen, die mir vertraut sind, die mich persönlich interessieren oder die sich aufThemen des Alltags wie Familie, Hobbys, Arbeit, Reisen, aktuelle Ereignisse beziehen. (B1) Ich kann mich so spontan und fließend verständigen, dass ein normales Gespräch mit einem Muttersprachler recht gut möglich ist. Ich kann mich in vertrauten Situationen aktiv an einer Diskussion beteiligen und meine Ansichten begründen und verteidigen. (B2) Alle Beschreibungen im Sprachenpcirtfolio sind positiv formuliert. Bei der qualitativen und quantitativen Validierung hatten sich die negativ formulierten Deskriptoren und Beschreibungen des Typs „Kann x, kann aber nicht y" als problematisch erwiesen. Deshalb gingen z. B. alle „Can Do"-Statements von ALTE, die in der ersten Phase des ALTE-Projekts alle nach diesem Muster formuliert worden waren, verloren. Inzwischen hat ALTE alle „Can Do"-Statements positiv umformuliert (Council of Europe 2001: 247). Abschließend werden hier die wichtigen Merkmale guter, d. h. "gut skalierbarer" und für das Sprachenportfolio geeigneter Niveaubeschreibungen noch einmal positiv formuliert zusammengefasst. Die Kompetenzbeschreibungen müssen folgende Bedingungen erfüllen: • sie machen für sich allein genommen Sinn; • sie ermöglichen eine Ja-/ Nein-Entscheidung; • ihre Interpretation ist nicht abhängig von anderen Beschreibungen des gleichen Niveaus; • ihre Interpretation ist nicht abhängig von Beschreibungen angrenzender Niveaus; • das Können ist positiv formuliert; lFLuL 30 (2001) 206 Günther Schneider • Unterschiede sind nicht nur erkennbar aus verbalen Abstufungen wie „kaum", "selten", "mehrfach"; • sie sind konkret, klar und kurz; • sie enthalten wenig Jargon/ Fachterminologie. 4. Kompetenzbeschreibungen anpassen und ergänzen Sprachenportfolios können Beschreibungen unterschiedlicher Art enthalten: Kompetenzbeschreibungen, Lernzielbeschreibungen, Beschreibungen von Lernstrategien oder Beschreibungen von Sprachlernerfahrungen und interkulturellen Erfahrungen. Es ist wichtig, einen klaren Unterschied zu machen zwischen 1. skalierten Deskriptoren, d. h. Beschreibungen, die zu einer Skala gehören, und 2. solchen Beschreibungen, die (noch) nicht skaliert sind und möglicherweise auch nicht skalierbar sind oder deren Skalierung für den Gebrauch im Portfolio nicht wichtig ist. Zur ersten Gruppe gehören z. B. die Deskriptoren im Raster zur Selbstbeurteilung und die Checklisten im Schweizer Portfolio, zur zweiten z.B. Listen von Lernstrategien oder Beschreibungen von kulturellen und interkulturellen Erfahrungen. Die folgenden Abschnitte gehen kurz auf einige Punkte ein, die bei der Anpassung und Ergänzung von Deskriptoren zu beachten sind und die ausführlicher in den Handreichungen für Portfolioentwickler behandelt werden (Schneider/ Lenz 2001: Kap. 6). 4.1 Instrumente mit Kompetenzbeschreibungen, die nicht geändert werden sollten Die Niveaubeschreibungen, die in verschiedenen Portfolios verwendet werden, basieren auf den Referenzniveaus des Gemeinsamen europäischen Referenzrahmens. The Common Reference Levels provide a common standards against which to reference the assessment of modern language attainment in different educational sectors, target languages, linguistic regions and states (North 1999: 25). Die Formulierung dieser Standards in der Globalskala und dem Raster zur Selbstbeurteilung sollten nur mit sehr gewichtigen Gründen, aufgrund von gründlichen Untersuchungen und in Absprache verändert werden. Es würde den Gebrauchswert erheblich beeinträchtigen, wenn Sprachenportfolios in Umlauf kämen, in denen die Referenzniveaus unterschiedlich formuliert wären. Allerdings gibt es auch gute Gründe für Veränderungen in der Formulierung der Niveaubeschreibungen. Denn die Niveaubeschreibungen müssen für die Benutzer der jeweiligen Portfolioversion zugänglich und verständlich sein. Daher ist z. B. für jüngere Lerner eine einfache und für ihre Erfahrungswelt zugeschnittene Umformulierung notwendig. 9 Wo eine Spezifizierung oder eine Anpassung an bestimmte Bereiche z. B. die 9 Über eine solche Anpassung der Deskriptoren für die Primarschule berichten Tagliante (2001: 57) und McLagan (1999; 2000). lFLlllL 30 (2001) Kompetenzbeschreibungen für das „Europäische Sprachenportfolio" 207 Beschreibung von Kompetenzen für die Sprachverwendung im Berufsbereich oder in Studium/ Ausbildung wünschenswert erscheint, ist es besser, zu den unveränderten Beschreibungen der Gemeinsamen Referenzniveaus zusätzliche adaptierte oder ergänzte Deskriptoren zu formulieren und diese neuen Deskriptoren den Referenzniveaus zuzuordnen. Die Deskriptoren in den Checklisten haben einen anderen Status als die Deskriptoren in der Globalskala und dem Raster zur Selbstbeurteilung. Die einzelnen Deskriptoren der Checklisten dienen als Indikatoren, die zeigen können, in welchem Maß jemand dem in der Niveaubeschreibung formulierten Standard entspricht (North 1999, 1: 25). Es sollte sich natürlich um möglichst typische und verlässliche Indikatoren handeln. Deshalb ist es vorzuziehen, auch für Checklisten außer wenn es um einen rein institutionsinternen Gebrauch geht -, solche Beschreibungen zu verwenden, die nicht nur intuitiv einem bestimmten Niveau zugeordnet wurden. Die meisten Kann-Beschreibungen in den Checklisten der Schweizer Version und der EAQUALS-ALTE-Version des Europäischen Sprachenportfolios sind leicht angepasste Deskriptoren, die für die Beispielskalen im Referenzrahmen skaliert wurden. 4.2 Quellen für die Formulierung von Kompetenzbeschreibungen Empirisch skalierte Deskriptoren stehen vor allem in den folgenden Sammlungen zur Verfügung: 1. Die Beispielskalen des Referenzrahmens: Dort ist jeweils vermerkt, mit welchen Verfahren die Deskriptoren skaliert wurden. Bei der Übernahme bzw. Anpassung von Deskriptoren aus den Beispielskalen in ein Portfolio ist jeweils zu prüfen, ob es sich dabei um Deskriptoren bzw. Skalen des Typs „constructor-oriented", "assessororiented" oder „user-oriented" handelt, um entscheiden zu können, zu welchem Zweck sie im Portfolio eingesetzt werden können. Außerdem ist zu prüfen, ob ein Deskriptor für die Selbsteinschätzung geeignet ist. Die Deskriptoren müssen für die Selbstbeurteilung in die „Ich-kann"-Form umgewandelt und teilweise auch vereinfacht werden (Council of Europe 2001; Europarat 2001). 2. Die Checklisten des Sprachenportfolios für Jugendliebe und Erwachsene (Schweizer Version und Version EAQUALS/ ALTE): Diese Deskriptoren wurden im Hinblick auf ihre Verwendung für die Selbsteinschätzung ausgewählt und adaptiert. Sie beruhen auf den Deskriptoren, die im Forschungsprojekt des Schweizerischen Nationalfonds en.twickelt wurden und in die Beispielskalen des Gemeinsamen europäischen Referenzrahmens Eingang gefunden haben. In den Checklisten zum Lesen und Schreiben sind auch Deskriptoren enthalten, die nicht mit aufwändigen statistischen Verfahren, sondern durch eine Reihe von Lehrer-Workshops den Niveaus zugeordnet wurden. Die Checklisten des Schweizer BSP liegen auf Deutsch, Englisch, Französisch und Italienisch vor (Schneider/ North/ Koch 2001). 3. Die DIALANG-Skalen in Anhang C des Referenzrahmens. Das EU-Projekt DIA- LANG, in dem für 14 Sprachen diagnostische Test- und Selbstbeurteilungsinstrumente JFL111L 30 (2001) 208 Günther Schneider für das Internet entwickelt werden, stützt sich auf den Referenzrahmen. Von vier neuen Deskriptoren abgesehen, wurden die über hundert Könnensbeschreibungen von DIALANG aus der englischen Version des Common European Framework übernommen, in die Ich-Form gesetzt, teilweise vereinfacht und in die anderen Sprachen übersetzt. Die Kalibrierung der Statements zur Selbstbeurteilung mit Hilfe einer Rasch-Analyse bestätigt die Skalierungen im Schweizer Forschungsprojekt. Die berichtete Korrelation ist mit .897 sehr hoch. Dazu wird angemerkt: "Wegen des sorgfältigen Übersetzungsverfahrens können wir mit Sicherheit annehmen, dass die Items zur Selbsteinschätzung im Großen und Ganzen in allen Sprachen äquivalent sind eine Annahme, die natürlich als Teil der anderen Kalibrierungsstudien getestet werden wird." (Europarat 2001: Anhang C) 4. Die Kann-Beschreibungen von ALTE in Anhang D des Referenzrahmens: Ein Vorteil der Skalen mit „Can Do"-Aussagen von ALTE liegt darin, dass die Skalen in Fassungen für die drei im Referenzrahmen des Europarats unterschiedenen Domänen vorliegen: 1. für das private und öffentliche Leben, 2. für die Arbeits- und Berufswelt und 3. für den Bildungsbereich (Schule, Ausbildung, Studium, Fortbildung). Die Schritte der Skalenentwicklung und der Verknüpfung der „Can Do"-Statements und Niveaus von ALTE mit dem Referenzrahmen des Europarats sind zusammenfassend im Anhang des Referenzrahmens beschrieben. Als Anker wurden erstens die Items aus dem „Raster zur Selbstbeurteilung" des Sprachenportfolios übernommen und zweitens solche Deskriptoren der Beispielskalen des Referenzrahmens, die im Schweizer Forschungsprojekt die Qualitätsstufe „ausgezeichnet" haben (vgl. Schneider/ North 2001: 81; 129-131). Dies sind Niveaubeschreibungen, die sich als ganz besonders konsistent und stabil erwiesen hatten. Dazu gehören vor allem Deskriptoren zur Flüssigkeit (Fluency). Die Untersuchungen von ALTE bestätigen die gute Niveaudifferenzierung durch die Beschreibungen im Raster 10 und ihre Eignung für die Selbsteinschätzung. Die „Can Do"-Statements liegen in den zwölf Sprachen der derzeitigen Mitglieder von ALTE vor (Europarat 2001: Anhang D). 5. Die Skalen im Forschungsbericht des Schweizer Nationalfondsprojekts (Schneider/ North 2000: 235-280): Die Anhänge V und VI enthalten alle Deskriptoren, die im Rahmen dieses Projekts erfolgreich skaliert werden konnten und dann in den Refe- 10 Eine solche empirische Bestätigung der Skalierung durch internationale Projekte wie die von ALTE und DIALANG (Europarat 2001: Anhänge C und D) ist im Hinblick auf eine breite Verwendung relevanter als Schreibtischanalysen. Eggensperger (2000) hat in einer Analyse versucht, die Niveaus von UNicert in Beziehung zu setzen zu den Referenzniveaus des Europarats. Er kritisiert dabei u. a., eine mangelnde Differenzierung der Niveaus Cl und C2. Das könnte von der Entstehungsgeschichte der Skalen her gesehen ein Schwachpunkt sein, denn im Schweizer Forschungsprojekt war die Zabl der Probanden für das höchste Niveau recht klein. Aber die bisherigen Erfabrungen zeigen, dass Lernende und Lehrende keine Schwierigkeit haben, die Kompetenzbeschreibungen den beiden Niveaus zuzuordnen. Seltsamerweise beachtet Eggensperger in seiner Argumentation gerade die niveauunterscheidenden Elemente nicht, z. B. "keinerlei Schwierigkeit" beim Hörverstehen, „mühelos" beim Leseverstehen, "auch feinere Bedeutungsnuancen genau ausdrücken", "reibungslos wieder ansetzen" oder „im Stil der jeweiligen Situation angemessen" beim Sprechen. Eggensperger fragt sich, ob "spontan' und ,fließend' skalierbare Kategorien" sind (S. 4). Empirisch hat sichauch im ALTE-Projekt gezeigt, dass gerade die Kategorie Flüssigkeit sich am allerbesten skalieren ließ. lFLlJllL 30 (2001) Kompetenzbeschreibungen für das „ Europäische Sprachenportfolio" 209 renzrahmen aufgenommen wurden. Dort findet man zusätzliche Informationen, die bei der Auswahl oder Anpassung von Deskriptoren hilfreich sein können. Das sind 1. Angaben zur Qualitätsstufe der einzelnen Deskriptoren (besonders stabile und unabhängig von Bildungssektor, Sprache usw. interpretierte Deskriptoren), 2. die Angabe, auf welcher Quelle, auf welchen anderen Skalen die Deskriptorformulierung beruht, 3. der mathematische Schwierigkeitswert jedes Deskriptors, 4. weitere statistische Werte zur Verwendung der Deskriptoren in zwei verschiedenen Untersuchungsjahren. Die Deskriptoren liegen in Anhang VI in englischer, französischer und deutscher Sprache vor. Auf Englisch sind diese Skalen mit den statistischen Informationen auch in North (2000: 358-415) enthalten. 6. Profile deutsch: In diesem Projekt werden die Niveaubeschreibungen für eine umfassende Lernzielbestimmung genutzt. Das trinationale Projekt ist eine Initiative des Goethe-Instituts und des Europarats zur Beschreibung der Niveaus Al bis B2. Im Zentrum stehen die Kompetenzbeschreibungen aus dem Referenzrahmen und dem Sprachenportfolio (Schweizer Version). Neu ist, dass hier erstmals auch Kann-Beschreibungen zur Sprachmittlung (Mediation) formuliert werden. Um die Verknüpfung mit den Referenzniveaus sicherzustellen wurden bei der Entwicklung dieser Kann-Beschreibungen Elemente aus den skalierten Deskriptoren für Rezeption, Produktion oder Interaktion in die neuen Items eingebaut. Die neuen Beschreibungen wurden jedoch noch nicht empirisch validiert. Eine interessante Weiterentwicklung besteht darin, dass die Könnensbeschreibungen zum einen mit einer Liste von Texttypen und zum anderen mit Beispielen von typischen Aufgaben aus dem Bereich des privaten und öffentlichen Lebens, dem Bereich der Arbeit und dem Bereich der Bildung verknüpft sind. Neben den Kann-Beschreibungen .zu den Niveaus Al bis B2 enthält Profile deutsch außerdem offene, nicht niveaugebundene Listen von Kommunikationsstrategien sowie von Lern- und Prüfungsstrategien (Glaboniat [et al.] 2001). 4.3 Deskriptoren anpassen und verändern Während es sich für die Entwicklung von manchen Portfolioversionen anbieten mag, bestehende Deskriptoren bzw. bestehende Checklisten ganz oder teilweise zu übernehmen, ist in anderen Fällen vielleicht eine Adaptierung wünschenswert. Anpassungen könnten vor allem motiviert sein durch den Wunsch, • Deskriptoren in einen bestimmten Kontext einzupassen, z.B. mit dem Curriculum zu verknüpfen (so im Portfolio für die Schulen in NRW (Brettmann [et. al.] 2000) ; • Deskriptoren auf bestimmte Verwendungsbereiche (z.B. Beruf, Studium) zuzuschneiden; Beispiele sind die vorsichtigen Anpassungen in „Arbeitsplatz Europa (DIHT 2001) und irri Portfolio-Entwurf für Universitäten (Forster-Vosicki 2000a, b) 1\ • Deskriptoren für bestimmte Benutzergruppen leichter verständlich zu machen; 11 In beiden Fällen beruht die Neuformulierung auf dem Urteil einer Gruppe von Spezialisten. Die Deskriptoren wurden aber (noch) nicht empirisch validiert. lFLIIJL 30 (2001) 210 Günther Schneider • feinere (engere) Niveaustufen zu unterscheiden (z.B. damit auch Lernfortschritte in kürzeren Zeitabschnitten sichtbar gemacht werden können); Beim Anpassen von vorhandenen, skalierten Deskriptoren bieten sich erfahrungsgemäss folgende Möglichkeiten an: • Zusammenfassen von zwei oder mehreren Deskriptoren; • Splitten von Deskriptoren, in denen mehr als eine kommunikative Aufgabe, mehr als ein Aspekt formuliert ist, in zwei oder mehrere Einzeldeskriptoren; • Spezifizieren durch Angabe des Verwendungsbereichs (z.B. kann „am Arbeitsplatz"); • Ergänzen der Formulierung durch ein oder mehrere Beispiele (Ich kann . .. "zum Beispiel im Restaurant"; "z.B. indem ich im Wörterbuch nachschlage" u. Ä); • Sprachliche Vereinfachung (Anpassung an eine Sprache, die für Kinder oder Lernende mit wenig schulischer Bildung verständlich ist); • Verbindung von skalierten Deskriptoren mit Formulierungen aus Lehrplänen oder anderen Skalen; • Zuweisung von Deskriptoren zu enger gefassten Niveaus innerhalb eines Referenzniveaus. Im Referenzrahmen sind Zwischengrenzen durch eine horizontale Linie markiert. Zusätzlich können die ermittelten Schwierigkeitswerte in North (2000) und Schneider/ North (2000) herangezogen werden; • Hinzufügen einer Skala mit Abstufungen wie „sehr gut/ gut/ ... " etc. oder „Das kann ich unter normalen Umständen" / "Das kann ich gut und leicht" (manchmal müssen dann Elemente aus der Deskriptorformulierung entfernt werden, die einer Abstufung entgegenstehen). Bei größeren Anpassungen sollte jeweils möglichst auch empirisch überprüft werden, ob sich der Schwierigkeitsgrad bzw. die Zuordnung zu einem bestimmten Niveau durch die Adaptierung verändert hat. Besonders beim Versuch, Formulierungen zu vereinfachen, besteht die Gefahr, dass die beschriebene Niveaustufe nicht gleich bleibt, sondern die sprachlich vereinfachte Beschreibung, wie in den folgenden Beispielen, als umfassender und anspruchsvoller verstanden werden kann. In den ursprünglichen Checklisten zum Portfolio (ESP CH und EAQUALS/ ALTE) lautet übereinstimmend mit der Formulierung im Framework ein Deskriptor zum Hörverstehen auf Niveau Al: I can understand questions and instructions adressed carefully and slowly to me and follow short, simple directions. Bei DIALANG und ähnlich auch im Portfolio für Schulen in Nordrhein-Westfalen wird die Einschränkung „adressed carefully und slowly to me" weggelassen und damit wahrscheinlich dieses unterste Niveau angehoben. Ähnliches gilt wahrscheinlich, wenn der auf Al kalibrierte Deskriptor „Ich kann Zahlen, Preisangaben und Uhrzeiten verstehen" (ESP-CH) verallgemeinert wird zu „Ich kann Angaben zu Ort, Zeit und Menge verstehen, wenn es sich um alltägliche Situationen und Tätigkeiten handelt" (ESP-NRW). lFJLIIL 30 (2001) Kompetenzbeschreibungen für das „Europäische Sprachenportfolio" 211 Zu vermeiden sind Vereinfachungen, bei denen nur noch die Aktivität ohne jegliche niveauspezifische Angabe erhalten bleibt, z. B. Original: Deskriptor im Raster (Sprachenpass) Problematische Vereinfachung B2 I can understand most TV news and current affairs I can understand films and docuprogrammes. I can understand the maiority of / Ums iJ1 mentaries standard dialect Eine andere Gefahr besteht darin, dass bei der Anpassung von Deskriptoren an den Lernkontext der Unterschied zwischen Achievement- und Proficiency-Assessment nicht beachtet wird. Im ESP-NRW finden sich z. B. Beschreibungen wie: Ich kann CD- und Kassettenaufnahmen folgen, wenn sie etwas mit dem zu tun haben, was wir im Unterricht besprochen haben. (Al) Ich kann die Texte und die Aufgaben im Lehrbuch verstehen. (Al) Ich kann Texte meiner Mitschülerinnen und Mitschüler verstehen und deren Inhalt kommentieren. (Bl) Solche Formulierungen machen für die Selbstbeurteilung in der Schule durchaus Sinn, denn innerhalb der Klasse gehört es zur gemeinsamen Erfahrung, was damit gemeint ist. Aber es sind typische Deskriptoren, die eindeutig nicht Indikatoren für ein bestimmtes Niveau sind, die daher den Lernenden auch nicht erlauben einzuschätzen, ob sie ein bestimmtes Referenzniveau erreicht haben, und die nicht für eine Information nach außen taugen. Solche Problemfälle würden schon mit ganz einfachen Methoden empirischer Überprüfung (z.B. Sortieren der Deskriptoren nach Niveaus) leicht identifiziert. 4.4 Nicht niveaubezogene Beschreibungen Die Instrumente mit skalierten Kompetenzbeschreibungen sind wichtige Elemente des Sprachenportfolios. Aber Kompetenzbeschreibungen dieser Art sind nicht die einzigen Mittel, um Sprachkönnen und kommunikative Erfahrung transparent zu machen, und sie sind nicht für alle Bereiche die tauglichsten. Daher werden in den Sprachenportfolios auch andere Mittel vorgeschlagen wie z.B. die Beschreibung von sprachlichen und interkulturellen Erfahrungen in einer Sprachbiografie und die Dokumentation durch ausgewählte eigene Arbeiten im Dossier. Man darf nicht vergessen, dass es wichtige Aspekte gibt, die nicht oder nicht notwendigerweise mit einem bestimmten Niveau der Sprachkompetenz verbunden sind. Dazu gehören beispielsweise Lernstrategien, soziokulturelles Wissen oder interkulturelle Kompetenzen. Beschreibungen oder auch Checklisten zu solchen Bereichen sollten auf keinen Fall aus Sprachenportfolios ausgeschlossen oder in der Arbeit mit dem Portfolio vernachlässigt werden, nur weil sie nicht skaliert und nicht in gleicher Weise Niveaus zugeordnet werden können wie die Beschreibungen der Sprachkompetenz. Das wäre eine Verkürzung, die weder dem umfassenden Ansatz des Referenzrahmens noch der gewollten Vielfalt des Sprachenportfolios entspricht. FlLILlL 30 (2001) 212 Günther Schneider Literatur ► Zitierte Sprachenportfolios 12 : DAVIS, Robin / NORTH, Brian / HIRTZEL, Marianne: European Language Portfolio. Ed. EAQUALS- ALTE. Online www.eaquals.org BRETTMANN, Hort/ GERLING, Ursula/ NIEWELER, Andreas/ THÜRMANN, Eike (2000): Europäisches Portfolio der Sprachen. Ed. LANDESINSTITUT FÜR SCHULE UND WEITERBILDUNG NORDRHEIN- WESTFALEN. Bönen: Verlag für Schule und Weiterbildung. Online www.learn-line.nrw.de/ angebote/ portfolio SCHNEIDER, Günther/ NORTH, Brian / KOCH, Leo (2001): Portfolio europeen des langues. Version pour jeunes et adultes - Europäisches Sprachenportfolio. Version für Jugendliche und Erwachsene - Portfolio europeo delle lingue. Versione per giovani e adulti-European Language Portfolio. Version for young people and adults. Ed.: SCHWEIZERISCHE KONFERENZ DER KANTONALEN ERZIEHUNGS- DIREKTOREN. Bern: Berner Lehrmittel- und Medienverlag. Online: www.sprachenportfolio.ch ► Andere Literatur ALDERSON, J. Charles (1991): "Bandsand Scores". In: Alderson / North (eds.): Language Testing in the 1990s: The Communicative Legacy. London: British Council / Macmillan, 71-86. AMERICAN COUNCIL ON THE TEACHING OF FOREIGN LANGUAGES (2000): "ACTFL Proficiency Guidelines - Speaking. Revised 1999". In: Foreign Language Annals, 33, 13-18. BACHMAN, Lyle F. (1990): Fundamental Considerations in Language Testing. Oxford: Oxford University Press. BACHMAN, Lyle F. / COHEN, Andrew D. (eds.) (1998): Interfaces between SecondLanguage Acquisition and Language Testing Research. Cambridge: Cambridge University Press(= Cambridge Applied Linguistics). BRINDLEY, Geoff (1998): "Describing Language Development? Rating Scalesand SLA". In: BACHMAN / COHEN(eds.) 1998, 112-140. BYRAM, Michael/ ZARATE, Genevieve / NEUNER, Gerhard (1997): Sociocultural Competence in Language Learning and Teaching. Studies towards a Common European Framework of Reference for Language Learning and Teaching. Strasbourg: Council ofEurope Publishing. CANALE, Michael (1983): "On some Dimensions ofLanguage Proficiency". In: OLLER, John W. Jr. (ed.): Issues in Language Testing Research. Rowley (Mass.): Newbury House, 333-342. CANALE, Michael/ Sw AIN, Merrill (1981 ): "A Theoretical Framework for Communicative Competence". In: PALMER, Adrian S. / GROOT, Peter J .M. / TROSPER, George A. (eds.): The Construct Validation of Tests ofCommunicative Competence. Washington D.C.: TESOL. CARROLL, Brendan J. / WEST, Richard (1989): ESU Framework. Performance Scales for English Language Examinations. Harlow: Longman. CLAPHAM, Caroline / CORSON, David (eds.) (1997): Encyclopedia of Language and Education, Volume 7: Language Testing and Assessment. Dordrecht: Kluwer Academic Publishers. CONSEIL DE L'EUROPE (2001): Un Cadre europeen commun de reference pour les langues: apprendre, enseigner, evaluer. Paris: Didier. 12 Eine aktualisierte Liste der verfügbaren und akkreditierten Sprachenportfolios und eine Link-Liste finden sich auf der Website des Europarats: http: / / culture2.coe.int/ portfolio JF[,11J][, 30 (2001) Kompetenzbeschreibungen für das „Europäische Sprachenportfolio" 213 COUNCIL OF EUROPE (1992): Transparency and Coherence in Language Learning in Europe: Objectives, Assessment and Certification. Symposium held in Rüschlikon, 10-16 November 1991. (Edited by North, Brian). Strasbourg: Council for Cultural Co-operation. COUNCIL OF EUROPE (2001): A Common European Framework of Reference for Languages: Learning, teaching, assessment. Cambridge: CUP. DIHT, DEUTSCHER INDUSTRIE- UND HANDELSTAG (2001): Arbeitsplatz Europa: Sprachkompetenz wird messbar. A Common European Framework of Reference for Language Learning und Teaching (CEF). Berlin: DIHT. EGGENSPERGER, Kad-Heinz (2000): Kompetenzbeschreibungen für das Lernen und Lehren von Fremdsprachen: Europarat und UN/ cert. Online http: / / pub.ub.uni-potsdam.de/ 2000/ 0007/ eggensp. pdf EUROPARAT (2001): Gemeinsamer europäischer Referenzrahmen für Sprachen: Lernen, lehren und beurteilen. Online: www.goethe.de "European Language Portfolio - Portfolio europeen des langues - Europäisches Sprachenportfolio - Portfolio europeo delle lingue-Portfolio europeic da las linguas". Babylonia. Spezialnummer 1999/ 1. „European Language Portfolio II - Das europäische Sprachenportfolio II - II Portfolio europeo delle lingue II - Portfolio europeen des langues II - II Portfolio europeic da las linguas II". Babylonia. Spezialnummer II: 2000/ 4. FULCHER, Glenn (1997): "The Testing of Spea: king in a Second Language". In: CLAPHAM / CORSON. (eds), 75-85. FORSTER-VOSICKI, Brigitte (2000a): "Das ESP im Hochschulbereich". In: Babylonia 4, 27-29. FORSTER-VOSICKI, Brigitte (2000b): Experimentation du Portfolio europeen des langues (PEL) dans le secteur de l' education superieure en Europe. Projet transnational du Conseil Europeen pour les Langues (CEL/ ELC). Rapport final. Online: http: / / www.fu-berlin.de/ elc/ elp_pel/ elp_en.pdf. GERLING, Ursula/ THÜRMANN, Eike (1999): "Das nordrhein-westfälische Portfolio der Sprachen für Schulen der Sekundarstufe I". In: Babylonia 1, 40---44. GLABONIAT, Manuela / MÜLLER, Martin / RUSCH, Paul / SCHMITZ, Helen / WERTENSCHLAG, Lukas (2001): Profile deutsch. Info-Broschüre und Demo-CD-ROM. München: Langenscheidt. LANTOLF, James P. / FRAWLEY, William (1985): "Oral Proficiency Testing: A Critical Analysis". In: The Modern Language Journal 69.4, 337-345. LANTOLF, James P. / FRAWLEY, William (1988): "Proficiency, Understanding the Construct". In: Studies in Second Language Acquisition 10.2, 181-196. LENZ, Peter (2000a): "Erfahrungen mit dem Europäischen Sprachenportfolio in der Schweiz". In: Babylonia 1, 23-28. LENZ, Peter (2000b ): "Der Beitrag von Erprobungen zur Portfolio-Entwicklung". In: Babylonia 4, 32-34. LINACRE, John M. (1992): FACETS: A Computer Program for the Analysis of Multi-Faceted Data. Chicago: MESA Press. LITTLE, David (1999): The European language portfolio and self-assessment. Strasbourg: Council of Europe, Document DECS/ EDU/ LANG(99) 30. LITTLE, David/ PERCLOVA, Radka (2001): The European Language Portfolio. Guide for Teachers and Teacher Trainers. Strasbourg: Council of Europe. MCLAGAN, Patricia (1999): "European Language Portfolio - Junior Version". In: Babylonia 1, 47-48. McLAGAN, Patricia (2000): "What do we think of the Junior European Language Portfolio? " In: Babylonia 4, 82-83. NORTH, Brian (1992): "European Language Portfolio: Some Options for a Working Approach to Design Scales for Proficiency". In: COUNCIL OF EUROPE (1992), 158-174. NORTH, Brian (1994): Scales of Language Proficiency. A Survey of some Existing Systems. Strasbourg: Council of Europe ( = Language Learning for European Citizenship). lFLIIL 30 (2001) 214 Günther Schneider NORTH, Brian (1999): "The European Common Reference Levels and the Portfolio". In: Babylonia 1, 25-28. NORTH, Brian (2000a): The Development of a Common Framework Scale of Language Proficiency. New York/ Bem: Peter Lang (Theoretical Studies in Second Language Acquisition; 8). NORTH, Brian (2000b): "Linking language assessments: an example in a low stakes context". In: System 28.4, 555-577. NORTH, Brian / SCHNEIDER, Günther (1998): "Scaling Descriptors for Language Proficiency Scales". In: Language Testing 15.2, 217-262. OSCARSON, Mats (2000): "Selbstbeurteilung im Fremdsprachenunterricht eine Utopie? " In: Babylonia 1, 19-22. PIENEMANN, Manfred/ JOHNSTON, Malcolm / BRINDLEY, Geoff (1988): "Constructing an Acquisitionbased Procedure for Second Language Assessment". In: Studies in Second Language Acquisition 10.2, 217-243. POLLITT, Alastair / MURRAY, Neil L. (1996): "What Raters Really Pay Attention to". In: MILANOVIC, Michael/ SAVILLE, Nick (eds.): Performance Testing, Cognition and Assessment: Cambridge: CUP (= Studies in Language Testing 3), 74-91. SCHÄRER, Rolf (2000): Final Report. European Language Portfolio. Pilot Project Phase 1998-2000. Strasbourg: Council of Europe. DVIV/ EDU/ LANG (2000)31. SCHNEIDER, Günther (1999a): Wozu ein Sprachenportfolio? Funktionen und Merkmale des Europäischen Sprachenportfolios (Schweizer Version). Online: http: / / www.unifr.ch/ ids/ Portfolio. SCHNEIDER, Günther (1999b): "Funktionen und wissenschaftliche Grundlagen der Kompetenzbeschreibungen im Sprachenportfolio". In: Babylonia 1, 29-33. SCHNEIDER, Günther (2000a): "Die Entwicklung der Schweizer Version des ESP". In: Babylonia 4, 15-20. SCHNEIDER, Günther (2000b): "Qualität zeigen. Fremdsprachenkenntnisse, Fremdsprachenlernen, Sprachenportfolio". In: TRIER, Uri Peter (ed.): Bilddungswirksamkeit zwischen Forschung und Politik. Nationales Forschungsprogramm 33, Wirksamkeit unserer Bildungssysteme. Chur, Zürich: Rüegger, 189-199. SCHNEIDER, Günther/ LENZ, Peter (2001): Guide for Developers of a European Language Portfolio. Strasbourg: Council of Europe. SCHNEIDER, Günther/ NORTH, Brian (1999): "In anderen Sprachen kann ich ... " - Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunikationsfähigkeit. Umsetzungsbericht. Bern, Aarau: Nationales Forschungsprogramm 33 (NFP33), Schweizerische Koordinationsstelle für Bildungsforschung (SKBF). SCHNEIDER, Günther/ NORTH, Brian (2000): Fremdsprachen können was heißt das? Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunikationsfähigkeit. Chur/ Zürich: Rüegger. TAGLIANTE, Christine (2000): "Mon premier Portfolio des langues. Bilan pratique de l'experimentation". In: Babylonia 4, 56-58. lFJLl.llL 30 (2001) Nicht-thematischer Teil 1 Franz Josef Hausmann• Kleine Lehre des imparfait Abstract. This paper gives a detailed account of the use of French imparf ait. lt is written from a hearer/ reader perspective. The approach emphasizes aspect. Nearly thirty typical contexts (called scenarios) are under examination. The underlying assumption is that all these scenarios are more or less related to the fundamental value of imparfait which is "passed permanence". As such imparfait is considered to be a sort of mimimum manifestation opposed to the maximum manifestation called event. French imparf ait offers a great variety of meanings on the basis of extreme morphological economy, such contributing to what we may call the "austerity" of the French language. 1. Unvollendete Sehweise im Deutschen und Englischen "Ich war gerade ( = zu einem bestimmten Zeitpunkt) beim Kartoffelschälen". Die Grammatiker sprechen angesichts solcher Konstruktionen von „Verlaufsform". Diese lässt den Vorgang zu einem bestimmten Zeitpunkt ohne zeitliche Begrenzung erscheinen. Der Sprecher stellt den Vorgang nicht als von außen gesehenes kompaktes Ereignis dar "Gestern habe ich eine Stunde lang Kartoffeln geschält"), sondern er versetzt sich in den Vorgang hinein, dessen Anfang und Ende im Moment nicht von Interesse sind. Die Verlaufsform ist Folge der unvollendeten Sehweise, denn Vorgänge können vollendet "Ich habe die Tür zugemacht") oder unvollendet "Gerade war ich dabei, die Tür zuzumachen, ...") gesehen werden. Da letztere von einer Zeitpunktsetzung abhängig ist, könnte man sie auch Zeitpunktsehweise nennen. Das englische Progressivum auf -ing ist eine solche Zeitpunktsehweise ("The train was leaving the station when I arrived"). Das französische Vergangenheitstempus der unvollendeten Sehweise ist das Imparfait (Comme jefermais la porte, un chat a bondi sur moi). Der grammatische Terminus für „Sehweise" ist Aspekt. Korrespondenzadresse: Prof. Dr. Franz Josef HAUSMANN, Univ.-Prof., Universität Erlangen-Nürnberg, Institut für Angewandte Sprachwissenschaft, Glückstrasse 5, 91054 ERLANGEN. E-mail: fzhausma@linguistik.uni-erlangen.de Arbeitsbereiche: Linguistische Französistik, Wörterbuchforschung. lFL111L 30 (2001) 216 Franz Josef Hausmann 2. Vergangenheit, Permanenz und Innensicht Das lmparfait ist das Tempus des vergangenen Zustands oder Vorgangs, der gleichzeitig aus der Gegenwart des Sprechers und von innen heraus, zu einem bestimmten Zeitpunkt unvollendet, andauernd gesehen wird. Es ist lateinisches Erbe und als solches auch im Italienischen, Spanischen und Portugiesischen wirksam. Zustand ist die Dauer des Undynamischen, Vorgang ist die Dauer des Dynamischen. Unabgeschlossen ist die Dauer, wenn ihre rechte und linke Begrenzung (Ende und Anfang) nicht gesetzt werden. (Je demenageais = Ich war mitten im Umzug). Bei rechter Begrenzung muss ein anderes Tempus gewählt werden (J' ai danse jusqu' a quatre heures). Auch bei der Setzung des Anfangs muss ein anderes Tempus gewählt werden (J' ai eu peur a partir du moment ou il m' a dit ... = Von dem Moment an bekam ich Angst). Mit depuis ist das Imparfait kompatibel (Je dansais depuis minuit), weil diese Nennung des Anfangs keinen Einfluß nimmt auf die Tatsache des Verlaufs zu einem späteren Zeitpunkt (z.B. a deux heures du matin). Wenn das lmparfait etwas als bereits angefangen darstellt, so geht dem die Anfangssetzung mit Hilfe anderer Tempora oder infiniter Verbformen voraus oder wird ungenannt vorausgesetzt. Die unabgeschlossene Dauer (von Zustand oder Vorgang) braucht einen Terminus; wir wollen sie Permanenz nennen. Das Imparfait ist das Tempus der vergangenen Permanenz. Das Imparfait hat zwei Bezugspunkte gleichzeitig. Einerseits bleibt der Sprecher in der Gegenwart, aus der heraus er spricht. Andererseits versetzt er sich zurück in das vergangene Geschehen, in den Handlungsablauf hinein. Sprecher und Hörer sind gleichsam dabei. Dieses Dabei-Sein nennen die Grammatiker Innensicht. Wer drinnen ist, hat wie in einem Wald keinen Überblick über das Ganze. Innensicht ist nicht global sondern partiell (Je demenageais = Ich war mitten im Durcheinander). Diese partielle Sehweise zu einem bestimmten Zeitpunkt ist verglichen worden mit einer horizontalen Linie (Zustands-, Verlaufslinie), die von einer Zeitpunktsekante geschnitten wird (französ. aspect secant): Hier, a la meme heure,je demenageais. Mit diesem Satz wird mitgeteilt, was der Sprecher zu einem bestimmten Zeitpunkt tat. Soll mitgeteilt werden, dass der Umzug zum Abschluss kam, ist das Imparfait ungeeignet (Hier, j' ai demenage). Die Bindung an Zeitpunkte macht verständlich, warum das Imparfait in der modernen Schriftsprache (Presse, Literatur) einen so breiten Raum einnimmt. Es bietet sich an, sobald ein Zeitpunkt explizit genannt ist oder aus dem Kontext hervorgeht. 3. Die Semantik (Aktionsart) der Verben Ihrer Semantik nach sind Zustandsverben, Handlungsverben und Ereignisverben zu unterscheiden. Zustandsverben wie savoir, avoir peur, etre riche, se douter de qch., s' abstenir de (fumer), eviter de (repondre), dependre de qch., se nommer (Jean), loger (a l' hotel) erkennt man daran, dass sie sich nicht mit der Verlaufsperiphrase etre en train de (faire) verbinden, weil der Zustand keinen Verlauf hat. Die Verbindung von Zustandsverb und Imparfait ist banal. lFJLwL 30 (2001) Kleine Lehre des imparfait 217 Verben wie danser, marcher, travailler, evoluer bezeichnen Handlungen oder Vorgänge, die keinem natürlichen Abschluss zustreben. Ihre Bedeutung ist dynamisch, ihre Dauer von Natur aus unabgeschlossen. Handlungsverben sind, wie die Zustandsverben, Permanenzverben. Die Verbindung von Permanenzlexem und Permanenzmorphem Imparfait ist banal. Den Permanenzverben gegenüber stehen Verben, deren Aktionsart auf Zustandsveränderung hinstrebt Solche sog. verbes transitionnels sind etwa naftre, mourir, entrer, sortir, arriver,partir,fermer, ouvrir, cammencer, terminer,finir, se marier. Sie beinhalten die Bewegung auf ein Ziel (deshalb auch telische, perfektive oder terminative Verben), d.h. den neuen, anderen Zustand, dessen Eintreten ihre Aktion beendet. Den Übergang von einem Zustand zu einem anderen neuen Zustand, das Eintreten, den Beginn eines neuen Zustands, nennen wir Ereignis. Verben wie naftre, tuer oder intervenir sind Ereignisverben. Sie verbinden sich auf natürliche Weise mit Ereignistempora, d.h. solchen, die Abgeschlossenheit der Zustandsveränderung ausdrücken: / l l' a tuee, Il la tua. Allerdings darf man sich die Aktionsart nicht starr vorstellen. Unter dem Druck von Tempusmorphem und Kontext ist die Bedeutung des Verbs verformbar. Mit Passe simple bedeutet savoir „erfahren"; im entsprechenden Kotext bedeutet se taire nicht „schweigen" sondern „verstummen". Auch Ereignisverben lassen sich vom Imparfait, wenn der Kontext es zulässt, ins Permanente zerdehnen: Il ouvrait la porte (; " die Tür war noch nicht ganz offen), lorsque ... Eine gewisse begrenzte Aspektfreiheit erlaubt dem Sprecher, das Konzept „Tür öffnen" als Ereignis oder als Permanenz zu formulieren. 4. Das Imparfait als minimale Manifestation Der Oberbegriff zu Permanenz und Ereignis sei Manifestation. Zustand und Verlauf (Situationen) sind gegenüber dem Ereignis minimale Manifestationen, Ereignisse sind maximale Manifestationen. Anders gesagt: Ereignisse sind mächtiger als Situationen. Das erklärt, warum das Imparfait allein keine Zeitsetzungen vornehmen kann es ist nicht autonom sondern von einer Zeitsetzung (einem zeitlichen Orientierungspunkt, französ. repere temporel) abhängt. Das Imparfait steht im Dienste von Setzungen (im Passe simple, Passe compose, im Präsens, usw. oder mit anderen Mitteln), die es zeitlich oder logisch umgibt und zu denen es in einer charakteristischen Beziehung steht, die vom Hörer/ Leser dem Kontext entsprechend interpretiert wird. Auch wenn es durch die Permanenz hindurch, die es bedeutet, offensichtlich abgeschlossene Ereignisse bezeichnet, bleibt der Abhängigkeitscharakter bestehen. Die Ereignisse, die es bezeichnet, werden damit in irgend einer Weise als Unterereignisse gewertet. Das Imparfait ist das Tempus des vergangenen Nicht-Ereignisses und des vergangenen Unter-Ereignisses. FlLILIL 30 (2001) 218 Franz Josef Hausmann 5. Forschungssituation und Szenarienbeschreibung Die aspektuelle Erklärung des Imparfait als eines Permanenztempus ist die älteste und verbreitetste. Es gibt zu ihr keine Alternative. Gelegentliche Polemiken gegen sie beruhen auf Missverständnissen. So darf man dem Imparfait z.B. nicht einfach das Merkmal der Dauer (statt Permanenz) zuschreiben, sonst wundert man sich über den Satz La guerre dura cent ans und darüber, dass das Verb durer sogar meist mit Ereignistempora verknüpft wird, weil es darum geht, einen Zeitraum zu bestimmen (dura dix ans, dura de ... g ... ). Andererseits ist die Polemik gegen die Aspektlehre (wie auch jeder weitere nicht unmittelbar an die Aspektlehre geknüpfte Versuch der Erklärung des Imparfait) verständlich, weil unter den zahlreichen Gebrauchsweisen des Imparfait viele nicht auf Anhieb als aspektuell erklärbar erscheinen. Hier eben liegt die Herausforderung: alle bekannten Verwendungen des Imparfait aus der aspektuellen Grundbedeutung „vergangene Permanenz" abzuleiten. Dazu ist es nötig, die verschiedenen Szenarien vorzuführen, in denen sich die Bedeutung des Imparfait entfaltet. Szenario heißt hier die Einheit von Verb, Ko-Text und Kontext (samt Weltwissen), vor allem aber die ko-textuelle oder kontextuelle Einheit von Imparfaitverb und zeitsetzendem Element (repere temporel). Das zeitsetzende Element, von dem das Imparfait abhängig ist, kann man auch seine Basis nennen. Syntaktisch gesehen kann das Imparfait der Basis voraufgehen: Je lisais. On sonne, oder der Basis folgen: « Jen' ai pas peur ». Il mentait. Die im folgenden vorgenommene Trennung und Typologisierung der Szenarien ist künstlich und Folge linguistischer Konstruktion. In der Wirklichkeit der Sprache gehen die Szenarien ineinander über. Manchmal überlagern sie sich auch, d.h. ein und derselbe Kontext gehorcht den Kriterien mehrerer Szenarien. Dennoch muss die Szenarienbeschreibung sein. Es gibt keine andere didaktische Möglichkeit, dem Fremdsprachler das Gesamt des Imparfait-Gebrauchs in seiner kognitiven Einheit wirksam vorzustellen. Der Muttersprachenerwerb geht nicht anders vor sich als durch die progressive Assimilation von Szenarien, d.h. relevanten Kontexten. An der Sichtung der Kontexte führt schon in der Lexikologie, erst recht aber in der Morphologie, wenn die Morpheme semantisiert werden sollen, kein Weg vorbei. Abstrakte Definitionen des Imparfait vom Typ „Nicht-Aktualität", "Simultaneität", "Hintergrund", „Topikalisierung", "Anaphorik", "Durativität", "Imperfektivität", sind alle richtig; keine führt aber zur angemessenen Interpretation aller Verwendungsweisen und schon gar nicht zum angemessenen Einsatz in der Textproduktion. 6. Stativierung und Gewohnheit Das Stativierungsszenario überführt Vorgangsverben/ Ereignisverben wie tomber und emerger in Zustandsverben: Un rayon de so/ eil tombait par lafenetre, Son cou emergeait de sa pelerine, da der Kontext eine andere Interpretation als die zuständliche verhindert. Man beachte, dass das Merkmal der Plötzlichkeit mit dem Zustand sehr wohl vereinbar lFLIIL 30 (2001) Kleine Lehre des imparfait 219 ist: Soudain,j' etais riche, Je comprenais soudain que ... (= Plötzlich war mir klar, dass ich ...). Gewohnheit manifestiert sich als Permanenz, als entwicklungslose Abfolge immer gleicher Ereignisse, vorausgesetzt, die Wiederholung ist unabgeschlossen: Autrefois, je sortais / souvent / quelquefois / regulierement / trois Jois par semaine. Eine fest umrissene Zahl von Wiederholungen ist keine Permanenz: ll m' a menti trois Jois/ plusieurs Jois/ a plusieurs reprises / tous ! es jours sauf un / longtemps. 7. Die Verlaufsszenarien Beim Verlaufsszenario versetzt sich der Sprecher in das Ereignis hinein und erlebt es noch einmal mit. Dazu muss es absolut oder relativ datiert sein. Es ist dann, auch mündlich, völlig natürlich (J' arrivais = Ich kam gerade an). Überraschend ist das häufige Imparfait des Anfang setzenden Verbs commencer, das man als allmähliches, unmerkliches Einsetzen erklären muss (Ne commem; ; ait-il pas a se repeter un peu ? =Finger nicht langsam an, irgendwie immer wieder dasselbe zu sagen? ). Entsprechend selten steht neben commenr; ; ait das Adverb lentement, da das Imparfait bereits 'lentement' bedeutet. Das expliziteste der Verlaufsszenarien ist das sog. Inzidenzschema. Handlungs- oder Ereignisverben werden zur Permanenz zerdehnt, in die ein Ereignis hineinplatzt: Je sortais de ma baignoire. Tout a coup une explosion. Es ist allerdings nicht ratsam, dem Inzidenzakt (als Sekante) eine Geschehensbasis im Imparfait gegenüberzustellen, denn in Wahrheit ist ja das Inzidenzgeschehen das autonome Ereignis (Basis), auf das hin das Imparfait gewählt wurde. Die Inzidenz lässt sich auch als partielle Simultaneität interpretieren, namentlich wenn sie durch die Konjunktionen comme, tandis que,pendant que, au moment ou, a l'instant ou markiert ist: comme ils sortaient, voila qu' on lui presenta ... Neben der partiellen Simultaneität steht die kontinuierliche, die mit identischen Tempora ausgedrückt wird: Comme je raccrochais le recepteur, mon valet de chambre introduisait Jean Queyris (Mauriac). Dieses eigentliche Simultaneitätsszenario (z.B. auch mit amesure que) ist vom Inzidenzszenario geschieden. Man beachte, dass das Imparfait durch Ereignistempora ersetzt werden muss, wenn Begrenzung formuliert ist: Et tout le temps qu' il fut dans sa chambre, eile ne cessa de le suivre des yeux. Besondere Aufmerksamkeit verdient das Simultaneitätsszenario, wenn es, wie in der Literatur, ohne weitere Gleichzeitigkeitssignale eingesetzt wird. Das einzige Signal für Simultaneität ist dann das Imparfaitmorphem: « Vous devriezfaire une sieste ». Et eile me designait un grand matelas pneumatique. (Modiano). Das Imparfait bedeutet die Gleichzeitigkeit von Sagen und Zeigen "und dabei zeigte sie auf ..."). Der Anfang des Zeigens ist somit bereits durch die wörtliche Rede gesetzt. Das Erinnerungsszenario (mit genauer Zeitangabe) inszeniert die Rückversetzung in ein vergangenes Geschehen, das noch einmal in der Phantasie miterlebt wird: lt y a un an, jour pour jour, a la meme heure, je me mariais / je quittais ma femme (= sehe ich mich noch, wie ich gerade ...). Das ist etwas ganz anderes als die Antwort auf die Frage: lFLllL 30 (2001) 220 Franz Josef Hausmann Wann hast Du geheiratet? Bist Du verheiratet? , die mit Passe compose gegeben würde: Je me suis marie il y a un an. Statt dieser trockenen Information verweilt das Permanenztempus gefühlsbetont bei dem erlebten Augenblick. Auch und gerade mündlich zerdehnt dieses Szenario jedes Ereignisverb zur Permanenz. Die Wirkung wird mit „Zeitlupe" und „Fokussierung" beschrieben. Das Erinnerungsszenario ist ein Schlüsselszenario, von dem sich mancherlei Brücken schlagen lassen zu anderen unten beschriebenen Szenarien. Das Gedenkszenario überträgt das Tempus der persönlichen Erinnerung auf die Textsorte des Gedenktextes, d.h. der öffentlichen kollektiven Erinnerung: Il y a trente ans, de Gaulle devenait president de la Republique (Le Monde 21.12.1988, Überschrift). Ebenso als Gedenkanzeige: Il y a vingt ans, N. nous quittait (Le Monde 27.8.2000). Muller (1966: 265) spricht vom Imparfait des anniversaires (« devenu a peu pres inevitable dans les titres [des journaux] » ), Vigneron (1999: 38) nicht zu Unrecht vom Imparf ait commemoratif. Im Falle des il y a-Szenarios ist übrigens das Passe simple selten und Salins (1996: 142) behauptet sogar die Unvereinbarkeit von il y a und Passe simple, weil il y a zum Hie et Nunc des Sprechers gehört, von dem das Passe simple strikt getrennt ist. In der Tat kommt naquit in Zeitungsüberschriften vor allem in undatierten Kontexten vor (Quand l'Europe naquit. / Comment la vie naquit des catastrophes naturelles) und der typische Kontext von mourut ist die sachliche Information: / l / eile mourut a l' age de x ans. Auch das Gedenkszenario antwortet nicht auf die Frage „Wann? " oder „ob überhaupt", es antwortet auf gar keine Frage. Es will nicht informieren, sondern erinnern. Der Aspekt des Verlaufs kommt hier nicht zur Entfaltung, was sich in der Skripturalität des Szenarios niederschlägt. Aber der Aspekt hat seine Spuren hinterlassen in Form des Bedeutungsvollen, eventuell Dramatischen, das dem Gedenkereignis innewohnt. Zweifellos kann man das Sagen, Erzählen von Etwas als Ereignis formulieren (Je me suis dit : .... oder Vous avez dit : ...) und manchmal muss man es sogar: Vous avez dit oui oder bei linearer Abfolge des Typs: Zuerst sagte er dies, dann folgendes, schließlich jenes. Aber auffällig oft steht das Verbum dicendi im Imparfait und dies seit dem Lateinischen: Je lui en parlais encore ce matinl Nathalie racontait (l' autre Jour) que ... / Vous savez que M. Dupont a telephone ? - Oui, Regine le disait I Je pensais ce matin a notre ancien voisin. Il nous a quand meme beaucoup aides. Die Erklärung für dieses disait- Szenario liegt in der Permanenz des Sagens und Erzählens. Wer ein Redeeinleitungsverb benutzt, überschaut im Moment der Tempuswahl nicht global das gesamte Zitat mit Ende und Begrenzung nach rechts und er will auch nicht den Anfang des Sprechakts markieren, sondern er versetzt sich erst einmal zurück in den Moment des Sagens und entwickelt dann das Gesagte. Der Effekt ist der von „Nathalie war neulich am Erzählen, dass ...", was freilich im Deutschen nicht üblich ist, was aber plausibel machen kann, dass es hier um Erinnerung geht, um Evokation von Vergangenem und nicht um lineare Ereignisabfolge als Antwort auf eine gezielte Frage. Ähnlich sagt man im Englischen: Your brother was telling me yesterday ... (Biber 2000: 1120 f) . Das disait-Szenario hat etliche Unterszenarien, die hier nicht behandelt werden können, z.B. Vous disiez que ... (= Sie sagten soeben, dass ... [mit weicher Anrede]) oder lFJLlJ]]L 30 (2001) Kleine Lehre des imparfait 221 Tu disais? (= Was sagtest Du noch gerade (bevor wir unterbrochen wurden)? Oder auch Que ne le disiez-vous ? . Sie sind alle aspektuell transparent. Das lateinische Imperfectum de conatu überlebt im Italienischen als rimasto imperfetto und im Französischen als Presque-Parfait: Je mourais de rire (= Ich hätte mich fast totgelacht). Der Beinahe-Effekt ist leicht aus der Unvollendetheit des Verlaufsaspekts zu rekonstruieren: "Ich war am Sterben vor lachen''; In gleicher Weise müssen die periphrastischen Szenarien Allait-il rencontrer Alain? und Je venais de le rencontrer als Zustand interpretiert werden: War er beim Auf-das- Treffen-Zugehen? Und: Ich war beim Vom-Treffen-Kommen. Folglich sind die Ereignistempora ausgeschlossen. 8. Die Inhaltsszenarien Ein Stativierungsszenario besonderer Art ist die Wiedergabe der Vorgänge auf einem stehenden Bild (Foto, Gemälde): N. vit une photo: Un des policiers assenait un coup de matraque sur la tete d' un Arabe ( = war gerade dabei ...). Das Foto lässt das Ereignis zum Zustand erstarren. Die Handlung wird mitten im Verlauf erfasst. Die Aufnahme erfüllt die Rolle der Sekante. Auch für die Erzählung von Traumgeschehen ist das Imparfait seit dem Altfranzösischen das bevorzugte Mittel: Cette nuit, j' ai reve que j' etais le dompteur J ekill et son lion Hyde. Je rentrais dans la cage aux fauves dans la peau du dompteur et j' en sortais dans celle du lion (R. Devos). Der Effekt des Traumszenarios ist anders als im Fotoszenario. Die einmaligen Ereignisse des Traums erhalten durch das Tempus der minimalen Manifestation eine Art eingeschränkter Gültigkeit und über die Permanenz etwas statisch Visuelles, dabei konturenlos Entgrenztes. Vom Traum ist nur ein Schritt zum Tagtraum, zur Halluzination. Ein moderner Erzähler, der an zahlreichen Stellen seines Romans scheinbar unmotiviert zu Imparfait- Serien von Ereignisverben übergeht, tut dies in Befolgung der zweimal an herausgehobener Stelle angebrachten Einschätzung: Le monde est une hallucination passagere (P. Deville, Lefeu d' artifice, 1992, 9 und 150). Der Inhalt eines Textdokuments wird, wenn in der Vergangenheit, im Imparfait wiedergegeben: J' avais ret; u une lettre du comte. Il me remerciait de la joie que lui avait donnee ... Bei der Inhaltswiedergabe fallen der Akt der Niederschrift/ Anfertigung und der Akt der Wahrnehmung auseinander. Wahrgenommen wird nicht das Ereignis, sondern das dokumentarisch fixierte Resultat dieses Ereignisses, also etwas Zuständliches. Ein Fall von versetzter mediatisierter Wahrnehmung liegt auch dann vor, wenn in einem hochliterarischen Szenario der auktoriale Erzähler einen Beobachter in Szene setzt und Ereignisse erzählt, die sich unter dessen Augen abspielen. In diesem Falle signalisiert das Imparfait (traversaient,franchissaient, atteignaient,frappait, se penchait), dass das Geschehen durch die Brille und das Bewusstsein des Beobachters erzählt wird, dass gleichsam nicht das Ereignis sondern die Wahrnehmung des Ereignisses erzählt wird. Derlei findet sich oft bei Simenon, in besonders expliziter Form zu Beginn von L'Homme FJLIIL 30 (2001) 222 Franz Josef Hausmann de Londres. Das Imparfait als minimale Manifestation nimmt dem Ereignis einen Teil seiner Unmittelbarkeit. Das Imparfait als Permanenztempus erhöht den visuellen Effekt. Man hat deshalb auch von Kameraszenario gesprochen (Sthioul in Moeschler 1998). Im Szenario der indirekten Rede kann das abhängige Verb bei Gleichzeitigkeit weder im Passe simple noch im Passe compose stehen: Elle m' a dit qu' eile etait maladelqu' eile s' excusaitlqu' eile sortait du bain / *qu' eile s' excusa / qu' eile s' est excusee = die Entschuldigung hat stattgefunden. Die zugrundeliegende Gesetzmäßigkeit ist von Gosselin (1996: 86) so formuliert worden: Der Sprecher kann einen zu seiner Wahrnehmung simultanen Prozess nicht global (d.h. mit Anfangs- und Endbegrenzung) sehen. Wenn, wie oben, das Sagen und die Entschuldigung identisch sind, dann darf für die Entschuldigung kein zweites Ereignis gesetzt werden. Anders wenn die Entschuldigung bereits stattgefunden hat: dann sind zwei Ereignisse möglich, das Sagen und das Tun. In den Bereich der indirekten Rede gehört wohl auch das kuriose Szenario der Spielvereinbarung unter Kindern, das auch für das Spanische und Italienische nachgewiesen ist: On va jouer au papa et a la maman, hein ! Moi, j' etais le papa et toi tu etais la maman. Diese Ausdrucksweise wird verständlich, wenn man sie als abgeleitete Kurzform folgender Langform mit dem Vereinbarungsverb dire auffasst: "... Mai, on disait que j'etais le papa ...". Für eine literarische Auswertung vgl. Christian Bobin (La/ olle allure, 1995: 80 [ed. Folio, p. 102]): « Ce metier m'amuse autant que de jouer a la dinette on disait que tu etais la diente et que j 'etais la vendeuse. Le mariage aussi ressemble a la dinette: On disait que tu etais le mari et que j'etais l'epouse ». Die Vereinbarung fiktiv in die Vergangenheit zu verlegen, obwohl sie gerade erst getroffen wird, bleibt zwar erklärungsbedürftig, erinnert aber an das Imparfait nach si: Onfait comme si on disait ... Wegen der Nähe zur indirekten Rede ist der Gebrauch des Imparfait in der erlebten Rede wenig verwunderlich: Elle s' excusait. Elle avait du monde = Je m' excuse. J' ai du monde = Elle m' a dit qu' eile s' excusait, qu' elle avait du monde. Wiederum geht es nicht darum, das Ereignis der Entschuldigung wiederzugeben, sondern den Inhalt einer Äußerung. In das Szenario der erlebten Rede gehört auch das berühmte lmparfait hypocoristique (/ l avait des pupuces, le chienchien! = Ach Gott, hat das Hundchen Flöhe? ). Die Vergangenheitsform wird plausibel, wenn man annimmt, dass der Sprecher/ die Sprecherin nur wiederholt, was der Betroffene (das Kind/ der Hund) sich selbst bereits sagte oder empfand (aber nicht aussprechen kann): Ich leide unter Flöhen. Il avait des pupuces heißt dann: Du sagtes Dir: Ich habe Flöhe = Du hattest Flöhe = Du hast Flöhe (Le Goffic 1995: 145). 9. Die Kommentarszenarien Im Szenario der logischen Simultaneität (Le chancelier Kohl, en sacrifiant le Mark, cedait ce qu'il avait de mieux) koinzidieren die beiden Vorgänge (Opferung der Mark und Hergeben des Kostbarsten) nicht nur, sie sind identisch. Aber sie sind unter zweierlei Sehweisen gesehen. Die erste Sehweise präsentiert das allen bekannte Ereignis, die JFLIIL 30 (2001) Kleine Lehre des imparfait 223 zweite analysiert dieses Ereignis, kommentiert es, zeigt es in einem nicht allen bekannten Licht. Die logische Simultaneität macht die Wahl des Imparfait möglich, denn der Anfang braucht bei ceder nicht gesetzt zu werden, da er vom Gerondif bereits gesetzt ist. Der Unterschied zum ebenfalls möglichen Passe compose liegt im relativ entspannten, erzählenden Charakter des Imparfait, während das Passe compose, um mit Weinrich (1994) zu sprechen, besprechenden Charakter hätte, d.h. den eines sehr engagierten, die eigene Person berührenden Kommentars. (Dass Weinrichs „besprochene Welt" in der französischen Fassung schlichtweg mit commentaire, statt commentaire engage, übersetzt wurde, war ein schwerer Fehler). Michaela Krell (2000) hat das in der Zeitung nicht seltene analytische Szenario untersucht und herausgefunden, dass es neben dem gerondif- Szenario eine Fülle weiterer Unter-Szenarien gibt, in denen abstrakte Ereignisverben im Imparfait stehen können. Dabei wird die logische Simultaneität hergestellt durch Konnektoren wie ainsi, donc, du coup, durch präpositionale Anaphern wie avec ce + N, dans ce + N oder auch ohne jede syntaktische Markierung, rein durch die anaphorische Abfolge der Sätze: Sa these ... .fut publiee en 1986 .... Elle revelait un erudit qui ... Das Kommentarszenario ohne weitere syntaktische Markierung findet sich häufig in der Literatur, z.B. dann, wenn eine wörtliche Rede anschließend vom Autor oder vom Sprecher erzählend analysiert wird: ll faisait allusion a ... / Je ne mentais qu' a demi / Elle le prenait a temoin. Nur kurz erwähnen wollen wir das kausale Kommentarszenario (mit puisque, kausalem comme usw.). Die Beschränkung auf das In-Augenschein-Nehmen des Ereignisses ist ebenso charakteristisch für das prospektive Szenario: Ensuite, il afallu acheter une valise pour Pierre qui partait le lendemain pour le college (= ... für Pierre, dessen Abreise ins Internat für den anderen Tag angesetzt war). Stünde in diesem Satz das Ereignisverb partir mit einem Ereignistempus, z.B. qui est parti le lendemain ... , so würde die Abfolge zweier Ereignisse erzählt und wir wären am Ende des Satzes bereits bei der Erzählung des Abfahrtstages angekommen. Das ist aber nicht die Absicht des Erzählers, der für den Tag des Kofferkaufs noch andere Ereignisse zu erzählen hat und die Vorausschau auf den Abreisetag nur unternimmt, um den Kofferkauf zu motivieren. Folglich verweigert der Erzähler das Ereignistempus und wählt das Permanenztempus. Damit gibt er dem Ereignis der Abfahrt etwas unabgeschlossen Zuständliches, das den Kofferkauf zeitlich umschließt. Die bevorstehende Abfahrt ist (als Gedanke, Projekt) vor dem Kofferkauf mental präsent, während und nach. Diese Ko-Präsenz wird vom Leser unweigerlich als Erklärung für den Kofferkauf interpretiert. Er versteht, dass ihm hier ein Ereignis erzählt (der Kofferkauf) und das Motiv dazu geliefert wird. Dieses beinhaltet zwar ein anderes Ereignis (Abreise ins Internat), das wird aber hier nur evoziert, nicht zum Eintreten gebracht. Zwar wird in diesem Szenario kein Verlauf aktualisiert, doch wirkt sich die Permanenz streckend aus, so dass das Ereignis in die mentale Vorbereitungszeit hineinreicht. Die Ko-Präsenz des Projekts oder des Termins, die man lange vorher im Auge hat, ist auch dafür verantwortlich, dass das Imparfait mit Zukunftsadverbien verbunden werden kann: "Mist! Nächsten Sonntag hatten wir doch schon einen Termin in Reims" = Zut ! Dimanche prochain, il y avait un petit marathon sympa a Reims. Da das Imparfait das Ereignis nicht lFLlllllL 30 (2001) 224 Franz Josef Hausmann zum Eintreten bringt, gibt es auch keinen Widerspruch zwischen Vergangenheit und Zukunft in diesem futurischen Szenario. Dem prospektiven gegenüber steht das retrospektive Szenario, das ein Höflichkeitsszenario ist: "Der Metzger wendet sich an eine Kundin": - Et cette dame, qu' est-ce qu' elle voulait? / (Der Nachbar steht vor der Tür: )-Je venais vous demander si vous ne pourriez pas baisser un peu le son. Die Wahl der Vergangenheitsform, die man als sprachliche Universalie betrachten kann, ist nicht unlogisch, denn Wille, Wunsch und Annäherung reichen mehr oder weniger weit in die Vergangenheit zurück und sind zum Jetztzeitpunkt nicht abgeschlossen, sondern weiterhin gültig. Der Metzger gibt laut Berthonneau/ Kleiber (1994: 74ff) zu erkennen, dass er die Kundin schon während ihres Wartens in der Schlange bedauernd wahrgenommen hat, womit er sich für das Warten entschuldigt, und der Nachbar vor der Tür lässt durchblicken, dass er sich schon vor dem Zusammentreffen psychologisch auf das Zusammentreffen vorbereitet hat (vgl. Touratier 1996: 139). Gleichzeitig vermeidet das Imparfait die performative Direktheit, Aufdringlichkeit, Aggressivität durch zeitliche Rückverlagerung (im ersten Beispiel zusätzlich durch Ausweichen in die 3. Person). Im Dialog muss sich der Sprecher vor illokutiver Falschinterpretation schützen. Wenn jemand außer Atem so gerade noch den Aufzug erreicht, dann sagt man nicht: Vous etes presse, was als Vorwurf ausgelegt werden könnte (Vous etes bien presse wäre noch ungehöriger), sondern man sagt mitfühlend: Vous etiez presse (eventuell mit ironischem Unterton). In-Augenschein-Nahme in Reinform findet sich in der irrealen Hypothese, als Gegenwartshypothese (Si je gagnais plus, jene serais pas ici) oder als Vergangenheitshypothese (S'il avait plu,je serais parti). Es braucht deshalb eigentlich nicht zu verwundern, dass sowohl in den beiden wenn-Komponenten (Bedingungsteil) wie in den beiden Dann-Komponenten (Folgeteil) das Imparfait gewählt werden kann bzw. gar muss. Dabei ergibt sich eine zwar nicht vollständige, aber doch weitreichende Austauschbarkeit mit dem Conditionnel bzw. dem Conditionnel passe, die auch im Italienischen, Spanischen und vor allem im Portugiesischen (im einzelnen unterschiedlich) produktiv ist und die auch im Deutschen nicht ganz fehlt. Seit dem 6. Jahrhundert wird im Französischen die aktuelle Bedingung als schon eingetreten dargestellt „um dem Hörer die daraus folgenden Konsequenzen besser klar machen zu können" (E. Lerch). Aus heutiger Sicht fügt sich der Nicht-Aktualisierungseffekt der Permanenz nahtlos in das hypothetische Schema. (Das Verbot des Conditionnel an dieser Stelle ist allerdings als Fossil zu werten). Auch für die Dann-Komponente der Gegenwartshypothese steht (seltener) das Imparfait zur Verfügung: S'il avait de l' argent, il achetait une Mercedes 560 SEL (Riegel [et al.] 1999: 309). Hier, aber vor allem in der Vergangenheitshypothese unterstreicht das Imparfait die Unweigerlichkeit der Folge (ejfet de causalite plus stricte bei Riegel): S'il s' etait represente, il etait reelu sans probleme (Nouvel Observateur, Zitat)/ 1l pleuvait,je partais dans le midi. Allerdings ist diese Folge irreal, eine nur ins Auge gefasste Eventualität (imminence contrecarree): Un pas de plus et je tombais / Sans toi,je tirais / Sans l' agrement ministeriel, nous mettions la cle sous la porte (Le Monde 1.9.00, S. 9). Auch im Deutschen ist dieses Verfahren nicht unmöglich: "Ein Schritt weiter, und du warst ein lFLllL 30 (2001) Kleine Lehre des imparfait 225 toter Mann/ und ich schoss dich nieder". Schließlich erscheint das lmparfait in der Wenn-Komponente der Vergangenheitshypothese in einer asyndetischen Konstruktion (/ l pleuvait,je partais), die zur asyndetischen Conditionnel passe-Hypothese parallel ist: / l aurait plu, je serais parti (vgl. auch deutsch: "So ich schoss, war er tot"). ln-Augenschein-Nahme ohne Setzung des Ereignisses ist auch die Leistung des Imparfait im Kontrastszenario: L' annee derniere,je demenageais pour 1000 F, maintenant cela me coute le double. Hier geht es nicht um die informative Mitteilung, dass für eine bestimmte Summe umgezogen wurde, das wird vorausgesetzt-; sondern es geht um die Nutzung dieses Faktums als Argument in einer zweiteiligen Argumentation. Der Paradoxcharakter schweißt diese Argumentationssequenz zusammen, ebenso wie die Kontrastierung von Vergangenheit und Gegenwart. In diesem stark gebundenen Szenario steht der Imparfait-Teil ganz im Dienste der Argumentation, während der Präsensteil zusätzlich die Argumentation im Hier und Heute des Sprechers verankert. Dazu wäre das Imparfait nicht fähig, so wenig übrigens, dass der Satz mehrdeutig ist. Ob der Sprecher im Jahr zuvor überhaupt umgezogen ist oder aber diese Summe für den Fall des Umzugs nur gezahlt hätte, lässt sich ohne weiteren Kontext nicht entscheiden. (Manche Sprecher lehnen allerdings die faktuelle Interpretation von demenageais ab. Sie erkennen nur den Irrealis an). Welche Rolle spielt der Aspekt in diesem Szenario? Man wird nicht sagen, dass man hier einen Verlauf spürt, hingegen spielt die Unabgeschlossenheit und Unbegrenztheit des Imparfait-Aspekts eine Rolle. Sie verhindert die Ereignishaftigkeit des Vorgangs, der, weil er auf seine minimale Manifestation reduziert ist, sich um so besser in die Textstruktur der Argumentation integrieren lässt. 10. · Das datierte Ereignisszenario Es gibt Szenarien, in denen das Imparfait ein Ereignis zu setzen, d.h. um seiner selbst willen zu berichten scheint, z.B. in folgendem Ausschnitt einer mündlichen Erzählung: Le 6 aout j' ai passse l' agregation, le 8 aout je me mariais. Auch wenn das Faktum der Hochzeit ausschließlich über mariais vermittelt wird, bedeutet das nicht, dass die Hochzeit um der Hochzeit willen erwähnt wird. Das wäre der Fall mit dem Passe compose. In unserem Beispiel ist sie Teil einer Struktur (j' ai passe je me mariais), welche in erster Linie auf der sensationellen zeitlichen Nähe der beiden Ereignisse insistiert. Will man den Effekt des Imparfait im Deutschen wiedergeben, muss man etwa sagen: " ... stand ich schon vor dem Traualtar! Können Sie sich das vorstellen? ". Das Imparfait versieht also das Ereignis zusätzlich mit einem Kommentar zur Stellung des Ereignisses in einer Ereignisstruktur. Nicht unähnlich dem Kontrastszenario steht das Imparfait im Dienste der logischen Einheit der Sequenz, im Dienste des Zusammenhangs mit dem Passe compose-Geschehen. Aus dem Gegensatz von Ereignisverb und Zeitpunktangabe einerseits und Permanenztempus andererseits ergibt sich eine gefühlspointierte Dramatisierung, deren Wirkung im umgekehrten Verhältnis zum morphologischen Aufwand (-ait [E]) steht. FLuL 30 (2001) 226 Franz Josef Hausmann Unser Szenarienbeispiel ist nicht zufällig postdatiert (wenn auch nur implizit), denn die Postdatierung trägt das Ihrige zur Verklammerung der Sequenz bei. Explizit postdatiert erscheint das Ereignisszenario (das man auch Ereignisstrukturszenario nennen könnte) häufig in Literatur und Presse mit Signalen des Typs: le lendemain oder x secondes I minutes / heures IJours ... plus tard. Dieses beziehungsstiftende Imparfait 'imparfait de rupture' zu nennen, was sich eingebürgert hat, ist ein Widersinn. Zwar tritt insofern ein Bruch ein, als das Imparfait mit der Linearität der Erzählweise bricht, dies aber im Dienste seiner Integration in eine Textsequenz, die damit erst als Einheit konstituiert wird. Die Bezeichnung 'imparfait de clöture' ist schon eher berechtigt, insofern der Imparfait-Satz eine Sequenz abschließt, die mindestens aus dem vorausgehenden Ereignistempus und dem Imparfait besteht und der Abschluss höchst wirksam, in Form einer Orgelfermate ('point d 'orgue', cf. Imbs 1960: 93 und Touratier 1996: 119) erfolgt. Logischerweise gibt es dann auch ein Szenario der Textsequenzeröffnung ('imparfait d'ouverture'), denn da das Imparfait als Permanenz weder links noch rechts Grenzen setzt, stiftet es Beziehungen nach vorne wie nach hinten. So beginnen die meisten von Maupassants Erzählungen im Imparfait: Midifinissait de sonner (=Langsamklang das Mittagsgeläut aus) (Le papa de Simon). Ein solches Imparfait verlangt kataphorisch nach Sättigung durch Ereignistempora: La porte de l' ecole s' ouvrit, et ! es gamins se precipiterent ... (ibid.). Die Leistung des Imparfait liegt deshalb darin, dass es Zustand, Verlauf oder Ereignis aus der Linearität der Ereigniskette herausnimmt und an ein mit anderen Mitteln ausgedrücktes Ereignis logisch/ semantisch anbindet (so auch Touratier 1996: 127ff). Besonders deutlich wurde das bei der Concorde-Katastrophe vom Juli 2000. Nach einem Monat Untersuchung ist die Ursache herausgefunden: ein Metallteil auf der Piste die Reifen platzen - Tanks werden durchschlagen, usw. Jetzt kann das Unfall-Szenario als geschlossene Texteinheit so erzählt werden, dass der Absturz unausweichlich erscheint. Wird in der Vergangenheit erzählt, so endet das Szenario in den Medien mit dem Satz: 30 secondes plus tard, le Concorde s' ecrasait. In diesem Satz (und in diesem Szenario) wird die Unausweichlichkeit mit dem Imparfait-Morphem ausgedrückt. Dieses ist vorbereitet, wie Molendijk (1990) sagt. Das Passe simple hätte diese Nuance nicht. Permanenzbedeutung (Zustand, Verlauf, Innensicht) des Imparfait hat mit diesem Verb und in diesem Kontext den Effekt der logischen Verknüpfung der unweigerlichen Folge. Deshalb ist die Ausdrucksweise der Medien vollkommen natürlich und angemessen. Sie ist expressiv, aber normal. Wenn eine derart starke logische Folge-Beziehung besteht, wäre das Passe simple unangemessen und das Passe compose als reine Information, ebenfalls unangemessen, denn über den Absturz als solchen ist der Leser seit vier Wochen unterrichtet. Die Nutzung des logisch verknüpfenden Imparfait im code parle steht ebenfalls außer Frage. Es eignet also dem hier beschriebenen Imparfait-Gebrauch keinerlei Ausnahmecharakter. Neben der häufigen Postdatierung steht die seltenere Prädatierung. So lautet am 6.9.2000 eine Schlagzeile von Le Monde (S. 6) folgendermaßen: Des le 8 juin, Jean- Pierre Chevenement mettait en garde Lionel Jospin. Diese aus einer geheimen Note gespeiste Mitteilung betrachtet Le Monde als sensationell, weil sie den späteren Rücktritt des Ministers zu einem überraschend frühen Zeitpunkt als eingeleitet erscheinen lässt. Es lPLlllL 30 (2001) Kleine Lehre des imparfait 227 geht also auch hier nicht um die reine Mitteilung des Faktums, sondern um den Stellenwert des Faktums in einer Ereignisstruktur, deren Basis (der Rücktritt des Ministers) dem Leser bekannt ist. 11. Das Detail (oder Serien-)szenario Der textkonstitutive, textverschweißende Charakter des Imparfait, der im postdatierten Ereignisszenario offenkundig wurde, findet sich noch ausgeprägter im Detailszenario. Es geht darum, eine Serie sukzessiver Ereignisse innerhalb einer geschlossenen, nicht offenen, Sequenz als Teilereignisse (Phasen, Etappen) eines Großereignisses zu markieren, dessen Resultat bereits bekannt ist. Typische Beispiele sind: Eine dramatische Rettungsaktion wird zuerst als erfolgreich vorgestellt, dann mit 14 lmparfaits in ihren einzelnen Phasen erzählt (Klum 1961). Die einzelnen Züge einer Schachpartie werden mit 15 Verbformen nachgezeichnet, die alle im Imparfait stehen (Le Monde 1993). Die einzelnen Phasen einer militärischen Aktion oder der Textsequenz „Hitlers Ende" werden vom Historiker mit einer Serie von lmparfaits erzählt (J.-P. Azema in Le Monde 1995). In einer biographischen Notiz (Nekrologie oder aus anderem Anlass) werden einzelne Lebensabschnitte im lmparfait erzählt. Maupassant erzählt, wie ein Hund eine Übungspuppe zerreißt. Nach se mit a dechirer folgen die einzelnen Etappen in acht Imparfaits (nach Figge 1998, der von einem "detaillierenden temporalen Konzeptgebilde" spricht). Der Vorteil dieses Verfahrens ist neben der Textsequenzkonstitution als einer strukturierenden Leistung die Leistung der Verlebendigung, weil das Imparfait jede Phase, wie durch eine Kamera visualisiert, gleichsam in Großaufnahme, heraushebt und den Erzähler als „dabei gewesen" authentifiziert (Sthioul in: Moeschler 1998: 216). 12. Das narrative Szenario Wer den Roman Nous trois von J. Echenoz (1992) aufmerksam liest, wird für die Verteilung vom Imparfait und Passe simple auf Ereignisverben zum Ausdruck von Ereignissen über weite Strecken folgende Gesetzmäßigkeit entdecken: keines der Passes simples ist von einem Zeitadverb begleitet, die auffälligen Imparfaits hingegen alle ( ensuite, ensuite, ensuite, puis ). Offensichtlich geht es dem Autor darum, seinen Protagonisten jedesmal in seiner Bewegung zu zeigen, im Verlauf, und doch gleichzeitig die Handlung vorwärts zu bringen. Daneben hat er noch das Prinzip des geringstmöglichen Aufwandes bei größtmöglicher Variation: Drückt das Morphem bereits den Fortgang der Handlung aus (Passe simple), bedarf es keiner adverbialen Zeitpunktsetzungen. Bedient er sich adverbialer Zeitpunktsetzungen, so kann er dank des Kontexts das Tempus der minimalen Manifestation (oder Eventualität) setzen, das Imparfait. Das Ereignishafte an lFLIIL 30 (2001) 228 Franz Josef Hausmann der Sache ist durch Adverb und Kontext bereits hinreichend ausgedrückt. 1 Offensichtlich möchte der Autor nicht alle Ereignisse gleich gewichten und in banaler Linearität der Passes simples-Abfolge hintereinander stellen. Überdies profitiert er dabei von der Anschaulichkeit und dem Zeitlupeneffekt des Imparfait. Die Auffälligkeit des Verfahrens rührt daher, dass es in der Sprechsprache ausgeschlossen ist. Es ist ein Verfahren der literarischen narratio wie das Passe simple als ganzes. Im Unterschied zum Passe simple ist den Grammatiken das hier beschriebene narrative Imparfait allerdings nicht oder wenig bekannt, weshalb es um so auffälliger ist. 13. Schluss Das französische Imparfait zieht aus der äußersten morphologischen Sparsamkeit die größtmögliche Palette an semantischen, pragmatischen und textkonstitutiven Effekten. Alle diese Effekte aus der Grundbedeutung „vergangene Permanenz" abzuleiten, geht gelegentlich nur unter Knirschen. Offensichtlich sind unter den Gebrauchsweisen auch historische Fossile, die sich nur aus schwer rekonstruierbaren längst vergangenen Strukturen einfach erklären ließen. Dennoch hoffen wir gezeigt zu haben, dass der aspektuelle Ansatz erhellend ist. Die Beschreibung wird allerdings nicht wenig dadurch kompliziert, dass manche Szenarien stark skriptural markiert sind, andere oral, viele neutral. Angesichts der vielen Subtilitäten des Imparfait-Einsatzes, namentlich aus der Sicht des Germanophonen, wollte die vorliegende Gesamtbeschreibung rezeptionsorientiert sein. Es ging darum, dem deutschen Leser französischer Texte und Hörer französischer Aussagen einen Schlüssel zur Dechiffrierung in die Hand zu geben. Produktionsorientierte Beschreibungen, an denen erheblich weniger Mangel herr-,~ht, würden selektiver vorgehen und andere Schwerpunkte setzen müssen. Literatur BERTHONNEAU, Anne-Marie / KLEIBER, Georges (1994): « Imparfaits de politesse: rupture ou cohesion ». In: Travaux de linguistique 29, 59-92. BIBER, Douglas [et al.] (1999): Longman Grammar of Spoken and Written English. London: Longman. BRES, Jacques (2000): « Un emploi discursif qui ne manque pas de style: l'imparfait en cotexte narratif ». In: Cahiers Chronos 6, 59-77. FIGGE, Udo L. (1998): "Zu imparfait und passesimple". In: FIGGE, Udo L.[et al.] (Hrsg): Grammatische Strukturen und grammatischer Wandel im Französischen [... ]. Bonn: Romanistischer Verlag (Abhandlungen zur Sprache und Literatur 117), 125-145. Diese Interpretation findet eine Stütze bei Martinet (1979: 106-107). -An die Stelle der Adverbien können andere zeitsetzende Mittel treten, z.B. Partizipialsätze: « Meyer ayant enfin, chez lui, coupe l'electricite, redemarrait, puis [....] » (ibid, 18). JFJLw... 30 (2001) Kleine Lehre des imparfait 229 GOSSELIN, Laurent (1996): Semantique de la temporalite enfranr; ais [... ]. Louvain-la-Neuve: Duculot (Champs linguistiques). HAUSMANN, Franz Josef (1997): « L'imparfait avec et sans mystere ». In: KLEIBER, Georges/ RIEGEL, Martin (eds.): Lesformes du sens [...] Louvain-la-Neuve: Duculot (Champs linguistiques), 175-180. IMBS, Paul (1960): L' emploi des temps verbaux enfranr; ais moderne. Paris: Klincksieck. KLUM, Ame (1961): Verbe et adverbe. Uppsala: Almqvist und Wiksell. KRELL, Michaela (2000): L' imparfait qui commente. Diss. Erlangen [im Druck]. LE GOFFIC, Pierre (1995): « La double incompletude de l'imparfait ». Iri: Mode/ es linguistiques 16, 133-148. LERCH, Eugen (1922): "Das Imperfektum als Ausdruck der lebhaften Vorstellung". In: ZRPh 42, 311-313 und 385-425. MARTINET, Andre (1971): Grammairefonctionnelle dufranr; ais. Paris: Didier. MELLET, Sylvie (1988): L'imparfait de l'indicatif en latin classique. Paris: Peeters. MOESCHLER, Jacques (ed.) (1998): Le temps des evenements [...]. Paris: Kirne. MOLENDIJK, Arie (1990): Le passe simple et l'imparfait: une approche reichenbachienne. Amsterdam: Rodopi. MULLER, Charles (1966): « Pour une etude diachronique de l'imparfait narratif ». In: Melanges de grammaire franr; aise offerts a Maurice Grevisse. Gembloux: Duculot, 253-269. POLLAK, Wolfgang (1988): Studien zum Verbalaspekt [... ]. 2. Auflage. Bern: Lang. RIEGEL, Martin/ PELLAT, Jean-Christophe / RIOUL, Rene ( 1999): Grammaire methodique du franr; ais. 5. Auflage. Paris: PUF. SALINS, Genevieve-Dominique (1996): Grammaire pour l' enseignementlapprentissage du FLE. Paris: Didier/ Hatier. TOURATIER, Christian (1996): Le systeme verbalfranr; ais [...]. Paris: A. Colin. VETTERS, Carl (1996): Temps, aspect et narration. Amsterdam: Rodopi (Faux titre 106). VIGNERON, Annie (1999): « Passe simple, passe compose, imparfait: pour y voir plus clair ». In: Le franr; ais dans le monde 307, 36-38. WEINRICH, Harald (1994): Tempus. Besprochene und erzählte Welt. 5. Auflage. Stuttgart: Kohlharnmer. lFLll.lL 30 (2001) Sven-Holger Hahn • Simulations globales als offenes Unterrichtskonzept für das Fach Französisch Abstract. With their quality of 'metagames', global simulations (simulations globales) provide the framework for a number of motivating, learner-centred activities in foreign language teaching, including work with the textbook. This article gives an outline ofthis promising approach as weil as its underlying concepts in the fields of education, language and learning. After making some practical suggestions, the author argues that global simulations meet the requirements of teaching French in German (secondary) schools particularly weil, and he reviews the experiments carried out in this area. Eventually, arguments for and against the approach are presented and commented upon. 1. Abgrenzung und Spezifika der Simulations globales Wenngleich die Simulations globales (SG) heute zu den als innovativ geltenden „alternativen Methoden" 1 gezählt werden (Dietrich 3 1995: 196), ist die Technik des faire semblant im Fremdsprachenunterricht bereits sehr viel älter. Kurze Situationsdialoge, die von Schülern „in Szene gesetzt" bzw. "simuliert" werden, kommen sowohl in Lehrbüchern des 17. Jahrhunderts als auch in denen der audiovisuellen Methode vor. Dieses Verfahren kann dann bis zur Aufführung eines kompletten Theaterstücks erweitert werden. Bertrand (1974: 188) geht sogar noch weiter: "Il y a deja ebauche de simulation des qu'on decide de communiquer dans 1a langue etrangere alors qu 'il serait si commode d 'employer a son propos notre langue maternelle". Angesichts eines derart weiten Simulationsbegriffs und der Schwierigkeit einer eindeutigen Definition (Jones 1980: 20) erscheint es sinnvoll, die Simulation von verwandten Techniken abzugrenzen und dabei die spezifischen Merkmale der SG herauszuarbeiten. Eine derartige Standortbestimmung erfordert zunächst eine deutliche, in der Literatur nur selten vorgenommene Abgrenzung vom Drama/ Rollenspiel. Das theatrale Spiel zeichnet sich dadurch aus, dass „der Spielende sowohl als Darsteller einer Figur handelt als auch in der Figur erlebt" (Hentschel 1996: 142). Dies hat zur Folge, dass das (auf der Bewusstseinsebene als solches erkannte) Spiel die nötige Befreiung und Sicherheit Korrespondenzadresse: Sven-Holger HAHN, Studiemeferendar am Studienseminar für das Lehramt für die Sekundarstufe II Hamm, Hohldrift 22, 33181 BAD WÜNNENBERG. - E-mail: svhahn@hotmail.com Arbeitsbereiche: Szenisches Spiel und Dramatische Texte, Frühes Fremdsprachenlernen. 1 Zugrunde gelegt wird hierbei ein weiter Methodenbegriff, etwa im Sinne einer „Methodik" (Vielau 1985: 9 f). Im Französischen ist der Terminus methode noch irreführender, da er oft synonym für eine bestimmte Art von Lehrwerk (manuel) Verwendung findet. Auch die unpräzise Bezeichnung „alternativ" muss im Hinblick auf die SG relativiert werden, da es den Autoren von Anfang an um eine Integration in den herkömmlichen, institutionellen Fremdsprachenunterricht ging. JFLIIL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 231 verschafft, um auf der Gefühlsebene 'wirklich' empfinden bzw. die Wirklichkeit des Spiels als 'real' erfahren zu können. An die Stelle einer scheinbar objektiven (gesellschaftlichen, religiösen, moralischen, etc.) Wirklichkeitsordnung tritt eine ästhetische, subjektive, flüchtige, am eigenen Leib erfahrene Wirklichkeit, die allerdings im Bereich der Andeutungen verbleibt: Ein Brief muss nicht wirklich geschrieben werden, solange er seine Funktion für den Fortgang der Handlung erfüllt, etc. Da es sich beim Drama um eine Kunstform handelt, bei der Zuschauer und doppelte Kommunikationsebene stets mitgedacht werden, wäre eine möglichst authentische Kommunikation gänzlich „undramatisch" es sei denn, sie ist dermaßen überzeichnet wie im modernen Drama. Bei· der Simulation entfällt die zweite Kommunikationsebene und damit auch das bewusste Schau-Spiel. Die Teilnehmer denken. und handeln aus der Realität der ihnen übertragenen Funktion heraus und übernehmen dabei Pflichten und Verantwortung (Jones 1982: 4). Da ihre Handlungen unwiderrufliche Konsequenzen für die Simulation haben, steht eher die effektive denn die ästhetische Kommunikation, und zwar sowohl mündlich als auch schriftlich, im Vordergrund. Zeh (1987: 206 f) arbeitet weitere Unterschiede zum Drama heraus, die in Tab. 1 dargestellt werden. Drama Simulation • Vorgaben • Minimum ausreichend • erschöpfend definiert • Handlungsziel • Handeln als Selbstzweck; • apriori gesetzt; 'echt'; symbolisch primär intellektuell • Handlungswelt • kreative Phantasie der • gegebene Scheinwirklich- Teilnehmer; fiktiv keit gilt als eigentliche Realität • Emotionslage • Trennung von privatem • 'echt'; betrifft auch die Empfinden und Darstel- Beziehung zwischen den lung von Emotionen Teilnehmern • Weqekonflikt zwischen • ausgeschlossen; Distanz • möglich; zugleich Ende Figur und Darsteller des darstellenden Spiels der Simulation • Status von Sprache • Sprachspiel; unverbind- • äußerste Verbindlichkeit lieh Tab. l Dieses ,Schema, das auf die angelsächsische Simulationstradition zurückgeht, muss im Hinblick auf die SG dahingehend relativiert werden, dass die Scheinwirklichkeit nicht bis ins Detail vorgegeben ist, sondern weitestgehend von den Teilnehmern selbst gestaltet wird. 2 Im Verlauf der SG nehmen die Schüler unterschiedliche Perspektiven ein, je 2 Dabei kann davon ausgegangen werden, dass die selbst konstruierte und individuell erfahrene, d.h. bedeutsame Realität der (subjektiven) Wirklichkeit der Teilnehmer eher entspricht als ein noch so konkretes FLuL 30 (2001) 232 Sven-Holger Hahn nachdem, ob sie aus einer fiktiven Identität heraus denken und handeln, aus der Perspektive eines 'auktorialen' Erzählers oder aber in ihrer Eigenschaft als Organisatoren eines Projekts und ihres eigenen Lernprozesses. Die SG oszillieren also ständig zwischen dem kreativ-gestalterischen Spiel des Erfindens fiktiver Welten, Handlungen, Ereignisse, etc. und dem dramatischen (Rollen-) Spiel der Übernahme fiktiver Identitäten, wobei die Schüler auch an der Organisation/ Evaluation des 'Spiels im Spiel' ('Metaspiel') beteiligt sind (Care 1992: 5). Sie verkörpern also nicht nur Rollen, sie inszenieren sie auch, indem sie ihre Lebenswelt selbst gestalten. Dabei hat das eine stets Auswirkungen auf das andere. Durch die abwechselnde Übernahme einer Außen- und Innenperspektive, durch das gleichzeitige Manipulieren und Manipuliertwerden vollzieht sich ein Spiel mit der (eigenen/ fremden) Identität, das in gewisser Weise symbolisch für den Fremdsprachenerwerb steht. Dieser umfasst eben nicht nur, wie der Name glauben macht, den Erwerb einer fremden Sprache, sondern immer auch einen Bruch mit der vertrauten Konzeption von Welt, die durch die Muttersprache und die eigene Kultur fein säuberlich geordnet schien, sowie die Erfahrung der eigenen Fremdheit (Yaiche 1996: 73). Das 'Metaspiel' bildet eine Art theatrum mundi, wobei der Mikrokosmos der SG den Makrokosmos gesellschaftlichen Lebens widerspiegelt, der nur dort überlebensfähig ist, wo Menschen bereit sind, "Rollen zu spielen", d.h. ihr Leben je nach Situation „in Szene zu setzen" (Yaiche 1996: 77). Allerdings werden in den SG gesellschaftliche (und kulturelle) Rollen nicht nur spielerisch erfahrbar (übrigens mit einer sehr viel größeren psychologischen Tiefgründigkeit als bei Lehrwerkfiguren, die meist nur oberflächlich skizziert werden); das 'Metaspiel' ermöglicht gleichzeitig eine gewisse kritische Distanz gegenüber alltäglichen und/ oder stereotypen Verhaltensweisen (Yaiche 1996: 74), aber auch die Überwindung von Ethnozentrismus. In der Vielfalt an (mündlichen und schriftlichen) Arbeitsformen und Lernmaterialien manifestiert sich ein weiteres Gütekriterium der SG: das der globalite. Das räumlichzeitliche Kontinuum der SG (bezogen auf lieu-theme, Personen und Handlung der Simulation) stellt ein Minimum an Kontinuität sicher, die den Reihungen atomisierter Situationen in den Lehrwerken meist abhanden kommt. Das Konzept der globalite findet sich darüber hinaus in der möglichst erschöpfenden Ausgestaltung der Realität und ihrer komplexen Wechselbeziehungen von Privat- und Berufsleben, Leidenschaft und Vernunft. Schließlich bedeutet es auch ein Minimum an Integration, da jede Einzel- und Kollektivhandlung in das gemeinsame Projekt einfließt und somit ihre Bedeutung erfährt. Damit ist das Kriterium der Offenheit angesprochen: Die Schüler werden unmittelbar an der Planung, Ausgestaltung und Evaluation der inhaltsorientierten Lernsituationen beteiligtihre individuellen (kommunikativen) Bedürfnisse bilden die eigentliche raison d' etre des Fremdsprachenunterrichts. Die SG sind daher geeignet, die Funktion der Abbild einer scheinbar objektiven Pseudorealität. Maley (1980) spricht in diesem Zusammenhang von der illusion du reel bzw. der realite de l' illusion. Er unterscheidet zwischen der Authentizität des Sprachsystems (wie es sich in „authentischen" Dokumenten wie Zeitungsartikel, Fernsehsendungen, etc. wiederfindet) und der Authentizität der Schülerreaktion in Bezug auf dieses System, wobei ein authentischer Text nicht automatisch eine authentische Reaktion nach sich zieht. JFJLIUIL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 233 activites-cadre in einem offenen Fremdsprachenunterricht einzunehmen, wie ihn beispielsweise Dufeu (1992) entwirft. Somit wird m.E. auch die häufig angeführte (u.a. durch die Bezeichnung 'alternativ' provozierte) Opposition von Lehrwerk und SG aufgelöst. Sie führt im Allgemeinen dazu, dass die SG entweder den Status eines isolierten Projekts bekommen, um ab und an den herkömmlichen Unterricht mit der Aura des Neuen aufzulockern, oder aber in einer für Schüler und Lehrer motivationshemmenden Konkurrenz mit den Lehrbüchern stehen. Vielmehr können die SG als konzeptuelles Rückgrat eines offenen Unterrichtsarrangements angesehen werden, in dem sich durchaus die Arbeit mit dem Lehrwerk und andere, geschlossenere Unterrichtsformen integrieren lassen. Aufgrund der hier genannten Gütekriterien finden die SG in der aktuellen Debatte um den „Paradigmenwechsel" im „postkommunikativen" Fremdsprachenunterricht, der von einer konstruktivistischen Sicht des Wissenserwerbs ausgeht, wieder vermehrt Beachtung (Rattunde 1995; 1998; 1999; Schiffler 1998). Im Lichte dieser neueren Erkenntnisse sollen daher zunächst einige theoretische Begründungszusammenhänge diskutiert werden. Im Anschluss wird aufgezeigt, wie diese. sich auf didaktisch-methodische Entscheidungsfelder auswirken und welche Rolle die SG in einem offenen Französischunterricht unter Berücksichtigung der spezifischen Zielsetzungen spielen können. Abschließend wird eine kritische Evaluation die Chancen und Risiken des Ansatzes ausleuchten. 2. Darstellung der Simulations globales und ihrer Begründungszusammenhänge Die Entwicklungsgeschichte der SG am BELC-CIEP ist eng verbunden mit dem in der ersten Hälfte der siebziger Jahre vehement vorgetragenen Unmut über die methodologie structuro-globale audiovisuelle (MSGAV) und die von ihr hervorgebrachten Lehrwerke. Debyser (1973: 66) kritisiert, dass die dogmatische, geradezu inflationäre Entwicklung von (audio-visuellen) Unterrichtsmaterialien auf der Basis sprachwissenschaftlicher Erkenntnisse und ohne Berücksichtigung pädagogischer Parameter zu einem rigiden und technokratischen Fremdsprachenunterricht führe, in dem alles bis ins Detail vorgeplant sei und somit eine Distanz zur Sprache aufgebaut werde. Trotz der mitunter polemisch geführten Auseinandersetzung-Debyser (1973) nennt seinen Artikel La mort du manuel et le declin de l'illusion methodologique erkennen die Kritiker die Verdienste der MSGAV durchaus an (Betonung des mündlichen Sprachkönnens, der Kontextinformationen und des funktionalen Charakters von Sprache) und wollen ihre Vorschläge eher als deren Weiterentwicklung im Sinne von größerer Flexibilität und Lernerorientierung denn als 'revolutionären' Neuansatz verstanden wissen (Coste 1975: 545). Die Simulation wird dabei als probates Mittel angesehen, dem individuellen und pragmatischen Sprachgebrauch Rechnung zu tragen, und steht somit an der Schwelle zum sog. kommunikativen Fremdsprachenunterricht. In der zweiten Hälfte der siebziger Jahre bildet sich am BELC eine Art Alternativbewegung zur 'offiziellen' kommunikativen Fremdsprachendidaktik heraus. Anstatt sich an lFLlllL 30 (2001) 234 Sven-Holger Hahn der utilitären, funktionalen Ausrichtung des Threshold level bzw. Niveau-seuil zu orientieren, konzentriert sich das BELC auf die Untersuchung der Beziehungen zwischen Spiel, Sprache und Kreativität und deren Bedeutung für den (mutter-/ fremdsprachlichen) Französischunterricht (Care/ Debyser 1978). Gleichzeitig laufen in dieser Zeit in den Lehrgängen am BELC Bemühungen, die sehr unterschiedlichen kreativen Techniken für ein globaleres pädagogisches Projekt über einen längeren Zeitraum nutzbar zu machen. Sie münden in einem Rohentwurf von L' Immeuble, der ab 1978 am BELC getestet und zwei Jahre später in Form eines roman-simulation en 66 exercices vorveröffentlicht wird (Debyser 1980). 1986 publiziert Francis Debyser unter Mithilfe von Francis Yaiche die endgültige, um zahlreiche Bild- und Textdokumente sowie methodische und sprachliche Hilfen erweiterte Fassung, die 1996, ergänzt um ein preface, neu aufgelegt wird. In den achtziger und neunziger Jahren entstehen nach demselben Schema weitere SG, die sich grob unterteilen lassen in simulations generalistes (z.B. fies, Le Cirque, Le Village) und simulations specifiques! fonctionnelles bzw. professionnelles (z.B. L'Hotel, L' Entreprise, La Conference internationale). 3 Die Anwendungsbereiche sind dabei sehr vielfältig und umfassen sowohl den FLM- (franr; ais langue maternelle) als auch den FLS/ FLE- (Jranr; ais langue seconde/ etrangere) Unterricht. Im Falle des Muttersprachenunterrichts wird besonders der interdisziplinäre Charakter der SG betont. Zum einen erfordert die Erschaffung einer umfassenden Realität fächerübergreifende Kompetenzen, umgekehrt vollzieht sich die Erschließung von Wissen in jedem Fach mittels (fachspezifischer) Sprache, die jeweils gelernt werden muss und nicht auf ein isoliertes Unterrichtsfach reduziert werden kann (Yaiche 1996: 167). In französischsprachigen Schulen in nicht-frankophoner Umgebung dienen die SG dazu, den Gebrauch der 'Schulsprache' (FLS) attraktiver für alltägliche Situationen zu gestalten (Care 1995: 78). Im Bereich FLE bleiben die SG lange Zeit größtenteils fortgeschrittenen Lernern vorbehalten. Im Jahre 1990 wird Le Village in einem Nullanfängerkurs der Alliance Franr; aise in Paris getestet. Auch aus Deutschland liegen mittlerweile einige Erfahrungsberichte zur Arbeit mit den SG im FLE-Unterricht vor, seit neuestem auch aus dem Anfangsunterricht am Gymnasium (Sippel/ Wagner 2001). Die Flexibilität der SG zeigt sich nicht zuletzt in ihrer Anpassungsfähigkeit an unterschiedliche Zielgruppen und/ oder soziokulturelle, institutionelle und wirtschaftliche Rahmenbedingungen: Sie lassen sich beinahe beliebig (nacheinander oder parallel) kombinieren, erweitern (ausL'Immeuble wirdLaRue, LaResidence oder La Cite; ausLe Village wird Le Bourg, La Ville-dortoir oder La Station balneaire), eingrenzen (L' fze Eine umfassende Typologie findet sich bei Yaiche (1996: 25fund 63 ff). Dabei schlägt er folgende Kriterien vor, die aber i.d.R. keine eindeutige Zuordnung erlauben: Art des Unterrichts (mutter-, fremd- oder fachsprachlich), Sprachniveau, Alter, Wirklichkeitsnähe, Beweglichkeit des lieu-theme, allgemeine oder berufsspezifische Ausbildung. M.E. sollte noch das Kriterium der Verfügbarkeit genannt werden, die sicherlich bei der Entscheidung für oder gegen eine SG eine große Rolle spielt. Bedauerlicherweise sind nämlich im Buchhandel wahrscheinlich aus kommerziellen Erwägungen-nur La Conference internationale, L' Entreprise, L' Hotel und L'Immeuble (alle bei Hachette) erhältlich; also nur eine (für die allgemeinbildenden Schulen interessante) simulation generaliste. Le Cirque - 1986 bei Hachette erschienen wird nicht mehr gedruckt, fies ist nur über das CNDP und eine Lingua-Version von Le Village nur über das CIEP-BELC zu beziehen. fLIIIL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 235 grammaticale ), mit einer Lektüre bzw. dem Lehrwerk verknüpfen oder ganz neu erfinden und über unterschiedlich lange Zeiträume verteilen (Yaiche 1998). Resümierend kann gesagt werden, dass die SG weitaus mehr sind als eine Fremdsprachenvermittlungsmethode, die womöglich einen übermäßig schnellen Lernerfolg bei wenig Aufwand versprechen würde, wie dies bei der Kommerzialisierung 'alternativer Methoden' oftmals der Fall ist. Vielmehr handelt es sich um eine konsequente Öffnung des Unterrichts, bei der die Planungs- und Handlungsinitiative weitestgehend in die Hände der Schüler gelegt wird, ohne jedoch den Lehrer aus seiner Verantwortung für den Lehr-/ Lernprozess zu entlassen. Diese pädagogischen Prinzipien sollen im folgenden Teil näher untersucht werden. 2.1 Erziehungswissenschaftliche Dimension Care (1992: 48) geht von der Überzeugung aus, dass der Fremdsprachenlerner zwar in der fremden Sprache alles neu zu lernen habe, jedoch dabei auf ein umfangreiches Weltwissen zu dem im Übrigen auch die Muttersprache zählt zurückgreifen könne. Seiner Meinung nach müsse sich der Zweitbzw. Fremdsprachenunterricht in gewisser Weise den Prozess der „Konstruktion von Welt", wie er beim Erstspracherwerb abläuft, zum Vorbild nehmen. Um Redundanzen vorzubeugen, kreieren sich die Lernenden auf der Basis individueller Vorerfahrungen neue Welten (Care 1995: 70). Das Prinzip der Lernerzentrierung offenbart sich auf verschiedenen Ebenen der SG. Bereits vor Beginn werden auf der Organisations- und Planungsebene wichtige Entscheidungen zwischen Schülern und Lehrer ggf. in der Muttersprache kommunikativ ausgehandelt und in einem „Vertrag'' festgehalten (Care 1993: 54). Ähnliche Aushandlungsprozesse, die willkommene Anlässe für eine authentische Interaktion in der Fremdsprache bieten, finden aber auch während der eigentlichen Simulation statt. Sie sind vor allem auch zwischen den Schülern von großer Bedeutung, da das gemeinsame Projekt bzw. Produkt (kollektiver Roman, Aufführung eines Theaterstücks, Fotoausstellung, etc.) nur kooperativ, d.h. im gegenseitigen Austausch realisiert werden kann (Care 1995: 75). Allerdings sollten Lehrer und Schüler auf dieser Ebene auch beziehungs- und lernrelevante Aspekte (Konflikte und Probleme im Umgang miteinander, Verhaltensregeln, Lernbarrieren usw.) versprachlichen. Auf der inhaltlichen Ebene streben die SG eine möglichst hohe Identifikation des Lerners mit dem Lerngegenstand an. Dies wird vor allem erreicht durch die eigenverantwortliche Ausgestaltung und Animation der möglichst komplexen, d.h. alle Lebensbereiche umfassenden, zusammenhängenden und dynamischen Lernwelt auf der Basis vielfältiger, authentischer und teilweise selbst hergestellter Dokumente, durch ganzheitliche, pluridisziplinäre, handlungs- und produktionsorientierte Aktivitäten, durch die Berücksichtigung individueller Vorerfahrungen, Neigungen und Fähigkeiten sowie unterschiedlicher Lernertypen, durch ein ausgewogenes Verhältnis von unterschiedlichen Übungs- und Sozialformen und nicht zuletzt durch die Auswahl des Sprachmaterials nach dem Kriterium des individuellen Ausdrucksbedürfnisses. Hinzu kommt die graduelle Übernahme von Verantwortung für den eigenen Lernprozess durch den selbständigen Umgang lFLlllL 30 (2001) 236 Sven-Holger Hahn mit Lexika, Wörterbüchern und anderen Hilfsmitteln sowie das Archivieren der Arbeitsergebnisse und das Anlegen eines auto-dictionnaire, in dem lexikalische Einheiten gesammelt werden. Für Yaiche (1996: 107) ist das oberste Ziel (zugleich Weg zum Ziel) der autonome Lerner, der die Konstruktion seines Wissens selbst in die Hand nimmt. Es sei an dieser Stelle darauf hingewiesen, dass autonomes/ selbstbestimmtes Lernen in der Schule keinen Widerspruch in sich darstellen muss. Da Lernerautonomie nämlich nicht als gegeben vorausgesetzt werden kann, macht es durchaus Sinn, dem Lernenden beim Suchen des eigenen Lernweges (metakognitive) Hilfestellungen zu geben, um ihn so Schritt für Schritt unabhängiger werden zu lassen (Multhaup 1999: 103). Vorrangige Aufgabe des Lehrers ist folglich die Schaffung einer möglichst reichhaltigen und bedeutungsvollen „autonomen Lernumgebung" (Dam 1999: 14 f), in der den Lernern genügend Freiräume und Anregungen gegeben werden, ihren Lernprozess aktiv zu gestalten und eigene Vorerfahrungen einzubringen ('Offener Unterricht'). Dies setzt voraus, dass der Lehrer sich selbst autonom gegenüber den individuellen Lernbedürfnissen der Klasse verhält, also sein pädagogisches Handeln möglichst flexibel und differenzierend gestaltet (Yaiche 1996: 108). Hierfür übernimmt er eine Vielzahl von Rollen, die Yaiche (1996: 102 ff) für die SG als expert, personne-ressource, animateur, modele und mediateur charakterisiert. Von elementarer (und m.E. recht ambivalenter) Bedeutung ist dabei die Autorität, die dem Lehrer in der Funktion des „Spielleiters" eingeräumt wird. Als 'unparteiischer' Außenstehender (was in der Schule nur schwer zu realisieren sein dürfte) „wacht" er sowohl über die Einhaltung und das Vermitteln ethischer und ästhetischer Normen beim Umgang miteinander als auch über die „Qualität" der Simulation und der Schülerarbeiten: "eviter 1a niaiserie, les cliches, les stereotypes, la recherche de l'originalite a tout prix" (Debyser 2 1996: XIII). Wie die Autoren der SG anmerken, handelt es sich dabei um eine ständige Gratwanderung zwischen conformite und conformisme, mediation und intervention, derision und derisoirelenfantillage, imprevu und insolite, spontaneisme und rigueur, die ständig mit den Schülern ausgehandelt werden muss (Care 1993: 50; Debyser 2 1996: XII ff). Gerade aus diesem Grund ist eine Neubestimmung der Lehrer-Schüler-Beziehung unentbehrlich. Eine weitestgehend symmetrische Subjekt- Subjekt-Beziehung setzt jedoch gegenseitiges Vertrauen und einen Wandel des professionellen Selbstverständnisses voraus. Hierzu gehört die Bereitschaft des Lehrers, etablierte Kommunikations- und Beziehungsstrukturen in Frage zu stellen, eigene Ansichten, Fehler, Ängste usw. zu artikulieren und nicht zuletzt die Lernbedürfnisse des Einzelnen und der Gruppe zu analysieren und ins Zentrum didaktisch-methodischer Entscheidungen zu rücken. 2.2 Sprachtheoretische Dimension Die für die SG formulierte Maxime Inventer pour apprendre (Care 1995) geht von folgender Hypothese aus: "On peut apprendre une langue etrangere en s'inventant un univers particulier, s'approprier simultanement la langue et un bout de territoire" (Care 1993: 48). Dies bedeutet zunächst, dass das sprachliche Angebot der Chronologie der Fiktion und nicht etwa sprachimmanenten Faktoren folgt (Care (1995: 80) spricht von lFL1.lllL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 237 einer subordination de la langue au monde). Die Sprachprogression ist demnach weder grammatisch-strukturell noch pragmatisch-kommunikativ vordeterminiert, sondern ergibt sich aus der necessite contextuelle der jeweiligen (Kommunikations-) Situation, ist also themenorientiert (Care 1995: 76). Sprache wird in den Dienst der invention gestellt, wobei die Benennung der selbst gestalteten Welt (Benennung/ Beschreibung und Gestaltung/ Entdeckung gehen i.d.R., analog zum Erstspracherwerb, Hand in Hand) zeitlich vor der Interaktion ihrer „Bewohner" (Rollenspiele) liegt. Mit einem deutlichen Seitenhieb auf dasfranraisfondamental betont Care (1995: 80): "La valence et 1a specificite l'emportent sur la frequence. Est toujours fondamental ce qui est absolument necessaire a l'invention". Wichtigstes Kriterium bei der sprachlichen Progression ist folglich der unmittelbare Gebrauchswert für die invention "Produktorientierung") und nicht etwa eine möglichst umfassende paradigmatische „Ausschlachtung", wobei es durch die Geschlossenheit des lieu-theme zu natürlichen, regelmäßigen Wiederholungen und Erweiterungen sprachlicher Strukturen kommt. Die Progression ist somit zirkulär (Care 1993: 50). Die Textsorte description, der eine focalisation progressive vom Allgemeinen zum Besonderen zugrunde liegt (Care 1993: 49), verlangt eine frühe und extensive Beschäftigung mit Wortfeldern und Phraseologismen (Care (1995: 80) plädiert für einen retour du vocabulaire). Dabei kann es durchaus sinnvoll und stimulierend sein, im Rahmen der "Benennung von Welt" auch vermeintlich 'unsinnige' Wortschöpfungen bzw. 'exotische' Vokabeln zu berücksichtigen (z.B. tournelipe, tomate de vie, becasse). 4 Der spielerische Umgang mit Sprache wird zuvorderst als Befreiung empfunden (Debyser (1978: 6) erweitert die von Jakobson vorgeschlagenen sechs idealtypischen Funktionen von Sprache um die fonction plaisir ). Er wird dabei allerdings keinesfalls der Beliebigkeit preisgegeben, denn er unterliegt einer Reihe von contraintes, die u.a. sprachformaler (morphosyntaktischer), logischer, soziokultureller oder auch willkürlicher Art (methode S+7) sein können. Ähnliches gilt auch für den spielerischen Umgang mit der Zielkultur, bei dem die contraintes vor allem der Vermeidung von Klischees dienen. Insofern ist das Spiel der SG mit der Zielsprache und -kultur zu denken in der Dialektik von Regelhaftigkeit bzw. Vorhersehbarkeit, die eine Strukturierung der fremden Welt zulässt und somit eine gewisse Sicherheit im Umgang mit ihr verschafft, und Freiheit bzw. potentieller Unordnung, die das Spiel erst zum Spiel, die Sprache zur Sprache und das Leben zum Leben macht (Yaiche 1996: 71). Es erlaubt den Schülern, relativ „gefahrlos" zu erkunden, wie wichtig sprachliche und kulturelle „Spielregeln" für eine funktionierende Kommunikation sind. Neben der ästhetischen kommt auch die soziale Komponente von Sprache zur Geltung, denn die Interaktionspartner müssen u.a. Strategien entwickeln, Kommunikations- 4 Auf diese Weise wird nicht nur eine engere emotionale Bindung an die Sprache ermöglicht, sondern auch die Behaltensleistung gesteigert (Kostrzewa 1994: 222). Wortschöpfungen und -manipulationen gehören im Übrigen zu den wichtigen (und keineswegs 'sinnlosen') Aktivitäten des Erstspracherwerbs, mit denen Kinder lernen, Kontrolle über sprachliche Strukturen auszuüben, und metasprachliches Wissen aufbauen (van Lier 1996: 74 ff). FLllL 30 (2001) 238 Sven-Holger Hahn aufgaben kooperativ zu lösen und gleichzeitig persönliche Kommunikationsziele durchzusetzen. Dabei kommt die ganze Komplexität menschlicher Interaktion in den Blick, die insbesondere auch die affektive Dimension, nonverbale Phänomene (Stimmlage, Körperbewegungen, Position im Raum und zum Gesprächspartner, etc.) und die phatische Sprachfunktion einschließt. Hierbei handelt es sich im Übrigen um wichtige interkulturelle Handlungskompetenzen, die im schulischen Fremdsprachenunterricht oftmals vernachlässigt werden. Das sorgfältig zu archivierende neue Sprachmaterial setzt sich zusammen aus einem im Voraus nicht planbaren Anteil, den sich die Schüler in einer konkreten Unterrichtssituation zumeist selbständig (mit Hilfe von Wörterbüchern, Enzyklopädien, Grammatiken, etc.) erarbeiten, und einem (weitestgehend) planbaren Anteil, der für die aktuelle Phase der invention erforderlich ist und vom Lehrer als sprachliches Hilfsmittel angeboten wird (Care 1993: 53). Insofern stehen die SG in einem dynamischen Spannungsverhältnis von Steuerung und Offenheit, wobei der Grad und die Dauer der Öffnung u.a. vom Sprachniveau und von den Lehr-/ Lernzielen abhängt. Die invention lässt sich mit einem Begriff aus der Rezeptionsästhetik verstehen als creation dirigee (Sartre), die erst in der „Dialektik von Lenkung und Kreativität" (Bredella 1993: 44) ihre eigentliche Bestimmung erfährt. 5 Kreativität wird zwar immer wieder für den Fremdsprachenunterricht gefordert, erst in den SG wird sie aber zu einem interaktionellen Phänomen im Rücksehen (1997) Sinne. Dies hängt damit zusammen, dass es ja nicht darauf ankommt, in einer Schulklasse 25 noch so kreative Einzelwelten zu schaffen (so wie es möglich ist, 25 Einzelgedichte schreiben zu lassen, deren kreativer Wert dadurch verblasst, dass sie nicht zwingend Interaktion, es sei denn mit einem Text, voraussetzen), sondern eine creation collective, die notwendigerweise eine creativite collective erfordert (Care/ Debyser/ Estrade 2 1997: 11). Beim gemeinsamen Generieren von Welten müssen subjektive Wirklichkeitsentwürfe artikuliert und in ständiger Auseinandersetzung mit der Umwelt (Lehrer, Mitschüler, Materialien, etc.) verglichen und ggf. zugunsten des gemeinsamen Produkts revidiert werden, und zwar durch (authentische) Interaktion. Im Unterschied zu den sog. information gap-Übungen gibt es bei den SG keine bevorrechtigten Positionen, sondern einen gegenseitigen Austausch von prinzipiell gleichwertigen Informationen. Die Verquickung von Sprache und Welt/ Sache lässt durchaus Parallelen zum Erstsprachbzw. natürlichen Zweitsprachenerwerb erkennen: "Spracherwerb ist[ ...] ein integrierender Teil des 'Welterwerbs', des Erwerbs einer sozialen Kompetenz im weitesten Sinne" (Timm 1993: 162). Sprachliche Regularitäten werden nicht mehr als Selbstzweck, sondern „als soziale Regularitäten erfahren" (Timm 1993: 162), d.h. als wesentliche Bestandteile eines neuerlichen Sozialisationsprozesses (der bei den SG im Schutz und in Ausnutzung des/ der bereits durchlaufenen vonstatten geht). Die Nähe zum Erstsprachbzw. natürlichen Zweitsprachenerwerb durch die Betonung mitteilungsbezogener, au- Die creation muss deshalb auch nicht zwangsläufig kreativ im Sinne von neuartig/ innovativ sein (Care 1993: 50). Dass der fremdsprachliche Unterricht nicht dauernd und ungelenkt kreativ sein kann, weil er vor allem konventionelle, d.h. ritualisierte Kommunikationsmuster vermitteln muss, wird auch von Rück (1997: 5) betont. lFLlillL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 239 thentischer Interaktion ist natürlich per se noch keine Gewähr für einen erfolgreichen Fremdsprachenerwerb in der Schule. Allerdings gibt es in der Forschung ,zum sog. gesteuerten Zweitsprachenerwerb zumindest im Ansatz Hinweise darauf, "daß ein Zusammenhang zwischen der Spezifik von Interaktionen und Fremdsprachenerwerb besteht" (Henrici 1995: 151). Studien in diesem Bereich lassen den Schluss zu, dass gewisse interaktive Bedingungen wie z.B. lernerinitiierte und -aktivierende Gesprächsthemen, interaktionale Management-Fähigkeiten von Schülern und Lehrern, kooperatives Aushandeln und variantenreiche Interaktion dem Fremdsprachenerwerb förderlich sein können. Gleichzeitig wird betont, "daß ein auf Spracherwerb fokussierter interaktiver Fremdsprachenunterricht nur dann für die Mehrzahl der Lernenden erfolgreich sein kann, wenn in ihm explizit-metasprachliche Phasen und Sequenzen einen festen Platz haben" (Henrici 1995: 154). Im Unterschied zu den Simulationen angelsächsischer Prägung, in denen dies nur zeitversetzt möglich ist, erlauben die SG jederzeit (mit Ausnahme der Rollenspiele, die jedoch einer intensiven Vor- und Nachbereitung bedürfen) eine geplante oder ungeplante Bewusstmachung von Sprach- und Lernprozessen in explizit-metasprachlichen Phasen, und zwar nicht als Selbstzweck (weil eine gewisse sprachliche Struktur „durchgenommen" werden muss), sondern weil sie der Lösung konkreter oder vorhersehbarer Probleme bzw. der Reflexion und Fruchtbarmachung positiver oder negativer Erfahrungen dient. Hierzu sind natürlich andere fremdsprachliche Mittel und Diskursstrategien erforderlich, die ihrerseits erlernt werden müssen. 2.3 Lerntheoretische Dimension Das Lernen, Grundeigenschaft und überlebenssichernde evolutionäre Errungenschaft des Menschen, ist gekennzeichnet durch zielgerichtete Veränderung, durch einen spannungsvollen Übergang. Yaiche (1996: 75 f) spricht von einer schizie, im Falle des Fremdsprachenlernens von haute schizie. Damit ist zum einen angedeutet, dass es sich beim Lernprozess um eine „ergänzende Selbstschöpfung" handelt, die zutiefst individuell und von außen kaum planbar ist (Meißner 1993: 119). Zum anderen kann der lernende Mensch nicht als tabula rasa angesehen werden, verfügt er doch immer schon über eine persönliche Lernbiographie (und -motivation). Ist die Lernfähigkeit des Menschen genetisch vorprogrammiert, so findet der Aufbau von Wissensstrukturen erst in handelnder (geistiger oder materieller) Interaktion mit der Umwelt statt. Es kommt also zu einer Verknüpfung endogener und exogener Faktoren: Tbe overall function ofknowledge is to mediate between an individual's needs and desires, on tbe one band, and the extemal world witb its cbanging situation-specific demands and cballenges, on tbe other band. Tbe driving force bebind tbe construction of knowledge is that it improves an individual's cbances of successful orientation and gratification of personal needs. Tbat is wby knowledge is connected to a searcb for a coherent account of observed facts (Multbaup 1999: 95). Daraus folgt, dass sich Individuation und Sozialisation/ Enkulturation gegenseitig beeinflussen. In der Erkenntnistheorie des radikalen Konstruktivismus, die sich als besonders fruchtbar für die aktuelle fremdsprachendidaktische Diskussion erweist, werden intraindividuelle Wirklichkeitskonstruktionen (und um eine solche handelt es sich laut Wendt FLilllL 30 (2001) 240 Sven-Holger Hahn (1996: 76) auch bei der Lernersprache) aus „Anlass" verändert, d.h. wenn sie sich (z.B. in der Interaktion mit anderen Menschen oder authentischen Texten) als nicht „viabel" und damit unbrauchbar für das „überleben" des Organismus in seiner Umwelt herausstellen. Auf diese Weise bilden soziale Systeme interindividuelle Wirklichkeitskonstruktionen aus (diejenigen einer Kulturgemeinschaft bezeichnet Wendt (1996: 20 ff) als "Mythen"), die uns den Eindruck (und die Sicherheit) einer objektiven und beschreibbaren Realität vermitteln, in der Verstehen und Verständigung zumindest im Ansatz möglich werden. Letztlich können auch denotative Wortbedeutungen und kulturelle Symbole · als soziale Konstrukte angesehen werden (Wendt 1998: 6). 6 Aus konstruktivistischer Sicht bedeutet Lernen aktive, selbstorganisierte Wissenskonstruktion aufgrund einer „Perturbation" bereits aufgebauter Wissensschemata (Wolff 1994: 415). Für das Erlernen von Sprachen bedeutet das, dass genügend (Sprach-)Daten eingehen müssen, um diese mit vorhandenem Wissen vergleichen und kategorisieren zu können (und zwar bezogen auf Phonemsystem, Wortschatz und Syntax). Bleyhl hat in diesem Zusammenhang wiederholt auf die Fatalität des traditionellen, linearen Fremdsprachenunterrichts hingewiesen, in dem Segment nach Segment sauber getrennt voneinander eingeführt, sofort geübt (produziert) und danach als bekannt vorausgesetzt wird (aber meist nach der nächsten Klassenarbeit vergessen ist, erneute Übung erfordert und so den Eindruck eines kaum noch zu bewältigenden Stoffberges erweckt). Anstelle dieses linear-kausalistischen input-output-Denkens plädiert er für einen dynamischen, nichtlinearen Fremdsprachenunterricht, der den Lernern ausreichend Zeit zwischen Rezeptions- und Produktionsphase einräumt und sie mit weitaus mehr (verständlichem) Sprachmaterial konfrontiert, als aktiv von ihnen verlangt wird: Sprachphänomene sind[ ...] 'unscharfe Mengen' [... ], die aus ihrer Vernetztheit im so komplexen Sprachsystem leben, die die Eingebundenheit in die Situation brauchen und das Mitdenken der Beteiligten erforderlich machen. Sie können nicht einzeln herausgebrochen und isoliert gelernt oder gelehrt werden. Dies macht ja das Sprachlernen zu einem nichtlinearen Prozeß. Je häufiger, vielgestaltiger und intensiver der Lerner dabei Umgang mit Sprache hat, je mehr Erfahrung er mit Sprache erlebt, desto schneller und auf um so höherem Niveau stabilisiert sich seine Sprachkompetenz (Bleyhl 1997: 234). Ein derartiges Potential wird i.d.R. dem sog. handlungsorientierten Unterricht zugesprochen, wie er exemplarisch in den SG verwirklicht ist. 7 Wichtige (positive wie negative) 6 Das Begriffslernen in der Muttersprache bzw. beim natürlichen Fremdsprachenerwerb erfolgt nach dem Schema der Hypothesenbildung und -Überprüfung (Wendt 1998: 6). Es kann allerdings nur bedingt auf den gesteuerten Fremdsprachenerwerb übertragen werden, da beim Klären einer Wortbedeutung bzw. in kommunikativen "Notsituationen" immer auf die Muttersprache zurückgegriffen werden kann (Multhaup 1999: 102 ff). 7 Das Unterrichtsprinzip der Handlungsorientierung (learning by doing) hat in der Schulpädagogik bereits eine lange Tradition, wobei immer wieder sozialisationstheoretische Argumente angeführt werden (etwa in Gudjons 3 1992: 56 ff). Demnach wirken die eigentätige Aneignung und identifikationsstiftende Gestaltung von Kultur mit ihren vielfältigen Möglichkeiten gegenwartsbezogener, sinnlicher, zwischenmenschlicher Erfahrungen der aktuellen Tendenz zu Ent-Sinnlichung, Abstraktion und ikonischer Aneignung insbesondere durch die Verbreitung der Informationstechnologien entgegen. Demgegenüber setzt Care andere Akzente, indem er das "Rad der Geschichte" nicht zurückdrehen will, sondern zu einem kritischen und phantasievollen Umgang damit JPLIIL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 241 Erfahrungen können durch einen handelnden, funktionalen Umgang mit Sprache in einer (auch interkulturell) bedeutsamen Situation gesammelt, sprachliche Hypothesen aufgestellt und dank der 'realen' Rückkoppelung (Walmsley 1976) vom Lernenden direkt ausgewertet und ggf. verändert werden. Die Rückmeldung, ob eine sprachliche Handlung Erfolg hatte oder nicht, dient zugleich der Lernmotivation (Schiffler 1998: 17). Bei der funktionalen (zielgerichteten) Sprachverwendung wird das Sprachmaterial kontextualisiert und persönlich konnotiert, und zwar zumeist auf unterschiedlichen "Kanälen" und mit „Kopf, Herz und Hand"; eine wesentliche Voraussetzung für erfolgreiches Erinnern. Dies geschieht kooperativ, d.h. Bedeutungen (und Beziehungen) werden (soweit nötig) interaktiv ausgehandelt und können ggf. selbst zum Gesprächsgegenstand werden. Auf diese Weise erhält Sprache ihre ursprüngliche Bedeutung als Regulativ sozialer Systeme (wie es der Klassenverband nun einmal ist) zurück und "schafft einen Regelkreis des Verhaltens, der von allen Beteiligten beeinflußt und gesteuert wird" (Bleyhl 1993: 122). 3. Didaktisch-methodische Überlegungen Didaktisch-methodische Grundeinheiten der SG bilden die canevas d' invention. Dabei handelt es sich um Themenmodule, die zwar an ein lieu-theme gebunden sind, sich darüber hinaus aber durch eine große Offenheit hinsichtlich Niveau, Ziele, Inhalte, Methoden, Zeitbudget usw. auszeichnen. 8 Abb. 1 stellt ihre grundlegenden Elemente dar: auffordert: "Nous entrons resolument dans Ja civilisation de l'immateriel, de l'intangible, un monde de synthese et de clones ou nous risquons de vivre de plus en plus par procuration. Ne nous trompons pas, Ja simulation accompagne cette evolution et nous y prepare. Impossible pourtant de revenir en arriere. C' est donc le processus lui-meme qu'il faut inflechir en allant plus loin encore, en y insufflant son antidote: Ja liberte de l'invention et l'impertinence de l'imaginaire [...]. Dans un monde de plus en plus insaisissable, l'invention n'est deja plus un luxe, c'est une necessite" (1995: 74 f). 8 Eine wichtige Planungsmodalität betrifft die Verständigung über die Lehr-/ Lernziele. Damit kann zunächst sowohl die Anbindung an allgemeine Erziehungsziele als auch an ein übergeordnetes Projekt gemeint sein. Auf der pragmatischen Ebene geht es um den Erwerb der vier kommunikativen Grundkompetenzen, die sich bei den SO i.d.R. aufeinander beziehen und gegenseitig ergänzen. Bourguignon (1985) verdanken wir eine Systematisierung des weiten Spektrums der für die SO relevanten Sprech-, Lese- und Schreibsituationen sowie der Fähigkeiten, die jeweils in ihnen erworben werden sollen. Dabei scheint es symptomatisch für die SO, dass rezeptive Fähigkeiten eine eher untergeordnete Rolle spielen: Das Hörverstehen wird nicht gesondert betrachtet und die Kenntnisse über Aufbau und Funktionalität schriftlicher Texte, die beim Lesen erworben werden, dienen zuvorderst der eigenen Textproduktion, die eine wichtige Rolle spielt. Auf den ersten Blick scheint es paradox, sog: kognitive und emotionale Lehr-/ Lernziele (Kenntnisse bzw. Einstellungen in Bezug auf die Zielkultur) mit den SO in Verbindung zu bringen, birgt doch die Ausgestaltung einer fiktiven Realität mit Merkmalen der Fremdkultur, die die Schüler noch gar nicht kennen, die Gefahr, das Fremde karikaturistisch zu verzerren oder sogar völlig zu vereinnahmen. Beacco (1985) hat dennoch Wege aufgezeigt, wie mit einer Simulation handlungsorientiert kulturelles Wissen aufgebaut werden kann. Hierfür bietet der Lehrer Modelle an, mit deren Hilfe die Schüler eine "repräsentative" Realität der Zielkultur erschaffen können. Dem Lehrer obliegt dann die Expertise der Schülerproduktionen. Damit es Schülern gelingt, auf der Basis eigener Vorerfahrungen relativ komplexe, fremdartige und kohärente Lernwelten hervorzubringen, gilt es, ihnen Techniken an die Hand zu geben, mit denen sie vorhandenes Wissen aktivieren und neue Ideen (auch sprachlicher Art) individuell oder FLIIL 30 (2001) 242 Sven-Holger Hahn Canevas d'invention (1) Phase descriptive (2) Phase narrative/ dramatique ~ ~ (la) Decor (1 b) Personnages (2a) Evenements (2b) Incidents Abb. l Obwohl sich die Phase (1) tendenziell vor der Phase (2) befindet, lässt sich eine exakte chronologische Anordnung der einzelnen Elemente m.E. nicht mit ihrem offenen Charakter vereinbaren. Sie richtet sich u.a. nach dem Handlungsrahmen/ lieu-theme, nach dem Schwierigkeitsgrad bzw. der inneren Logik der Übungen und nach der zur Verfügung stehenden Zeit, kann aber auch durch Zufallskarten herbeigeführt werden, die die lineare Entwicklung und das erreichte Gleichgewicht immer wieder durchbrechen. Die Anordnung der o.g. Phasen gehört ebenso zu den didaktisch-methodischen Entscheidungen, die im Vorfeld einer SG gemeinsam mit den Schülern getroffen werden, wie die Auswahl eines lieu-theme. Dabei sind Optionen sowohl zeitlicher als auch räumlicher Art denkbar: Die SG können in der Vergangenheit, Gegenwart oder Zukunft, in einer realen französischen bzw. frankophonen oder imaginären Umgebung angesiedelt werden. Die option realiste bietet zweifelsohne den Vorteil, reale kulturelle, geographische, politische, gesellschaftliche, wirtschaftliche, etc. Aspekte (anhand von authentischen Materialien) zu integrieren, und kann somit beispielsweise der Vorbereitung auf einen Schüleraustausch dienen oder von Brieffreundschaften bzw. Video- und Internetkonferenzen mit einer Partnerklasse begleitet werden (Yaiche 1996: 139). Mögliche Gefahren liegen allerdings im Streben nach möglichst perfekter Konformität, die jegliche Spontaneität untergräbt, so dass Abweichungen vom Gewöhnlichen, die deshalb nicht weniger real sind, immer mit berücksichtigt, jedoch nicht systematisiert werden sollten. Die option de l' imaginaire absolu hingegen empfiehlt sich insbesondere für den Literaturunterricht. Im Voraus geplant werden müssen ferner das Gesamtstundenvolumen und die Stundenverteilung. Eine 'intensive' Simulation erstreckt sich über einen zusammenhängenden Zeitraum und erlaubt somit eine kontinuierliche, der Kohärenz der invention und dem Gruppenklima förderliche Entwicklung (z.B. während einer Projektwoche). Eine 'extensive' Simulation ist möglich als Ergänzung zum 'normalen' Unterricht. Bei der 'gemischten' Simulation schließlich werden Lehrbucharbeit und SG miteinander verwoben, d.h. einzelne Elemente aus verschiedenen Lektionen werden zu einem imaginären Universum zusammengefügt, wobei das Lehrbuch als Quelle für sprachliches und kulturelles Material fungiert (Yaiche 1996: 154). kollektiv generieren bzw. strukturieren können. Yaiche (1996: 113 ff) unterscheidet vier Gruppen: Animations-, Argumentations-, Imaginations- und Erzähltechniken sowie Techniken zur Organisation von Gruppenarbeit. lFLllL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 243 Was die Einrichtung des Klassenraumes anbelangt, scheint eine streng ritualisierte Zweiteilung sinnvoll: ein leerer Raum für Rollenspiele (der Übergang steht für die Annahme einer neuen Identität) und, klar getrennt davon, Tische und Stühle, die nach den jeweiligen Erfordernissen der übrigen Aktivitäten (Vor- und Nachbereitung der Rollenspiele, kreativ-gestalterische Aufgaben, Reflexion über Sprache, etc.) arrangiert werden (Yaiche 1996: 110 f). Die Lehr-/ Lernmittel und die archivierten Schülerarbeiten sollten jederzeit zugänglich sein. Archiviert werden sämtliche Gruppenentscheidungen, z.B. die Beschreibung der räumlichen Gegebenheiten/ der fiktiven Identitäten, sowie das entsprechende Vokabular (auto-dictionnaire ). Dabei stellt sich die organisatorische Frage, ob und inwieweit die Verantwortung für diese Dokumentensammlung (das Gerüst der invention) in die Hände (einzelner oder mehrerer) Schüler gelegt wird, denn sie verlangt Entscheidungen, die das Gruppenklima nachhaltig beeinflussen können (Selektion, Evaluation, Korrekturen, etc.). Andererseits wäre eine lehrerzentrierte Organisation kaum mit der anzustrebenden Lernerautonomie vereinbar und im Übrigen viel zu zeitaufwendig. Aus diesem Grund ist es unerlässlich, die Schüler behutsam, d.h. zunächst unter Anleitung des Lehrers an diese Aufgabe heranzuführen, und gleichzeitig für alle einsichtige Bewertungskriterien zu entwickeln (Yaiche 1996: 112). Dazu gehört auch die Auswahl der ggf. selbst hergestellten Poster, Fotos, Karten usw., mit denen der Klassenraum dekoriert wird, um die Phantasie anzuregen und das Sich-Einlassen auf die Simulation zu erleichtern. Neben den archivierten Kollektivarbeiten führt jeder Schüler ein persönliches cahier d' invention. Ob der mitunter starken emotionalen Bindung an das gemeinsame Projekt und an den mittlerweile lebendig gewordenen Figuren erfordert das Ende der SG eine besonders sensible Planung (Yaiche 1996: 144 ff). Die wohl radikalste Lösung ist eine unwiderrufliche, tragische Katastrophe. Daneben ist auch ein Zeitsprung in die Zukunft denkbar. Am sinnvollsten erscheint mir jedoch die Anbindung an ein „reales" Projekt: der Besuch eines (oder des simulierten) französischen Dorfes, ein Schüleraustausch, eine Theateraufführung, eine Ausstellung, etc. 4. Simulations globales in einem offenen Französischunterricht Die SG tragen m.E. in besonderem Maße dazu bei, den im nordrhein-westfälischen Lehrplan für das Gymnasium (Sekundarstufe 1) geforderten unterrichtsgestalterischen Leitgedanken der Kommunikationsorientierung mit dem Ziel „der Befähigung zum intentionsadäquaten, sach- und situationsgerechten Handeln in realen Kommunikationssituationen" (Kultusministerium des Landes Nordrhein-Westfalen 1993: 62) sowie der Lernerorientierung, wonach die Schüler „auf der Basis des Lehrprozesses ihre eigenen Lernprozesse gestalten und ihre kognitiven Strategien in kreativ-konstruktiver, problemlösender Weise in den Lernprozeß einbringen" (ibid.), gerecht zu werden. Dies wird vor allem im hieraus abgeleiteten unterrichtsmethodischen Prinzip der Schülerorientierung deutlich: JFLUJJL 30 (2001) 244 Sven-Holger Hahn - Förderung eigenverantwortlichen und selbstgesteuerten Handelns im Unterricht im Sinne des individuellen und kooperativen Lernens und Übens; - Schaffung von Freiräumen für ungeschützte sprachliche Interaktion, für Probehandeln, Eigeninitiative und Kreativität; - Schaffung von Sprechanlässen, die den Übergang von sprachbezogener zu mitteilungsbezogener Kommunikation ermöglichen (Kultusministerium des Landes Nordrhein-Westfalen 1993: 63). Ein weiteres Prinzip, das die SG in nahezu idealer Weise umsetzen, ist die integrierte Schulung der kommunikativen Fertigkeiten, wenn es um „die Einübung angemessenen sprachlichen Handelns in simulierten Realsituationen" geht (Kultusministerium des Landes Nordrhein-Westfalen 1993: 65 [Hervorhebung von mir]). Ähnliche Grundsätze für die Gestaltung von Lernprozessen finden sich auch im nordrhein-westfälischen Lehrplan Französisch für die Sekundarstufe II, wobei die SG insbesondere den Prinzipien der Authentizität und des integrierten Sprach- und Sachunterrichts im Rahmen komplexer Lehr- und Lernsituationen entsprechen. Wenn die SG dennoch relativ selten ihren Weg in bundesdeutsche Klassenzimmer finden, dürfte dies in erster Linie gerade in der Sekundarstufe I an der einseitigen Orientierung am Lehrwerk mit seinen engen Vorgaben liegen, und das, obwohl sich der Lehrplan dafür ausspricht, dass die Unterrichtenden zum Zwecke der Lernökonomie „die Vorgaben des jeweils eingeführten Lehrwerkes kritisch überprüfen und gegebenenfalls verändern bzw. ergänzen" (Kultusministerium des Landes Nordrhein-Westfalen 1993: 66). Da es weder wahrscheinlich noch wünschenswert ist, völlig auf den Einsatz von Lehrwerken zu verzichten (Vergleichbarkeit der Schüler eines Jahrgangs, Arbeitserleichterung für Lehrer und Schüler, Orientierungshilfe nach innen und außen usw.), gilt es, einen lehrwerkzentrierten Unterricht für die Prinzipien der SG zu öffnen. In der Praxis haben sich diesbezüglich zwei Modelle herausgebildet. Der erste Typus ließe sich mit Yaiche (1996: 154) umschreiben als parenthese heureuse dans un univers scolaire de grise routine. Dabei handelt es sich um einen projektartigen, zeitlich begrenzten Einschub der SG in den Unterrichtsalltag ohne jeden,Bezug zum Lehrwerk: Unter Berücksichtigung der groben Phasierung werden ausgewählte mündliche und schriftliche Aktivitäten durchgeführt und bisweilen in ein „reales" Projekt überführt. Die Erfahrungsberichte, die sich auf Lerner unterschiedlicher Niveaus und Schulformen, aber allesamt auf L'Immeuble beziehen, fallen durchweg positiv aus (Sturzebecher-Thermann 1994; Krey 1994; Janz/ Münchow/ Piontek 1994). lmaffektiven Bereich geben die Autoren einhellig an, dass die Schüler die Möglichkeit zur Eigeninitiative und Mitbestimmung als Befreiung empfunden hätten und mit deutlich mehr „Spaß", "Freude", "Eifer", "Motivation", "Selbstvertrauen" usw. an die Sache gegangen seien. Dabei hätten sie sich in hohem Maße mit den selbst erschaffenen Personen identifiziert, zumal diese ihrer eigenen Lebenswelt entsprungen seien (Krey 1994: 17 f; Janz/ Münchow/ Piontek 1994: 26). Auf der sozialen Ebene habe sich das Verhältnis zwischen den Schülern (Krey 1994: 19), aber auch zwischen Lehrerund Schülern (Janz/ Münchow/ Piontek 1994: 26) deutlich verbessert. Was die sprachliche Arbeit anbelangt, hätten die Schüler „schneller und besser gelernt" (Janz/ Münchow/ Piontek 1994: 24), wobei insbesondere die mündliche lFlLIIL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 245 Kommunikationsfähigkeit verbessert worden sei: Die Schüler hätten sich „sprachlich befreiter und kreativer" (Krey 1994: 19) gezeigt und sowohl im Gespräch untereinander als auch in der „hitzigen Diskussion" des Rollenspiels die französische Sprache benutzt (Krey 1994: 18). Dabei hätten sich die „Mini-Dialoge" als Vorstufe für freieres Sprechen vor allem bei der Binnendifferenzierung einer heterogenen Lerngruppe bewährt (Janz/ Münchow/ Piontek 1994: 26). Einig sind sich die Lehrer aber auch, dass ein solches Projekt wegen eintretender Ermüdungserscheinungen (vor allem während der langen Beschreibungsphasen) nicht über den beschriebenen Zeitraum von ein bis zwei Monaten hinaus ausgedehnt werden sollte. Dies widerspricht eindeutig den Vorstellungen der Urheber der SG, deutet aber auch an, dass die positiven Ergebnisse evtl. nur aufgrund der Attraktivität des Neuen erzielt werden konnten. Zweifellos konnte hier eine besondere emotionale Bindung an die Projekterfahrung angebahnt werden die Schüler verlangten schon bald nach einer Fortsetzung (Sturzebecher-Thermann 1994: 13) -, die Gefahr ist jedoch groß, dass der Lernfortschritt „verpufft", wenn es bei einem einmaligen, isolierten Erlebnis bleibt, das von den Schülern als „Ausnahmesituation" erfahren wird und womöglich noch in Konkurrenz zum Lehrbuchunterricht steht "Die Parallelklasse ist schon zwei Kapitel weiter! "). Hinzu kommt, dass die SG in den hier beschriebenen Fällen schon aufgrund des Zeitmangels weniger zum Erlernen der Fremdsprache eingesetzt werden, sondern zum Transfer an anderer Stelle erworbenen Wissens. Dies mag für den weiteren Fremdsprachenunterrichtkurzfristig motivierend wirken, schöpft aber m.E. die Kapazitäten des Ansatzes nur ungenügend aus und schließt nicht aus, dass für den Rest des Schuljahres an einem geschlossenen Unterrichtskonzept festgehalten wird, wohingegen das Projekt im wahrsten Sinne des Wortes ich denke vor allem an die Bewertungsrelevanz folgenlos bleibt. Alternativ sind daher Modelle entstanden, die Lehrwerk und SG miteinander verknüpfen. I. Schiffler (1996) berichtet von einem Unterrichtsversuch, bei dem die Schüler über einen Zeitraum von drei Jahren (9.-11. Klasse) Lehrbuchlektionen und -übungen in ein selbst gewähltes lieu-theme (Martinique) mit selbst erfundenen Identitäten integrierten und die eigenen (korrigierten) Textproduktionen in einem illustrierten Heft dokumentierten. Schon bei der Ausgestaltung der Figuren diente das Klett-Lehrwerk Etudes Franr; aises 3-Edition Langue als inhaltliche und sprachliche Anregung; Informationen über die Insel erhielten die Schüler aus (selbst angeforderten) Reiseprospekten. Ein ähnliches Vorgehen wählten Sippel/ Wagner (2001) für den gymnasialen Anfangsunterricht. Als Folie für die sukzessive Ausgestaltung und Animation des Mikrokosmos rue Daguerre im Laufe des 7. Schuljahrs diente hier das Klett-Lehrwerk Decouvertes ]- Serie verte. Wie das Unterrichtsexperiment zeigt, können bei einer gewissenhaften und realistischen Planung, die durch die Lehrwerkprogression begünstigt wird, selbst mit bescheidenen sprachlichen Mitteln anspruchsvolle und motivierende Aktivitäten praktiziert werden. Die Vorteile der Integration von SG und Lehrwerk liegen auf der Hand: Themen und Texte des Lehrwerks werden mit einem „roten Faden" versehen und als Vorlagen für schülerorientierte Aktivitäten umfunktioniert, wobei das betreffende Vokabular sowie die sprachbezogenen Übungen bereits vorliegen. Allerdings zeigt sich, FLlllL 30 (2001) 246 Sven-Holger Hahn dass die didaktische Reduktion der Lehrwerke der Prominenz extensiver Wortfelder bei den SG zuwiderläuft (Sippel/ Wagner 2001: 83). Darüber hinaus besteht die Gefahr, dass allzu krampfhaft versucht wird, die Themen, Orte und Personen (bis zur völligen Unglaubwürdigkeit) in Beziehung zu setzen. Daher sollten die Vorgaben nicht sklavisch befolgt werden, sondern ausreichend Raum für die gemeinsame Gestaltung lassen. Hier knüpfen Bemühungen an, die einzelnen Lernjahre des Französischunterrichts auf der Basis der den SG zugrunde liegenden Prinzipien als Abfolge offener Themenmodule "Lerneinheiten") zu konzipieren (Rattunde 1995; 1998; 1999). Im Rahmen des Forschungsprojekts FLuG "Fremdsprachliches Lernen und Gestalten") der Pädagogischen Hochschule Freiburg wurden zu diesem Zweck Dossiers entwickelt und erfolgreich erprobt, die „typische" Lehrwerkthemen (boum, camping, ecole) aufgreifen, diese nun aber weitestgehend von den Schülern ausgestalten lassen. In ihrer Konzeption ähneln sie damit den unterrichtsbegleitenden Materialien der SG, bieten aber den entscheidenden Vorteil, zielgruppenorientiert zu sein, d.h. die didaktisch-methodischen Hinweise im ersten Teil sowie die Arbeitsblätter im zweiten (neue Vokabeln, spielerische und kreative Übungen zu ihrer Festigung, etc.) richten sich nach den Bedürfnissen von Französischlehrern und -lernern der Sekundarstufe I. Die hier dargestellten Vorschläge zeigen, dass selbst „klassische" Schulbuchsituationen linear aufgebauter Lehrwerke für die Prinzipien der SG geöffnet werden können, selbst im Anfangsunterricht. Um die Mehrarbeit dabei jedoch so gering wie möglich zu halten und somit eine höhere Akzeptanz für offene Unterrichtsstrukturen zu erzielen, scheint eine Neukonzeption der Lehrwerke unerlässlich. Die prinzipielle Abgeschlossenheit der themenzentrierten Unterrichtsbausteine schließt im Übrigen eine altersangemessene Progression in Bezug auf Sprachmittel, Lern- und Arbeitstechniken, interkulturelle Inhalte usw. nicht aus (zunehmende Differenzierung, Komplexität, Dauer, Kognitivierung, etc.). In der Sekundarstufe II gehören Themendossiers zu den üblichen Arbeitsgrundlagen (allein deshalb wäre eine Vorbereitung in der Sekundarstufe I wünschenswert). Mit fortgeschrittenen Lernern lassen sich die SG in ihrer ganzen Komplexität umsetzen, insbesondere auch bei der Behandlung historischer und/ oder literarischer Themen, die z.B. auf der Basis eines umfassenden Quellenstudiums (Wissenschaftspropädeutik) von den Schülern simuliert werden können. 5. Evaluation und Ausblick Wollen wir verhindern, dass uns die französischsprachigen Länder und Regionen dieser Erde bald so fremd sein werden „wie die Äußere Mongolei" (so titelte jüngst die Frankfurter Rundschau), weil trotz aller Bemühungen um ein mehrsprachiges Europa immer weniger Deutsche die Sprache des Nachbarlandes lernen, müssen Wege gefunden werden, neben den politischen Rahmenbedingungen vor allem auch den Französischunterricht, der so manchen Lerner mit einer steilen (Grammatik-) Progression in einem ungünstigen Alter abschreckt, attraktiver zu gestalten. Hier können die SG, eingebettet in ein offenes Unterrichtskonzept, entscheidende Impulse liefern: Anders als eklektische lFJLlllL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 247 Verfahren dogmatische gehören hoffentlich endgültig der Vergangenheit an bieten sie den inhaltlichen und methodischen Rahmen, den Schüler und Lehrer im Sinne einer Routinebildung gleichermaßen zur Orientierung benötigen, sind aber gleichzeitig flexibel genug, um Interessen und Bedürfnissen der Lerngruppe zu entsprechen. Sie greifen anerkannte reformpädagogische Bestrebungen wie Projektunterricht, Handlungs- und Produktionsorientierung auf, realisieren diese aber innerhalb des traditionellen Schulsystems. Damit gelingt ihnen in Bezug auf den Fremdsprachenunterricht tatsächlich die „Quadratur des Kreises" (Yaiche 1996: 184). Während nämlich z.B. der Biologielehrer das Objekt für ein Unterrichtsprojekt vor der Schultür findet, ist ein Schüleraustausch mit ungleich mehr Aufwand verbunden und stößt schon bald an (finanzielle/ organisatorische) Grenzen. Soll den Schülern dennoch die (aktuelle und nicht erst zukünftige) Bedeutsamkeit ihrer Lernbemühungen verdeutlicht werden, stellt die Simulation, die im Übrigen die „echte" Handlung (Klassenpartnerschaft per Internet, briefliche Anfragen an Organisationen usw.) nicht ausschließt, eine besonders ökonomische Alternative dar. Indem die Schüler im Klassenraum einen Teilbereich französischer Realität aus eigenen Stücken hervorbringen und animieren, nehmen sie eine Innenperspektive auf die (plötzlich gar nicht mehr so) fremde Kultur ein und identifizieren sich in höchstem Maße mit dem von ihnen geschaffenen Universum (einschließlich der darin lebenden Individuen). Gleiches gilt für die Sprache, die „in einer Simulation das Äußerste an Verbindlichkeit leistet, was jenseits echter Kommunikation im Fremdsprachenunterricht möglich ist" (Zeh 1987: 207). Mit der Eigendynamik, die eine Simulation entfalten kann, sind allerdings auch ganz spezifische Probleme verbunden, die Zeh (1987: 207) als „psychologische und ethische Brisanz" charakterisiert. Auch Yaiche (1996) sieht in den derapages psychodramatiques, die er als perte de controle de l' individu sur ses actes, ses mots et ses emotions (1996: 92) definiert, .eine der Hauptgefahren für die SG und widmet ihnen gleich zwei umfangreiche Kapitel, die bisweilen polemische, zumindest aber stark emotionale Züge tragen: II y a les derapages qui resultent de la pression du groupe pour imposer a un de ses membres un profil particulier, en general peu enviable (ivrogne invetere, salaud notoire, etc.), et ceux qui resultent du masochisme et/ ou de l'exhibitionnisme d'un apprenant qui se sert de la simulation globale pour s'offrir une psychanalyse de groupe a peu de frais, pour prendre a temoin, voire en otage, le groupe et le forcer a ecouter ses epanchements sentimentaux, ses demandes de conseils psychologiques ou ses logorrhees de cafe du commerce (Yaiche 1996: 87). An diese Sorte Schüler denkt Yaiche (1996: 84) wohl auch, wenn er beklagt, dass sie sich hinter der fiktiven Identität verstecken würden, um all das straffrei durchführen zu können, was der Schulkodex unter normalen Umständen verbiete: impolitesse, violence, scatologie, sexe, cris,fous rires, etc. Ein solches Verhalten könne sich aber „in der Hitze des Gefechts" auch unbewusst einstellen, wenn nämlich die Grenzen zwischen Realität und Fiktion verschwimmen (Yaiche 1996: 87). Dass derartige Auswüchse auftreten können, soll hier nicht bestritten werden, nur sollten sie m.E. auf keinen Fall zu geradezu absurden, zeit- und motivationsraubenden Sanktionen (Yaiche (1996: 85) schlägt u.a. Prestigepunkte, Gefängnisstrafen (Monopoly! ) und Bußgelder vor) bzw. zu einer uneingeschränkten Lehrerautorität führen (Yaiche 1996: 86). Sie lassen sich aber m.E. JFLJJ.L 30 (2001) 248 Sven-Holger Hahn minimieren, indem die Eigenschaft der SG als 'Metaspiel' stärker in den Vordergrund gerückt wird: Ein Rollenspiel (und nur hier können die beschriebenen derapages auftreten), das auf der 'Metaebene' intensiv vor- und nachbereitet, ja von den Schülern selbst in Szene gesetzt wird, ermöglicht die Distanz zur Rolle, die erforderlich ist, um das Spiel als Spiel (und hier sollte den Schülern tatsächlich weitestgehende „Narrenfreiheit" eingeräumt werden) zu erkennen. Neben einer klaren räumlich-zeitlichen Trennung können weitere Rituale eingeführt werden, die den Übergang von fiktiver zu realer Identität und umgekehrt für jeden sichtbar machen und Missverständnisse ausschließen. Daneben nennt Yaiche (1996: 87 ff) aber auch eine Reihe ernst zu nehmender derapages, die stärker im Wesen der SG begründet liegen. Sie betreffen zunächst einmal die Rollenübernahme als solche, die in keinem Fall erzwungen werden sollte: Autantl'identification a un «autrui generalise», ne pose pas de probleme d'adhesion quand celle-ci se fait d'une fa1,on volontaire, autant l'identification a un groupe designe par l'enseignant peut parfaitement ne pas soulever l 'enthousiasme des eleves; bien au contraire. Car les eleves peuvent ne pas avoir tres envie de se projeter dans «Les Fran1,ais» qui ne representent pas toujours pour eux un modele, un ideal. La «naturalisation» ne se decrete pas par le haut, de fa1,on forcee; il faut rencontrer l' adhesion, le desir d' etre et sans doute aura-t-on interet alors a orienter ! es eleves vers des identifications seduisantes (Yaiche 1996: 79). Da scheint es geradezu paradox, Merkmale wie Nationalität, Alter und Beruf (das Geschlecht sollte m.E. grundsätzlich beibehalten werden), die bei einzelnen Schülern auf große Ablehnung stoßen und eine Blockadehaltung hervorrufen können (Sozialprestige), im Losverfahren gleichsamaufzuoktroyieren. Diese Situation lässt sich m.E. nur dadurch entschärfen, dass die Vorgaben zum einen legitimiert werden (z.B. anhand einer Bevölkerungsstatistik) und zum anderen genügend Raum für eine Ausgestaltung durch die Schüler lassen (die „Rollenkarten", Biographien, Porträts usw. werden ja nichtwie in den angelsächsischen Simulationen vom Lehrer vorgeschrieben, sondern von den Schülern verfasst). Um einem raschen Desinteresse an der selbst geschaffenen Figur vorzubeugen, müssen ferner Optionen offen .stehen, diese im Laufe der Simulation weiterzuentwickeln bzw. durch Angehörige, Bekannte oder Sekundärfiguren zu ergänzen, die helfen können, durch die Außenperspektive eine größere Distanz zur eigenen Rolle einzunehmen. Aber nicht nur die eigene Rolle, sondern auch die Beziehung zu anderen Figuren kann belastend wirken (Verwandtschaft, Bekanntschaft, Gerüchte, etc.). Besonders heikel sind sicherlich existenzielle Tabuthemen wie Arm und Reich, Krankheit und Tod, Liebe und Sex (Werden beim Verfassen des Liebesromans auch Beziehungen zwischen gleichgeschlechtlichen Partnern bzw. zwischen Jung und Alt zugelassen? ), Glaube und Religion (Darf eine neue Religion gegründet bzw. heidnisches Brauchtum zelebriert werden? ) und selbst die Frage, ob in Anwesenheit eines Lehrers als Autoritätsperson überhaupt gespielt bzw. gelacht werden darf. Sie können sowohl soziokulturell determiniert sein als auch individuelle Gründe haben. Da es nicht im Sinne der SG sein kann, eine heile Welt ohne Konflikte zu simulieren, sollten diese Themen m.E. nicht ausgeklammert, wohl aber mit besonders viel Sensibilität und Fingerspitzengefühl behandelt werden. Hinzu kommt, dass interkulturelles Lernen zwangsläufig die Überwindung eigener Tabus bei gleichzeitiger Akzeptanz von neuen (die der Zielkultur) JFLUIL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 249 meint. Eine Simulation bietet nun gerade den Vorteil, neue Kulturtechniken im geschützten Raum zu erlernen bzw. eigene zu relativieren und nicht erst im fremden Land, wo ein Fehlverhalten fatale Konsequenzen haben kann. Das nicht minder gefährliche Gegenstück zu den derapages psychodramatiques bilden laut Yaiche (1996: 92 ff) stereotype Realitätsentwürfe; die er als exces de controle et de raison und caricature realiste de la realite charakterisiert. Damit sind durchaus nicht nur überkommene Klischees von Barett und Baguette gemeint, sondern Vorstellungen, die sich aus den Weltbildern, Interessen, Sehnsüchten, etc. der Schüler ableiten, z.B. ein Haus voller Fußballstars oder amerikanischer Filmhelden. So verständlich diese Schülervorschläge sind, sollten sie m.E. weder unreflektiert akzeptiert noch in einem Handstreich vom Lehrer abgelehnt werden. Vielmehr können Elemente daraus z.B. als Vorlage für Verfremdungen oder für ein selbst entworfenes Prominentenviertel dienen. Im Übrigen sollten die Schüler die Gelegenheit bekommen, im Gespräch mit dem Lehrer bzw. den Klassenkameraden oder durch eigenständige Recherche stereotype Vorstellungen selbst zu erkennen und aus Einsicht zu korrigieren. Allerdings sollte auch keine allzu „normale" Welt entstehen, die schnell uninteressant werden würde und der Realität kaum entspräche. In Bezug auf derapages und stereotypes lässt sich zusammenfassend sagen, dass sie, wenn sie denn aufgetreten sind, nicht voreilig verteufelt, sondern für den Lernprozess nutzbar gemacht werden sollten (Yaiche 1996: 99). Eine dezidierte Kritik zum Thema SG bzw. La Creativite als „alternative Methode" hat Dietrich (1983; 3 1995) vorgelegt. Wenngleich sie (1983: 210) "die Vielfältigkeit der Sprechanlässe und die reichhaltigen Möglichkeiten der didaktischen Auswertung" bewundert und lobend erwähnt, "wie positiv sich die Atmosphäre im Fremdsprachen- Unterricht besonders bei jüngeren Schülern verändert, wie spielerisch, schwungvoll und fröhlich das Fremdsprachen-Lernen in einem solchen Rahmen ablaufen kann", überwiegen doch die Vorbehalte: Auf methodischer Ebene moniert sie (1983: 210) die „Infantilisierung" der Lernenden, die nur die Wahl hätten, sich auf die Lehrerdirektiven einzulassen, d.h. "eine fremde Rolle zu übernehmen", "frei zu assoziieren", "sich spielerisch und 'unerwachsen' zu verhalten", oder aber den Kurs zu verlassen. Dabei würden sie „von der Mitsprache über Verlauf und Inhalt ihres eigenen Fremdsprachen-Lernprozesses ferngehalten". Der letzte Punkt soll hier nicht weiter behandelt werden, da er den offenen Charakter der SG völlig ignoriert. Was den Vorwurf der 'Infantilisierung' anbelangt, so würde ich ihn für den Großteil der sog. alternativen Methoden (die deutlich weniger "spielerisch" anmuten) unterschreiben; in Bezug auf die SG weckt er aber den Verdacht, dass hier unreflektiert Spiel und Kreativität mit Kindheitsstadium und Unreife gleichgesetzt wurden. Die Teilnehmer einer Simulation haben eigenverantwortlich (mitunter sehr komplexe) Probleme zu lösen und erfahren dies gerade nicht als „zweckfreies Spiel" -wie sonst wäre der aktuelle Boom für Management-, Stadtplanungs-, Umweltsimulationen usw. für Erwachsene zu erklären? M.E. sind die SG allemal emanzipatorischer als ein lehrwerkzentrierter Unterricht, da sie die Schüler mit sehr viel weitreichenderen Kompetenzen ausstatten und ihnen nicht erst die „Gesprächserlaubnis" erteilen, wenn alle Strukturen einer Lektion perfekt „sitzen" (Transferphase). Es sei an dieser Stelle ausdrücklich darauf hingewiesen, dass es nicht darum gehen lFlLuL 30 (2001) 250 Sven-Holger Hahn kann, mit den SG Schüler zu fördern, die besonders originell und spielfreudig sind. Positiv am offenen Unterrichtskonzept ist ja gerade die differenzierende Flexibilität, mit der auf individuelle Lernbedürfnisse eingegangen werden kann (Ansprechen verschiedener Fertigkeiten in durchaus unterschiedlichen Lehr- und Lernformen). Projektunterricht ist anstrengend und benötigt als Ausgleich lehrerzentrierte Phasen, etwa beim Grammatikunterricht. Zu bemängeln ist jedoch, dass die Autoren der SG keinerlei Aussagen darüber machen, wie diese points langue aussehen sollen. Dietrichs (1983: 211) inhaltliche Vorbehalte kristallisieren sich in der Frage: "Besteht nicht gerade die 'Infantilisierung' der Lernenden darin, daß sie auf das Spielerische, Phantastische und Imaginäre verwiesen werden, was das Gegenteil einer politisch verantwortlichen Haltung gegenüber der Realität ist? " Dass dem nicht so ist, beweisen täglich unzählige Literaten, Karikaturisten, Rapper, etc. Was bei den SG zum Probehandeln wird (die Planung einer Umgehungsstraße, die Folgen einer Öltankerhavarie, Konflikte zwischen Mietern verschiedener Nationalitäten usw.), schafft sehr wohl ein Verständnis für die „Probleme unserer Zeit" (die, wenn sie denn gelöst werden sollen, durchaus etwas (mehr) Phantasie vertragen könnten). Im Übrigen gehört das, was Dietrichs hier leichtfertig verwirft, mittlerweile zu den Schlüsselqualifikationen und fehlt in mannigfachen Variationen in kaum einer Stellenanzeige. Im Zuge der flächendeckenden Ausstattung der Schulen mit Computern und Internetanschlüssen werden themenzentrierte Unterrichtsbausteine, wie Rattunde sie vorschlägt, leichter und flexibler realisierbar, und zwar unabhängig davon, wie die nächste Lehrwerkgeneration aussieht. Care (1995: 85 f) berichtet von einer für Le Village entwickelten Software, die die Wahrscheinlichkeit der invention überprüft und ggf. Änderungsvorschläge macht, aber auch Sprachspiele und Lernprogramme anbietet. Am Ende könnte das Lehrwerk dann durch ein individuelles Computerdossier ersetzt werden, das die invention, authentische Materialien, Übungen, Vokabellisten usw. enthält. Dies sind zwar Zukunftsvisionen, aber wie Care (1995: 86) schon sagt: Il y faut le gout du risque et le plaisir du gai savoir. Dies würde ich mir allerdings auch in stärkerem Maße für die Lehrerausbildung wünschen, damit ein vielversprechendes Projekt wie die SG nicht an mangelnder Kompetenz bzw. am Unwissender Lehrer scheitert, die mehrheitlich einen gänzlich anderen Fremdsprachenunterricht „genossen" haben dürften. Literatur BEACCO, Jean-Claude (1985): "Attitudes: Imaginer la realite". In: Le Franr; ais dans le monde 196, 82- 84. BERTRAND, Yves (1974): "Simulation et enseignement des langues". In: Praxis des neusprachlichen Unterrichts 21.2, 181-189. BLEYHL, Werner (1993): "Rezensionsaufsatz: Handlungsorientierter Fremdsprachenunterricht". In: Zeitschrift für Fremdsprachenforschung 4.l, 121-130. BLEYHL, Werner (1997): "Fremdsprachenlernen als dynamischerund nichtlinearer Prozeß oder: weshalb die Bilanz des traditionellen Unterrichts und auch die der Fremdsprachenforschung 'nicht schmeichelhaft' sein kann". In: Fremdsprachen Lehren und Lernen 26, 219-238. lFL1llllL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 251 BOURGUIGNON, Jean-Claude (1985): Simulations globales et enseignement dufran<; ais en milieu non francophone. Strasbourg: CRDP. BREDELLA, Lothar (1993): "Zur Dialektik von Steuerung und Offenheit bei der Rezeption literarischer Texte". In: BAUSCH, K.-Richard/ CHRIST, Herbert/ KRUMM, Hans-Jürgen (Hrsg.): Fremdsprachen- / ehr- und Lernprozesse im Spannungsfeld von Steuerung und Offenheit: Arbeitspapiere der 13. Frühjahrskonferenz zur Erforschung des Fremdsprachenunterrichts. Bochum: Brockmeyer, 43-51. CARE, Jean-Marc/ DEBYSER, Francis (1978): Jeu, langage et creativite: Les jeux dans la classe de franrais. Paris: Hachette/ Larousse. CARE, Jean-Marc (1992): "Qu'est-ce qu'une simulation globale? " In: Le Franrais dans le monde 252, 48-56. CARE, Jean-Marc (1993): "Le Village: Une Simulation globale pour debutants". In: Le Franrais dans le monde 261, 48-57. CARE, Jean-Marc (1995): "Inventer pour apprendre - Les simulations globales". In: Die Neueren Sprachen 94.1, 69-87. CARE, Jean-Marc/ DEBYSER, Francis/ ESTRADE, Christian ( 2 1997 [1980]): / les. Sevres: CIEP. COSTE, Daniel (1975): "Remarques sur les avatars de l'enseignement audio-visuel des langues". In: Die Neueren Sprachen 74.6, 539-548. DAM, Leni (1999): "Dennis the Menace and Autonomy". In: MrßLER, Bettina/ MULTHAUP, Uwe (Hrsg.). The Construction of Knowledge, Learner Autonomy and Related Issues in Foreign Language Learning. Essays in Honour of Dieter W olff. Tübingen: Stauffenburg, 13-26. DEBYSER, Francis (1973): "La mort du manuel et le declin de l'illusion methodologique". In: Le Franrais dans le monde 100, 63-68. DEBYSER, Francis (1978): "Les jeux du langage et du plaisir". In: CARE, Jean-Marc/ DEBYSER, Francis (Hrsg.): Jeu, langage et creativite: Les jeux dans la classe de franrais. Paris: Hachette/ Larousse, 1-12. DEBYSER, Francis (1980): "L'immeuble: roman-sirnulation en 66 exercices". In: Le Franrais dans le monde 156, 19-25. DEBYSER, Francis (21996 [1986]): L'immeuble: Edition augmentee d'une preface de Francis Debyser. Paris: Hachette. DIETRICH, Ingrid (1983): "Fremdsprachenlernen alternativ? ". In: BOLTE, Henning/ HERRLITZ, Wolfgang (Hrsg.): Lernen im Fremdsprachenunterricht: Berichte aus alternativen Lernkonzeptionen. Utrecht, 196-219. DIETRICH, Ingrid (31995 [1989]): "Alternative Methoden". In: BAUSCH, Karl-Richard [et al.] (Hrsg.): Handbuch Fremdsprachenunterricht. Tübingen/ Basel: Francke, 194-200. DUFEU, Bernard (1992): "Pour une pedagogie ouverte". In: Le Franrais dans le monde 246, 39-45. GUDJONS, Herbert (31992 [1986]): Handlungsorientiert lehren und lernen: Schüleraktivierung- Selbsttätigkeit - Projektarbeit. Bad Heilbronn: Klinkhardt. HENRICI, Gert (1995): Spracherwerb durch Interaktion? : Eine Einführung in die fremdsprachenerwerbsspezifische Diskursanalyse. Baltmannsweiler: Schneider. HENTSCHEL, Ulrike (1996): Theaterspielen als ästhetische Bildung: Über einen Beitrag produktiven künstlerischen Gestaltens zur Selbstbildung. Weinheim: Deutscher Studien Verlag. J ANZ, Jürgen/ MÜNCHOW, Sabine/ PIONTEK, Regina (1994 ): "L 'immeuble une simulation globale". In: Der Fremdsprachliche Unterricht: Französisch 28.2, Heft 14, 21-26. JONES, Ken (1980; 1984 [Nachdruck]): Simulations: A Handbookfor Teachers. London: Kogan. JONES, Ken (1982; 1984 [Nachdruck]): Simulations in Language Teaching. Cambridge: CUP. KOSTRZEWA, Frank (1994): "Sprache und Gedächtnis". In: Neusprachliche Mitteilungen 47.4, 221-228. KREY, Silvia (1994 ): "Kreativität und Sprachproduktion im Grundkurs: Französisch 3, 11. Jahrgang". In: Der Fremdsprachliche Unterricht: Französisch 28.2, Heft 14, 15-19. JFLIIL 30 (2001) 252 Sven-Holger Hahn KULTUSMINISTERIUM DES LANDES NORDRHEIN-WESTFALEN (1993): Französisch: Richtlinien und Lehrpläne für das Gymnasium-Sekundarstufe 1in Nordrhein-Westfalen. Frechen: Ritterbach. MALEY, Alan (1980): "L'Enseignement d'une competence de communication: Illusion du Reel et Realite de ! 'Illusion". In: Le Frant; ais dans le monde 153, 58-71. MEißNER, Franz-Joseph (1993): "'Steuerung' und 'Offenheit': zentrale Begriffe für die Didaktik des lebenslangen Sprachenlernens". In: BAUSCH, K.-Richard/ CHRIST, Herbert/ KRUMM, Hans-Jürgen (Hrsg.): Fremdsprachen/ ehr- und Lernprozesse im Spannungsfeld von Steuerung und Offenheit. Arbeitspapiere der 13. Frühjahrskonferenz zur Erforschung des Fremdsprachenunterrichts. Bochum: Brockmeyer, 119-129. MULTHAUP, Uwe (1999): "The Construction of Knowledge: Its Conditions and Causes". In: MißLER, Bettina/ MULTHAUP, Uwe (Hrsg.): The Construction of Knowledge, LearnerAutonomy and Related Issues in Foreign Language Learning. Essays in Honour of Dieter Wolff. Tübingen: Stauffenburg, 91-107. RATTUNDE, Eckhard (1995): "Offene Lektionseinheiten im Französischunterricht - Materialien und Möglichkeiten". In: Die Neueren Sprachen 94.1, 88-111. RATTUNDE, Eckhard (1998): "Lehrwerk und offene Lerneinheiten - Möglichkeiten für den Fremdsprachenunterricht". In: Neusprachliche Mitteilungen 51.4, 202-211. RATTUNDE, Eckhard (1999): "Inhalte gestalten - Fremdsprachen lernen. Vorschläge für einen offenen Französischunterricht". In: KRECHEL, Hans-Ludwig [et al.] (Hrsg.): Kognition und neue Pra.xis im Französischunterricht. Akten des Französischlehrertages der Vereinigung der Französischlehrer e.V./ NRW an der Bergischen Universität-Gesamthochschule Wuppertal 1997. Tübingen: Narr, 87- 109. RÜCK, Heribert (1997): "Kreativität und Interaktion". In: MEißNER, Franz-Joseph (Hrsg.): Interaktiver Fremdsprachenunterricht: Wege zu authentischer Kommunikation. Festschrift für Ludger Schiffler zum 60. Geburtstag. Tübingen: Narr, 1-11. SCHIFFLER, Ingrid (1996): " Vivre a Ja Martinique: Wie kann Lehrbucharbeit kreativ werden? ". In: Pra.xis des neusprachlichen Unterrichts 43, 49-54. SCHIFFLER, Ludger (1998): Learning by doing im Fremdsprachenunterricht: handlungs- und partnerorientierter Fremdsprachenunterricht mit und ohne Lehrbuch. Ismaning: Hueber. SIPPEL, Vera/ WAGNER, Heike (2001): "Nous demenageons dans Ja rue Daguerre... : Die simulation globale als integrale Ergänzung zur Lehrwerkarbeit im Anfangsunterricht". In: französisch heute 32.1, 79-88. STURZEBECHER-THERMANN, Elke (1994): "Wo gehen wirhin-immernachHause... (Novalis)". In: Der Fremdsprachliche Unterricht: Französisch 28.2, Heft 14, 10-14. TIMM, Johannes-Peter (1993): "Freiräume organisieren für handelndes Lernen. Schulisches Fremdsprachenlernen und -lehren im Spannungsfeld von Steuerung und Offenheit". In: BAUSCH, K.-Richard/ CHRIST, Herbert/ KRUMM, Hans-Jürgen (Hrsg.): Fremdsprachen/ ehr- und Lernprozesse im Spannungsfeld von Steuerung und Offenheit. Arbeitspapiere der 13. Frühjahrskonferenz zur Erforschung des Fremdsprachenunterrichts. Bochum: Brockmeyer, 161-168. V ANLIER, Leo (1996; 1997 [Nachdruck]): Interaction in the Language Curriculum: Awareness, autonomy and authenticity. London: Longman. VIELAU, Axel (1985): "Spracherwerb, Sprachlernen, Sprachlehrmethodik". In: Englisch-Amerikanische Studien 7.1, 9-30. WALMSLEY, John B. (1976): "Feedback and Simulation". In: ! RAL 14.4, 323-237. WENDT, Michael (1996): Konstruktivistische Fremdsprachendidaktik: Lerner- und handlungsorientierter Fremdsprachenunterricht aus neuer Sicht. Tübingen: Narr. WENDT, Michael (1998): "Fremdsprachenlernen ist konstruktiv". In: Der fremdsprachliche Unterricht: Französisch 2, 4-10. lFJLllL 30 (2001) Simulations globales als offenes Unterrichtskonzept für das Fach Französisch 253 W OLFF, Dieter (1994 ): "Der Konstruktivismus: Ein neues Paradigma in der Fremdsprachendidaktik? ". In: Die Neueren Sprachen 93.5, 407-429. YAICHE, Francis (1996): Les Simulations globales: mode d' emploi. Paris: Hachette. YAICHE, Francis (1998): "Construire et simuler avec les apprenants". In: Neusprachliche Mitteilungen 51.4, 227-235. ZEH, Dieter (1987): "Drama und Simulation". In: MELENK, Hartmut [et al.] (Hrsg.): 11. Fremdsprachendidaktiker-Kongreß: Region, Drama, Politik, Spracherwerb. Tübingen: Narr, 203-213. FL1.llL 30 (2001) Buchbesprechungen • Rezensionsartikel Eva Cassandra TRUMPP: Fachtextsorten kontrastiv. Englisch -Deutsch - Französisch. Tübingen: Narr 1998 (Forum für Fachsprachen-Forschung; 51), 237 Seiten [DM 78,-]. Seit die kulturelle Dimension der Fachsprachen in den Blickpunkt der Fachsprachenforschung gerückt ist, wird die Frage nach der Universalität bzw. Kulturgebundenheit des wissenschaftlichen Diskurses immer wieder aufgeworfen. Während die Vertreter/ -innen der Universalientheorie den Wissenschaftsdiskurs als ein sekundäres, von den primären kulturellen Systemen der Sprachgemeinschaften unabhängiges System betrachten, gehen die Verfechter/ -innen der Gegenposition von seiner prinzipiellen Kulturgebundenheit aus und versuchen, interlinguale Unterschiede in den textstrukturellen und stilistischen Merkmalen von Fachtexten mit der Existenz kulturspezifischer Denkstile zu erklären. Dass weder die Universalitätshypothese noch das Postulat der Kulturspeziflk uneingeschränkte Gültigkeit beanspruchen kann, zeigt einmal mehr der vorliegende Beitrag zur kontrastiven Fachtextlinguistik, der sich mit deutschen, englischen und französischen Fachtexten des Kommunikationsbereichs Sportwissenschaft beschäftigt und darauf abzielt, für den fachbezogenen Fremdsprachenunterricht und die Fachübersetzung relevante Ergebnisse zu erbringen. Beeindruckend ist nicht nur der Umfang des Untersuchungskorpus, das aus 379 Fachtexten mit einem Gesamtvolumen von 3 000 Druckseiten besteht, sondern auch die Anzahl und Komplexität der berücksichtigten Textsorten. Während sich Vorgängerarbeiten zumeist auf den Vergleich einer relativ kurzen und klar strnkturierten Fachtextsorte beschränken, analysiert Trumpp vier Fachtextsorten, die in der sportwissenschaftlichen Fachkommunikation eine wichtige Rolle spielen: Wissenschaftliche Zeitschriften- oder Kongreßberichtsbandartikel, Fachbuchbesprechungen, Lehrbücher und Fachzeitschriftenartikel für Praktiker. Die Einbeziehung unterschiedlicher Textsorten der fachintemen und fachextemen Kommunikation ermöglicht die Untersuchung „textsortenabhängiger und paradigmenbedingter Einflüsse auf die sprachliche, parasprachliche und nichtsprachliche Textgestaltung" (1) und eröffnet somit neben der interlingualen auch eine intralinguale Vergleichsebene. Das Buch besteht aus fünf Kapiteln. Da eine Einleitung fehlt, beginnt das erste Kapitel Problemstellung mit einer Einführung in den Gegenstand, die Methodik und die Zielsetzung der Arbeit. Anschließend werden wichtige theoretische Grundlagen und Ansatzpunkte vorgestellt, aus denen die Autorin ihre zwischen Universalientheorie und kultureller Differenzhypothese vermittelnde Position herleitet. Demnach ist im interlingualen Vergleich sowohl mit sprachübergreifenden wie auch mit einzelsprachlichen Vertextungsmustem zu rechnen, wobei die interkulturellen Differenzen in Abhängigkeit von der jeweiligen Forschungsmethode unterschiedlich groß ausfallen, d. h. zwischen empirischen Texten sind die kulturbedingten Unterschiede geringer als zwischen nicht-empirischen Texten. Dem zweiten, nur sieben Seiten umfassenden Kapitel Die Sportwissenschaft(en), das sich mit der Entwicklung und Binnendifferenzierung dieses jungen, je nach Ansatz inter-, trans- oder multidisziplinär ausgerichteten Faches beschäftigt, folgt das dritte Kapitel Forschungsstand, in dem die Ergebnisse früherer Untersuchungen zu den von Trumpp analysierten Fachtextsorten zusammengefasst und diskutiert werden. Neben der Darstellung des Textkorpus und der verschiedenen statistischen Prüfverfahren, die bei den quantitativen Varianzanalysen verwendet werden, geht es im vierten Kapitel Methode primär um die detaillierte Beschreibung und Erläuterung des Analyseansatzes, der auf dem integrativen Analysemodus und dem integrativen Ansatz zur Analyse der inhaltlich-funktionalen Textstruktur basiert. Damit verknüpft die Verfasserin zwei fachtextlinguistische Analyseansätze, die für den intrabzw. interlingualen Textsortenvergleich konzipiert wurden und sich bereits mehrfach bewährt haben. Die situative Einordnung der Fachtexte erfolgt in Form einer funktionalen Matrix textextemer Faktoren, die u.a. Angaben zu dem Geschlecht, der Anzahl, Sprache und Nationalität der Textproduzenten, der Fachkompetenz der intendierten Textrezipienten, der Teildisziplin und der Forschungsmethode enthält. Die textintemen Merkmale sind in absteigender Richtung von der Makrozur Mikroebene angeordnet und umfassen lFL1.IL 30 (2001) Buchbesprechungen • Rezensionsartikel 255 potentiell sämtliche textkompositorischen, syntaktischen, lexikalischen und morphologischen Eigenschaften sowie typographische Elemente und nonverbale Informationsträger. Die Autorin verwendet als Analysekriterien die Textmakro- und Teiltextstruktur, Gliederungssignale (Teiltextüberschriften, Absätze), metakommunikative Äußerungen ("advance organizers", Metadiskursverben, "topic sentences") und eine Reihe unterschiedlicher sprachlicher und nicht-sprachlicher Gestaltungsmittel, in denen die Darstellungshaltung des Autors (Objektivität, Autor-/ Leserbezug, Bezug zur Forschung) zum Ausdruck kommt. Obwohl diese Auswahl aus dem Gesamtkatalog textinterner Kriterien theoretisch unbefriedigend ist, weil sich die Relevanz der verschiedenen Merkmale für die Beschreibung und Kontrastierung von Fachtextsorten nicht a priori feststellen läßt, hat sie angesichts der Komplexität des Untersuchungsgegenstandes und des für eine Einzelperson ohnehin kaum zu bewältigenden Textkorpus durchaus ihre Berechtigung. Außerdem erfolgt die Auswahl nicht willkürlich, sondern nach übergeordneten Gesichtspunkten, die es erlauben, das Zusammenwirken der einzelnen Merkmale zu beschreiben und zumindest teilweise die Wechselwirkung zwischen sprachlichen und außersprachlichen Komponenten zu erfassen. So äußert sich beispielsweise der Autorbezug in der Verwendung von Verben, Personal- und Possessivpronomen der ersten Person sowie im Auftreten von Metaphern, Phraseologismen, Alliterationen und anderen Stilfiguren, während der Leserbezug durch Anredepronomen, Imperative und deontische Modalverben hergestellt wird oder im Gebrauch von bestimmten Kommunikationsverfahren wie Explizieren, Erläutern und Fragen, Spiegelstrichen, Abbildungen und Graphiken zum Ausdruck kommt. Da die letztgenannten sprachlichen und (typo)graphisch-figürlichen Mittel die Allgemeinverständlichkeit von Texten erhöhen, läßt sich ihre textsortenspezifische Distribution mit der potentiellen Leserschaft erklären: Sie sind ein typisches Kennzeichen der Fachzeitschriftenartikel für Praktiker, die zwar ebenso wie die Wissenschaftlichen Artikel von Wissenschaftlern verfasst werden, sich jedoch an Fachleute in den Praxisfeldern und nicht an andere Wissenschaftler/ innen wenden. Die hier nur angedeutete Interdependenz von sprachlichen Texteigenschaften und außersprachlichen Faktoren zeigt sich insbesondere im fünften Kapitel Darstellung und Interpretation der Ergebnisse, das mit einem Umfang von 122 Seiten den Hauptteil des Buches ausmacht und sich wie die gesamte Arbeit durch eine äußerst klare, übersichtliche Gliederung auszeichnet. Den vier Fachtextsorten des Textkorpus ist jeweils ein eigenes Unterkapitel gewidmet, dessen interne Struktur auf den verwendeten Analysekategorien beruht. Dass jedes Unterkapitel mit einer Zusammenfassung der wichtigsten Untersuchungsergebnisse schließt, trägt erheblich dazu bei, die streckenweise etwas beschwerliche Lektüre des Ergebnisteils zu erleichtern. Da der Schwerpunkt auf der textstatistischen Auswertung des Analysekorpus liegt, enthalten die inter- und intralingualen Vergleiche für jedes Merkmal neben den relativen Häufigkeiten auch Angaben zu der Irrtumswahrscheinlichkeit, wobei die Häufigkeitsverteilungen nicht nur verbalisiert, sondern darüber hinaus in Tabellen und Säulendiagrammen dargestellt werden. Vielleicht wäre etwas weniger Statistik mehr gewesen, denn das hohe Maß an Präzision geht zu Lasten des Gesamtzusammenhangs, den man bei der Datenflut nur allzu leicht aus den Augen verliert. Allerdings wird diese Schwäche durch die Fülle abgesicherter Untersuchungsergebnisse wettgemacht, die Fachtextsorten kontrastiv zu einer interessanten und manchmal auch überraschenden Lektüre machen, denn wer hätte angesichts früherer Forschungsergebnisse gedacht, dass sich in den sportwissenschaftlichen Fachtexten keine sprachspezifischen Unterschiede in der Häufigkeit metakommunikativer Äußerungen nachweisen lassen und es die englischsprachigen Autoren sind, die am meisten Heckenausdrücke verwenden? Hannover Antje Oldenburg Ulrich KAUTZ: Handbuch Didaktik des Übersetzens und Dolmetschens. München: Iudicium 2000, 632 Seiten. [DM 68,-] Adressaten der vorliegenden Monographie sind Lehrkräfte, die sich sowohl mit Übersetzungs- und Dolmetschunterrricht befassen möchten als sich auch im Rahmen ihrer fremdsprachenunterrichtlichen Tätigkeit im Bereich des Übersetzens und Dolmetschens fortbilden wollen. Das Handbuch hat seinen Schwerpunkt in einer systematischen und übersichtlichen Umsetzung von Erkenntnissen der FachlFlLllL 30 (2001) 256 Buchbesprechungen • Rezensionsartikel literatur. Es enthält konkrete, unterrichtspraktische Vorschläge zur Planung, Gestaltung und Durchführung des Übersetzungs- und Dolmetschunterrichts. Die Monographie von Ulrich Kautz besteht aus 8 Kapiteln und zwei Anhängen. Diese Kapitel werden im Folgenden besprochen. Im ersten Kapitel werden der Inhalt und das Ziel des Handbuches zusammenfassend beschrieben. Der Autor erläutert die Wichtigkeit des Übersetzens und Dolmetschens in der heutigen Welt, die Adressaten und den Inhalt der Monographie und schließlich, wie das Handbuch benutzt werden soll. Da die angebotenen Informationen im ersten Kapitel sehr übersichtlich sind, können Leser einen schnellen Überblick darüber gewinnen, worum es in der Monographie geht und wie sie am besten benutzt werden kann. Im zweiten Kapitel wird die Frage nach den Anforderungen an Übersetzer und Dolmetscher "Sprachmittler") erörtert. Dabei werden insbesondere die Tätigkeitsfelder, in denen Übersetzer und Dolmetscher heutzutage arbeiten können, die Voraussetzungen für das Erlernen des Übersetzer- und Dolmetscherberufs und die wichtigsten intellektuellen, psychischen und physischen Eigenschaften besprochen, die mit dem Beruf des Sprachmittlers verbunden sind. Hervorzuheben sind in diesem Zusammenhang die kommentierten Hinweise auf die Fachliteratur, die das Lesen wesentlich erleichtern. Das dritte Kapitel thematisiert die Entwicklung der Übersetzungs- und Dolmetschwissenschaft. Der Autor gibt in diesem Kapitel einen zusammenfassenden Überblick über die Entwicklung der Übersetzungs- und Dolmetschwissenschaft und diskutiert die Nützlichkeit dieser Erkenntnisse für eine Didaktik des Übersetzens und des Dolmetschens. Das Kapitel besteht aus drei miteinander verbundenen Teilen. Im ersten Teil wird der Gegenstand der Übersetzungswissenschaft in Form von Thesen diskutiert. Danach folgt die Beschreibung der Entwicklung der Wissenschaft von Übersetzen und Dolmetschen. Dabei analysiert der Autor unterschiedliche Forschungsansätze in Hinblick auf ihre Relevanz und ihren Einfluss auf die Übersetzungswissenschaft. Zu diesen zählen beispielsweise die generative Transformationsgrammatik, die Translationslinguistik, die Textlinguistik und Pragmatik. Alle Ansätze werden unter Berücksichtigung der jeweiligen Fachliteratur ausführlich diskutiert. Das Kapitel endet mit einer knappen Darstellung der Entwicklung der Translatologie aus der Sicht von Übersetzungslehrern und -praktikem. Am Ende werden wichtige Literaturangaben mit entsprechenden Kommentaren gegeben. Die Kapitel 4 und 5 sind im Vergleich zu den anderen Kapiteln der Monographie die umfangreichsten. Sie umfassen zusammen 350 der 632 Seiten des Handbuches. Im Mittelpunkt der beiden Kapitel steht der Übersetzungs- und Dolmetschunterricht. In Kapitel 4 wird im Wesentlichen der Übersetzungsunterricht thematisiert. Es ist in drei Unterkapitel unterteilt. Im ersten Unterkapitel werden die Definitionen der wichtigsten Begriffe, die mit Übersetzen verbunden sind (z.B. Verfasser, Auftraggeber, Adressat, Textfunktion usw.) sowie die Hauptarten des Übersetzens zusammenfassend beschrieben. Im zweiten Unterkapitel (,J)er Ablauf des Übersetzungsprozesses") wird der Übersetzungsprozess aus unterschiedlichen Perspektiven kommentiert. Der Autor reflektiert insbesondere, wie Texte aus übersetzungswissenschaftlicher Sicht verstanden und produziert werden. Dabei werden zahlreiche Formen der Arbeit mit Texten (z.B. bestimmte Übersetzungsverfahren) und der Arbeit mit Wörterbüchern vorgestellt. Besonders interessant sind die Hinweise auf Recherchemöglichkeiten für Übersetzer und Dolmetscher im Internet. Die Informationen in diesem Unterkapitel werden immer in Verbindung mit Erkenntnissen der übersetzungswissenschaftlichen Fachliteratur gebracht. Im dritten und umfangreichsten Unterkapitel des Kapitels 4 wird der Übersetzungsunterricht in den Mittelpunkt gestellt. Der Autor diskutiert zunächst „Kernfaktoren" des Übersetzungsunterrichts wie beispielsweise die Lehrkräfte, die Lerner und die Lehrziele. Anschließend werden Prinzipien der Textauswahl beschrieben. Bestimmte Kriterien zur Textauswahl (z.B. didaktische Eignung, Authentizität, Thematik usw.) werden präsentiert und ausführlich kommentiert. Danach geht der Autor auf die Frage ein, wie Texte für den Übersetzungsunterricht erfolgreich didaktisiert werden können. Zahlreiche Beispiele werden angegeben, die diese Didaktisierung erleichtern sollen. Der Autor diskutiert außerdem, wie Übersetzungsübungen anhand der Textbeispiele geplant und durchgeführt werden können. Auch in diesem Kapitel, werden die meisten Informationen vor dem Hintergrund der Erkenntnisse der Fachliteratur präsentiert. Das fünfte Kapitel wird dem Dolmetschen und dem Dolmetschunterricht gewidmet. Ebenso wie im Kapitel zum Übersetzen wird im Kapitel 5 zunächst eine einleitende theoretische Darstellung zum Dolmetschen gegeben. Es folgen Definitionen und _Hauptarten des Dolmetschens wie z.B. unilaterales lFLllL 30 (2001) Buchbesprechungen • Rezensionsartikel 257 konsekutives und bilaterales konsekutives Dolmetschen. Anschließend werden sowohl Vorbereitungen auf den Dolmetscheinsatz als auch Faktoren, die mit einer Dolmetschsituation verbunden sind, ausführlich dargestellt. Im letzten Teil des Kapitels 5 wird der Dolmetscqunterricht thematisiert. Nach .einer Diskussion um Lehr- und Lernziele im Dolmetschunterricht wird die Didaktisierung von Texten für den Dolmetschunterricht vorgestellt sowie unterschiedliche, durchaus intelligente Unterrichtsmodelle diskutiert. Kommentierte bibliographische Hinweise ergänzen das Kapitel. Im sechsten Kapitel wird ein Überblick über die Ausbildung und Fortbildung von Übersetzern und Dolmetschern gegeben. Im ersten Teil des Kapitels wird die Ausbildung von Übersetzern und Dolmetschern im universitären und nichtuniversitären Bereich skizziert. Es folgt im zweiten Teil des Kapitels eine ausführliche Diskussion über Curricula für eine Übersetzerbzw. Dolmetscherausbildung. Besonders interessant sind in diesem Unterkapitel die organisatorischen und inhaltlichen Punkte, die der Autor in Hinblick auf die Einrichtung einer Übersetzerbzw. Dolmetscherausbildung diskutiert. Schließlich werden im letzten Teil des Kapitels Fragen nach Möglichkeiten zur Fort- und Weiterbildung von Übersetzern und Dolmetschern erörtert. In Kapitel 7 reflektiert der Autor über die Stellung des Übersetzens und Dolmetschens im Fremd" sprachenunterricht. Das Kapitel dient im Wesentlichen einer kritischen Auseinandersetzung mit der Rolle und Funktion des Übersetzens, insbesondere von Übersetzungsübungen im Fremdsprachenunterricht. Dabei werden sowohl Thesen für die Entwicklung einer translatorischen Kompetenz präsentiert als auch die Funktion des Übersetzens im Unterricht diskutiert. Am Ende des Kapitels werden zahlreiche, zum Teil kommentierte bibliographische Hinweise vorgestellt, die aktuell und hilfreich sind. . Das (letzte) achte Kapitel enthält eine Beschreibung der Aktivitäten des Goethe-Instituts im Bereich des Übersetzens und Dolmetschens. Dabei geht es im Wesentlichen um Anregungen für Aus- und Fortbildungsaktivitäten im Rahmen des Übersetzens und Dolmetschens. Hervorzuheben sind in diesem Kapitel die zahlreichen Beispiele, wie entsprechende Veranstaltungen geplant und durchgeführt werden können. Die Monographie hat außerdem zwei Anhänge. Im ersten Anhang wird sowohl eine ausführliche, aktuelle und kommentierte Bibliographie zum Thema Übersetzungs- und Dolmetschwissenschaft als auch eine Auswahl von Fachzeitschriften, die als Thema die Theorie und Praxis des Übersetzens und Dolmetschens haben, aufgelistet. Diese Bibliographie entspricht ohne Zweifel dem aktuellen Stand der Forschung. Im zweiten Anhang wird ein Überblick über staatliche deutsche Hochschulen gegeben, an denen Übersetzer und Dolmetscher ausgebildet werden. Fazit: Zusammenfassend ist noch festzuhalten, dass es sich bei der vorliegenden Monographie um ein äußerst lesens- und empfehlenswertes Werk handelt. Die Monographie ermöglicht einen aktuellen Überblick über die Didaktik des Übersetzens und Dolmetschens. Es ist jedem zu empfehlen, der sich im Unterricht mit Übersetzen und Dolmetschen auseinander setzen möchte. Bochum Cassio Rodrigues Henning DÜWELL, Claus GNUTZMANN, Frank KÖNIGS (Hrsg.): Dimensionen der Didaktischen Grammatik. Festschrift für Günther Zimmermann zum 65. Geburtstag. Bochum: AKS-Verlag 2000, 444 Seiten, [DM40,-] Dimensionen der Didaktischen Grammatik ist der Titel der von Düwell, Gnutzmann und Königs herausgegebenen Festschrift zum 65. Geburtstag von Günther Zimmermann. Ein prinzipiell zutreffender Titel, denn 18 der 22 Beiträge beschäftigen sich im weitesten Sinne mit Didaktischer Grammatik. Darüber hinaus finden sich einige Abhandlungen über Lernstrategien ein Thema, das Günther Zimmermann in seiner Forschung auch immer wieder aufgegriffen hat. Die Beiträger sind ausnahmslos renommierte deutsche Fachdidaktiker. Thematisiert werden zumeist die Schulfremdsprachen Englisch und Französisch; das Deutsche als Fremdsprache ist in den Beiträgen von Königs und Tönshoff vertreten. Das 444seitige Buch wird eingeleitet mit einem kurzen Vorwort der Herausgeber, einer Tabula gratulatoria sowie einem Lebenslauf und dem Schriftenverzeichnis von Günther Zimmermann. Die sich anschließen- FLllllL 30 (2001) 258 Buchbesprechungen • Rezensionsartikel den Einzelbeiträge sind alphabetisch nach Beiträgernamen geordnet. In dieser Reihenfolge sollen sie nun auch weitgehend besprochen werden: Christ unternimmt im ersten Beitrag der Festschrift eine Reise in die Geschichte des Fremdsprachenunterrichts und beschreibt Person und Werk dreier bedeutender Grammatiker aus dem 17 ., 18. und 19. Jahrhundert. Es ist sicher lehrreich zu wissen, dass auch schon im 18. Jahrhundert ausgiebig über die Notwendigkeit expliziter Grammatikvermittlung gestritten wurde. Düwell verweist in „Grammatik und Motivation" auf Wege und Möglichkeiten, Grammatikarbeit motivierender zu gestalten. Zugleich bietet sein Beitrag einen ersten Einblick in die neuere Motivationsforschung von Dömyei, Schumann, Oxford u.a .. Freudenstein spricht sich in seinem Aufsatz „Grammatik lernen? Nein, danke! Grammatik erwerben? Ja, bitte! " für einen weitgehend grammatikfreien Fremdsprachenunterricht aus, zudem befürwortet er den Frühbeginn beim Fremdsprachenlernen, eine Stärkung des Hörverstehens und eine Verkürzung der Unterrichtsdauer für einzelne Fremdsprachen zugunsten eines mehrsprachigen Schulunterrichts. Für den schulischen Fremdsprachenunterricht wünscht er sich weiterhin 'native speaker' als Fremdsprachenlehrende, eine Stärkung von Austausch- und Besuchsprogrammen und die Betonung einer umgangssprachlichen Sprachkompetenz für Freizeit und Beruf. Viele seiner Forderungen sind unbedingt zu unterstützten; die Ablehnung des Grammatikunterrichts auf Basis von Krashens Arbeiten überrascht jedoch, insbesondere wenn man die gegenwärtige Forschungslage zum Zweitsprachenerwerb mit berücksichtigt. So konnten Norris/ Ortega (2000) 1 in einer aufwendigen statistischen Metaanalyse erst kürzlich die Effektivität formfokussierender Unterrichtsverfahren belegen, und auch eher konventionelle Überblicksartikel kommen in der Mehrzahl zu einer ähnlichen Einschätzung der Forschungslage (vgl. z.B. Spada 1997)2. Die Diskussionen über 'noticing', 'teachability', 'consciouness-raising', 'input enhancement', 'recasts', 'input processing', 'focus on form' vs. 'focus on forms' usw. finden, wie auch in vielen anderen Aufsätzen, trotz der offensichtlichen inhaltlichen Relevanz keine Beachtung. Gnutzmann beschäftigt sich in seinem Beitrag (S. 67 ff) mit der Lernzielfrage im Kontext der schulischen Grammatikvermittlung und streift dabei verschiedene Themen von Language Awareness über Lernerautonomie bis hin zu Fragen der Fehlertoleranz. Grotjahn setzt sich in seinem wichtigen 'state-of-the-art' Artikel mit der Frage „Sprachbezogene Kognitivierung: Lernhilfe oder Zeitverschwendung? " auseinander. Ausgehend von Tönshoffs Kognitivierungsbegriff erörtert er kritisch analysierend neben der deutschen vor allem auch die aktuelle internationale Literatur. Zusätzlich zur Ausgangsfrage wird der Zusammenhang von Lernstilen und Kognitivierungen und die Auswahl geeigneter Kognitivierungsgegenstände diskutiert. Grotjahn schließt seinen Beitrag mit einigen forschungsmethodologischen Überlegungen. Der Artikel ist als Referenzliteratur zum aktuellsten internationalen Forschungsstand unbedingt zu empfehlen. Einen sehr weiten Grammatikbegriff legt Hellwig (S. 107 ff) seiner literarisch-sprachlichen Analyse dreier britisch-englischer Gedichte aus dem 19. und 20. Jahrhundert zugrunde. Hellwig bemüht sich um eine Integration von Spach- und Literaturdidaktik und entwickelt kreative Aufgabenstellung (Aufgabenstellungen) für die fremdsprachenunterrichtliche Arbeit mit den ausgewählten Gedichten. Mit Lehrerfortbildung beschäftigt sich Herrmann-Brennecke in ihrem Beitrag „Wahrnehmungsprozesse", der vom Schwerpunktthema 'Didaktische Grammatik' weit entfernt ist. Sie beschreibt und evaluiert eine zweisemestrige Zusatzqualifizierung „Frühbeginn Englisch für die Primarstufe". Die Fortbildung richtet sich an in Sachsen-Anhalt ansässige Russischlehrer und ist einem „sprachlichen und kulturellen Diversifizierungsansatz" (S. 136) unter Rückgriff auf die vorhandenen Fremdsprachenkenntnisse (zumeist Russisch, gelegentlich Französisch) der teilnehmenden Lehrenden verpflichtet. NORRIS, John M. / ÜRTEGA, Lourdes (2000): "Effectiveness of L2 Instruction: A Research Synthesis and Quantitative Meta-analysis". In: Language Learning 50, 417-528. 2 SPADA, Nina (1997): "Form-Focussed lnstruction and Second Language Acquisition: A Review of Classroom and Laboratory Research". In: Language Teaching 30, 73-87. lFLIIIL 30 (2001) Buchbesprechungen • Rezensionsartikel 259 Königs untersucht in seinem interessanten Aufsatz „Grammatik: Begriff und Konzept aus der Lernerperspektive", inwieweit die Didaktische Grammatik in Lehrwerken des Französischen und des Deutschen als Fremdsprache dem aktuellen Erkenntnisstand der Fachdiskussion, der sich grob in den Stichworten Verständlichkeit, Autonomie, Prozessorientierung und Individualisierung zusammenfassen lässt, entsprechen. Dabei greift er auch aufLerner-lnterviewdaten zurück. Die Lehrwerke für Deutsch als Fremdsprache bewertet Königs etwas positiver als die für das Französische. Insgesamt konstatiert er jedoch einen erheblichen Entwicklungsbedarf und zeigt Perspektiven für die Verbesserung Didaktischer Grammatiken in Lehrwerken auf. Meißner (S. 167 ff) bespricht die Bedeutung des Transfers aus der Perspektive der Mehrsprachendidaktik. Er betont positive Transfereffekte bei der Sprachrezeption und diskutiert Übungssequenzen für den zwischensprachlichen Rezeptionstransfer. Die Rolle der Grammatikarbeit in Intensivkursen am Bochumer Landessprachinstitut Nordrhein- Westfalen/ Russicum beschreibt Mey in seinem Beitrag und legt dabei besonderen Wert auf die Lernvorlieben und -Strategien erwachsener Lernender. Der Beitrag schließt mit einer Auflistung didaktischmethodischer Vorschläge für die Darstellung von Grammatik in Intensivkursen ab. Zimmermanns frühe Arbeiten zur Signalgrammatik werden in den Beiträgen von Mindt und Schiffler erneut aufgegriffen. Mindt fordert in „Hat die Signalgrammatik eine Zukunft", Didaktische (Signal-) Grammatiken auf korpuslinguistischer Forschung zu basieren, nur bei eindeutigen Kookurrenzen "signalgrammatisch" zu arbeiten, und die Erforschung geeigneter Signalwörtern(Signalwörter) / kontextueller Elemente zu intensivieren. Hierauf legt Schiffler (S. 265 ff) in seinem Beitrag den Schwerpunkt. Er schlägt Signalwörter für bestimmte Aspekte der französischen Grammatik vor. Dabei unterscheidet er kontextuelle, metasprachliche und visuelle Signale und arbeitet kontrastiv Französisch- Deutsch. Zu kritisieren wäre ggf. seine an der Kontrastivhypothese angelehnte Auffassung von Transfer: „Signale sollen sich auf grammatische Schwerpunkte bzw. Fehlerschwerpunkte beschränken. Diese betreffen vor allem die Strukturen, die interferenzgefährdet sind, da sie von der deutschen Struktur abweichen (271)". Im Anschluss an eine sehr kompetente Diskussion des Verhältnisses von Sprachgefühl und Sprachwissen im L1 und L2-Erwerb vergleichen Nold und Grimmig (S. 211 ff) auf Basis empirischer Daten den von Englischschülern verschiedener Schulformen erreichten Grad an Sprachbewusstheit. Raabe diskutiert in seinem interessanten Beitrag „Grammatik im Sprachlehrfilm eine schlechte Allianz? " die Frage, ob und wie sich Grammatik mit Sprachlehrfilmen vermitteln lässt. Dazu analysiert er detailliert vorhandene Sprachlehrfilme für das Französische und macht, u.a. unter Rückgriff auf die von ihm initiierte Lernerfragenforschung, vielseitige und die Spezifik des Mediums Film betonende methodische Vorschläge für die Grammatikarbeit in und mit Sprachlehrfilmen. Bezugnehmend auf die europäischen Sprachenzertifikate plädiert Raasch (S. 249 ff) für die Verwendung eines weiten Grammatikbegriffs im Französischunterricht. Er nimmt an, dass dies in Verbindung mit einem 'task based' -Unterrichtskonzept zu positiveren Einstellungen der Lernenden der Grammatik gegenüber führen kann, die wie er in einer kleinen Befragung feststellt - (immer noch) Grammatik zwar für wichtig, aber auch für schwierig und langweilig halten. Sehr interessant und nicht unprovokativ sind Schwerdtfegers Überlegungen in „Grammatik und Leiblichkeit". Sie setzt sich nur am Rande mit dem Thema Grammatik auseinander, eigentlich geht es ihr um ein völlig neues Verständnis von Zweitsprachenerwerbs- und Sprachlehrforschung bzw. von geistes- und sozialwissenschaftlicher Forschung an sich. An die Stelle einer mathematisch-naturwissenschaftlich orientierten Forschung wünscht sich Schwerdtfeger eine Körper und Leiblichkeit betonende, kritische Fremdsprachenforschung, die Mensch, Sprache und Welt zusammenführt und als Einheit betrachtet. Etwas unklar bleibt (bisher noch), was dies konkret für Forschung und Unterricht bedeutet. Hinsichtlich der Grammatikarbeit wird jedoch schon angesprochen, dass das traditionelle normative Regelverständnis durch narrative Regelbildungsprozesse zu ersetzen sei. Spannend ist zudem Schwerdtfegers Kritik an der aus ihrer Sicht wissenschaftstheoretisch problematischen Zusammenführung von Konstruktivismus und Kognitionspsychologie in Wolffs Arbeiten. Über „Verständigungsprobleme im Englischunterricht" schreibt Solmecke (S. 305 ff). Anhand von fLUJL 30 (2001) 260 Buchbesprechungen • Rezensionsartikel Unterrichtsaufzeichnungen aus verschiedenen schulischen Kontexten (Grundschule, Hauptschule, Gymnasium, Gesamtschule, Volkshochschule, zumeist Anfangsunterricht) werden Verständigungsschwierigkeiten im Unterrichtsdiskurs beschrieben und zu erklären versucht. Die Spezifik des Unterrichtsdiskurses wird betont und insbesondere missverständliche Arbeitsanweisungen und Aufgabenstellungen thematisiert. Überraschenderweise fehlt eine Beschreibung des Forschungsprojekts hinsichtlich der Forschungsteilnehmer, des Forschungsansatzes, der Datenerhebung, -aufbereitung und -analyse. Systematische retrospektive Lehrer- und Lernerinterviewdatenhätten vermutlich die vorgenommenen Interpretationen ergänzen und stärken können. Sehr anschaulich und leicht nachvollziehbar beschreibt Tönshoff (S. 327 ff) eine Lehrerfortbildungsveranstaltung „Lernstrategien" (hier vor allem für Deutsch als Fremdsprache-Lehrende). Das Veranstaltungskonzept wird in den einzelnen Arbeitsphasen vorgestellt und es werden Erfahrungen aus zuvor durchgeführten Fortbildungen diskutiert: Vogel (S. 349 ff) sieht den schulischen Französischunterricht in einer schweren Krise. Er führt zuerst verschiedene Ursachen für die gegenwärtige Situation auf und beschäftigt sich dann ausführlich mit der Fehlerbewertung, die er als besonders problematisch und reformbedürftig betrachtet. Thematisch etwas aus dem Rahmen fällt Wolffs Beitrag „Hörverstehen in der Fremdsprache: Ein psycholinguistisches Ratespiel? " Seine Überlegungen folgen der von ihm mitgeprägten kognitionspsychologisch-konstruktivistischen Ausrichtung in der Fremdsprachendidaktik. Er nähert sich dem fremdsprachlichen Hörverstehen an, in dem er zuerst den sprachlichen Verstehensprozess allgemein erörtert, dann auf die Spezifika des LI-Hörverstehens eingeht, um schließlich zum fremdsprachlichen Hören zu gelangen. Sein Beitrag schließt mit einigen Vorschlägen zur Vermittlung von Hörstrategien im Fremdsprachenunterricht ab. Rüdiger Zimmermann (S. 391 ff) berichtet über eine empirische Studie zur Verwendung von (Pseudo-)Spaltsätzen in Ll und L2 Englisch. Grammatikalitätsurteile deutschsprachiger Englischlernender werden mit denen von Muttersprachlern des Englischen verglichen, um Lernschwierigkeiten zu ermitteln. Vorhersagen über Lernschwierigkeiten werden auf Grundlage der neueren Transferforschung getroffen und überprüft. Vielleicht etwas bedauerlich ist, dass obwohl drei Lernergruppen auf unterschiedlichem Lernniveau untersucht wurden, diese nicht getrennt analysiert, sondern nur als eine Lernergruppe in die Analyse aufgenommen wurden. Eine getrennte Analyse hätte auch gewisse Aussagen über den Erwerb und nicht nur die Verwendung von (Pseudo-)Spaltsätzen zugelassen. Der abschließende Aufsatz von Zydatiß (S. 415 ff) enthält praxisorientierte Vorschläge zur Grammatikarbeit am Beispiel des Passivs im Fremdsprachenunterricht Englisch. Zydatiß kontrastiert das übliche schulische Vorgehen mit seinem Diskursbzw. Text-orientierten Ansatz. Fazit: Zur besseren Orientierung hätte man sich vielleicht ein Sach- und ein Namensregister sowie eine einleitende Zusammenfassung der Einzelbeiträge gewünscht. Dass diese Hilfen nicht vorhanden sind, schmälert jedoch in keiner Weise die inhaltliche Qualität der Festschrift. Denn trotz vereinzelter Kritikpunkte an einigen Beiträgen verdeutlicht der vorliegende Band die Vielseitigkeit und Lebendigkeit der Diskussion über didaktische Grammatik in Deutschland. Bemerkenswert ist zudem, dass die Festschrift auch einige empirische Beiträge enthält, denn gerade in der empirischen Forschung hat Zimmermann viel geleistet und bedarf es weiterhin größter Anstrengungen. Fast alle Beiträge unterstreichen, wie groß der Einfluss Günther Zimmermanns auf die fremdsprachendidaktische Diskussion, insbesondere bezüglich des Themas Didaktische Grammatik, war und ist. Mit der vorliegenden Festschrift wird ein bedeutender Vertreter der deutschsprachigen Fremdsprachendidaktik würdig geehrt. Bielefeld! Osaka Torsten Schlak lFLllL 30 (2001) Buchbesprechungen • Rezensionsartikel 261 Ausgewählte Neuerscheinungen zur Übersetzungswissenschaft und Übersetzungsdidaktik eine Sammelrezension (Teil IV) 3 (Bernd Stefanink, Bielefeld) Während die Übersetzungswissenschaft/ er nach dem 2. Weltkrieg im Gefolge von Weaver aufein Regelwerk für die maschinelle Übersetzung hinarbeiteten, ist man allmählich zu einer bescheideneren Zielsetzung gelangt, die man „intersubjektive Überprüfbarkeit"(Gerzymisch-Arbogast 1994 ), " intersubjektive Nachvollziehbarkeit" (Stefanink 1997) oder „ interindividuelle Nachvollziehbarkeit" (Gerzymisch-Arbogast! Mudersbach 1998) nennen kann. Unter diesem neuen Blickwinkel sollen im Folgenden einerseits Veröffentlichungen zur Erklärung der Kreativität.beim Übersetzen betrachtet we~den, andererseits. die kontrastiven Untersuchungen zur kulturellen Geprägtheit fachsprachlicher Textrhetorik. 4 Annette SABBAN (Hrsg.): Phraseologie und Übersetzen. Bielefeld: Aisthesis Verlag 1999 (Phrasemata II), 206 Seiten [DM 68,-] Der B,md vereint 11 Vorträge, die im Oktober 1998 ah der Hildesheimer Universität anlässlich der gleichnamigen Tagung gehalten wurden, wobei nicht nur auf den direkten Bezug zwischen Phraseologismen und dem eigentlichen übersetzerischen Handeln eingegangen wird, sondern auch auf damit zusammenhängende kontrastive Untersuchungen zur Makrostruktur juristischer Texte, auf die Darstellung von Phraseologismen in Wörterbüchern, auf die kulturelle Einbettung von Phraseologismen und schließlich auf die Gefährlichkeit hinterlistiger 'falscher Freunde'. In ihrem Beitrag „Phraseologisches Minimum als Berufschance. Zur mündlichen Übersetzung (Deutsch-Französisch in der Agregation" (dessen Titel m.E. nicht auf das Wesentliche ihres Beitrags verweist) bedauert Gertrud GRECIAN0 die mangelnde Phrasemkompetenz der französischen Germanisten in der Agregationsprüfung. Sie unterstreicht die Bedeutung der Phraseme für einen modernen Fremdsprachenunterricht, bei dem Sprache und Kultur zusammenhängend gelehrt werden sollten, indem sie aufzeigt, dass derartige phraseologische Lexikalisierungen nicht isoliert dastehen, sondern kulturell verankert sind. So z.B. lässt sich die Gegenüberstellung der beiden Phraseme die Revolution gärt la revolution gronde auf eine breitere allgemeinere Basis zurückführen, bei der im Deutschen die Chemie der Spender der Benennung in ihrer visuellen und taktilen Wahrnehmbarkeit ist und Philosophie, Geschichte und Soziologie die Nehmer sind, während im Französischen das Bild aus den Naturphänomenen, hier Meteorologie, stammt und die Wahrnehmung auf die Akustik verlagert wird. Diese Verankerung von gronder in den Bereichen „Naturphänomene" und „Krieg" ist im Französischen literaturgeschichtlich belegt (z.B. bei LoTI: le grondement des eaux, bei C0URTELINE: le grondement de canonnade lointain) und somit Teil eines breiteren kulturellen Kontextes, der ein grundsätzlicher Bestandteil des Spracherwerbs sein sollte. Sie plädiert folglich für eine verstärkte „Umsetzung des Wissens vom phraseologischen Minimum in die Didaktik" (143), was „nur über eine systematische Phrasemarbeit erworben werden kann" (142). Wie diese „systematische Phrasemarbeit" in der didaktischen Praxis vonstatten gehen soll, wird allerdings nicht ausgeführt.« C'est 1a une autre paire de manches! » GRECIAN0 behauptet (141): "Phraseme entziehen sich der Übersetzung", weil sie sich „nicht wörtlich 3 Teil I ist erschienen in FluL 23 (1994), 268-276; Teil II in FluL 25 (1996), 250-261; Teil III in FLuL 28 (1999), 229-238. 4 GERZYMISCH-ARB0GAST, Heidrun: Übersetzungswissenschaftliches Propädeutikum. Tübingen: Francke 1994 (UTB 1782); STEFANINK, Bernd (1997): "'Esprit de finesse' - 'Esprit de geometrie': Das Verhältnis von 'Intuition' und 'übersetzerrelevanter Textanalyse' beim Übersetzen". In: KELLER, Rudi (Hrsg.): Linguistik und Literaturübersetzen. Tübingen: Narr 1997, 161-184; GERZYMISCH-ARB0GAST, Heidrun / MUDERSBACH, Klaus: Methoden des wissenschaftlichen Übersetzens. Tübingen: Francke 1998 (UTB 1990). lrLlllL 30 (2001) 262 Buchbesprechungen • Rezensionsartikel von einer Sprache in die andere überführen lassen" und nur eine Auffassung von „Übersetzung nicht als Technik, sondern als Kunst erlaubt, die Lücken im jeweiligen Sprachsystem zu füllen". Hier liegt m.E. noch eine veraltete Vorstellung von Übersetzen zugrunde, bei der es gilt, mit „Kunst"-griffen „Lücken im jeweiligen Sprachsystem zu füllen" ( 141) anstatt von der Verankerung des übersetzerischen Handelns in der parole auszugehen und die Übersetzung von Phraseologismen translatologisch in den Bereich kommunikativen Handelns einzuordnen, welches dem Imperativ der Funktionalität untergeordnet ist. Bezeichnend ist, dass in ihrem Beitrag die Beispiele kontrastiv, aber nicht in den Gesamttext eingebettet erscheinen. Nur eine derartige Einbettung in den Gesamttext könnte dem Leser jedoch eine Beurteilung der von ihr als fehlerhaft dargestellten Abweichungen von der Norm gestatten. Im Widerspruch zu GRECIANOS Behauptung bezüglich der Unübersetzbarkeit von Phraseologismen, zeigt Rosemarie GLÄSER (99-118) an zahlreichen Beispielen aus zwei Texten von Christa Wolf und deren Übersetzungen ins Englische und Französische auf, "dass phraseologische Nulläquivalenz in der Zielsprache durch andere lexikalische oder syntaktische Mittel kompensiert werden kann" (117), insofern als „die stets AS-textbezogene ganzheitliche Sicht der Übersetzer bei der Wiedergabe der Phraseologismen in der Zielkultur [ ... ] die situative Äquivalenz und funktionale Adäquatheit der Phraseologismen im ZS-Text gewährleistet" (117). Auch Grecianos Feststellung: "Phraseologie entfaltet sich als ein idealer Ansatzpunkt für eine kulturbezogene Sprachvermittlung" (143), « laisse le lecteur quelque peu sur sa faim ». Der Fremdsprachendidaktiker wäre da für ein paar wegweisende Konkretisierungen dankbar. Warnt nicht Dimitrij DOBROVOL'SKU (41-58) davor, allzu voreilig „Phraseologie als Spiegel der nationalen Kultur" (41) zu sehen? Beweist nicht gerade das von GRECIANO oben angeführte Beispiel von V. Hugo (la revolution, l' erneute gronde, / es tetes fermentaient. Une tempete qui ne pensait encore que gronder flottait a la surface de cette foule [Grand Robert] (137)), bei dem sie eine „versöhnliche Synästhesie" der verschiedenen Sinneswahrnehmungen feststellt, dass beide Metaphernmodelle (gronder und gären) im französischen Kulturbereich potentiell vorhanden waren und dass es sich bei den oben gegenübergestellten phraseologischen Verfestigungen um das handeln könnte, was DOBROVOL'SKU „sprachliche Zufälle" (49) bzw. "Unterschiede in der Versprachlichung bestimmter Entitäten" (42) nennt? In seinem Beitrag „Kulturelle Spezifik in der Phraseologie: Allgemeine Probleme und kontrastive Aspekte" stellt DOBROVOL 'SKU nämlich strenge Kriterien in Bezug auf die kulturelle Spezifik auf: "Als kulturspezifisch können nur die sprachlichen Erscheinungen eingestuft werden, die kulturell bedingte Ursachen und/ oder kulturell signifikante Konsequenzen haben" (54). Er führt ein Beispiel aus der westmünsterländischen Phraseologie an: Wenn eine Porzellantasse auf den Boden fällt und zerschlagen wird, sagen die Sprecher des Dialekts: Die Seele geht zur Fabrik zurück. Dies ist kulturell insofern signifikant, als es in einen größeren kulturellen Zusammenhang eingebettet ist und auf der Vorstellung einer physischen Wanderung der Seele nach dem Tode beruht, einer Vorstellung die z.B. im Brauch zum Ausdruck kommt, den Verstorbenen drei Tage lang im offenen Sarg unter eine Dachbodenluke zu legen, damit die Seele den Ausgang leichter findet. Die Erklärung dieses Idioms erfordert somit eine Rekurrierung auf kulturelle Fakten. Bekräftigt wird die Einbettung in das kulturelle Brauchtum durch weitere Redewendungen wie „er sieht zum letzten Mal durch die Dachbodenluke", bzw. "er steckt die Nase zur Dachbodenluke", mit der Bedeutung 'er ist vor kurzem gestorben'. Allerdings erfüllt selbst dieses Idiom nicht das Kriterium der „kulturell relevanten Konsequenzen", insofern als der westrnünsterländische Dialektsprecher das Porzellangeschirr nicht etwa auf eine besondere Weise behandelt. Dagegen hat das Idiom eine Kuh mit Kalb, mit dem eine Frau mit einem unehelichen Kind bezeichnet wird, kulturell signifikanten Charakter, da man sich vorstellen kann, "dass das Vorhandensein derartiger Ausdrücke die entsprechenden Verhaltensmuster und Werthierarchien weitergibt" (56). Eine „Vorstellung", die der Vf. allerdings nicht mit Belegen untermauert. Genevieve BENDER-BERLAND befasst sich mit der Übersetzung von Wortspielen in Titeln von Zeitungsartikeln. Nachdem sie in Anlehnung an Reiss (1971) und Nord (1993) 5 festgestellt hat, dass NORD, Christine (1993): Einführung in das funktionale Übersetzen. Am Beispiel von Titeln und Über- JFlLUlllL 30 (2001) Buchbesprechungen • Rezensionsartikel 263 derartige Titel den drei Bühlerschen Sprachfunktionen genügen müssen, entscheidet sie jedoch, dass sie primordial formbetont übersetzt werden müssen, "car le but de l' operation est de parvenir lt un produit qui etonne" (37). Sie scheint dabei zu vergessen, dass die gewählte Übersetzungsstrategie von der anvisierten Empfängergruppe der Übersetzung abhängt und dass dementsprechend auch eine Funktionsänderung möglich ist (cf. ReissNermeer 1984) 6 • Wenn sie schreibt: "c 'est avant tout la fonction d' appel qui est mise en evidence par la transposition d'une langue lt l'autre, sans que l'information soit pour autant negligee" (34), so stellt sich die Vf. nicht die Frage, wer überhaupt in der Praxis an der Übersetzung derartiger Zeitungsartikel Interesse hat. M.E. muss man bei der Übersetzung dieser Textsorte die dem Übersetzer in der Praxis nur selten begegnet von einer Funktionsänderung ausgehen: Wenn man Ausschnitte aus ausländischer Presse in deutschen oder französischen Zeitungen findet, so scheint nicht die Form wichtig, sondern der Inhalt, der Leser will sich einen raschen Überblick über die ausländische Presse zu einem bestimmten Thema verschaffen. Es sollte dann informationsbetont und nicht formbetont übersetzt werden. Die Vf. bietet zum Teil interessante Problemlösungen, deren Güte jedoch kaum zu beurteilen ist, da die Texte, auf die sich die Titel beziehen, nicht gegeben sind; die Informationsfunktion gehört aberso wie die Appellfunktion-zu den grundlegenden Funktionen von Titeln (Nord 1993); nur eine genaue Kenntnis des zu übersetzenden Textes lässt eine kreative Lösung zu, die diesen beiden Funktionen gerecht werden könnte. Ob außerhalb des universitären Elfenbeinturms allerdings je ein Übersetzer in die Lage kommen wird, Artikel aus dem Journal für die Frau oder Brigitte (aus denen BBs. Beispiele zu einem großen Teil stammen) zu übersetzen, bleibt ohnehin dahingestellt. 7 Auch Sabine FIEDLERS Artikel „Zum Übersetzen von Phraseologismen in die Plansprache dargestellt an literarischen Übersetzungen im Esperanto" gehört zu den in der Praxis wenig vertretenen Übersetzungsarten, was nicht heißen soll, dass derartige spezifische Untersuchungen nicht wichtige Denkanstöße vermitteln können. So ist z.B., laut Vf. das anvisierte Leserpublikum in diesem Fall für sprachliche Zusammenhänge und Erkenntnisse kultureller Art besonders aufgeschlossen; es wird somit also leichter, den in der Belletristik umstrittenen Einsatz kommentierender Übersetzungsverfahren zu akzeptieren. Dies gilt auch für die veranschaulichende Erklärung von Phraseologismen. Im Falle von eins-zu-null Entsprechungen können derartige erklärte Phraseologismen ein mögliches Problemlösungsverfahren darstellen und zu einer Bereicherung der Plansprache führen. Die Alternative ist eine Entmetaphorisierung, die weniger malerisch ist, aber die angemessene Universalität erreicht, wie z.B. die Übersetzung von 'Das hat weder Kopf noch Schwanz' mit 'Das ist eine Sinnlosigkeit'. Von Elisabeth GüLICHS (1997: 147) 8 Verständnis von formelhaften Texten ausgehend, die durch „konstante inhaltliche Komponenten" und eine „festen Gesamtstruktur" charakterisiert sein müssen, tritt Laurent GAUTIER den Beweis an, dass es sich bei juristischen Texten des Verfassungsrechts um übereinzelsprachlich makrostrukturell vorgeformte „Phraseotexte" handelt, die auch auf der Mikroebene phraseologisch äußerst produktiv sind. Bereits Funk (1996: l )9 war der Ansicht, dass die Kenntnis dieser „Ähnlichkeiten und Gemeinsamkeiten[...] den Zugang zu diesem Rechtsgebiet erleichtert. Dies gilt in besonderem Maße für den Übersetzer". GAUTIER stellt die Frage, ob es sich bei Übereinzelsprachlichkeit der Makrostruktur um „parallele phraseologische Systeme, um Lehnübersetzungen, oder schriften. Tübingen: Francke; REISS, Katharina (1971): Möglichkeiten und Grenzen der Übersetzungskritik. Kategorien und Kriterien für eine sachgerechte Beurteilung von Übersetzungen. München: Hueber. 6 REISS, Katharina/ VERMEER, Hans J. (1984): Grundlegung einer allgemeinen Translationstheorie. Tübingen: Niemeyer. 7 Hönig/ Kußmaul (HöNIG, Hans/ KußMAUL, Paul: Strategie der Übersetzung, Tübingen: Narr 1982) kritisieren die universitäre übersetzerische Unterrichtspraxis, die eine Vorliebe für die Übersetzung von Zeitungsartikeln hat, die in der Praxis jedoch nie als übersetzerisches Handeln gefordert sind. 8 GÜLICH, Elisabeth: "Routineformeln und Formulierungsroutinen. Ein Beitrag zur Beschreibung 'formelhafter Texte'". In: WIMMER, Rainer / BEHRENS, Franz-Josef (Hrsg.): Wortbildung und Phraseologie. Tübingen: Narr 1997 (Studien zur deutschen Sprache; 9), 131-175. 9 FUNK, B.-Ch.: Einführung in das österreichische Ve,fassungsrecht. Graz: Leykam 1996. IFL\IL 30 (2001) 264 Buchbesprechungen • Rezensionsartikel um durch sprachliche Einflüsse bedingte kulturelle Übertragungen" handelt (96). Da diese Frage jedoch auch das Problem der Rechtsquellen berührt, empfiehlt er ein Weiterforschen in Zusammenarbeit mit Juristen, um neben den inhaltlichen Aspekten des Transfers auch die sprachlichen hervorheben zu können und somit auch einen Beitrag zur interkulturellen (Fach-) Kommunikation leisten zu können. Wie Gautier im oben erwähnten Artikel hervorhebt, ist im juristischen Bereich die Verknüpfung des Faches mit der dazugehörigen Fachsprache besonders eng. Er greift die Formulierung des Rechtswissenschaftlers Ernst Forsthoff auf, nach dem eine „nicht nur zufällige, sondern ins Wesen treffende Verbindung des Rechts zur Sprache" besteht, was in der juristischen Auslegungsmethodik vor allem in der grammatischen Auslegung seinen Niederschlag findet. Hinzu kommt wie Thierry GRASS in seinem Artikel über „Phraseme des Zivilrechts in einem zweisprachigen elektronischen Wörterbuch Französisch- Deutsch" feststellt-, dass „ein Rechtssystem [...] ein wichtiges Stück nationaler Identität [ist]" (119). Diese „tiefe nationale Prägung der Rechtssprachen" (119) hat bereits zu enormen Missverständnissen im juristischen Bereich geführt, wie GRASS weiter feststellt, da die Gefahr „de[s] Zugriff[s] auf eigene inländische Referenzsysteme [droht], um ausländische Begriffe zu verstehen" (119). Das von GRASS vorgestellte Projekt eines elektronischen Wörterbuchs von Rechtsphraseologismen könnte der Unzulänglichkeit der traditionellen Hilfsmittel des Übersetzers nämlich der „linearen" Wörterbücher insofern Abhilfe schaffen, als es die Beziehungen zwischen den verwandten Stichwörtern herstellt. Der Dictionnaire explicatif et combinatoire von Igor Mel' guk, in dem die Beziehungen zwischen den Wörtern z.B. als Hyperonymie, Hyponymie, Antonymie u.a.m. 'erklärt' werden und in dem die syntaktische Dimension, so wie das Netz lexikalischer Kookkurrenzen als 'kombinatorische' Elemente in die Beschreibung grundsätzlich mit aufgenommen werden, liefert die theoretische Grundlage für dieses Projekt. Michaela HEINZ macht auf die Problematik aufmerksam, vor die sich der Verfasser zweisprachiger Wörterbücher bei der Darstellung von äquivalenten Phrasemen im Falle von Viele-zu-viele-Entsprechungen gestellt sieht. Sie stellt eine Prioritätenliste der zu respektierenden Teiläquivalenzen auf, in der (1) die „semantische Äquivalenz" (dies „versteht sich von selbst" meint die Vf.), als „unerlässliche Grundbedingung" an erster Stelle rangiert (154), gefolgt von (2) Äquivalenz der Markiertheit, (3) Äquivalenz auf der diachronischen Ebene, (4) Äquivalenz im Bildspendebereich. Danach folgt „eine gewisse Willkür". Sollte da die Frequenz, an die HEINZ sicher auch gedacht hat, nicht explizit in die Liste mit aufgenommen werden, womit die Willkür sicher in engere Grenzen verwiesen werden könnte? Der erfahrene Übersetzer wird wohl an dem Nutzen derartiger phraseologischer Wörterbücher allgemein zweifeln. Bei der Auswahl einer zielsprachlichen Entsprechung richtet er sich nach der Funktion, die das Phrasem im Gesamttext, bzw. in der Situation zu erfüllen hat. Das phraseologische Wörterbuch ist dabei in erster Linie eine Gedächtnisstütze. Der erfahrene Übersetzer wird sich hüten, ein Phrasem zu benutzen, das er nicht bereits kennt, d.h. in verschiedenen Kontexten benutzt gesehen hat. Und unter diesem Blickwinkel wären mit Hilfe von Deskriptoren erstellte phraseologische Thesauri, im Sinne von D0BR0- V0L' SKIJ (1995)10 bzw. daran anknüpfend von Zybatow (1998) 11 , hilfreicher, insofern als die dabei gewählte Darstellung die auf der Basis zweisprachiger Cluster von Phraselogismen eher protoypisch als strukturell abgrenzend verfährt-auch im Sinne von der von Kußmaul (1995) 12 vertretenen Förderung der Kreativität des Übersetzers ist eine Kompetenz, die bei der Übersetzung von Phraseologismen besonders hilfreich ist. Dieselbe Problematik behandelt Tamas KISPAL in Bezug auf die Darstellung von Sprichwörtern im passiven zweisprachigen Wörterbuch und stellt eine Prioritätenliste der dabei zu berücksichtigenden Äquivalenzen (in Anlehnung an Scholze Stubenrecht) auf. Er plädiert nachdrücklich für die „Aufführung 10 D0BR0V0L'SKIJ, Dimitrij: Kognitive Aspekte der ldiomsemantik. Studien zum Thesaurus deutscher Idiome. Tübingen: Narr 1995. 11 ZYBAT0W, Lew: "Übersetzen von Phraseologismen oder was bringt die kognitive Linguistik dem Übersetzer? " In: WIRRER, Jan (Hrsg.): Phraseologismen in Text und Kontext. Bielefeld: Aisthesis Verlag 1998 (Phrasemata I), 149-168. 12 KUßMAUL, Paul: Training the Translator. Amsterdam: Benjamins 1995. lFLllllL 30 (2001) Buchbesprechungen • Rezensionsartikel 265 von mehreren Äquivalenten" (168), eine klare Markierung der 'Poyfunktionalität' und 'Polysituativität' (170), sowie der 'partiellen Äquivalenz' (170) und bedauert den Mangel an „Vorarbeiten zur stilistischen Markierung der Sprichwörter" ( 171), der keine zuverlässigen Angaben zum diastratischen Wert der fremdsprachigen Sprichwörter zulässt. Diese Vorschläge kann man nur befürworten. Anastasia P ARIANOU behandelt die Übersetzung von Routineformeln. Sie zeigt an einem Beispiel auf, wie ein griechischer Autor zwecks „Erhaltung des kulturspezifischen Hintergrundes" kulturelle Eigentümlichkeiten durch bewusst verfremdendes Übersetzen derartiger Formeln in die Zielsprache hinüberrettet. Elisabeth PIIRAINEN schließlich macht auf Defizite bei der Behandlung von Phraseologismen in der niederländischen Lexikographie aufmerksam, die zum Teil für die phraseologischen 'falschen Freunde' in den zweisprachigen Wörterbüchern der nah verwandten Sprachen Deutsch und Niederländisch verantwortlich ist. Sie forscht nach den Ursachen für das Phänomen der falschen Freunde und entdeckt Regelmäßigkeiten bei deren Zustandekommen. Nicht belegt hat Piirainen ihre Behauptung, "dass dem Erlernen eines korrekten ldiomgebrauchs der jeweils anderen Sprache Grenzen gesetzt sind" (190), ein Gemeinplatz, den sie nicht begriindet « et qui arrive comme un cheveu sur 1a soupe! » Fazit: Trotz der manchmal etwas kritischen Bemerkungen möchte ich diesen Band zur Lektüre empfehlen, da er die Bandbreite der beim Übersetzen von Phraseologismen auftretenden Probleme anspricht und neue Forschungsperspektiven eröffnet. Mary SNELL-HORNBY, Hans G. HöNIG, Paul KUßMAUL, Peter A. SCHMITT (Hrsg.): Handbuch Translation. Tübingen: Stauffenburg 1999 (Handbücher), XII+ 434 Seiten [karton. DM 64,-] Es handelt sich um die zweite, verbesserte Auflage des erstmals 1998 erschienen Handbuchs, in dem namhafte Übersetzungswissenschaftler/ innen in 114 Beiträgen die gesamte Bandbreite translatorischer Fragestellungen, sowohl aus dem Bereich der Theorie als auch aus dem Bereich der Praxis, behandeln. Im Bereich der Theorie ist hervorzuheben, dass hier nicht nur die grundlegenden Thesen dieses Wissenschaftsbereichs zumeist von ihren Vertretern selbst in konziser und klarer Form dargelegt werden, sondern dass auch eine Darstellung des aktuellen Forschungsstandes (zwischen Redaktion und Veröffentlichung liegen lediglich fünf Monate) sowie ein Aufriss der sich daraus ergebenden Forschungsdesiderata vielfach zu neuen Forschungsinitiativen anregt. So wird z.B. an verschiedenen Stellen auf die mangelhafte Berücksichtigung der Kreativität in der Translationsforschung aufmerksam gemacht. Den Querverweisen im Register entnimmt der Leser, dass Kreativität bereits bei den Vertretern der hermeneutischen Übersetzungswissenschaft, wie z.B. PAEPCKE, eine Rolle gespielt hat, wenn auch nicht in Form einer systematischen Erforschung (118-119). 13 In KußMAULS Artikel zur Kreativität (178-180) wird er nicht nur mit dem aktuellen Forschungsstand vertraut gemacht, sondern erhält auch Hinweise zu Forschungsansätzen (wie z.B. den introspektiven prozessanalytischen Verfahren) als einem der Wege zur Behebung dieses Mankos. Über das entsprechende Stichwort 'Introspektion' im Register kommt der Leser nämlich zum Artikel 47 „Einblicke in mentale Prozesse beim Übersetzen", in dem nicht nur in einem Kapitel „Die Methode des Lauten Denkens" (170) dargestellt wird, sondern auch, in einem weiteren Kapitel, die „bisherigen Ergebnisse" (171 ), wonach wiederum ein Kapitel den „Forschungsdesideraten" (171) gewidmet ist. Auf diese Weise kann sich der Nachwuchswissenschaftler, je nach seinem Wissensstand, über das ausführliche Register die nötigen Zusatzinformationen besorgen, die sich durch die Querverweise zu einem kohärenten Bild zusammenfügen. Studierende, die sich in diesen Wissenschaftsbereich einarbeiten wollen, werden wahrscheinlich den Einstieg über die verschiedenen Rubriken "Translations-wissenschaftliche Grundlagen", "Translatorische Aspekte", "Spezifische Aspekte des Übersetzens", "Spezifische Aspekte des Dolmetschens", "Didaktische Aspekte", "Evaluierung von Translationsleistungen") 13 Die Zahlen beziehen sich auf die Seiten des besprochenen Werkes. lFLU! L 30 (2001) 266 Buchbesprechungen • Rezensionsartikel vorziehen, in die das Handbuch unterteilt ist. Der Praktiker schließlich wird nicht nur Hilfsmittel, wie Tabellen zu „Maßeinheiten und Umrechnungsfaktoren" vorfinden, sondern auch einen ganz praktischen Informationen gewidmeten Teil mit Kapiteln zum „Berufsbild", zur „Marktsituation des Übersetzers" bzw. des „Konferenzdolmetschers", zur Ausbildungssituation usw. sowie Adressen von Berufsverbänden, wissenschaftlichen Gesellschaften usw. Inhaltlich fällt auf, dass die „Pariser Schule", die E.S.I.T., lediglich durch Karla DEJEANLEFEAL im Bereich Dolmetschdidaktik vertreten ist, womit man ihr in keiner Weise gerecht wird. Die von SELESKO- VITCH und LEDERER erarbeitete und auf den im Bereich Simultandolmetschen gewonnen Erkenntnissen aufbauende « approche interpretative » wird im deutschen Sprachraum kaum zur Kenntnis genommen. 14 Die Darstellung der E.S.I.T. im Kapitel „Ausbildungssituation in Europa" stellt die "ESIT (Sorbonne)" neben die "ISIT" ohne darauf hinzuweisen, dass die ISIT der privaten Universite Catholique angegliedert ist und im Unterschied zur ESIT keine eigene Theorie entwickelt hat. Bei den ausführlichen Literaturangaben, die die insgesamt 114 Artikel liefern, fällt auf, dass häufig die gleichen Standardwerke oder Aufsatzartikel zitiert werden. Für eine Neuauflage empfiehlt sich eine Gesamtbibliographie am Ende des Buches, die wie das Beispiel von Baker's Routledge Encyclopedia ofTranslation (1998) zeigt einen besseren Überblick über die Fachliteratur gewährleistet. Fazit: Das Handbuch Translation besticht durch die Klarheit, mit der die grundlegenden Fragen der Translationswissenschaft kompetent dargestellt sind. Es bestätigt und illustriert den interdisziplinären Charakter dieser Wissenschaft, indem es die facettenreichen Beziehungen zu Nachbardisziplinen aufzeigt. Zudem eröffnet es insofern Forschungsperspektiven, als es den aktuellen Forschungsstand klar umreißt und die sich daraus ergebenden Forschungsdesiderate dezidiert formuliert. Aufgrund dieser inhaltlichen Qualitäten sowie einer benutzerfreundliche Konzeption ist das Buch nicht nur Praktikern und Studierenden, sondern auch Lehrenden und Forschem ohne Einschränkung zur Lektüre zu empfehlen. Radegundis STOLZE: Die Fachübersetzung. Eine Einführung. Tübingen: Narr 1999 (Narr Studienbücher). 278 Seiten [DM 39,80] Stolzes „Einführung" ist mehr als eine „Sensibilisierung für die Gesamtproblematik" (12) fachsprachlichen Übersetzens, wie sie bescheiden vorausschickt. Nachdem sie Translation, im Sinne von Holz- Mänttäri, als Handlungsgefüge dargestellt hat, in dem die fachsprachliche Kommunikation angesiedelt ist, macht S. auf die Schwierigkeiten der Abgrenzung von Fachsprache und Gemeinsprache aufmerksam. Sie geht dann systematisch auf die verschiedenen Aspekte der Fachsprachen ein, von der Wortebene über den Funktionalstil und die Rolle der Textsorten bis hin zur Ebene der kulturell geprägten Textrhetorik. Aufjeder dieser Stufen werden die verschiedenen, für den Übersetzer relevanten Faktoren vorgestellt und kontrastiv Vorgehensweisen anderer Sprachen (Englisch, Französisch, Italienisch, Spanisch und Portugiesisch) präsentiert. Dabei wird oft beispielhaft ins Detail gegangen. Dies alles nicht im Sinne eines verordnenden Regelwerks, sondern auch mit der nötigen Sensibilisierung für stilistische Markierung, die nicht etwa schmückendes Beiwerk ist, sondern zum Sinn beiträgt (251). Dabei werden Thesen nicht einfach übernommen, sondern kritisch reflektiert 15 so z.B. was die neuesten Forschungsergebnisse im 14 Vgl. dazu auch meine Besprechung von R. STOLZE: Übersetzungstheorien. Tübingen 1994 (in: FluL 25 (1996), 250-253). In der 2. verb. Auflage hat die « approche interpretative » immerhin Berücksichtigung gefunden. 15 Als einen Ausrutscher, der in diese kritisch fundierte Darstellung nicht passt, würde ich die Pauschalisierung des „osteuropäischen Stils" ansehen, der als „umständlich" und elaboriert beschrieben wird (215). Als Beispiel nennt Stolze Litauen und die östlichen Bundesländer, wobei sie für Litauen „wissenschaftliche Texte" anführt, während bei den östlichen Bundeländem von „politischen Funktionären" und deren „gestanztem Kanzleideutsch" die Rede ist (216). Auf den Wissenschaftsstil der rumänischen Linguisten trifft diese Behauptung mit Sicherheit nicht zu. lFLIIIL 30 (2001) Buchbesprechungen • Rezensionsartikel 267 Bereich der Interkulturalität angeht (142-144 und 210-211) - und entsprechende Forschungsdesiderate formuliert. So plädiert S. z.B. für eine systematische Analyse des sprachlichen Niederschlags kultureller Stereotype in bestimmten Metaphern (233), denn es gibt eine kulturspezifische bildhafte Rede, die in jeder Kultur durch eine andere Tradition geprägt ist und die der Übersetzer kennen muss. Entgegen mancher Vorurteile, die den Fachsprachen den metaphorischen Charakter auf Grund des Präzisionsgebotes absprechen wollen, sind Metaphern nicht nur ein Stilphänomen, sondern bilden sogar einen konstitutiven Bestandteil des fachwissenschaftlichen Verständnisses. Fazit: Die gelungene Kombination von trefflich verarbeiteten theoretischen Ansätzen und einer Vielzahl veranschaulichender Beispiele macht diese Studie sowohl zur Einführung als auch als Überblick über den Forschungsstand zu einer empfehlenswerten Lektüre. Heidrun GERZYMISCH-ARB0GAST, Daniel GILE, Juliane H0USE, Annely R0THKEGEL (Hrsg.): Wege der Übersetzungs- und Dolmetschforschung. Jahrbuch Übersetzen und Dolmetschen. Bd. 1. Tübingen: Narr 1999, 344 Seiten [DM 98,-] Es handelt sich um die erste Publikation der neu gegründeten Deutschen Gesellschaft für Übersetzungs- und Dolmetschwissenschaft, die hiermit die Reihe der Jahrbücher eröffnet, in der Aufsätze zum Stand der Dolmetsch- und Übersetzungsforschung themenbezogen veröffentlicht werden sollen. Hauptanliegen ist dabei die Stärkung des Forschungsprofils und die Förderung des wissenschaftlichen Nachwuchses. Der Band besteht aus zwei Teilen: Der erste Teil (1-165) ist der Übersetzung von Fachtexten gewidmet, der zweite beschäftigt sich mit Fragen der Dolmetschforschung. Die verschiedenen Beiträge spiegeln den Stand der Forschung und zeigen zukunftsorientiert Forschungsdesiderata auf. Da eine angemessene Behandlung sämtlicher Artikel den Rahmen dieser Besprechung sprengen würde, werde ich mich auf einige wenige Artikel aus dem Bereich Übersetzungswissenschaft beschränken, die schwerpunktmäßig vom Umgang mit makrostrukturellen Konventionen bei der Übersetzung von Fachtexten handeln und die im Rahmen dieses Werkes eine Einheit von Theorie und praktischer Anwendung bilden. Die verschiedenen Beiträge gehen auf die nach Sprachen jeweils anders geprägte Fachtextrhetorik ein, der der Übersetzer Rechnung tragen muss. So macht Juliane H0USE auf die Missverständnisse aufmerksam, die bei der Missachtung derartiger unterschiedlicher Konventionen entstehen. Unter Berufung auf Clyne, Hall und ihre eigenen Forschungen, führt sie die üblicherweiser hervorgehobenen Charakteristika auf, die die englische Textrhetorik von der deutschen unterscheiden "Direktheit" vs. "Indirektheit", "Ich- Orientiertheit" vs. "Adressaten-Orientiertheit", usw. [49]) und stellt eine intensivere Forschung auf diesem Gebiet als Desideratum dar. Silke BUHL liefert anhand von vergleichenden Statistiken zu ausgewählten Textparametern in Russels und Einsteins Texten zur Relativitätstheorie den zahlenmäßigen Nachweis zu einigen dieser Charakteristika. Von Einsteins Darstellung in einer wissenschaftlichen Zeitschrift über seine vulgarisierende Version für ein breiteres Publikum bis hin zu Russels populärwissenschaftlicher Version nimmt der Grad der Leserbezogenheit in Bezug auf die Informationsgliederung und Informationsverpackung kontinuierlich zu. Dagegen wirkt eine deutsche, "dem Original stark nachempfundene Übersetzung [i.e. von Russels Text] durch den ausgeprägten Leserbezug eher fremd" (138). Auch Klaus MUDERSBACH beschäftigt sich mit der kulturell bedingten unterschiedlichen Strukturierung wissenschaftlicher Texte, die dazu führen kann, dass der zielsprachliche Leser die Informationen nicht da vorfindet, wo er sie seiner Erwartungshaltung gemäß finden sollte. M. ruft daher zu einer "effizienten" ökonomischen Gestaltung fachsprachlicher Texte auf, die einem „Holistischen Denkprinzip" entsprechend „universal strukturiert" (15) werden müssten, denn so M. - "wir [haben] im Denken alle dieselben prinzipiellen Denkstrukturen" (15). Das von ihm vorgestellte Strukturierungsmuster bleibt allerdings sehr allgemein und bringt außer der Terminologie nichts, was wir nicht bereits von der Skopostheorie her kennen: Der Text bildet ein 'Holon', d.h. einen Gedankenkomplex, der einem 'Zweck' untergeordnet ist; er ist aus 'Holemen' aufgebaut, d.h. aus funktionalen Teilen, die mit ihrer jeweiligen Teilfunktion die Gesamtfunktion des Textes unterstützen. Den universalen Denkstrukturen gemäß ist FLll! L 30 (2001) 268 Buchbesprechungen • Rezensionsartikel "jedem Textholem [...]ein gewisser Textabschnitt zugeordnet, der nur für diese Funktion zuständig ist" (17). Das Holon ist eine abstrakte „Denkstruktur", die je nach Fachsprache und je nach den der jeweiligen Fachsprachenkultur gemäßen Vertextungskonventionen aufgefüllt werden muss. Der für eine Fachtextsorte repräsentative Fachtext-Typ wird aus einer Menge von existierenden Fachtexten herauskristallisiert, die dem Fachmann bei der Redaktion (bewusst oder unbewusst) als Grundlage dienten. Der Fachtext-Typ hat präskriptiven Wert. Texte, die nicht nach diesem Muster aufgebaut sind, sind nach der „Methode der holistischen Rekonstruktion" (37) "umzuarbeiten" (34). Der Übersetzer ist der Form verpflichtet, in der die Konventionen der zielsprachlichen Textrhetorik dieser „inneren Logik des Text- Holons" Rechnung tragen. Diese Verpflichtung kann sich in einer Umstrukturierung der Holemreihenfolge bis hin zur Weglassung von in der zielsprachlichen Kultur überflüssigen Holemen (Informationseinheiten, "Informeme" [21]) niederschlagen. Fraglich ist, ob Ms. unnötig in Formeln verklausulierte Darlegung leichter zu lesen ist als die „stilistisch verklausulierte Darlegung" (40) der kritisierten Geisteswissenschaftler. Für deutsche technische und naturwissenschaftliche Texte mögen Ms. Anordnungen Gültigkeit haben. Letztendlich muss der Übersetzer jedoch der kulturell eventuell anders geprägten Erwartungshaltung des zielsprachlichen Lesers Rechnung tragen (auch in Ms. Konzeption). Dass diese Normen für Geisteswissenschaftler Vorschrift werden sollen ist bedenklich ('neu' ist z.B. in philosophischen Überlegungen oft nur die Form in der eine alte Erkenntnis dargelegt wird). Hat Kleist nicht auf die „allmähliche Verfertigung der Gedanken beim Reden" hingewiesen und meinte Pascal nicht schon in seinen Pensees: "Le style, c'est l'homme! " 16 Indem sie das in einem Text behandelte Thema synchron-optisch darstellt und zu dem dahinter steckenden Wissenssystem in Bezug setzt, schafft GERZYMISCH-ARBOGASTein Evaluationskriterium für Textkohärenz: Da, wo sich diese Darstellung mit der Darstellung des Wissensystems nicht deckt und neben dem Hauptnetz Teilnetze in Form von semantischen Inseln auftreten, haben wir es mit einem Kohärenzbruch zu tun, den der Textrezipient normalerweise durch Hypothesenbildung ausgleicht. Je mehr dieser Inseln auftreten, desto mehr Interpretationsmöglichkeiten ergeben sich. Weist das zielsprachliche Wissensystem eine ähnliche Struktur auf, so kann „u.U. von der inhaltlichen Information her invariant übersetzt werden. Ergeben sich jedoch Unterschiede, die eine Anbindung der konkretisierten Textstellen an das implizierte System inkompatibel erscheinen lassen, wird eine invariante Übersetzung in Bezug auf diese Textstellen zu einer Inkohärenz im gesamten Text führen" (93) . Der Übersetzer hat dies zu berücksichtigen und der Gefahr des Kohärenzeinbruchs durch die notwendigen Verbalisierungen der Hypothesen an den Bruchstellen entgegenzuwirken. Kommentar: Für die Alltagspraxis ist ein solches Vorgehen als „vor der Übersetzung zu leisten[der Systemvergleich]" (102) viel zu aufwendig; denkbar ist es eventuell als „problemrelevante Teiltextanalyse" (cf. Stefanink 1997 [vgl. oben Anm. 4]) im dialektischen Verstehens- und Produktionsprozess, bei dem die Trennung in Textanalysephase und darauffolgender Produktionsphase aufgehoben wird; sicher geeignet ist ein solches Vorgehen zur Bewusstrnachung der beim übersetzerischen Handeln zu berücksichtigenden Faktoren, selbst wenn die Grundlagen zur Erstellung eines Wissensystems noch näherer Erläuterung bedürften. Paul KUßMAUL: Kreatives Übersetzen, Tübingen: Stauffenburg 2000 (Studien zur Translation; Bd 10), 215 Seiten [DM 48,-] Kußmauls Fragestellung wurde von der Übersetzungswissenschaft bisher weitgehend ausgeklammert. Obwohl K. seit 1991 (verstärkt seit 1995, u.a. in Vorträgen und Aufsätzen), auf dieses Forschungsdesiderat hingewiesen hatte, setzten namhafte Theoretiker, die mit dem Ziel einer Optimierung der Übersetzungsdidaktik das Übersetzen „wissenschaftlich fundieren" wollten (Gerzymisch-Arbogast 1994, Gerzymisch-Arbogast/ Mudersbach 1998 [vgl. oben Anm. 4]), ausschließlich auf eine immer erschöpfen- 16 Vgl. auch Stolze (1999: 222): "Die Mentalität eines Autors im Wissenschaftsstil in den Sozialwissenschaften ist Teil des Textsinns und sollte nicht ausgemerzt werden". FLl! JllL 30 (2001) Buchbesprechungen • Rezensionsartikel 269 dere Textanalyse, mit der man sich zunehmend von der Praxis entfernte. 17 Dies um so mehr, als diese Textanalyse (als Verstehensphase) trotz entschiedener Kritik an diesem praxisfernen Verfahren 18 vom „eigentlichen Übersetzen" abgetrennt und diesem vorangestellt war. Sicherheitshalber wurden bei dieser „wissenschaftlichen Fundierung" übersetzerischen Handelns, Intuition und Kreativität als „nicht rational erfassbar" (Gerzymisch-Arbogast 1994: 16) bewusst ausgeschaltet. Dies ist der Rahmen, in dem K.s Beitrag gewürdigt werden muss! K. sieht Kreativität als das vorrangige Merkmal übersetzerischen Handelns an. Um sie zu erfassen, stützt er sich auf Forschungsergebnisse aus den Nachbardisziplinen Kreativitätsforschung und Kognitive Linguistik. Bekanntlich kann uns die Kreativitätsforschung keine Definition von Kreativität liefern, sondern stellt nur „Aspekte" kreativen Handelns vor. Zu denen gehören vorrangig die „Neuigkeit" und die „Angemessenheit" sowie die zeitlich und räumlich bedingte „Akzeptanz" des Produkts. Wie Guilford (1977) sieht auch K. Kreativität als ein Problemlösungsverfahren an, wie Mednick (1962) sieht er sie als einen assoziativen Prozess, dessen Kreativitätsgrad mit der Distanz zwischen den assoziierten Elementen zunimmt. "Aufregend" 19 findet K. nicht die sprachsystembedingten Veränderungen gegenüber dem Original, die stricto sensu bereits als „kreativ" aufgefasst werden könnten, sondern Problemlösungen, die in einem Satz wie „to juggle two careers and a potty chair" zur Übersetzung „zwei Karrieren und Winde/ wechseln unter einen Hut bringen" (126) führen können: Wie kommt man von potty chair auf Winde/ wechseln ? Grundlegend für das Verständnis ist hier Fillmores „Scenes-and-Frames"-Semantik. Hinzu kommt die Erkenntnis der Protoypensemantik, der zufolge es in einer semantischen Kategorie Elemente gibt, die „prototypisch" sind. Dies gilt auch für die „Scenes", wie Langackers „figure/ ground alignment" zeigt: In einer Szene wird immer ein „figure" proeminent auf einem Hintergrund gesehen. Dieser prototypische Charakter ist „erfahrungs- und kulturbedingt" (132-133). Die Lexikalisierung von potty chair zeugt von der prototypischen Vorstellung dieses Elementes in der Szene „Körperausscheidungen", die im englischsprachigen Kulturbereich zum Gesamtszenario „Kindererziehung" 20 „ gehört. Man muss also davon ausgehen, dass die Assoziation bei den deutschen Übersetzern durch deren anders gearteten kulturbedingten Erfahrungshintergrund hervorgerufen wurde eine Hypothese, die K. zur Aufforderung veranlasst, kontrastiv vergleichende empirische Studien zu solchen kulturell bedingten prototypischen Vorstellungen anzustellen (133). Allerdings so könnte man einwenden verliert dann auch diese Kreativität ihren „aufregenden" Charakter. Wenn K. die sprachsystembedingte Kreativität der Transpositionen der „Stylistique comparee" "nicht sehr aufregend" (22) findet, so müsste er auch hier eine dieses Mal 17 Vgl. dazu meine kritische Besprechung von Gerzymisch-Arbogast/ Mudersbach 1998 (inFLuL 27 (1998), 225,--248). 18 Vgl. dazu Stefanink (1997) [siehe Anm. 4]; vgl. auch Kußmaul im vorliegenden Werk, S. 79). 19 K. benutzt diesen Terminus (wohl unbewusst) mehrfach quasi zur Graduierung seines subjektiven Kreativitätsempfindens. 20 Diese Unterscheidung von „Szene" (Fillmore) und „Szenario" (Lakoff) fehlt bei K. Kußmaul selbst setzt den Fillmorschen und den Lakoffschen Begriff gleich (123). Szenario evoziert jedoch eine Dynamik. Und so will es Lakoff auch verstanden sehen, wenn er schreibt: "[ ...] the scenario is structured by a source-path-goal schema in the time domain [ ... ] (George Lakoff: Women, Fire and Dangerous Things. What Categories Reveal about the Mind. Chicago: University of Chicago Press 1987: 285) und: "Scenarios also have a purpose structure, which specifies the purposes of people in the scenario" (ibid.: 286), und er gibt als Beispiel: "The concept second baseman is characterized relative to a baseball game scenario" (ibid.). Diese Unterscheidung passt sehr gut zum Schema in Ks Abb. 15 (S. 132), wo „Kindererziehung" das in Lakoffschem Sinne dynamische zielgerichtete Szenario wäre, während die von K. als MOPs bezeichneten Szenarioelemente auch als Szenen bezeichnet werden könnten. Letztere ließen sich im Sinne von Schank in die Szenenelemente zerlegen, die wie Schank erklärt im Gedächtnis unabhängig von der ursprünglichen Szene gespeichert werden und für eine andere Szene abrufbereit stehen, so dass dann beide Szenen bzw. MOPs aufgrund dieser gemeinsamen Szenenelemente assoziiert werden. JFL1JJL 30 (2001) 270 Buchbesprechungen • Rezensionsartikel kultursystembedingte eingeschränkte Kreativität sehen, die zwar vom Grad der Bi-Kulturalität des Übersetzers abhängt, die aber dennoch voraussehbar ist und damit im Grunde genommen ein Kompetenzproblem ist. Kreativität ist allerdings „ein graduierbarer Begriff' (28) und sicher müssen wir im vorliegenden Fall von einem höheren Maß an Kreativität ausgehen. Wenn wir potty chair und Winde/ wechseln assoziieren können, so deshalb, weil sie beide als Elemente der Szene „Körperausscheidungen" auftreten. Wir haben es hier noch mit relativ nah verwandten szenischen Elementen zu tun. Statt „Windelwechseln" hätten die Übersetzer aber auch auf „Fläschchengeben" kommen können ein Vorschlag der den Rahmen der Szene „Körperausscheidungen" sprengt. Wenn er dennoch zu den von potty chair ausgehenden Assoziationsvirtualitäten gehört, so ist dies damit zu erklären, dass „Fläschchengeben" ein Element der Szene (in Ks. Abb. 17 „MOP") "Ernährung" ist und dass beide Szenen über das Szenario „Kindererziehung" miteinander verbunden sind. Ermöglicht wird diese Verbindung durch die Form, in der unsere Erfahrungen in unserem Denken abgespeichert werden. K. beruft sich hier auf die Hypothesen des Gedächtnisforschers Roger Schank, wonach wir Erlebtes nicht als Gesamtszene, sondern in Form von „Memory Organisation Packets" (MOPs) zerlegt speichern. So können Szenen über gemeinsame Szenenelemente verbunden werden. Diese Hypothesen werden auch durch Lakoffs „chaining" bestätigt, bei dem semantische Kategorien durch gemeinsame Elemente metaphorischer Vorstellungen assoziativ verkettet werden. Für Assoziationen von weiter auseinander liegenden Szenen hält Schank die „Thematic Organisation Points" (TOPs)-These bereit. Sie besagt, dass Ereignisse aufgrund gleicher Strukturmuster miteinander verknüpft werden können: Romeo and Juliet werden so mit der West Side Story assoziiert; in beiden Fällen ist das Ziel die Vereinigung der Liebenden, die sich gegen den Widerstand der Umwelt durchsetzen müssen. Schanks Hypothesen lassen keinen Zweifel daran, dass unser assoziatives Denken in bestimmten strukturierten Bahnen verläuft. Auf diese Weise lassen sich z.B. verschiedene Sprichwörter assoziieren, die zu einer gewissen Situation passen: eine Legitimierung für die übersetzerische Wiedergabe eines Sprichwortes durch ein anderes! Dadurch, dass Kußmaul Schanks MOP-Theorie sehr geschickt mit der Prototypensemantik in Verbindung bringt, schafft er ein Evaluationskriterium zur Beurteilung der Angemessenheit von kreativen Übersetzungsvorschlägen. Je nach seinen individuellen Erfahrungen kann ein Übersetzer zwei Szenen kreativ über ein ihnen gemeinsames MOP assoziieren und somit eine ausgangssprachliche Szene durch eine andere zielsprachliche Szene wiedergeben. Wie weit darf jedoch dabei die übersetzerische Freiheit gehen? Die Grenzen setzt die Prototypensemantik. Entscheidend für die „Angemessenheit" der Übersetzung ist der prototypische Charakter des assoziierten szenischen Elements in der jeweiligen Kultur. Eine Übersetzung ist in dem Maße „angemessen", wie die von ihr zielsprachlich verbalisierten Elemente aus dem „Kernbereich" (und nicht aus dem Randbereich) einer Szene stammen. "Die Auswahl aus dem Kernbereich garantiert die Angemessenheit der Übersetzung" (163). Sie bürgt für die von ReissNermeer geforderte „Wirkungsgleichheit" bei gleichbleibender Funktion. Fazit: Die Relevanz derartiger Forschung für die Übersetzungswissenschaft ist erheblich. Sie legitimiert kreative Assoziationen des bi-kulturellen Übersetzers, der so seine Kreativität gegen den möglichen Vorwurf des „Verrats" "Traduttore - Traditore") 'verteidigen' kann. Durch die Aufforderung zur Schulung des „lateralen Denkens" weist Kussmaul auch in der Übersetzungsdidaktik neue Wege. Es ist sein Verdienst, die verschiedenen, sich gegenseitig bestätigenden Forschungsstränge zusammengeführt zu haben und so die Kreativität des Übersetzers zu legitimieren. Er gibt der für diese Wissenschaft so vielfach geforderten Interdisziplinarität eine neue Dimension, die völlig in den Dienst der neuen Forderung nach „intersubjektiver Nachvollziehbarkeit" des übersetzerischen Handelns gestellt werden kann. Klaus MÜLLER: Lernen im Dialog. Gestaltlinguistische Aspekte des Zweitspracherwerbs. Tübingen: Narr 2000 (Tübinger Beiträge zur Linguistik; 445), VIII+ 286 Seiten [DM 78,-] „Tja" so könnte man meine Reaktion auf dieses Buch in verschriftlichter gesprochener Sprache zusammenfassen. Auf der einen Seite werden viele Themen angesprochen und in einer Weise behandelt, die für die Diskussion des Zweitspracherwerbs von Bedeutung sind; auf der anderen Seite wird man das lFlLllL 30 (2001) Buchbesprechungen • Rezensionsartikel 271 Gefühl nicht los, dass dieses Buch eigentlich aus zwei Büchern besteht, die sich nicht immer so ergänzen, wie der Verfasser es sich wahrscheinlich vorgestellt hat. Zum einen hat man es mit einer Einführung in die Gestaltlinguistik zu tun; zum anderen versucht dieses Buch, Daten aus einem empirischen Projekt zur Erforschung des Zweitspracherwerbs aus den 80er Jahren neu zu interpretieren und für die Erklärung des Erwerbsprozesses nutzbar zu machen. Der Verfasser möchte im Gegensatz zur weitgehend analytisch-nativistischen Spracherwerbsforschung den Dialog für die Erklärung des Zweitspracherwerbs produktiv machen; innerhalb der drei großen Paradigma der Spracherwerbsforschung ist er sicher im interaktionistischen Bereich anzusiedeln; ihre besondere Bedeutung erhält die Arbeit aber dadurch, dass sie gestaltlinguistische und gestaltpsychologische Kategorien an das Datenmaterial heranträgt und dieses durch sie interpretiert. Bei den Daten handelt es sich um Longitudinaldaten von 10 türkischen, italienischen und deutschen Kindern im Alter von 6 bis 10 Jahren, die im DFG-Projekt 'Gastarbeiterkommunikation' in Saarbrücken in den Jahren 1982-1988 gesammelt wurden und z.T. bereits in Publikationen dieses Projektes interpretiert worden sind. Das Buch beginnt mit einer etwas undifferenzierten Positionierung. Zunächst wird eine Unterscheidung von Erst- und Zweitsprache gegeben - "als Zweitsprache (oder: L2) wird diejenige Sprache bezeichnet, die nach dem Erwerb der Muttersprache erworben wird" (12), die auch jedes institutionelle Fremdsprachenlernen als Zweitsprache akzeptieren müsste. Hier sind vorhandene, weitaus differenziertere Auseinandersetzungen um das Verhältnis von Zweit- und Fremdsprache nicht gerade ausführlich rezipiert worden. Der Verfasser baut danach einen Gegensatz von Lernen im Dialog ( = Erwerb) und Lernen im Unterricht auf, den er erfreulicherweise dann selbst als sich in vielen Fällen nicht klar durchhalten lassend charakterisiert (vgl. 13). Ihm geht es darum zu beschreiben, wie der Deutscherwerb von türkischen und italienischen Kindern, "deren Erstspracherwerb zumindest bis zum 5. Lebensjahr ohne Einfluss der Zweitsprache Deutsch abgelaufen ist" (13), zu beschreiben. Bei diesen Lernenden ist „nicht ausschließlich mit schulisch beeinflusstem Erlernen des Deutschen zu rechnen, insbesondere deshalb nicht, weil die betreffenden Kinder keine besondere fremdsprachendidaktische Förderung genießen, sondern den 'normalen' Deutschunterricht in gemischt nationalen Klassen besuchen" (13). Bei dieser Ausgangslage drängt sich mir die Beobachtung auf, dass die Analyse von Sprachmaterial von Kindern, die erst ab dem 5. Lebensjahr Deutsch lernen und in die deutsche Schule gehen, doch eigentlich hochinteressantes Material für die Analyse der Interaktionen von natürlichem Erwerb und institutionellem Lernen hervorbringen könnte. Statt dessen schlägt sich der Verfasser aber auf die 'sichere Seite' der Spracherwerbforschung: "In diesem Sinne ist die vorliegende Arbeit Grundlagenforschung an einem Gegenstand, der dann von anderen[...] weiter für die Praxis des Fremdsprachenunterrichts aufbereitet werden muss" (13 f). Hier landet der Verfasser bei einer antiquierten Unterscheidung von Grundlagenwissenschaft und Didaktik, die man doch, wenn man ansonsten ein ganzheitliches Konzept verfolgt, so nicht haben müsste. Nach dieser etwas enttäuschenden Eingrenzung der Arbeit nimmt das Buch Fahrt auf. Es beginnt mit einem Überblick über lerntheoretische Aspekte, bei dem interaktionistische Ansätze im Vordergrund stehen und bei dem zumindest das Unterkapitel Spracherwerb als Gestaltlernen (30-34) dem Leser über die aus jeder Einführung in den Spracherwerb bekannten Theorien hinaus etwas Neues bietet. Der gestaltlinguistische Ansatz müsse das Augenmerk auf in der Gestaltpsychologie längst bekannte Gesetze und Prinzipien richten, wie z.B. die Prinzipien der Nähe, der Ähnlichkeit, der guten Fortsetzung und der Geschlossenheit. Auch müsse Gestaltlinguistik immer kommunikativ und dialogisch sein, wobei auch den affektiven Dimensionen der Soziabilität Beachtung geschenkt werden müsse (vgl. 34). Auf diese Ausführungen folgen zwölf ziemlich überflüssige Seiten, auf denen zum xten Mal ein Kurzüberblick über die üblichen großen Hypothesen des Zweitspracherwerbs gegeben wird, bevor danach die affektivmotivationalen Komponenten etwas ausführlicher beschrieben werden. Kapitel 2 diskutiert verschiedene Aspekte der Gruppenkommunikation, wobei zumindest ab und an auf die Spracherwerbssituation eingegangen wird. Kapitel 3, 'Linguistik des Dialogs' überschrieben, gibt zuerst etwas knapp einen Überblick zur Forschungslage zum Zweitspracherwerb (wenn man sich im Jahre 2000 noch mit dem Heidelberger Projekt auseinandersetzt und dabei das Fehlen von Langzeit- FLllL 30 (2001) 272 Neuerscheinungen • Eingegangene Bücher studien beklagt, warum findet dann z.B. das Berliner P-Moll-Projekt keine Erwähnung? ); danach folgen 23 Seiten zur linguistischen Dialoganalyse, die auch einer linguistischen Einführung zu entnehmen sind. Es folgt ein 4. Kapitel zur Kognitionspsychologie der Gestaltwahrnehmung, in der wiederum einige interessante Themen für das Fremdsprachenlernen diskutiert werden (Rolle des Gedächtnisses, Verständlichkeitsforschung), bei dem aber ein Bezug zum Zweitspracherwerbsprozess, um den es doch eigentlich gehen sollte, kaum noch zu erkennen ist. Ähnliches muss über Kapitel 5 gesagt werden, 'Aspekte der Gestaltlinguistik' überschrieben. Hier werden Gestaltsyntax und Gestaltsemantik vorgestellt und eine interessante Interpretation der Prototypensemantik als Gestaltsemantik versucht. Ausführlich wird die Gestaltung der Sprechzeit diskutiert, aber, das muss leider gesagt werden, das Thema des Buchs, der Zweitspracherwerb, gerät in diesem Kapitel 5 noch stärker als in Kapitel 4 in den Hintergrund. Eigentlich sind die Kapitel 4 und 5 zusammen mit einigen Teilen aus den ersten drei Kapiteln ein Buch zur Gestaltlinguistik, das separat hätte publiziert werden sollen, dann hätte man sich in dem nun folgenden Kapitel 6 auch ausführlicher um die Daten und um die sich daraus ergebenden Konsequenzen für das Sprachlernen kümmern können. Kapitel 6 nähert sich dann dem Gestaltlernen im Dialog. Der Verfasser versucht, den Erwerbsverlauf in der Form einer retrospektiven Interpretation zu analysieren. Nach einem kurzen Überblick über das Saarbrücker Projekt 'Gastarbeiterkommunikation' und seine Ergebnisse kommt das, was für jeden, der sich mit Zweit- und Fremdsprachenerwerb beschäftigt, das Interessante an diesem Buch ausmacht, der Blick auf Dialogauszüge unter ganzheitlichen Gesichtspunkten. An insgesamt 34 Beispielausschnitten werden dabei Teile von gestalthaftem Lernen im Dialog gezeigt, zum einen geht es um das Lernen im Spiel, wobei an Beispielen des Rhythmus, mit Bezügen zur oral poetry, gezeigt wird, wie Kinder mit Spielen und Versen lernen. Danach werden in zwei größeren Unterkapiteln, 'Rückmeldungsdidaktik' und 'Indikatoren ganzheitlichen Lernens' überschrieben, unterschiedliche Aspekte des Lernens angesprochen und unterschiedlich weitgehend analysiert. Diskutiert werden Fremd- und Selbstkorrekturen, didaktische Schleifen, semantische Klärungen, imitieren und zitieren, und besonders häufig Aspekte des Idiomatischen, sehr ausführlich am Beispiel von Modalpartikeln, deren Bedeutungen „am ehesten als übersummativ wirkende Gestaltkonstrukte erklärt werden können" (199). Die Diskussion dieser Beispiele im 6. und im folgenden Kapitel zeigt, wie interessant und aufschlussreich der gestaltlinguistische Blick auf Spracherwerbsdaten sein kann; ich hätte mir mehr von so einem Buch über das Lernen im Dialog, wie es sich im 6. Kapitel zeigt, gewünscht und dabei gern auf den parallel dazu durchgeführten Versuch, auch noch in Psychologie und Linguistik einzuführen, verzichtet. Giessen Dietmar Rösler Eingegangene Bücher ALTMANN, Werner/ VENCES, Ursula (Hrsg.): America Latina en la enseiianza de/ espaiiol. ,; Encuentro o encontronazo? Berlin: ed. tranvia, Ver! . Frey 2000 (Theorie und Praxis des modernen Spanischunterrichts; Bd. 2), 217 Seiten. FISHMAN, Joshua A. (ed.): Can threatened languages be saved? Reversing Language Shift, Revisited: A 21 st Century Perspective. Clevedon [etc.]: Multilingual Matters 2000 (Multilingual Matters; 116), xvi + 502 Seiten. KLEIN, Eberhard: Sprachdidaktik Englisch. Arbeitsbuch. Ismaning: Hueber 2001 (Forum Sprache), 271 Seiten. SZCZODROWSKI, Marian: Steuerung fremdsprachlicher Kommunikation. Gdansk: Uniwersytet 2001, 241 Seiten. WESKAMP, Ralf: Fachdidaktik. Grundlagen und Konzepte. Berlin: Cornelsen 2001 (studium kompakt Anglistik &Amerikanistik), 240 Seiten. lFlLlllL 30 (2001) .__ _______ I_n_f_o_r_m_a_t_i_o_n_e_n __ ._v_o_r_s_c_h_a_u _______ _.l Erklärung der Teilnehmer an der Essener Konferenz zum Erhalt und zur Förderung von Mehrsprachigkeit veranstaltet vom Institut für Migrationsforschung, Interkulturelle Pädagogik und Zweitsprachendidaktik (IMAZ) an der Universität Essen am 08.12.2000 Durch Wanderungsbewegungen und freie Wahl des Wohnsitzes innerhalb der Europäischen Union sind die meisten Staaten Europas heute de facto mehrsprachig und multikulturell. Gleichzeitig sind Erhalt von und Erziehung zu Mehrsprachigkeit ein erklärtes Ziel der Europäischen Union und damit auch der Bildungspolitik der einzelnen Länder der Bundesrepublik Deutschland. Mehrsprachigkeit in der Gesellschaft ist dabei das Ergebnis der Ausbildung von Zwei- und Mehrsprachigkeit von Individuen. Im Zusammenhang mit den Bemühungen um die Verbesserung und Verbreiterung. der Fremdsprachenkenntnisse von Schülerinnen und Schülern an den allgemeinbildenden Schulen muss deshalb auch die natürliche Zwei- und Mehrsprachigkeit, wie sie bei Kindern und Jugendlichen mit Migrationshintergrund existiert, als gesellschaftlicher Wert und als Ressource wahrgenommen und gefördert werden. Der alltägliche Umgang mit verschiedenen Sprachen und Kulturen muss in Schule und Gesellschaft zum selbstverständlichen Ausgangspunkt für interkulturelles Lernen werden. Um Mehrsprachigkeit bei Migranten auf dieser Grundlage erhalten und fördern zu können, bedarf es eines bildungspolitischen Klimas, in dem die Sprachen der Migranten und ihrer Kinder als persönlicher und gesellschaftlicher Wert begriffen werden. Denn durch die Migranten und ihre Kinder wird das Potenzial an Sprachenkenntnissen und Sprachkompetenzen in.der Bundesrepublik Deutschland und Europa insgesamt.erweitert. Ein solches bildungspolitisches Klima existiert bisher nicht. Zweisprachigkeit und Bikulturalität waren mit den Zielen des Nationalstaats des 19. Jahrhunderts nicht vereinbar und wurden mit Vorurteilen belegt, die sich bis heute hartnäckig halten. So ist der Glaube, dass Kinder durch Zweisprachigkeit überfordert würden, entgegen wissenschaftlichen Erkenntnissen auch bei pädagogischem Personal in Kindergärten und Schulen noch weit verbreitet. Die Zweisprachigkeit der Kinder und Jugendlichen wird daher weitgehend ignoriert und zurückgedrängt und nur selten als besonderer Wert erkannt und gefördert. Zwei- und mehrsprachige Kinder werden somit in verschiedener Hinsicht benachteiligt: • ihre Muttersprache wird nicht hinreichend gefördert, • ihr Deutscherwerb wird nicht angemessen unterstützt, • sie werden in ihrer Entwicklung zur Zweisprachigkeit behindert, • ihre sprachliche Herkunft und ihre durch den Migrationshintergrund geprägte Lebenswelt wird in der Schule nicht berücksichtigt. Dadurch werden die bilingualen und mehrsprachigen Kinder und Jugendlichen nicht nur in ihrer Persönlichkeitsentwicklung behindert, sondern auch in der Gesellschaft vorhandene und benötigte sprachliche Ressourcen vergeudet. Die Mitglieder des IMAZ und die Teilnehmer der Konferenz fordern daher, dass Kenntnisse über Zwei- und Mehrsprachigkeit sowie Wissen über Ursachen und Folgen von Migration als Grundlagenkompetenzen in der allgemeinen Schul- und Hochschulbildung und in allen Ausbildungsinstitutionen vermittelt werden, um ein positives Klima für die Entwicklung einer mehrsprachigen Gesellschaft zu erzeugen. Die Konferenz empfiehlt vor dem Hintergrund des „Europäischen Jahres der Sprachen 2001" und im Sinne einer europäischen Sprachenpolitik, die sich den Erhalt und insbesondere die schulische Förderung von Mehrsprachigkeit zum Ziel setzt, Maßnahmen in folgenden Bereichen zu ergreifen: 1. Aufklärung über Zweisprachigkeit Wissen über Zweisprachigkeit und zweisprachige Erziehung muss allgemeines Wissen der Gesellschaft werden, es muss die von Vorurteilen geprägten Einstellungen zur Zweisprachigkeit ablösen. Die Aufklärung über Zweisprachigkeit muss insbesondere erfolgen: • bei schul- und bildungspolitischen Entscheidungsträgern, IFJLl.llL 30 (2001) 274 Informationen • Vorschau • bei pädagogischen Fachkräften in der Schule, aber auch in vorschulischen und außerschulischen Einrichtungen, da diese die Erziehung und Einstellung zu Mehrsprachigkeit maßgeblich beeinflussen, • bei den Eltern mit Migrationshintergrund, die ihre Kinder zweisprachig erziehen wollen und die häufig falsch beraten werden. 2. Ausbildung von pädagogischem Personal mit Kenntnissen im Bereich Deutsch als Zweitsprache Lehrer/ -innen aller Schulformen und Schulstufen unterrichten Kinder nicht deutscher Muttersprache. Sie müssen dazu ausgebildet werden, mit dem Phänomen „Zweisprachigkeit" angemessen umgehen zu können und Benachteiligungen dieser Kinder zu verhindern. Dazu gehören auch der Erhalt und Ausbau von Förderangeboten für die Migrantenkinder. Das bedeutet im Einzelnen: • Vermittlung von Kenntnissen über Zwei- und Mehrsprachigkeit an Erzieher/ -innen und Lehrer/ -innen aller Schulformen und Schulstufen im Rahmen ihrer grundständigen Ausbildung, • Ausbildung von Expert/ -innen für Deutsch als Zweitsprache für Kindergarten und Schule, • Vermittlung von Kenntnissen in Migrantensprachen an Erzieher/ -innen und Lehrer/ -innen für Deutsch als Zweitsprache, damit diese aus sprachkontrastiver Sicht auf Besonderheiten in der sprachlichen Entwicklung von zweisprachigen Kindern angemessen reagieren können. 3. Ausbildung von Lehrer/ -innen für die Migrantensprachen Eine qualifizierte Förderung der Zweisprachigkeit ist dann am erfolgreichsten, wenn die Ausbildung von Lehrer/ -innen für den muttersprachlichen Unterricht in den Herkunftssprachen im Aufnahmeland selbst erfolgt. Die Lehrkräfte, die als Muttersprachenlehrerinnen in den Herkunftssprachen arbeiten, erhalten ihre Ausbildung bis auf wenige Ausnahmen bisher in ihrem Heimatland. (Hier bildet der Studiengang "Türkisch" an der Universität Essen die einzige Ausnahme.) Im Heimatland ausgebildete Lehrkräfte sind weder auf die spezifische sprachliche (zweisprachige) und soziokulturelle (multikulturelle) Situation der Migrantenkinder vorbereitet, noch mit den Methoden, Inhalten und Strukturen der deutschen Schule vertraut. Eine Verbesserung des Unterrichts für zweisprachige Kinder kann dadurch erreicht werden, dass die Ausbildung der Lehrkräfte für den Muttersprachlichen Unterricht grundsätzlich an deutschen Hochschulen durchgeführt wird. Mit der Einrichtung von Studien „Didaktik der Herkunftssprachen in zweitsprachlicher Umgebung" an geeigneten deutschen Hochschulstandorten könnte der Muttersprachliche Unterricht in seiner Qualität verbessert und ein nachhaltiger Beitrag zum Erhalt von Mehrsprachigkeit in der deutschen Gesellschaft geleistet werden. Für die Teilnehmer der Konferenz Prof. Dr. Rupprecht S. Baur (Geschäftsführender Leiter des IMAZ) Studienbibliographie zur Sprachpraxis des Französischen Während Einführungen in die Romanistik sich zumeist mit sehr knappen Verweisen zur Sprachpraxis begnügen, verlangen die Prüfungsbestimmungen des Staatsexamens von den künftigen Fremdsprachenlehrern recht anspruchsvolle sprachpraktische Kenntnisse. Spezielle Einführungen zur Sprachpraxis fehlen jedoch und es bleibt den Dozenten und Studierenden überlassen, sich hier die erforderlichen Titel auszusuchen. Um eine allzu subjektive Titelauswahl zu vermeiden, haben sich nun Dozenten verschiedener Universitäten bemüht, grundlegende und in der Praxis bewährte Werke zur Sprachpraxis zusammenzustellen, kurz zu kommentieren und dem Lernenden dadurch die Auswahl zu erleichtern. Die folgende Bibliographie möchte Studierenden, die das Staatsexamen in Französisch vorbereiten, eine Orientierung geben. Obwohl sich diese Bibliographie primär an den Examensbedingungen eines Bundeslandes (Bayern) ausrichtet, dürfte sie sicher auch für andere Bundesländer nützlich sein. Die Bibliographie kann unter http: / / www.sz.Uni-Augsburg.De/ lernerbibfranzphil.htm im Internet eingesehen und heruntergeladen werden. Kritik und Verbesserungsvorschläge bitte an: Stefan.Ettinger@SZ.Uni-Augsburg.DE FLuL 30 (2001) Informationen • Vorschau 275 Vorschau auf Jahrgang 31 (2002) von FLuL Der von FRANK G. KÖNIGS (Universität Marburg) und EKKEHARD ZöFGEN (Universität Bielefeld) koordinierte Themenschwerpunkt für Jahrgang 31 (2002) heißt „Lehrerausbildung in der Diskussion". Die Lehrerausbildung ist aus unterschiedlichen Gründen wieder stärker in die Diskussion geraten: Der tatsächliche Bedarf an Lehrern allgemein, an Fremdsprachenlehrern im Besonderen ist deutlich gestiegen. Die Bedeutung von Fremdsprachen für ein angemessenes Bildungsangebot wird deutlicher artikuliert und anerkannt als in früheren Zeiten. Die wissenschaftlichen Fortschritte bei der Erforschung des Lehrens und Lernens fremder Sprachen legen eine Veränderung von Fremdsprachenunterricht nahe, die ohne entsprechend ausgebildete Lehrer nicht zu realisieren ist. Die Universitäten als wichtige Stätten der Lehrerausbildung sind gezwungen, ihre Ausbildungskonzepte zu überdenken, um bildungspolitischen Maßgaben Rechnung zu tragen und um die Internationalisierung von Ausbildungsgängen voranzutreiben. Vor diesem Hintergrund setzt sich das Themenheft zum Ziel, aus unterschiedlichen Perspektiven der Frage nachzugehen, wie angesichts dieser Rahmenbedingungen eine angemessene Ausbildung von Fremdsprachenlehrern erfolgen kann und soll. Zu Wort kommen Vertreter unterschiedlicher Wissenschaftszweige, die mit dem Lehren und Lernen von Fremdsprachen befasst sind, Vertreter der Praxis, der Lehreraus- und -weiterbildung und der Kultusverwaltung. Bei Redaktionsschluss lagen Zusagen für folgende Beiträge vor: Jens BAHNS (Kiel): Stationenlernen im Fremdsprachenlehrerstudium auch im fachwissenschaftlichen Hauptseminar? Rupprecht BAUR (Essen): [Thema stand bei Redaktionsschluss noch nicht fest] Ingeborg CHRIST (Düsseldorf): Anregungen für die Ausbildung von Lehrkräften für Fremdsprachen und bilingualen Unterricht aus der Sicht der Schulverwaltung Christoph EDELHOFF (Grebenstein): Aus- und Fortbildung von Fremdsprachenlehrkräften im Kontinuum der Lehrerbildung Reinhold FREUDENSTEIN (Marburg): Ein Modell für Europa: Muttersprachler an die Front! Frank G. KÖNIGS (Marburg): Sackgasse oder Verkehrsplanung? Perspektiven für die Ausbildung von Fremdsprachenlehrern J.-E. PICKEROTH (Marburg): [Thema stand bei Redaktionsschluss noch nicht fest] Marita SCHOCKER-V. DITFURTH (Schwäbisch-Gmünd): Forschendes Lernen in der Fremdsprachenlehrerausbildung: Erfahrungen mit einem multiperspektivischen Ansatz Konrad SCHRÖDER (Augsburg): [Thema stand bei Redaktionsschluss noch nicht fest] Frauke STÜBIG (Kassel): Kommunikative versus pädagogische Kompetenz? Über den Zusammenhang von Fremdsprachenlernen und Bildung Sigrid VOGEL (Göttingen): Der Beitrag des Französischen im Kontext der Bildungstradition und sein Beitrag im Kontext eines zukunftsfähigen Berufs- und Gesellschaftsbezugs Für den nicht-thematischen Teil ist u.a. vorgesehen: Dieter Seelbach (Mainz): Kollokationen und expressions figees. Geplanter Themenschwerpunkt für Jahrgang 32 (2003) von FLuL Mündliche Produktion in der Fremdsprache (koordiniert von Karin Aguado) JFLIIL 30 (2001) Fremdsprachendidaktik Frank G. Königs (Hrsg.) Impulse aus der Sprachlehrforschung Marburger Vorträge zur Ausbildung von Fremdsprachenlehrern Tübinger Beiträge zur Linguistik 453, 2001, 185 Seiten, DM 39,80/ € 19,90/ SFr 39,80 ISBN 3-8233-5119-2 Die Erforschung des Lehrens und Lernens fremder Sprachen hat in den vergangenen Jahren einen nicht unbeträchtlichen Aufschwung genommen. Dabei haben neue Themen alte rezeptologische Vorstellungen der Fremdsprachendidaktik ersetzt. Zu ihnen zählen die neuen Technologien, Fragen der Lernerautonomie, die Mehrsprachigkeitsdidaktik oder Fragen des frühen und des bilingualen schulischen Fremdsprachenlernens. In dem von Frank G. Königs herausgegebenen Sammelband skizzieren sieben Vertreter der Sprachlehrforschung und der Fremdsprachendidaktik aus ihrer Sicht neuere Trends der Forschung und beschreiben die Konsequenzen, die daraus für die Ausbildung von Fremdsprachenlehrern resultieren müssen. Dabei kommt neben den Schulfremdsprachen auch dem Fach Deutsch als Fremdsprache eine wichtige Rolle zu. Wolfgang Börner / Klaus Vogel (Hrsg.) Normen im Fremdsprachenunterricht Tübinger Beiträge zur Linguistik 451, 2000, XX, 278 Seiten, DM 78,-/ € 39,-/ SFr 74,- ISBN 3-8233-5117-6 Auf den Fremdsprachenunterricht wirken vielerlei Normen ein. Normen finden sich in den Lernfeldern Sprache und Kultur, in Form von grammatischen oder pragmatischen Regeln sowie in kommunikativen und kulturellen Mustern. Sie gehören ferner zur unterrichtlichen Interaktion und zur Institution Schule oder Universität, insofern sie didaktische und soziale Konventionen verbindlich machen. Schließlich finden wir Reffe-. xe all dieser Normen auch in Lehrern und Lernern. Der Band analysiert dieses zentrale Thema des Fremdsprachenunterrichts. Gunter Narr Verlag Tübingen Postfach 2567 • D-72015 Tübingen• Fax (07071) 75288 Internet: http: / / www.narr.de. E-Mail: info@narr.de Fremdsprachendidaktik/ Romanistik Lothar Bredella / Franz-Joseph Meißner/ Ansgar Nünning / Dietmar Rösler (Hrsg.) Wie ist Fremdverstehen lehr- und lernbar? Vorträge aus dem Graduiertenkolleg "Didaktik des Fremdverstehens" Giessener Beiträge zur Fremdsprachendidaktik, 2000, LII, 290 Seiten, DM 64,-/ € 32,-/ SFr 61,- ISBN 3-8233-5304-7 In dem Band werden Beiträge aus einerVorlesungsreihe des Giessener Graduiertenkollegs „Didaktik des Fremdverstehens" veröffentlicht, die im Wintersemester 1998/ 99 stattfand. Es wird versucht, das Konzept „Fremdverstehen" bezogen auf das Lehren und Lernen fremder Sprachen in Schule, Hochschule und Weiterbildung zu operationalisieren. Wie ist „Fremdverstehen" lehrbar und wie kann man es lernen? Der Band untersucht zuerst die Bedingungen und Möglichkeiten des Zugangs zum Fremden und dann die Realität der Begegnung mit dem Fremden. Dabei werden vor allem unterrichts- und vermittlungsmethodische Probleme bezogen auf das Lehren und Lernen in Schulen, Hochschulen und Erwachsenenbildung behandelt. Kirstin Henze Anglo-hispanische Sprachwege durch New York Ethnographie der Kommunikation in einer globalisierten Kulturlandschaft Frankfurter Beiträge zur Lateinamerikanistik 8, 2000, 275 Seiten, DM 86,-/ € 43,-/ SFr 77,- ISBN 3-8233-4048-4 Die multikulturelle und multilinguale Metropole New York, Spanischsprecher aus den verschiedensten Ländern und mit den verschiedensten persönlichen Geschichten, lebhafte Migration und Rückmigration das ist der Kontext, in dem die Autorin ihr kulturwissenschaftliches Forschungsprojekt durchführte. Im Mittelpunkt der Studie steht das Individuum, das sich sprachlich orientiert, ethnische und kulturelle Grenzen kommunikativ erlebt, in Frage stellt oder gar überschreitet. ~\1 Gunter Narr Verlag Tübingen ~ Postfach 2567 • D-72015 Tübingen. Fax (07071) 75288 Internet: http: / / www.narr.de • E-Mail: info@narr.de narr studienbücher Ruth Albert/ Cor J. Koster Empirie in Linguistik und Sprachlehrforschung Ein methodologisches Arbeitsbuch 2002, ca. 160 Seiten, div. Abb. u. Tab. ca.€ 16,40/ SFr 32,80 ISBN 3-8233-4985-6 Dieses speziell für Studierende der Sprachwissenschaft, Einzelphilogien und Deutsch als Fremdsprache oder Sprachlehrforschung konzipierte Einführung mit Übungsaufgaben erklärt detailliert und für Laien verständlich ausschließlich diejenigen empirischen und statistischen Verfahren, die in linguistischen Examens- und Doktorarbeiten tatsächlich gebraucht werden. Jörg Roche 1nterkulturelle Sprachdidaktik Eine Einführung 2001, 248 Seiten, div. Abb. u. Tab., € 19,90/ SFr 39,80 ISBN 3-8233-4984-8 Die Einführung skizziert verschiedene Facetten der Beziehung zwischen Sprache und Kultur beim Spracherwerb und Sprachunterricht. Jörg Roche erörtert zunächst die theoretischen Grundlagen eines interkulturellen Ansatzes zum Spracherwerb. Auf dieser Basis entwickelt er eine interkulturelle Didaktik, die er dann im Rahmen einer entsprechenden Methodik umsetzt und mit konkreten Vorschlägen für die Unterrichtspraxis anreichert. Monika Sokol Französische Sprachwissenschaft Eine Einführung mit thematischem Reader 2001, XIV, 246 Seiten,€ 18,40/ SFr 36,80 ISBN 3-8233-4980-5 Der Band vereint die Vorteile einer klar gegliederten Heranführung an die Geschichte und die Untersuchungsbereiche der französischen Sprachwissenschaft mit denen eines themenzentrierten Readers. Er ermöglicht somit nicht nur die Aneignung von Basiswissen, sondern auch das Erlernen von Texterschließungsstrategien, die zu einer künftigen aktiven Erweiterung dieses Wissens befähigen sollen. Peter Fröhlicher Theorie und Praxis der Analyse französischer Texte Eine Einführung 2001, ca. 200 Seiten, ca.€ 16,40/ SFr 32,80 ISBN 3-8233-4977-5 Anhand von Beispielen aus verschiedenen Epochen und Gattungen werden zentrale Fragen der literarischen Analyse behandelt, wie Repetition und Differenz, Figurativität und Narrativität, Beziehung von enonce und enonciation, Modelle der Interaktion und der Kommunikation, Konstituierung und Transformation von Wertsystemen, pragmatische Dimension des literarischen Textes, explizite und implizite Poetik. Gunter Narr Verlag Tübingen Postfach 2567 • D-72015 Tübingen. Fax (07071) 75288 Internet: http: / / www.narr.de. E-Mail: info@narr.de Ulrich Kautz Handbuch Didaktik des Übersetzens und Dolmetschens hg. vom Goethe-Institut Das Handbuch enthält: eine Einführung in den Beruf des Übersetzers bzw. Dohnetschers • einen kurzen Abriss der Entwicldung der Übersetzungswissenschaft je ein ausführliches Kapitel zum Übersetzen und Dolmetschen mit detaillierten didaktischen Hinweisen, Übungstypologien, Unterrichtsmodellen und Lehrmaterial- Beispielen • eine Übersicht über bestehende Curricula für die Aus- und Fortbildung von Übersetzern und Dohnetschern • einen Exkurs zu den besonderen Problemen, die die Einbeziehung von Übersetzungs- und Dohnetschübungen in den Fremdsprachenunterricht an Sekundar- und Hochschulen bedeutet • eine Übersicht über vorhandene bzw. mögliche Aktivitäten im Bereich Übersetzen/ Dolmetschen an Goethe- Instituten mit Vorschlägen zu Szenarien für solche Veranstaltungen • eine umfangreiche Bibliographie .,/ m iudicium IUDICIUM Verlag GmbH Postfach 701067 • D - 81310 München Tel. 089/ 7187 47 • Fax 089/ 714 20 39 e-mail: info@iudicium.de • Unser Verlagskatalog im Internet: www.iudicium.de Dieses Handbuch entstand im Rahmen eines Projekts des Goethe- Instituts. Es soll Lehrkräften, die Übersetzungs- und Dolmetschunterricht erteilen, und solchen, die sich selbst und andere in diesem Bereich fortbilden wollen, als Orientierungshilfe dienen und ihnen konkrete Anleitungen und Vorschlä~e zur Gestaltung von Ubersetzungs- und Dolmetschübungen wie auch Fortbildungsveranstaltungen geben. Die Beispieltexte sind als "Steinbruch" gedacht, aus dem sich der nach didaktisiertem Unterrichtsmaterial suchende Lehrer bedienen kann. Language in Perfor111ance Eija Ventola Discourse and Community Doing FunctionalLinguistics LiP 21, 2000, 397 Seiten, € 48,-/ SFr 86,- ISBN 3-8233-4944-9 Tue aim of this collected volume is to demonstrate how the community may benefit from linguists' work in functional discourse analysis. Most of the authors share a concern for applying their linguistic expertise to "real life" problems. How can language be used as evidence in court? Why are bureaucratic forms often hard to understand? How is language efficiently used in written guidelines and instructions? Why are so many translations insufficient? How are newspaper texts shaped by hidden ideologies? These and other questions are tackled by experienced linguists. Their analyses, though, will not only be instructive for their professional colleagues. Even non-expert readers may find helpful insights making them understand their own linguistic behaviour better and may be even improving their communicative skills. Christopher J. Gledhill Collocations in Science Writing · LiP 22, 2000, IX, 268 Seiten, € 48,-/ SFr 86,- ISBN 3-8233-4945-7 Collocation is a fundamental feature of language in which sequences of words take on the properties offixed expressions. Some of these chunks are entirely grammatical but are restricted to a few possible expressions, others belong to formulaic expressions which have unique grammatical behavior and become lexical items in their own right. This book analyses the role of collocation in science writing. lt considers fixed expressions in terms of phraseology, that is to say, the pragmatic use of fixed expressions and idioms for persuasive or other effects. On the basis of a 500 000 word corpus of cancer research articles, it explores the role of collocation in the development of scientific ideas, the establishment of scientific conventions and the expression of membership of the discourse community. Gunter Narr Verlag Tübingen Postfach 2567 • D-72015 Tübingen •Fax (07071) 75288 Internet: http: / / www.narr.de • E-Mail: info@narr.de Fremdsprachen Lehren und Lernen (FLuL) Themenschwerpunkte (1987-2003)* Jg. 16 (1987): Wortschatz und Wortschatzlernen (hrsg. von Ekkehard Zöfgen) [•] Jg. 17 (1988): Übersetzung und Übersetzen (hrsg. von Ekkehard Zöfgen) [•l Jg. 18 (1989): Historische Sprachstufen (hrsg. von Kurt Otto Seidel) Jg. 19 (1990): Fachsprachen und ihre Vennittlung (hrsg. von Gert Henrici und Ekkehard Zöfgen) Jg. 20 (1991): Grammatik und Grammatiklernen (hrsg. von Ekkehard Zöfgen) Jg. 21 (1992): Idiomatik und Phraseologie (hrsg. von Ekkehard Zöfgen) Jg. 22 (1993): Fehleranalyse und Fehlerkorrektur (koord. von Oert Henrici und Ekkehard Zöfgen) Jg. 23 (1994): Wörterbücher und ihre Benutzer (koord. von Ekkehard Zöfgen) Jg. 24 (1995): Kontrastivität und kontrastives Lernen (koord. von Claus Gnutzmann) Jg. 25 (1996): Innovativ-alternative Methoden (koord. von Gert Henrici) Jg. 26 (1997): IAnguage Awareness (koord. von Willis J. Edmondson und Juliane House) Jg. 27 (1998): Subjektive Theorien von Fremdsprachenlehrern (koord. von Inez De Florio-Hansen) Jg. 28 (1999): Neue Medien im Fremdsprachenunterricht (koord. von Erwin Tschimer) Jg. 29 (2000): Positionen (in) der Fremdsprachendidaktik (koord. von Frank G. Königs) Jg. 30 (2001): Leistungsmessung und Leistungsevaluation (koord. von Rüdiger Grotjahn) Jg. 31 (2002): Lehrerausbildung in der Diskussion (koord. von Frank G. Königs und Ekkehard Zöfgen) [i.V.] Jg. 32 (2003): Mündliche Produktion in der Fremdsprache (koord. von Karin Aguado) [geplant] * Bis Jg. 15 (1986) einschließlich wurde die Zeitschrift unter dem Titel Bielefelder Beiträge zur Sprachlehrforschung vertrieben. Die mit [*] gekennzeichneten Hefte sind vergriffen. Hinweise zu Beiträgen für FLuL FLuL begrüßt Beiträge zu Forschung und Unterricht aus allen für den Fremdsprachenunterricht an der Hochschule relevanten Bereichen sowie zum Fremdsprachenlehren/ -lemen im Ausland. Grundlage für jeden Beitrag sollte eine ausreichende wissenschaftliche Fundierung mit unmittelbarer oder mittelbarer Relevanz des Gegenstandes für die fremdsprachenunterrichtliche Tätigkeit an der Hochschule sein. Beiträge, die den schulischen Fremdsprachenunterricht zusätzlich zur Reflexionsgröße erheben, sind gleichermaßen willkommen. Umfang I Sprache: Die Beiträge können auf Deutsch, Englisch, Französisch oder Spanisch abgefasst sein; sie sollten 15 Druckseiten(= 45 000 Zeichen) nicht überschreiten. Einzelheiten zur Gestaltung der Manuskripte sind dem ausführlichen 'style sheet' zu entnehmen, das bei der Redaktion angefordert werden kann. Neuerscheinungen VolkerNoll Das amerikanische Spanisch Ein regionaler und historischer Überblick 2001. XlV, 114 Seiten. 4 Karten. Kart . DM 21.- / ÖS 153.- / SFr 18.90. ISBN 3-484-54046-X (Romanistische Arbeitshefte. Band 46) Das Interesse am amerikanischen Spanisch nimmt beständig zu. Vor diesem Hintergrund beschreibt das vorliegende romanistische Arbeitsheft das amerikanische Spanisch regional und historisch im kontrastiven Vergleich mit der europäischen Norm. -Aus dem Inhalt: Der Sprachraum, aktuelle Länderkunde, ausgewählte Hilfsmittel, Besonderheiten des amerikanischen Spanisch, diatopische Gliederung, die koloniale Expansion mit Darstellung indianischer Völker und Sprachen, die Hispanisierung, Thesen der sprachlichen Differenzierung, die Ausbildung hispanoamerikanischer Merkmale, Literaturverzeichnis. Andreas Blank Einführung in die lexikalische Semantik für Romanisten 2001. IX, 155 Seiten. Kart . DM 24.-/ ÖS 175.- / SFr 21.60. ISBN 3-484-54045-1 (Romanistische Arbeitshefte. Band 45) Dieses Arbeitsheft führt Studierende der Romanistik auf einem aktuellen Stand der Theoriediskussion in die lexikalische Semantik ein. Es diskutiert wichtige Grundlagen wie die lexikalischen Relationen, die Unterscheidung zwischen Polysemie und Homonymie sowie die Problematik des >Bedeutungs,-Begriffs. Neben der strukturellen Semantik und semantischen Ansätzen generativer Prägung wird die Kognitive Semantik (insbesondere in Form der Prototypentheorie und der Frames-and-Scenes-Semantik) vorgestellt. Ausführlich behandelt das Arbeitsheft die Historische Semantik: Grundlagen, Typik und Motive des Bedeutungswandels und in einer weiteren Perspektive verschiedene Arten des lexikalischen Wandels einschließlich Wortbildung, Entlehnung usw. Nikolaus Schpak-Dolt Einführung in die Morphologie des Spanischen 1999. XI, 140 Seiten. Kart . DM 24 .80 / ÖS 181.-/ SFr 22.30. ISBN 3-484-54044-3 (Romanistische Arbeitshefte . Band 44) Das vorliegende Arbeitsheft wendet sich an Studierende der Romanistik/ Hispanistik. Im ersten Teil werden die Grundbegriffe und Beschreibungsmethoden der strukturellen Morphologie dargelegt, im zweiten Teil schließt sich eine Darstellung der wichtigsten Fakten aus der spanischen Flexion an, und der dritte Teil enthält einen Überblick über die Verfahren der spanischen Wortbildung. Im Mittelpunkt der Arbeit steht das Bemühen um eine synchronische Gesamtdarstellung nach einheitlichen strukturalistischen Gesichtspunkten. Petra Braselrnann Sprachpolitik und Sprachbewusstsein in Frankreich heute 1999. IX, 162 Seiten. Kart . DM 19.80 / ÖS 145.-/ SFr 18.60. ISBN 3-484-54043-5 (Romanistische Arbeitshefte . Band 43) Die Untersuchung behandelt Aspekte der gegenwärtigen französischen Sprachpolitik in ihrer historischen, politischen und ideologischen Einbettung und ihrer Rezeption durch die Sprecher, die Medien und die Gerichte. Im Zentrum des Interesses stehen das jüngste Sprachgesetz, die »loi Toubonc von 1994, die Erlasse zu den vorgeschriebenen ,politisch korrekten, Formen (z.B. Feminisierungen) und die sprachwissenschaftliche Analyse des von offizieller Seite zur Verfügung gestellten, im •Journal officielc publizierten sprachlichen Materials. Max Niemeyer Verlag ISSN 0932-6936 ISBN 3-8233-4589-3 Max Niemeyer Verlag GmbH • Postfach 2140 • 72011 Tübingen Tel 07071- 98 94 94 - Fax 98 94 50 · E-mail order@niemeyer.de