Fremdsprachen Lehren und Lernen
flul
0932-6936
2941-0797
Narr Verlag Tübingen
Es handelt sich um einen Open-Access-Artikel, der unter den Bedingungen der Lizenz CC by 4.0 veröffentlicht wurde.http://creativecommons.org/licenses/by/4.0/121
2010
391
Gnutzmann Küster SchrammAndrea DLASKA, Christian KREKELER: Sprachtests: Leistungsbeurteilungen im Fremdsprachenunterricht evaluieren und verbessern. Baltmannsweiler: Schneider Verlag Hohengehren 2009. VI + 195 Seiten [19,00 €]
121
2010
Rüdiger Grotjahn
flul3910192
1 Standardisierte Sprachtests bilden einen Schwerpunkt von: Rüdiger G ROTJAHN : Testen und Evaluieren fremdsprachlicher Kompetenzen: Ein Arbeitsbuch. Tübingen: Narr 2010 [erscheint]. 39 (2010) Andrea D LASKA , Christian K REKELER : Sprachtests: Leistungsbeurteilungen im Fremdsprachenunterricht evaluieren und verbessern. Baltmannsweiler: Schneider Verlag Hohengehren 2009. VI + 195 Seiten [19,00 €] Während die Zahl englischsprachiger Publikationen zu den Themen „Language Testing“ und „Language Assessment“ in den letzten Jahren exponentiell zugenommen hat, ist die Zahl entsprechender deutschsprachiger Buchpublikationen bisher vergleichsweise gering. Das vorliegende Buch fokussiert einen wichtigen Teilbereich, nämlich die Evaluation und Verbesserung von Leistungsbeurteilung durch Lehrkräfte im Fremdsprachenunterricht. Hierzu werden spezielle Qualitätskriterien entwickelt und anhand von deutsch- und englischsprachigen Beispielen illustriert. Die Autor(inn)en sprechen sich u.a. für ein aufgabenbasiertes Testen im Sinne direkter Performanztests sowie für eine kriteriumsorientierte Beurteilung aus. Behandelt werden informelle Tests zum Lesen und Schreiben, informelle Tests mit Fachbezug sowie alternative Formen der Leistungsbeurteilung. Den Begriff „informelle Tests“ verstehen die Autor(inn)en im Sinne von durch Lehrerkräfte erstellte, testmethodisch nicht erprobte Verfahren. Im vorliegenden Buch geht es somit nicht um eine Darstellung standardisierter Formen des Sprachtestens. Diese werden der „Welt der Testinstitute“ zugerechnet und im 1. Kapitel (S. 5-32) mit der „Welt des Unterrichts“ kontrastiert. 1 Dabei wird allerdings wie auch in weiteren Kapiteln ein m.E. zumindest in Teilen ungerechtfertigter und unfruchtbarer Gegensatz aufgebaut. Dies gilt umso mehr, als die Autor(inn)en unterrichtsbezogene informelle Sprachtests immer wieder auch im Lichte der im wissenschaftlichen Umgang mit Tests üblichen psychometrischen Kriterien (z.B. Reliabilität) kritisch evaluieren. Im umfangreichen 2. Kapitel (S. 33-77) geht es um Qualitätskriterien von Leistungsbeurteilungen. Die Autor(inn)en orientieren sich vor allem an Bachman und Palmers Kriterium der Nützlichkeit und dessen sechs Unterkriterien. Außerdem gehen sie kurz auf das Validitätskonzept von Cyril Weir aus dem Jahre 2005 ein, wobei allerdings die Ausführungen vor allem zur theoriegeleiteten Validität (vgl. S. 40) nur eingeschränkt zutreffen und auch unberücksichtigt lassen, dass Weir seit einigen Jahren anstelle von theory-based validity den weit treffenderen Terminus cognitive validity verwendet. D LASKA und K REKELER schlagen selbst folgende vier ausführlich begründete Qualitätskriterien informeller Leistungsbeurteilungen vor: Gerechtigkeit („Werden oder fühlen sich Teilnehmer benachteiligt? “), Rückmeldung („Erhalten die Teilnehmer eine lernfördernde Rückmeldung? “), Auswirkungen („Gibt es positive Auswirkungen auf das Lernen? “ sowie Aktivität („Ist die Bearbeitung der Aufgaben eine sinnvolle Lernaktivität? “). Besonders hervorgehoben werden die potenziell positiven bzw. negativen Auswirkungen von Leistungsbeurteilungen auf die Lerner und das Lernen. Eine hohe Reliabilität wird dagegen im Vergleich zu den vier genannten Kriterien als nachrangig angesehen, ohne dass jedoch potenziell negative Konsequenzen deutlich genug herausgestellt werden. Begrüßenswert ist die ausführliche, durch eine breite Literaturrezeption abgesicherte Darstellung der Bedeutung der Rückmeldung für das Lernen. Die Autor(inn)en kennzeichnen Merkmale effektiver Rückmeldungen und argumentieren zu Recht, dass die Qualität der Rückmeldung maßgeblich zur Qualität und Nützlichkeit von Sprachtests beiträgt. Abschließend weisen sie darauf hin, dass es Überschneidungen zwischen den genannten vier Kriterien gibt und dass man keine B u c h b e s p r e c h u n g e n C R e z e n s i o n s a rt i k e l Buchbesprechungen C Rezensionsartikel 193 39 (2010) universelle Gewichtung vornehmen kann. Diese muss vielmehr stets „in Abhängigkeit von der spezifischen Situation und von der jeweiligen Testfunktion bestimmt werden“ (S. 75). Kritisch ist anzumerken, dass es hier wie auch in anderen Kapiteln eine Reihe von unklaren Formulierungen gibt. So heißt es z.B. auf S. 15: „Während es bei der Bewertung (rating) von Sprachtests darum geht, einer Leistung einen Punktwert zuzuweisen, geht es bei der Beurteilung (assessment) darum, Sprachkompetenzen zu messen“ (S. 15). Hier wird m.E. weder deutlich, wie sich Bewertung und Beurteilung unterscheiden, noch was die Autor(inn)en unter Messen verstehen. Ein weiteres Beispiel ist die nicht korrekte Verwendung der Begriffe „klassische Testtheorie“ und „probabilistische Testtheorie“ (vgl. z.B. S. 21, 33, 80): Es werden zum einen Objektivität, Reliabilität und Validität als Hauptkriterien der klassischen Testtheorie charakterisiert (S. 33), ohne zu berücksichtigen, dass der Terminus „klassische Testtheorie“ üblicherweise eine (axiomatische) Messfehlertheorie bezeichnet und keinen unmittelbaren Bezug zu den klassischen Gütekriterien hat. Zum anderen werden irrtümlich statistische Verfahren wie z.B. die Berechnung von Trennschärfen und Schwierigkeiten der probabilistischen Testtheorie zugerechnet. Im 3. Kapitel (S. 78-94) geht es um Tests zum Leseverstehen. Die Autor(inn)en verzichten auf eine Beschäftigung mit Modellen zum Leseprozess - mit der Begründung, dass sie keine sprachlichen Kompetenztests entwickeln wollen. Diese Argumentation greift m.E. jedoch zu kurz: Auch wenn man einen aufgabenbasierten Ansatz favorisiert, benötigt man trotzdem zumindest rudimentäre Modelle von Hörverstehenskompetenz - z.B. zur Begründung von Aussagen zur Gerechtigkeit. Zu Recht warnen die Autor(inn)en jedoch vor dem unterrichtlichen Einsatz von Multiple-Choice Items. Diese bedürfen zum einen einer gründlichen Vorerprobung. Zum anderen sind die Auswirkungen auf den Unterricht potenziell negativ, da die Bearbeitung der Items kaum Affinitäten zu einer sinnvollen Lernaktivität aufweist. Hier wie auch an weiteren Stellen sprechen sich die Autor(inn)en für kombinierte Aufgabenstellungen wie „Lesen und Schreiben“ oder „Lesen und Sprechen“ aus - mit dem m.E. nicht hinreichend begründeten Argument, dass es im Fremdsprachenunterricht nur selten erforderlich sei, einzelne Fertigkeiten unabhängig von anderen Fertigkeiten zu diagnostizieren (S. 92). Dass sich mangelhafte Testleistungen dann nicht mehr eindeutig interpretieren lassen, wird nicht weiter thematisiert. Das 4. Kapitel (S. 95-119) behandelt Tests zum Schreiben. Auch hier gehen die Autor(inn)en wieder auf die wichtige Frage einer adäquaten Rückmeldung und insbesondere auf die Fehlerkennzeichnung und -korrektur in praxisrelevanter Weise ein. Daran anschließend beschreiben sie Methoden der Textbewertung wie ganzheitliche Bewertung und analytische Bewertung. Die Darstellung des in der Praxis wichtigen (prozentualen) Fehlerquotienten ist allerdings verwirrend: Die gegebene Definition des Fehlerquotienten entspricht nämlich weder dem angeführten Berechnungsbeispiel noch der in der Bewertungspraxis der Schule üblichen Definition. Letztere stimmt vielmehr mit dem von D LASKA und K REKELER als Fehlerprozentsatz bezeichneten Index überein (vgl. S. 109). Zudem werden fehlerorientierte Bewertungen als „nur auf die sprachliche Richtigkeit begrenzt“ (S. 110) charakterisiert und damit in ihrer Aussagekraft m.E. unterschätzt. Im 5. Kapitel (S. 120-135) geht es um Sprachtests mit Fachbezug. Für diese ist in der Regel konstitutiv, dass die Aufgaben typisch für fachsprachliche Kommunikationssituationen sind und zur Lösung der Aufgaben sowohl sprachliche als auch fachliche Kompetenzen nötig sind. Die Autor(inn)en geben Beispiele für Tests mit unterschiedlich starkem Fachbezug und weisen darauf hin, dass mit zunehmendem Fachbezug die Generalisierbarkeit der Ergebnisse sinkt. Problematisch ist die auf S. 128 vorgestellte kombinierte „Aufgabe zum Hören“. Hier soll auf der Basis eines Vortrags die Wirkungsweise eines Getriebes beschrieben werden. Wie die Autoren selbst feststellen, kann die Aufgabe bei entsprechenden fachlichen und sprachlichen Kenntnissen auch ohne den Hörtext bearbeitet werden. Es handelt sich m.E. dann allerdings eher um eine Schreibaufgabe, 194 Buchbesprechungen C Rezensionsartikel 39 (2010) wobei der Anteil der Schreibkompetenz am gemessenen Konstrukt wiederum von den Bewertungskriterien abhängt - ein nicht thematisierter Aspekt. Den Reiz von Sprachtests mit Fachbezug sehen die Autor(inn)en u.a. „in der authentischen oder realitätsnahen Aktivität, die mit dem Test initiiert wird“ (S. 135). Im Kapitel 6 (S. 136-173) werden alternative Formen der Leistungsbeurteilung als Teil einer vielfältigen Beurteilungskultur dargestellt. Während bei konventionellen Testverfahren die Prüflinge normalerweise einzeln unter Aufsicht unbekannte Aufgaben in vorgegebener Zeit bearbeiten, gilt in Bezug auf alternative Verfahren u.a.: Es kann sich um Gruppenleistungen handeln; die Bearbeitung der Aufgaben muss nicht unter Aufsicht erfolgen; die Bearbeitungszeit kann flexibel sein; die Bewertung kann durch die Lerngruppe oder den Lerner selbst erfolgen. Entsprechend fokussieren die Autor(inn)en folgende Verfahren: Selbstbeurteilung, Beurteilung durch die Lerngruppe, Beurteilung von Gruppenleistungen, Beurteilung anhand von Portfolios. Im Zusammenhang mit der Selbstbeurteilung diskutieren sie u.a. deren Wichtigkeit als metakognitive Strategie z.B. im Kontext autonomen Lernens sowie deren Bedeutung beim Schreibprozess und bei der Aussprache. Die Beurteilung durch die Lerngruppe sehen sie u.a. als Möglichkeit, die Machtbalance im Unterricht zu verändern und autonomes Lernen zu fördern (S. 156). Bei der Beurteilung von Gruppenleistungen sehen sie ein potenzielles Gerechtigkeitsproblem und empfehlen u.a., dies bei der Gruppenzusammenstellung zu berücksichtigen. Portfolios sollten nach Ansicht von D LASKA und K REKELER insbesondere zur formativen Prozessevaluation sowie auch zur Vermeidung von belastenden Testsituationen eingesetzt werden. Die Chance einer Portfolio-Beurteilung sehen sie darin, „dass die Lerner ihr Können über einen längeren Zeitraum unter ihrer eigenen Kontrolle und Steuerung unter Beweis stellen können“ (S. 172), und sie verweisen zu Recht auf das Motivationspotenzial von Portfolio-Beurteilungen. Das Buch schließt mit einer kurzen Schlussbemerkung, in der noch einmal zentrale Aspekte herausgestellt werden (S. 174 f), sowie einem umfangreichen Literaturverzeichnis und einem ausführlichen Index unter Einschluss von englischen Begriffen. Fazit: Das vorliegende Buch ist nicht einfach abschließend zu bewerten. Hinzufügen zu den bereits genannten Kritikpunkten lässt sich z.B. noch, dass die Autor(inn)en nur sehr eingeschränkt auf den Gemeinsamen europäischen Referenzrahmen für Sprachen eingehen. Gewünscht hätte ich mir auch eine Diskussion des Kompetenzbegriffs vor dem Hintergrund der aktuellen Diskussion um kompetenzorientiertes Unterrichten und Testen. Statt dessen findet man nur eine Unterscheidung zwischen Performanztests als Verfahren zur Messung der Fähigkeit im Umgang mit bestimmten Sprachverwendungssituationen und Kompetenztests im Sinne von system-referenced tests zur Messung der Beherrschung von Sprache unabhängig von konkreten Anwendungssituationen (vgl. S. 24). Außerdem wird von den Autor(inn)en immer wieder betont, dass man bei unterrichtsnahen lehrererstellten Tests keine Erprobungen durchführt. Dies ist zwar die Regel, aber nichtsdestoweniger kein wünschenswerter Zustand. So ist z.B. eine rudimentäre statistische Analyse der Testergebnisse durchaus denkbar. Dazu bedarf es allerdings des entsprechenden testmethodischen Rüstzeugs - ein im vorliegenden Buch ausgesparter Bereich. Als sehr positiv ist m.E. insbesondere die ausführliche und anregende Darstellung der Wichtigkeit von Rückmeldungen sowie der potenziellen Auswirkungen von Beurteilungen auf den Sprachunterricht zu werten. Insgesamt gesehen stellt das vorliegende Buch eine willkommene Bereicherung der deutschsprachigen Sprachtestliteratur dar, wobei sich die aus der Sicht des Rezensenten problematischen Aspekte in zukünftigen Neuauflagen leicht korrigieren lassen. Bochum R ÜDIGER G ROTJAHN