Schreibkompetenzen in der Fremdsprache
Aufgabengestaltung, kriterienorientierte Bewertung und Feedback
1023
2017
978-3-8233-9069-5
Gunter Narr Verlag
Bettina Akukwe
Rüdiger Grotjahn
Stefan Schipolowski
Kompetenzorientierter Unterricht und heterogene Klassenzusammensetzungen erfordern u. a. von Lehrkräften, eigene Aufgaben zu entwickeln, die von unterschiedlich leistungsstarken Lernenden gelöst werden können. Dieser Band unterstützt Lehrende, Fortbildende, Studierende und Vertreterinnen und Vertreter der Fachdidaktiken bei der Entwicklung eigener Schreibaufgaben für die Fremdsprache. Neben praxisorientierten Beispielen werden auch die Rahmenbedingungen der Testung von Schreibkompetenz sowie Möglichkeiten der Rückmeldung an Lernende ausführlich beschrieben.
<?page no="0"?> ISBN 978-3-8233-8069-6 Kompetenzorientierter Unterricht und heterogene Klassenzusammensetzungen erfordern u. a. von Lehrkräften, eigene Aufgaben zu entwickeln, die von unterschiedlich leistungsstarken Lernenden gelöst werden können. Dieser Band unterstützt Lehrende, Fortbildende, Studierende und Vertreterinnen und Vertreter der Fachdidaktiken bei der Entwicklung eigener Schreibaufgaben für die Fremdsprache. Neben praxisorientierten Beispielen werden auch die Rahmenbedingungen der Testung von Schreibkompetenz sowie Möglichkeiten der Rückmeldung an Lernende ausführlich beschrieben. Akukwe et al. (Hg.) Schreibkompetenzen Schreibkompetenzen in der Fremdsprache Bettina Akukwe / Rüdiger Grotjahn / Stefan Schipolowski (Hg.) Aufgabengestaltung, kriterienorientierte Bewertung und Feedback <?page no="1"?> Bettina Akukwe ist Koordinatorin des VERA-Projekts am IQB. Vorher arbeitete sie drei Jahre im Arbeitsbereich Französisch Sekundarstufe I und hat somit einen engen Bezug zum Testen der 1. Fremdsprache. Prof. Dr. Rüdiger Grotjahn ist Professor für Sprachlehrforschung an der Ruhr-Universität Bochum. Besondere Bekanntheit erlangte er durch seine Arbeiten zum Testen und Evaluieren, vor allem im Bereich des C-Tests. Sein langjähriges Engagement im Bereich Testen konzentrierte sich u.a. auf Testentwicklungsprojekte wie den Test Deutsch als Fremdsprache (TestDaF) oder die Vergleichsarbeiten für die 8. Jahrgangsstufe (VERA-8) im Fach Französisch. Dr. Stefan Schipolowski ist wissenschaftlicher Leiter der Bildungstrend-Studien des IQB. Seine Forschungsinteressen liegen im Bereich der Messung, Validierung und Entwicklung kristalliner kognitiver Fähigkeiten, insbesondere individueller Unterschiede im deklarativen Wissen und in sprachlichen Fähigkeiten. Im Rahmen seiner Tätigkeit im Arbeitsbereich Deutsch Sekundarstufe I hat er sich umfassend mit der Diagnostik und Struktur sprachlicher Kompetenzen beschäftigt und zur Schreibkompetenz in der Muttersprache gearbeitet. <?page no="4"?> Bettina Akukwe / Rüdiger Grotjahn / Stefan Schipolowski (Hg.) Schreibkompetenzen in der Fremdsprache Aufgabengestaltung, kriterienorientierte Bewertung und Feedback <?page no="5"?> Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. © 2017 • Narr Francke Attempto Verlag GmbH + Co. KG. • Dischingerweg 5 • D-72070 Tübingen Internet: www.narr-studienbuecher.de E-Mail: info@narr.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf chlorfrei gebleichtem und säurefreiem Werkdruckpapier. Satz: pagina GmbH, Tübingen Printed in Germany ISSN 0941-8105 ISBN 978-3-8233-9069-5 <?page no="6"?> 5 Inhalt 1 Kompetenzorientiertes Schreiben als Teil modernen Fremdsprachenunterrichts . . . . 9 Bettina Akukwe, Rüdiger Grotjahn & Stefan Schipolowski 1.1 Evaluation und Lehrerkompetenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2 Inhalte des vorliegenden Bands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.3 Kompetenz aus Theorie und Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Hinweise zum Weiterlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2 Rahmenbedingungen für das Evaluieren von Schreibkompetenzen . . . . . . . . . . . . . 19 Rüdiger Grotjahn & Karin Kleppin 2.1 Stellenwert von Rahmenbedingungen und Vorgaben . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2 Der Gemeinsame europäische Referenzrahmen für Sprachen ( GER ) . . . . . . . . . . . . 19 2.3 Bildungsstandards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.4 Curriculare Vorgaben und Lehrwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.5 Testentwicklung am IQB : Bildungsstandards und GER . . . . . . . . . . . . . . . . . . . . . . . 24 Hinweise zum Weiterlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3 Typen und Funktionen der Evaluation von Schreibkompetenzen . . . . . . . . . . . . . . . 29 Rüdiger Grotjahn & Karin Kleppin 3.1 Prüfen, Testen, Evaluieren, Diagnostizieren: Begriffliche Vorbemerkungen . . . . . . . 29 3.2 Typen der Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.3 Funktionen der Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Hinweise zum Weiterlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4 Gütekriterien bei der Evaluation von Schreibkompetenzen . . . . . . . . . . . . . . . . . . . . 41 Rüdiger Grotjahn & Karin Kleppin 4.1 Evaluation von Schreibkompetenzen: Spezifika . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.2 Typen und Funktionen von Gütekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.3 Gütekriterien dynamischer Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Hinweise zum Weiterlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5 Testkonstrukt und Testspezifikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Rüdiger Grotjahn 5.1 Aufgabenbasierte Evaluation von Schreibkompetenzen . . . . . . . . . . . . . . . . . . . . . . 72 5.2 Kompetenz: begriffliche Klärungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 <?page no="7"?> 6 Inhalt 5.3 Adressaten und Verwendungskontexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.4 Definition des Testkonstrukts: grundlegende Aspekte . . . . . . . . . . . . . . . . . . . . . . . 76 5.5 Modelle kommunikativer Kompetenz und kommunikativen Sprachgebrauchs . . . . . 86 5.6 Schreibaktivitäten und Schreibkompetenzen im GER . . . . . . . . . . . . . . . . . . . . . . . 89 5.7 Schreibaktivitäten und Schreibkompetenzen in den Bildungsstandards . . . . . . . . . . 93 5.8 Psycholinguistische und sozio-kognitive Modelle fremdsprachlichen Schreibens . . . 95 5.9 Test- und Aufgabenspezifikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.10 Testkonstrukt und Bewertungskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Hinweise zum Weiterlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Anhänge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 6 Kriteriale Evaluation von Schreibkompetenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Rüdiger Grotjahn & Karin Kleppin 6.1 Performanzbasierte beurteilergestützte Evaluation . . . . . . . . . . . . . . . . . . . . . . . . 117 6.2 Urteilsprozess: Einflussfaktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.3 Bezugsnormen bei der Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.4 Bewertungskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.5 Bewertungsskalen und Bewertungsraster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 6.6 Einsatz von Bewertungsrastern im schulischen Kontext: Beispiele . . . . . . . . . . . . . 136 6.7 Leistungsbeispiele und Benchmarktexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 6.8 Erwartungshorizont . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 6.9 Bewertung von Schreibleistungen im schulischen Kontext: Qualitätsanforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 6.10 Situationsabhängige Flexibilisierung kriterialer Bewertung . . . . . . . . . . . . . . . . . . 150 6.11 Anregungen zur Reflexion der eigenen Bewertungspraxis . . . . . . . . . . . . . . . . . . . 151 Hinweise zum Weiterlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 7 Entwicklung von Testaufgaben zum Schreiben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 Rüdiger Grotjahn & Karin Kleppin 7.1 Schreibkompetenzen und Testaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 7.2 Entwicklung von Schreibaufgaben: Zentrale Prinzipien und prototypischer Verlauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 7.3 Checkliste zur Erstellung von Schreibaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 7.4 Kommentierte Aufgabenbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Hinweise zum Weiterlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 <?page no="8"?> 7 Inhalt 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters . . . . . . . . . . 181 Bettina Akukwe, Elke Philipp & Günther Sommerschuh 8.1 Die Entwicklung eines Bewertungsrasters am IQB . . . . . . . . . . . . . . . . . . . . . . . . . 181 Bettina Akukwe 8.2 Kommentierung von Schülerlösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 Elke Philipp & Günther Sommerschuh 8.3 Möglichkeiten der Weiterarbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 Elke Philipp & Günther Sommerschuh Hinweise zum Weiterlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 9 Feedback zu schriftlichen Lernerproduktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 Rüdiger Grotjahn & Karin Kleppin 9.1 Feedback in der Fachdiskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 9.2 Funktionen und Typen von Feedback zu schriftlichen Produktionen . . . . . . . . . . . 261 9.3 Feedback bei Selbst- und Peer-Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 9.4 Feedbackgespräche und Überarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 9.5 Feedback auf der Basis der interaktionistischen dynamischen Evaluation . . . . . . . . 280 9.6. Automatisierte Diagnose- und Feedbacksysteme . . . . . . . . . . . . . . . . . . . . . . . . . . 285 Hinweise zum Weiterlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 10 Überprüfung von Kompetenzen - aktuelle Trends . . . . . . . . . . . . . . . . . . . . . . . . . . 293 Bettina Akukwe, Rüdiger Grotjahn & Stefan Schipolowski 10.1 Kompetenzorientierter Unterricht und Assessment Literacy . . . . . . . . . . . . . . . . . . 293 10.2 Überprüfung von Sprechkompetenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 10.3 Computerbasiertes Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 10.4 Integrierte Aufgabenformate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 10.5 Schülerinnen und Schüler mit sonderpädagogischem Förderbedarf . . . . . . . . . . . . 297 Hinweise zum Weiterlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 Sachregister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 <?page no="10"?> 9 1 Kompetenzorientiertes Schreiben als Teil modernen Fremdsprachenunterrichts Bettina Akukwe, Rüdiger Grotjahn & Stefan Schipolowski Spätestens mit Verabschiedung der Bildungsstandards für die erste Fremdsprache für den Mittleren Schulabschluss im Jahr 2003 ( KMK , 2004a) hat kompetenzorientierter Fremdsprachenunterricht in allgemeinbildenden Schulen mehr und mehr an Bedeutung gewonnen. Insbesondere wird auch die Förderung der Teilkompetenzen Hörverstehen und Sprechen mittlerweile verstärkt in den Unterricht integriert. Das Schreiben von Texten in der Fremdsprache stellte dagegen schon immer einen wichtigen Bestandteil des Sprachenlernens in der Schule dar, jedoch lag der Fokus des Schulunterrichts bis vor wenigen Jahren zumeist auf der korrekten Verwendung der Sprache und weniger auf der Erfüllung der kommunikativen Absicht. In Schulleistungsuntersuchungen wie dem Nationalen Bildungspanel ( NEPS ) oder dem IQB -Bildungstrend werden im Fremdsprachenbereich-- auch aufgrund des damit verbundenen hohen Aufwandes- - die produktiven Kompetenzen bisher nur selten getestet- - trotz ihrer Bedeutung für einen kompetenzorientierten Fremdsprachenunterricht. Jones & Seville machen die Bedeutung gerade auch des Lehrens und Testens der produktiven Kompetenzen deutlich: In the classroom or the real world the impression of a learner’s overall proficiency level is undoubtedly based primarily on the performance skills-- precisely because they are directly apprehended productive skills-- rather than the indirectly apprehended receptive skills of reading and listening. This suggests that the performance skills are a more relevant, practical and meaningful target for aligning judgements of level across classroom and large scale assessment…-(Jones & Saville, 2016, S. 74) Mit der Einführung von verbindlichen Standards im Rahmen eines kompetenzorientierten Unterrichts geht es nicht mehr in erster Linie um die Kenntnis von Fakten und Zusammenhängen, sondern vor allem um Handlungsfähigkeit. Kompetenzorientierter Unterricht geht hierbei einher mit einer lernorientierten Leistungsbeurteilung (learning-oriented assessment), die den Fokus nicht nur auf den reinen Output legt, sondern auch den Lernprozess berücksichtigt, der durch Feedback und Weiterarbeit konstruktiv gestaltet wird. Für eine lernorientierte Leistungsbeurteilung müssen bestimmte Rahmenbedingungen geschaffen werden, z. B. ein angenehmes Klassenklima, motivierende Unterrichtsinhalte, didaktische und fachliche Kompetenz der Lehrkraft sowie eine positive Unterrichtsinteraktion, die sich beispielsweise durch gezieltes Nachfragen und unmittelbares respektvolles Feedback auszeichnet (Turner & Purpura, 2016). Die Leistungsbeurteilung erfolgt in der Regel mithilfe von mehr oder minder authentischen Aufgaben (task-based assessment). Wichtig ist hierbei, dass verschiedene Aufgaben zur Auswahl gestellt werden, sodass sich Lernende entsprechend ihrem Kompetenzniveau für sie passende Aufgabenstellungen auswählen können. Alternativ <?page no="11"?> 10 1 Kompetenzorientiertes Schreiben als Teil modernen Fremdsprachenunterrichts kann ein Input mit adäquater Arbeitsanweisung gewählt werden, der von Lernenden unterschiedlicher Leistungsniveaus bearbeitet werden kann. Für den Kompetenzbereich Schreiben könnte dies beispielsweise ein Foto von einer Person sein, deren Porträt beschrieben werden soll, oder es wird eine Szene dargestellt, zu der eine Handlung beschrieben werden soll. Hier ist nicht nur die Kreativität der Lernenden gefragt, sondern es wird zugleich das Niveau der Aufgabenbearbeitung durch die Lernenden bestimmt. Neben der stärkeren Kompetenzorientierung im Fremdsprachenunterricht wurde in den zurückliegenden Jahren in verschiedenen Ländern das Schulsystem hin zu einem Zwei-Säulen-Modell und einer größeren Durchlässigkeit reformiert. Infolge dieser Reformen sowie der Bemühungen um eine Inklusion von Schülerinnen und Schülern mit sonderpädagogischem Förderbedarf entstehen immer heterogenere Klassenzusammensetzungen, die Unterrichtsmaterialien voraussetzen, die die Lernenden auf ihrem individuellen Niveau fordern und fördern. Dies stellt Lehrkräfte vor die Herausforderung, kompetenzorientierte Aufgaben zu erstellen, die trotz sehr unterschiedlicher Ausgangsvoraussetzungen von der jeweiligen Lerngruppe bearbeitet werden können. Der vorliegende Band zeigt Möglichkeiten und Wege, um Schreibkompetenzen unter Berücksichtigung verschiedener Voraussetzungen zu überprüfen. Er beinhaltet eine Vielzahl an Beispielaufgaben und Benchmark-Texten (Leistungsbeispiele) aus Aufgabenerprobungen mit Schülerinnen und Schülern der Jahrgangsstufen 8 und 9. In Abgrenzung zu vielen anderen Publikationen werden auch die Rahmenbedingungen und Kontexte für die Evaluation von Schreibkompetenzen relativ ausführlich thematisiert. Des Weiteren ist der Band im Gegensatz zu vielen anderen Handbüchern zur (Messung von) Schreibkompetenz konsequent aufgaben- und kompetenzorientiert. Der vorliegende Band ist so gestaltet, dass Lehrkräfte, Fortbildnerinnen und Fortbildner, Studierende und Fachdidaktikerinnen und -didaktiker die Zielgruppe bilden. Dabei sind die Ausführungen nicht sprachspezifisch, sondern können von allen Personen, die Fremdsprachen (inklusive Deutsch als Fremdsprache) lehren oder lernen, sinnvoll genutzt werden. Die Illustration erfolgt anhand von Beispielen für die Fächer Englisch und Französisch. 1.1 Evaluation und Lehrerkompetenz In Deutschland haben Lehrkräfte einer Fremdsprache in der Regel einen engeren Bezug zu standardisierter Evaluation und zum Testen als Vertreterinnen und Vertreter anderer Fächer. Bedingt durch die Globalisierung und die moderne Arbeitswelt steigt im Kontext des Lehrens und Lernens von Fremdsprachen auch die Bedeutung formaler Qualifikationsnachweise z. B. in Form des Diplôme d’Études en langue française ( DELF ) oder des Test of English as a Foreign Language ( TOEFL ). In diesem Zusammenhang hält die Vorbereitung und Durchführung entsprechender Zertifikatsprüfungen auch immer stärker Einzug in den Bereich der allgemeinbildenden Schulen. Allerdings genügen die regulären Lehrwerke für die Fremdsprachen oft nicht den Anforderungen, Lernende auf kompetenzorientierte Tests vorzubereiten, sondern folgen eher einer inhaltlichen oder sprachlichen Progression. Lehrkräfte stehen somit vor der Herausforderung, Unterrichtsmaterialien selbstständig entwickeln zu müssen. Dies erfordert <?page no="12"?> 11 1.1 Evaluation und Lehrerkompetenz Kompetenzen, die Lehrkräfte in dieser Form ggf. noch nicht erwerben konnten. Aktuelle internationale Studien zeigen: Auf Gebieten wie Testspezifikationen, Testtheorie, Leistungsbeurteilung der eigenen Klasse, Kriterienerstellung und Testbedingungen mangelt es vielen Lehrkräften noch an notwendigen Kompetenzen (Jeong, 2013). International ist der Trend zur stärkeren Förderung diagnostischer Kompetenz von Lehrkräften für eine (Fremd-)Sprache unter dem Schlagwort language assessment literacy schon länger festzustellen, wie u. a. Harding & Kremmel (2016) in einer aktuellen Publikation darstellen. Taylor (2013, S. 410) fasst die für Sprachlehrkräfte, Testautorinnen und Testautoren, universitäre Testadministratorinnen und Testadministratoren sowie für professionelle Sprachtesterinnen und Sprachtester relevantesten Kompetenzbereiche wie folgt zusammen: ▶ Sprachpädagogik; ▶ soziokulturelle Werte; ▶ lokaler Kontext; ▶ persönliche Überzeugungen / Einstellungen; ▶ technisches Wissen; ▶ Wissen über Prinzipien und Konzepte; ▶ theoretisches Wissen; ▶ Ergebnis- und Entscheidungsfindung. Dabei gilt für jede der vier genannten Adressatengruppen ein Kompetenzprofil mit einer unterschiedlichen Gewichtung der einzelnen Komponenten. In Bezug auf Sprachlehrkräfte bedeutet dies u. a., dass theoretisches Wissen einen eher peripheren Stellenwert einnimmt. Von Taylor nicht aufgeführt, aber nicht weniger wichtig, ist die sehr gute Beherrschung der Fremdsprache. Ebenso sollte die diagnostische Kompetenz in Form der reinen Leistungsbeurteilung nie für sich alleine stehen, sondern stets durch ein angemessenes Feedback sowie die Steuerung der Weiterentwicklung durch gezielte Weiterarbeit ergänzt werden (Lee, 2015). Nun ist die Feststellung der für Sprachlehrkräfte relevanten diagnostischen Kompetenz nur eine Seite der Medaille-- viel wichtiger erscheint es jedoch, die Vermittlung dieser Kompetenz auch entsprechend in die Fort- und Weiterbildung von Lehrkräften einfließen zu lassen. Dafür brauchen Lehrkräfte der Studie von Fulcher (2012) zufolge vor allem gut verständliche Einführungen, die theoretisch fundiert, aber zugleich praktisch ausgerichtet und mit Beispielen illustriert sind. Auch die Vermittlung von statistischem Grundlagenwissen ist essenziell für eine adäquate (language) assessment literacy. In den USA gibt es bereits seit 1990 Standards für Lehrkräfte, die eine diagnostische Kompetenz eindeutig als wichtiges Merkmal der Lehrerkompetenz beinhalten (American Federation of Teachers, 1990). Auch für Deutschland gelten seit 2004 von der Kultusministerkonferenz verabschiedete Standards für die Lehrerbildung ( KMK , 2004b), die neben inhaltlichen Schwerpunkten auch Kompetenzen für Lehrkräfte in der theoretischen und praktischen Ausbildung festlegen. Dabei werden die drei Kompetenzbereiche Unterrichten, Erziehen und Beurteilen unterschieden. Die im Kompetenzbereich Beurteilen beschriebene Kompetenz 8 („Lehrerinnen und Lehrer erfassen Leistungen von Schülerinnen und Schülern <?page no="13"?> 12 1 Kompetenzorientiertes Schreiben als Teil modernen Fremdsprachenunterrichts auf der Grundlage transparenter Beurteilungsmaßstäbe“) beinhaltet konkrete Hinweise auf Fähigkeiten, die im Laufe des Referendariats erworben werden sollen: Die Absolventinnen und Absolventen-… ▶ konzipieren Aufgabenstellungen kriteriengerecht und formulieren sie adressatengerecht. ▶ wenden Bewertungsmodelle und Bewertungsmaßstäbe fach- und situationsgerecht an. ▶ verständigen sich auf Beurteilungsgrundsätze mit Kolleginnen und Kollegen. ▶ begründen Bewertungen und Beurteilungen adressatengerecht und zeigen Perspektiven für das weitere Lernen auf. ▶ nutzen Leistungsüberprüfungen als konstruktive Rückmeldung über die eigene Unterrichtstätigkeit. ( KMK , 2004b, S. 11) Diese Kompetenzen wurden 2008 von der KMK inhaltlich in Fachprofilen konkretisiert und kürzlich aktualisiert. Für den Bereich Neue Fremdsprachen wird nun noch stärker zwischen Sprachwissenschaft, Literaturwissenschaft und Kulturwissenschaft unterschieden. Eine weiterhin zentrale Rolle spielen die „Grundlagen der Leistungsdiagnose und -beurteilung im Fach“ ( KMK , 2017, S. 39). Es ist jedoch nicht zu leugnen, dass die Ausbildungsmodalitäten sehr vom lokalen Kontext abhängig sind. Die von der Bildungspolitik geforderten Kompetenzen können oder müssen unter Umständen erst nach der eigentlichen Ausbildung erworben werden. Vielerorts fehlt es an entsprechenden Fort- und Weiterbildungsmöglichkeiten, sodass sich ein nicht unerheblicher Anteil an Lehrkräften mit dem Problem konfrontiert sieht, sich language assessment literacy durch Selbststudium und learning by doing anzueignen. Das vorliegende Buch spricht insbesondere diese Lehrkräfte, aber auch Lehrkräfte in der Aus- und Weiterbildung, Studierende der fremdsprachlichen Fächer und von Deutsch als Fremdsprache an. 1.2 Inhalte des vorliegenden Bands Dieser Band beinhaltet theoretische und praktische Hinweise zu den Rahmenbedingungen der Testung von Schreibkompetenzen, zur Aufgabenentwicklung, zur Bewertung von Schreibleistungen und zum Feedback an Schülerinnen und Schüler. Das Buch ist das Produkt eines längeren Dialogs zwischen Wissenschaftlerinnen und Wissenschaftlern sowie Lehrkräften unter der Moderation des Instituts zur Qualitätsentwicklung im Bildungswesen ( IQB ) 1 . Die Kapitel dieses Bands sind je nach Themenbereich eher aus einer praktischen oder eher aus ei- 1 Das IQB ist ein wissenschaftliches Institut, das die Länder in der Bundesrepublik Deutschland bei der Qualitätsentwicklung und Qualitätssicherung im allgemeinbildenden Schulsystem unterstützt. Den Ausgangspunkt und die Grundlage dieser Arbeit bilden Bildungsstandards, die von der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland ( KMK ) verabschiedet worden sind. Auf Basis der Bildungsstandards werden am IQB Tests entwickelt, mit denen überprüft werden kann, welche Kompetenzen Schülerinnen und Schüler bis zu einem bestimmten Zeitpunkt in ihrer Schullaufbahn entwickelt haben. <?page no="14"?> 13 1.2 Inhalte des vorliegenden Bands ner theoretischen Perspektive geschrieben. Entsprechend ihrer ausgewiesenen Expertise liegt die Verantwortung für einzelne Kapitel bei unterschiedlichen Autorinnen und Autoren. Die Kapitel 2 bis 6 legen die theoretischen Grundlagen zur Messung von Schreibkompetenzen. Die Kapitel 7 bis 9 geben vor allem praktische Hinweise. Insbesondere die Kapitel 2 und 6 sind jedoch auch für Praktikerinnen und Praktiker in hohem Maße relevant. Aus Gründen der besseren Lesbarkeit wird in den eher praktisch orientierten Kapiteln versucht, die Zahl der Literaturverweise im Fließtext möglichst gering zu halten. Am Ende jedes Kapitels finden sich Hinweise zum Weiterlesen, die detaillierte Angaben zu weiterführender Literatur, z. T. mit einer Kurzbeschreibung, beinhalten. Ein Literaturverzeichnis ist jedem Kapitel angehängt Neben Lehrplänen und Curricula gelten zunehmend die Bildungsstandards der KMK und der Gemeinsame europäische Referenzrahmen ( GER ) als Grundlage für die Evaluierung von Schreibkompetenzen. In Kapitel 2 „Rahmenbedingungen für das Evaluieren von Schreibkompetenzen“ wird das Evaluieren von Schreibkompetenz, u. a. auf Basis des GER und der Bildungsstandards, erläutert. Des Weiteren wird auf Lehrpläne und die Entwicklung von Testaufgaben am IQB eingegangen. Damit Lehrkräfte bei der unterrichtlichen Evaluation mögliche Handlungsspielräume nutzen können und sich als aktiv gestaltende, kompetente Akteure erfahren, sind die Vertrautheit mit den Rahmenbedingungen und eine kritische Reflexion der Vorgaben wichtige Voraussetzungen. In Kapitel 3 „Typen und Funktionen der Evaluation von Schreibkompetenzen“ wird zunächst auf folgende grundlegende Unterscheidungen und Typen eingegangen: bezugsgruppenorientiert versus kriteriumsorientiert, summativ versus formativ, informell versus formell. Danach werden eine Reihe weiterer spezifischerer Funktionen und Ziele, die mit Prüfungen verbunden werden, kurz skizziert. Das Kapitel 4 „Gütekriterien bei der Evaluation von Schreibkompetenzen“ beschäftigt sich mit Aspekten der Qualitätssicherung. Es nennt eine Vielzahl von Kriterien zur Beurteilung der Qualität der eingesetzten Aufgaben, der Angemessenheit des Vorgehens bei der Evaluation sowie der Güte der auf der Basis der Evaluationsergebnisse gezogenen Schlüsse und getroffenen Entscheidungen. Neben den sogenannten Hauptgütekriterien der Objektivität, Reliabilität (Zuverlässigkeit) und Validität (Gültigkeit) und deren jeweiligen Unterkriterien wie z. B. Interrater-Reliabilität oder curriculare Validität finden sich als weitere Gütekriterien u. a. Nützlichkeit, Fairness, Ökonomie, Praktikabilität, Schwierigkeit, Trennschärfe, Standardisierung, Rückwirkung auf den Unterricht (Washback / Backwash), Authentizität, Transparenz sowie Handlungs- und Kompetenzorientierung. Die Gütekriterien werden unter Berücksichtigung ihrer praktischen Relevanz und in engem Bezug zur Schreibkompetenzmessung vorgestellt und diskutiert. In Kapitel 5 „Testkonstrukt und Testspezifikationen“ liegt der Fokus auf dem Testkonstrukt und der Frage, was unter Schreibkompetenz verstanden werden kann und welche Aspekte bei der Überprüfung von Schreibkompetenzen Berücksichtigung finden sollten. Darauf aufbauend wird gezeigt, wie auf der Basis des jeweiligen Testkonstrukts Test- und Aufgabenspezifikationen formuliert werden können, die ihrerseits einen Rahmen für die Aufgabenerstellung und die Bewertung von Schreibleistungen abgeben. Da Schreibkompetenz als eine <?page no="15"?> 14 1 Kompetenzorientiertes Schreiben als Teil modernen Fremdsprachenunterrichts Komponente des übergeordneten Konstrukts kommunikative Kompetenz zu sehen ist, geht der Autor auch kurz auf Modelle kommunikativer Kompetenz ein. In Kapitel 6 „Kriteriale Evaluation von Schreibkompetenzen“ wird ein allgemeiner Überblick über die Bewertung von Schreibkompetenzen gegeben. Dazu werden zunächst neben Spezifika einer beurteilergestützten Bewertung von Schreibleistungen auch Faktoren benannt, die die Bewertung in verzerrender Weise beeinflussen können. Anhand von Beispielbewertungsrastern und Leistungsbeispielen (Benchmarktexten) werden sodann Bewertungskriterien und Vorgehensweisen, z. B. analytisch versus holistisch, diskutiert. Das Kapitel thematisiert abschließend Qualitätsanforderungen an die Bewertung von Schreibleistungen im schulischen Kontext und Möglichkeiten zur Reflexion der eigenen Bewertungspraxis. Das Kapitel 7 „Entwicklung von Testaufgaben zum Schreiben“ beschreibt zentrale Prinzipien und den prototypischen Verlauf der Aufgabenentwicklung. Es wird u. a. darauf hingewiesen, dass als erste Schritte stets die jeweilige Lerngruppe, die mit der Evaluation verfolgten Ziele sowie das Testkonstrukt zu spezifizieren sind. Die Darstellung mündet in eine Checkliste, mit Hilfe derer man überprüfen kann, inwieweit die erforderlichen Schritte bei der Erstellung von Schreibaufgaben beachtet worden sind. Illustriert wird das Vorgehen anhand von kommentierten Aufgabenbeispielen. In Kapitel 8 „Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters“ wird ein kriteriales Bewertungsinstrument vorgestellt, das am IQB von Expertinnen und Experten entwickelt wurde. Es ist das Ergebnis einer umfangreichen Diskussion und knüpft explizit an Beispiele aus den Ländern und anderen Testinstituten im In- und Ausland an. Das vorgelegte Bewertungsraster wurde mehrfach erprobt und optimiert. In einem ersten Unterkapitel wird das Raster ausführlich beschrieben. Dabei werden zum einen detaillierte Informationen zu den einzelnen Facetten des Bewertungsrasters angeführt, zum anderen werden praktische Handlungshinweise zur Arbeit mit dem Raster gegeben. Umfangreiche Beispiele von Schreibproduktionen von Schülerinnen und Schülern dienen in einem zweiten Unterkapitel zur Illustration der Nutzung des Bewertungsrasters. Hierzu wird auf drei Aufgaben für Englisch und vier Aufgaben für Französisch mit zahlreichen Schülerantworten zurückgegriffen. Das dritte Unterkapitel fokussiert Möglichkeiten der Weiterarbeit im Unterricht in Bereichen, die den Lernenden bei der Bearbeitung der Aufgaben Probleme bereitet haben. Kapitel 9 „Feedback zu schriftlichen Lernerproduktionen“ behandelt Möglichkeiten und Formen des Feedbacks im Rahmen eines kompetenzorientierten Schreibunterrichts. Viele Lehrkräfte haben in der Unterrichtspraxis die Erfahrung gemacht, dass Feedback von Lernenden entweder gar nicht rezipiert wird oder nicht im intendierten Sinne. In der Unterrichtsrealität beobachtet man dann häufig, dass Lernende mit bestimmten Situationen völlig anders umgehen als von den Lehrkräften erwartet. Ein wichtiger Bestandteil von Rückmeldeverfahren ist es, die für jede Schülerin und jeden Schüler passende Form des Feedbacks zu finden. Es werden im Detail Möglichkeiten verschiedener Formen des Feedbacks im Rahmen der Arbeit mit Schreibaufgaben aufgezeigt und anhand zahlreicher praktischer Beispiele erklärt. Dabei wird u. a. auch auf Formen des Feedbacks auf der Basis der interaktionistischen dynamischen Evaluation eingegangen. <?page no="16"?> 15 1.3 Kompetenz aus Theorie und Praxis Im abschließenden Kapitel 10 „Überprüfung von Kompetenzen-- aktuelle Trends“ wird sowohl auf allgemeine Trends der Kompetenzmessung als auch auf spezifische Innovationen bei der Messung von Schreibkompetenzen kurz eingegangen. Dabei wird erneut die Wichtigkeit von assessment literacy herausgestellt. 1.3 Kompetenz aus Theorie und Praxis Der vorliegende Band ist im Dialog zwischen unterschiedlichen Akteurinnen und Akteuren entstanden. Die außergewöhnliche Zusammensetzung der Autorengruppe mit Vertreterinnen und Vertretern aus Forschung und Praxis spiegelt sich in den Autorenschaften der Einzelkapitel wider. Jedoch sind letztlich alle Kapitel in einem regen Austausch und einer lebhaften Diskussion aus unterschiedlichen Perspektiven entstanden. Im Folgenden werden die Autorinnen und Autoren in alphabetischer Reihenfolge kurz vorgestellt. Bettina Akukwe ist seit 2013 Koordinatorin des VERA -Projekts am IQB und übergreifend für die Arbeitsbereiche VERA -3 Deutsch und Mathematik sowie VERA -8 Deutsch, Mathematik, Englisch und Französisch zuständig. Von 2010 bis 2013 arbeitete sie im Arbeitsbereich Französisch Sekundarstufe I und hat seitdem einen engen Bezug zum Testen der 1. Fremdsprache. Rüdiger Grotjahn ist Professor für Sprachlehrforschung an der Ruhr-Universität Bochum. Besondere Bekanntheit erlangte er durch seine Arbeiten zum Testen und Evaluieren, u. a. im Bereich des C-Tests, sowie durch Arbeiten zur Forschungsmethodologie. Sein langjähriges Engagement im Bereich Testen konzentrierte sich u. a. auf Testentwicklungsprojekte wie den Test Deutsch als Fremdsprache (TestDaF) oder die Vergleichsarbeiten für die 8. Jahrgangsstufe (VERA-8) im Fach Französisch. Karin Kleppin ist Professorin für Sprachlehrforschung an der Ruhr-Universität Bochum. Schwerpunkte ihrer Arbeit sind das selbstgesteuerte Sprachenlernen und das Thema Fehlerkorrektur. Gemeinsam mit Rüdiger Grotjahn arbeitet sie im Bereich von TestDaF und VERA- 8 in Französisch. Karin Kleppin war längere Zeit in China, Frankreich und Marokko tätig und führt bis heute Fort- und Weiterbildungen in vielen Ländern durch. An der German Jordanian University in Amman ist sie als full professor für den Studiengang Deutsch als Fremdsprache mitverantwortlich. Elke Philipp ist Lehrkraft für Englisch und Französisch an einer Berliner Gesamtschule. Sie agiert zudem als Vorsitzende des Berliner Landesverbands der Französischlehrkräfte und organisiert und gestaltet in dieser Funktion zahlreiche Veranstaltungen wie den jährlichen Fremdsprachentag. In ihrer Tätigkeit für das Landesinstitut für Schule und Medien Berlin- Brandenburg ( LISUM ) ist sie u. a. für Fortbildungen und die Erarbeitung von didaktischen Materialien zuständig. Stefan Schipolowski ist wissenschaftlicher Leiter der Ländervergleichsbzw. Bildungstrendstudien am IQB . Seine Forschungsinteressen liegen im Bereich der Struktur, Messung und Entwicklung kristalliner kognitiver Fähigkeiten, insbesondere individueller Unterschiede im deklarativen Wissen und in sprachlichen Fähigkeiten. Im Rahmen seiner Tätigkeit im Arbeitsbereich Deutsch Sekundarstufe I in den Jahren 2009 bis 2014 hat er sich umfassend <?page no="17"?> 16 1 Kompetenzorientiertes Schreiben als Teil modernen Fremdsprachenunterrichts mit der Diagnostik und Struktur sprachlicher Kompetenzen beschäftigt und zur Schreibkompetenz in der Erstsprache gearbeitet. Günther Sommerschuh war Studienleiter und Landesfachberater für das Fach Englisch in Schleswig-Holstein. In seiner auch internationalen Tätigkeit als Lehreraus- und -fortbildner widmet er sich bis heute besonders den Themen Binnendifferenzierung und schüleraktivierender Unterricht. Er beteiligte sich zudem an der Erarbeitung der KMK -Abiturstandards für das Fach Englisch und arbeitet als Berater für Schulbuchverlage. Ganz herzlicher Dank gilt Frau Amira Yassine, ehemalige Fachkoordinatorin des Arbeitsbereichs Englisch Sekundarstufe I am IQB , für ihr Engagement und die langjährige Begleitung des Buchprojekts. Des Weiteren danken wir Frau Petra Burmeister, Professorin für Sprachliches Lehren und Lernen im Fach Englisch an der Pädagogischen Hochschule Weingarten, für ihre Arbeit am Bewertungsraster und Überlegungen zur vorliegenden Publikation. An der Erarbeitung des Bewertungsrasters waren weitere Personen beteiligt, denen die Herausgeber danken möchten: ▶ den Aufgabenentwicklerinnen und Aufgabenentwicklern für VERA -8 Englisch und Französisch für die Entwicklung und Erprobung von Schreibaufgaben sowie die Kommentierung des Bewertungsrasters; ▶ Rita Green, Testexpertin und Dozentin an der Lancaster University, für die Aufgabenbewertung und ihre Rückmeldungen zum Bewertungsraster; ▶ den (ehemaligen) wissenschaftlichen Mitarbeiterinnen am IQB , Jessica Maluch, Camilla Rjosk, Karoline Sachse und Maike Wäckerle, für Vorüberlegungen zum Bewertungsraster. Schließlich möchten wir Petra Stanat, Direktorin und wissenschaftlicher Vorstand des IQB , sowie Hans Anand Pant, ehemaliger Direktor des IQB , für die institutionelle Unterstützung danken. Hinweise zum Weiterlesen Konzepte einer lernorientierten Leistungsbeurteilung (learning-oriented assessment) beschreiben Turner & Purpura (2016) sowie Jones & Saville (2016). Beispiele für task-based assessment finden sich in Norris (2016). Auf den Seiten des IQB finden sich zahlreiche Beispiele für Testaufgaben (https: / / www.iqb. hu-berlin.de/ vera/ aufgaben) und Lernaufgaben (https: / / www.iqb.hu-berlin.de/ bista/ teach). Einen umfassenden Überblick über Lehrerkompetenzen bei der Evaluation von Fremdsprachen geben Harding & Kremmel (2016). Rogier (2014) beschreibt sehr praxisnah die für eine assessment literacy notwendigen Fertigkeiten. Für den deutschsprachigen Raum empfiehlt sich die Lektüre des Sonderhefts der Zeitschrift für Pädagogik zum Thema Kompetenzen und Kompetenzentwicklung von Lehrkräften (Allemann-Ghionda & Terhart, 2006). <?page no="18"?> 17 Literatur Das DFG -Projekt Professionelle Kompetenz von Lehrkräften, kognitv aktivierender Unterricht und die mathematische Kompetenz von Schülerinnen und Schülern ( COACTIV ) mündete in einem 2011 veröffentlichten Bericht (Kunter, Baumert, Blum, Klusmann, Krauss & Neubrand, 2011). Literatur Allemann-Ghionda, Cristina & Terhart, Ewald. (Hrsg.). (2006). Kompetenzen und Kompetenzentwicklung von Lehrerinnen und Lehrern. Zeitschrift für Pädagogik, Beiheft 51. Weinheim: Beltz. [abrufbar unter http: / / www.pedocs.de/ volltexte/ 2013/ 7367/ pdf/ ZfPaed_Beiheft_51_Komplett.pdf] American Federation of Teachers, National Council on Measurement in Education & National Education Association. (1990). Standards for teacher competence in educational assessment of students. Educational Measurement: Issues and Practice, 9(4), 30-32. [abrufbar unter http: / / files. eric.ed.gov/ fulltext/ ED323186.pdf] Fulcher, Glenn. (2012). Assessment literacy for the language classroom. Language Assessment Quarterly, 9(2), 113-132. doi: 10.1080/ 15434303.2011.642041 Harding, Luke & Kremmel, Benjamin. (2016). Teacher assessment literacy and professional development. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 413-427). Boston: De Gruyter. Jeong, Heejeong. (2013). Defining assessment literacy: Is it different for language testers and nonlanguage testers? Language Testing, 30(3), 345-362. doi: 0.1177/ 0265532213480334 Jones, Neil & Saville, Nick. (2016). Learning Oriented Assessment. A systemic approach. Cambridge: Cambridge University Press. KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2004a). Bildungsstandards für die erste Fremdsprache (Englisch / Französisch) für den Mittleren Schulabschluss. Beschluss vom 04. 12. 2003. München: Luchterhand. [abrufbar unter https: / / www.kmk.org/ fileadmin/ Dateien/ veroeffentlichungen_beschluesse/ 2003/ 2003_12_04-BS-erste-Fremdsprache.pdf] KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2004b). Standards für die Lehrerbildung: Bildungswissenschaften. Beschluss vom 16. 12. 2004. [abrufbar unter http: / / www.kmk.org/ fileadmin/ Dateien/ veroeffentlichungen_ beschluesse/ 2004/ 2004_12_16-Standards-Lehrerbildung.pdf] KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2017). Ländergemeinsame inhaltliche Anforderungen für die Fachwissenschaften und Fachdidaktiken in der Lehrerbildung. Beschluss vom 16. 10. 2008 i. d. F. vom 16. 03. 2017. [abrufbar unter http: / / www.kmk.org/ fileadmin/ Dateien/ veroeffentlichungen_beschluesse/ 2008/ 2008_10_16-Fachprofile-Lehrerbildung.pdf] Kunter, Mareike, Baumert, Jürgen, Blum, Werner, Klusmann, Uta, Krauss, Stefan & Neubrand, Michael. (Hrsg.). (2011). Professionelle Kompetenz von Lehrkräften. Ergebnisse des Forschungsprogramms COACTIV . Münster: Waxmann. Lee, Yong-Won. (2015). Diagnosing diagnostic language assessment. Language Testing, 32(3), 299-316. doi: 0.1177/ 0265532214565387 Norris, John M. (2016). Current uses for task-based language assessment. Annual Review of Applied Linguistics, 36, 230-244. doi: 10.1017/ S0267190516000027 <?page no="19"?> 18 1 Kompetenzorientiertes Schreiben als Teil modernen Fremdsprachenunterrichts Rogier, Dawn. (2014). Assessment literacy: Building a base for better teaching and learning. English Language Teaching Forum, 52(3), 2-13. [abrufbar unter https: / / americanenglish.state.gov/ resources/ english-teaching-forum-2014-volume-52-number-3#child-1783] Taylor, Lynda. (2013). Communicating the theory, practice and principles of language testing to test stakeholders: Some reflections. Language Testing, 30(3), 403-412. doi: 0.1177/ 0265532213480338 Turner, Carolyn E. & Purpura, James E. (2016). Learning-oriented assessment in second and foreign language classrooms. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 255-273). Boston: De Gruyter. <?page no="20"?> 19 2 Rahmenbedingungen für das Evaluieren von Schreibkompetenzen Rüdiger Grotjahn & Karin Kleppin 2.1 Stellenwert von Rahmenbedingungen und Vorgaben Für eine Evaluierung von Schreibkompetenzen an deutschen Schulen gelten allseits anerkannte (ministerielle) Vorgaben wie der Gemeinsame europäische Referenzrahmen für Sprachen, die für die Bundesländer verpflichtenden nationalen Bildungsstandards, länderspezifische Unterrichtsvorgaben u. a. in Form von Curricula, Lehrplänen, Richtlinien und Bildungsplänen sowie die jeweils zugelassenen Lehrwerke. Dabei sind allerdings für das Handeln der Betroffenen nicht notwendigerweise die in den Vorgaben genannten objektiven Sachverhalte entscheidend, sondern vielmehr deren subjektive Wahrnehmung und Interpretation in Form von Überzeugungen und persönlichen Theorien, die häufig nur sehr eingeschränkt mit den objektiven Sachverhalten übereinstimmen. Ein Beispiel ist die nicht selten anzutreffende Interpretation der Ausführungen im Gemeinsamen europäischen Referenzrahmen für Sprachen im Sinne präskriptiver Vorgaben trotz eindeutig gegenteiliger Aussagen der Autoren des Referenzrahmens (vgl. z. B. Europarat, 2001, S. 8). Damit Lehrkräfte bei der unterrichtlichen Evaluation mögliche Handlungsspielräume auch nutzen können und sich als aktiv gestaltende, selbstwirksame und kompetente Akteure erfahren, ist eine Vertrautheit mit den Rahmenbedingungen und eine kritische Reflexion der Vorgaben eine wichtige Voraussetzung (vgl. auch Harding & Kremmel, 2016). 2.2 Der Gemeinsame europäische Referenzrahmen für Sprachen ( GER ) Wie auch in den meisten anderen Ländern Europas orientieren sich deutsche Bildungspolitiker, Curriculum- und Lehrplanersteller, Lehrwerkautoren und Testersteller im Hinblick auf die Vermittlung von Fremdsprachen und die Evaluation fremdsprachlicher Kompetenzen zunehmend am Gemeinsamen europäischen Referenzrahmen für Sprachen ( GER ; Europarat, 2001). Dabei spielen auch die zahlreichen den GER begleitenden und ergänzenden Materialien und Aktivitäten eine wichtige Rolle, wie z. B. bei professionellen Testanbietern das vom Europarat online zur Verfügung gestellte Handbuch Relating Language Examinations to the Common European Framework of Reference for Languages (Council of Europe, 2009; vgl. auch z. B. Cambridge University Press, 2013; Europarat & ALTE , 2012; Hilpisch, 2012; Kecker, 2016; North, 2014). Auch die Bildungsstandards für die erste Fremdsprache (Englisch / Französisch), auf die wir im Folgenden noch genauer eingehen, sowie die kürzlich vorgelegten Bildungsstandards für die fortgeführte Fremdsprache (Englisch / Französisch) für die Allgemeine Hochschulreife nehmen expliziten Bezug auf den GER . Insgesamt ist der GER unter Einschluss seiner zahlreichen Ergänzungen zu einem zentralen-- allerdings nicht präskriptiv gedachten-- Instrument der Qualitätsentwicklung und Qualitätssicherung im Bereich des Evaluierens fremdsprachlicher Kompetenzen geworden (vgl. auch Kapitel-5 und 6). <?page no="21"?> 20 2 Rahmenbedingungen für das Evaluieren von Schreibkompetenzen Die meiste Beachtung haben die GER -Niveaustufenbeschreibungen (A1-C2) zu den kommunikativen Aktivitäten und sprachlichen Kompetenzen gefunden. Diese sind zumeist als Kann-Aussagen formuliert und basieren auf der Vorstellung, dass die sprachliche Handlungsfähigkeit das Hauptziel fremdsprachlichen Unterrichts darstellt. Die Lernenden sollen durch den Fremdsprachenunterricht vor allem befähigt werden, in unterschiedlichen Situationen und Lebensbereichen sprachlich zu handeln, also kommunikative Aktivitäten auszuführen. Das heißt, sie sollen andere verstehen und sich anderen gegenüber verständlich machen können. Sie sollen mit Menschen anderer Kulturen sprachlich angemessen umgehen und am gesellschaftlichen Leben im zielsprachlichen Kontext teilnehmen können. Wie gut diese sprachlichen Handlungen jeweils ausgeübt werden können, wird an den unterschiedlichen Beschreibungen der Kompetenzniveaus deutlich. Insgesamt gesehen werden Handlungs-, Kompetenz- und Aufgabenorientierung damit zu zentralen Prinzipien beim Unterrichten und Überprüfen von Fremdsprachen. Auf die genannten Prinzipien wird in Kapitel-5 „Testkonstrukt und Testspezifikationen“ noch weiter eingegangen. Die Autoren des GER weisen im Zusammenhang mit den vertikalen Niveaustufen nachdrücklich darauf hin, dass Lernfortschritt allerdings mehr ist als das „Vorankommen auf einer vertikalen Skala“ (Europarat, 2001, S. 28). Lerner können auch Fortschritte machen, indem sie ihre Sprachkompetenzen auf einer bestimmten Stufe verbreitern und vertiefen, z. B. im Hinblick auf Flüssigkeit und Umfang der eingesetzten sprachlichen Mittel. Zudem verbreitert sich das Spektrum der Aktivitäten, Fertigkeiten und sprachlichen Mittel mit aufsteigendem Skalenniveau. Deshalb sind die GER -Niveaus auch nicht als eine lineare Mess-Skala zu interpretieren. Entsprechend werden Niveaustufenskalen zuweilen als Diagramm im „Eistütenformat“ illustriert, d. h. als ein dreidimensionaler Konus, der nach oben breiter wird (vgl. Europarat, 2001, S. 29 sowie die entsprechende Abbildung in Grotjahn & Kleppin, 2015, S. 23). Gerade im unterrichtlichen Kontext benötigt man häufig noch weitere, feinere Differenzierungen innerhalb der sechs GER -Stufen A1-C2. Für entsprechende Zwecke haben die Autoren des GER ein flexibles Verzweigungsmodell vorgesehen (vgl. Europarat, 2001, S. 40-42), in dem die Stufen jeweils in zwei oder mehr Unterstufen wie z. B. A1.1 und A1.2 oder B1 und B1+ aufgeteilt werden. Dieses System hat bisher vor allem in der Schweiz Verwendung gefunden (vgl. z. B. EDK , 2011); es wird aber zunehmend auch im deutschen Kontext eingesetzt, so z. B. in den vom Institut zur Qualitätsentwicklung im Bildungswesen ( IQB ) vorgelegten integrierten Kompetenzstufenmodellen (siehe Kapitel 2.3). Speziell zum Schreiben findet man im GER an unterschiedlichen Stellen eine Reihe von Skalen, in denen z. T. ebenfalls innerhalb einer Stufe zwischen einem unteren und einem oberen Niveau unterschieden wird. Auf einige dieser Skalen werden wir in den Kapiteln 5 und 6 noch genauer eingehen. 2.3 Bildungsstandards Bildungsstandards definieren verbindliche Zielerwartungen und dienen der Orientierung u. a. der Lehrkräfte, Eltern, Schülerinnen und Schüler sowie der bildungspolitischen Entscheidungsträger. Sie bilden die Basis für Leistungsüberprüfungen, um z. B. im Fall von festge- <?page no="22"?> 21 2.3 Bildungsstandards stellten Defiziten Maßnahmen zur Unterrichtsentwicklung und zur individuellen Förderung ergreifen zu können. Insgesamt sollen sie zur Weiterentwicklung eines handlungsorientierten, auf interkulturelle kommunikative Kompetenzen abzielenden Fremdsprachenunterrichts beitragen (vgl. IQB , 2014, S. 2 f.; KMK , 2005a sowie auch Fulcher, 2016; Harsch, 2016). Für den Fremdsprachenunterricht hat die Kultusministerkonferenz ( KMK ) bisher bundesweit geltende Bildungsstandards für folgende spezifische Kontexte vorgelegt: ▶ 2003: - Mittlerer Schulabschluss (Jahrgangsstufe- 10) in Englisch / Französisch als erste Fremdsprache ( KMK , 2004) ▶ 2004: - Hauptschulabschluss (Jahrgangsstufe- 9) in Englisch / Französisch als erste Fremdsprache ( KMK , 2005b) ▶ 2012: -Allgemeine Hochschulreife in Englisch / Französisch als fortgeführte Fremdsprache ( KMK , 2014) Die genannten Dokumente beziehen sich explizit auf den GER und dessen Kann-Beschreibungen. Für den Mittleren Schulabschluss gilt als angezieltes Niveau B1 / B1+, wobei beim Leseverstehen auch Teilkompetenzen auf dem Niveau B2 genannt werden. Für den Hauptschulabschluss wird das Niveau A2 angezielt. Für die Allgemeine Hochschulreife gilt schließlich das Niveau B2, wobei für Englisch in den rezeptiven Kompetenzen auch teilweise das Niveau C1 erwartet wird. Da im vorliegenden Band der Schwerpunkt auf Schreibkompetenzen im Bereich der GER -Niveaus A2 / B1 liegt, werden wir auf die Bildungsstandards für die Allgemeine Hochschulreife nur am Rande eingehen. Es handelt sich dabei jeweils um einen sogenannten Regelstandard. Darüber hinaus lassen sich auch noch ein Regelstandard plus, ein Mindeststandard (zuweilen auch als Basisstandard oder Grundkompetenz bezeichnet) und ein Optimalstandard (zuweilen auch als Maximalstandard bezeichnet) unterscheiden. Eine empirisch begründete Zuordnung der genannten Standards zu den GER -Stufen hat Ende 2014 das IQB in der Form integrierter Kompetenzstufenmodelle für den Hauptschulabschluss und den Mittleren Schulabschluss jeweils für die Teilkompetenzen Hörverstehen und Leseverstehen im Fach Englisch vorgelegt (siehe auch KMK , 2010, S. 12). Hörverstehen und Leseverstehen unterscheiden sich dabei lediglich in den Punktwerten, die für die Zuordnung zu einer bestimmten Stufe gelten. Die Stufenzuordnungen sind in Tabelle-1 aufgeführt. In diesem fünfstufigen Modell bezieht sich der Mindeststandard „auf ein definiertes Minimum an Kompetenzen, das alle Schülerinnen und Schüler bis zu einem bestimmten Bildungsabschnitt erreicht haben sollen“ ( IQB , 2014, S. 13). Der Optimalstandard definiert dagegen ein Anspruchsniveau, das nur „unter sehr guten bzw. ausgezeichneten individuellen Lernvoraussetzungen und der Bereitstellung gelingender Lerngelegenheiten innerhalb und außerhalb der Schule erreicht werden kann-…“ ( KMK , 2010, S. 12). <?page no="23"?> 22 2 Rahmenbedingungen für das Evaluieren von Schreibkompetenzen Kompetenzstufenmodell für den Stufe Unterstufe Hauptschulabschluss Mittleren Schulabschluss A1 A1.1 unter Mindeststandard unter Mindeststandard A1.2 Mindeststandard A2 A2.1 Regelstandard A2.2 Regelstandard plus Mindeststandard B1 B1.1 Optimalstandard B1.2 Regelstandard B2 B2.1 Regelstandard plus B2.2 Optimalstandard C1 Tabelle 1: Integriertes Kompetenzstufenmodell Englisch Hörverstehen/ Leseverstehen für den Hauptschulabschluss und den Mittleren Schulabschluss ( IQB , 2014) Für die vorliegende Publikation sind die Bildungsstandards für den Mittleren Schulabschluss und für den Hauptschulabschluss von zentraler Bedeutung. Beide Dokumente differenzieren unter Bezug auf den GER zwischen funktionalen kommunikativen Kompetenzen, interkulturellen Kompetenzen und methodischen Kompetenzen. Die funktionalen kommunikativen Kompetenzen umfassen die kommunikativen Teilkompetenzen Hör- und Hör-/ Sehverstehen, Leseverstehen, Sprechen, Schreiben und Sprachmittlung sowie „die Verfügung über die sprachlichen Mittel“ Wortschatz, Grammatik, Aussprache, Intonation und Orthografie. Wichtig ist, dass betont wird, dass die sprachlichen Mittel eine „grundsätzlich dienende Funktion“ haben und „im Vordergrund- … die gelungene Kommunikation“ stehe ( KMK , 2004, S. 14). Interkulturelle Kompetenzen beziehen sich u. a. auf soziokulturelles Orientierungswissen und die praktische Bewältigung interkultureller Begegnungssituationen. Im Zusammenhang mit den methodischen Kompetenzen werden z. B. Lernstrategien, Präsentation und Mediennutzung, sowie Lernbewusstheit und Lernorganisation genannt (siehe KMK , 2004, S. 8 und S. 14). Außerdem wird eine Reihe von Kann-Beschreibungen zur näheren Charakterisierung der Kompetenzen aufgeführt. Im Zusammenhang mit der Beschreibung fremdsprachlicher Schreibkompetenzen werden lebensweltlich relevante Schreibaktivitäten, Textsorten und Kontexte sowie sprachliche Mittel und Aspekte von Methodenkompetenz benannt. Kommentierte Aufgabenbeispiele illustrieren, wie bestimmte Kompetenzen überprüft werden können (vgl. auch Kapitel- 5 im vorliegenden Band). Weitere Hinweise zu interkultureller kommunikativer Kompetenz, Text- und Medienkompetenz, Sprachbewusstheit sowie Sprachlernkompetenz finden sich in den Bildungsstandards für die fortgeführte Fremdsprache (siehe KMK , 2014, S. 20-26). <?page no="24"?> 23 2.4 Curriculare Vorgaben und Lehrwerke 2.4 Curriculare Vorgaben und Lehrwerke GER und nationale Bildungsstandards bestimmen in entscheidender Weise auch die in den Bundesländern für den Bereich Fremdsprachen geltenden curricularen Vorgaben, wobei die Ausführungen in den Curricula, Lehrplänen, Bildungsplänen oder anderen funktional äquivalenten Dokumenten allerdings an den spezifischen Schulkontext und die jeweiligen Schülergruppen angepasst werden (vgl. hierzu auch KMK , 2010, S. 26 f.). In den aktuellen Dokumenten wird dabei in der Regel nicht mehr, wie früher weithin üblich, beschrieben, wie man genau vorgehen muss, um ein bestimmtes Ziel oder Ergebnis zu erreichen, und es werden auch nicht die zu vermittelnden Inhalte bis ins Detail festgelegt. Es handelt sich bei den entsprechenden Dokumenten vielmehr um so genannte Rahmencurricula, Kernlehrpläne oder Rahmenpläne. Diese enthalten mehr oder minder breite auf den GER und die Bildungsstandards bezogene Kompetenzbeschreibungen und zumeist auch Ausführungen zu Prüfungsaufgaben und zur Leistungsbewertung. Die bundesländerspezifischen Curricula, Lehrpläne und Bildungspläne sind wiederum eine zentrale Grundlage bei der Entwicklung und Anerkennung von Lehrwerken, die die kompetenzorientierten curricularen Vorgaben allerdings nicht immer zufriedenstellend umsetzen. Da insbesondere Prüfungen, die auf die Feststellung von Lernfortschritten zielen, sich in den Themen, Teilkompetenzen und sprachlichen Mitteln auf die im Unterricht eingesetzten Lehrwerke beziehen, sind auch Lehrwerke ein wichtiger Einflussfaktor-- vor allem im Kontext des unterrichtsnahen Prüfens. Wir gehen nun kurz exemplarisch auf den Kernlehrplan Englisch für das Gymnasium (G8) in Nordrhein-Westfalen ein ( MSW , 2007). 2 Dort wird als allgemeine Kompetenzerwartung am Ende der Jahrgangsstufe-8 die „Kompetenzstufe A2 des GER mit Anteilen an der Kompetenzstufe B1“ (S. 29) genannt. Speziell im Hinblick auf das Schreiben lauten die Kompetenzerwartungen am Ende der Jahrgangsstufe-8: Die Schülerinnen und Schüler können einfache zusammenhängende Texte zu Themen ihres Interessen- und Erfahrungsbereichs in beschreibender, berichtender, erzählender und zusammenfassender Form verfassen. Sie können einfache zusammenhängende Texte schreiben und darin begründet Stellung nehmen, wenn ihnen die Textsorte und das Thema vertraut sind. Sie können ▶ Sachverhalte gemäß vorgegebenen Textsorten darstellen (u. a. Personenbeschreibungen, inhaltliche Zusammenfassungen, Stellungnahmen mit Begründung), ▶ in persönlichen Stellungnahmen (u. a. Leserbriefen, E-Mails) ihre Meinungen, Hoffnungen und Einstellungen darlegen, ▶ einfache Formen des kreativen Schreibens einsetzen (u. a. Texte ergänzen, eine Figur in einer kurzen Erzählung umgestalten). ( MSW , 2007, S. 30 f.; Hervorhebung im Original) 2 Ähnliche Ausführungen finden sich in vielen weiteren Lehrplänen der Länder-- so z. B. im Rahmenlehrplan RLP -Online Berlin-Brandenburg (siehe http: / / bildungsserver.berlin-brandenburg.de/ rlp-online/ startseite/ ). <?page no="25"?> 24 2 Rahmenbedingungen für das Evaluieren von Schreibkompetenzen Es werden sodann in Form einer einseitigen Liste „Beispiele für Aufgabentypen zur Ermittlung von einzelnen kommunikativen Kompetenzen“ (S. 45) genannt. Unter „Schreiben“ finden sich folgende drei Aufgabentypen: a)-„Impuls- oder fragegestütztes Schreiben (z. B. kurze Infotexte, E-Mail)“; b)-„Verfassen eines adressatengerechten und textsortenkonformen Textes anhand einer Vorlage und Überarbeiten anhand einer Checkliste“; c)-„Freies argumentatives Schreiben“. In den sich im Kernlehrplan anschließenden Ausführungen zur Leistungsbewertung (S. 46-49) wird u. a. auf das Prinzip der Handlungsorientierung sowie auf die Bildungsstandards verwiesen. Außerdem wird auf die Notwendigkeit hingewiesen, dass die Kriterien für die Notengebung den Schülerinnen und Schülern transparent sind und die jeweilige Überprüfungsform den Lernenden auch Erkenntnisse über die individuelle Lernentwicklung ermöglicht. Die Beurteilung von Leistungen soll demnach mit der Diagnose des erreichten Lernstandes und individuellen Hinweisen für das Weiterlernen verbunden werden. Wichtig für den weiteren Lernfortschritt ist es, bereits erreichte Kompetenzen herauszustellen und die Lernenden-- ihrem jeweiligen individuellen Lernstand entsprechend- - zum Weiterlernen zu ermutigen. Dazu gehören auch Hinweise zu erfolgversprechenden individuellen Lernstrategien. Den Eltern sollten im Rahmen der Lern- und Förderempfehlungen Wege aufgezeigt werden, wie sie das Lernen ihrer Kinder unterstützen können. ( MSW , 2007, S. 46) Abschließend werden im Kernlehrplan auf den Seiten 50-62 relevante Referenzniveaus aus dem GER aufgeführt, darunter auch die Skalen „Schriftliche Interaktion allgemein“ und „Schriftliche Produktion allgemein“. Mit der Forderung nach Transparenz der Notengebung sowie nach Diagnose und motivierender Rückmeldung des individuellen Lernfortschritts an die Schülerinnen und Schüler unter Einschluss von Hinweisen für das Weiterlernen sprechen die Autoren des Kernlehrplans wichtige Aspekte an, auf die wir in den folgenden Kapiteln noch eingehen werden. 2.5 Testentwicklung am IQB : Bildungsstandards und GER Auch die Testentwicklung am IQB in den Sprachen Englisch und Französisch orientiert sich explizit an den Bildungsstandards und dem GER . Dabei geht es um Tests und Aufgaben für folgende Kontexte: a)-die alle sechs Jahre stattfindenden Ländervergleiche / Bildungstrends der fremdsprachlichen Kompetenzen in Englisch und Französisch als erster Fremdsprache bei Schülerinnen und Schülern der 9. Jahrgangsstufe; b)-die jährlich stattfindenden schriftlichen Vergleichsarbeiten ( VERA ), die in den jeweils beteiligten Bundesländern den Lernstand in Englisch und Französisch als erster Fremdsprache in der 8. Jahrgangsstufe überprüfen ( VERA -8). Insbesondere im Fach Französisch wird in VERA -8 zunehmend auch in der vorgezogenen zweiten Fremdsprache getestet. Die ersten Vergleiche zwischen den Bundesländern fanden 2008 für Französisch und 2009 für Englisch statt. Dabei wurden Lese- und Hörverstehenskompetenzen überprüft (https: / / www.iqb.hu-berlin.de/ bt/ LV08_09). Auch im Bildungstrend von 2015 wurden lediglich Lese- <?page no="26"?> 25 Hinweise zum Weiterlesen und Hörverstehenskompetenzen gemessen. Allerdings wurden bereits 2007 und 2008 im Rahmen der Implementierung und Normierung der Bildungsstandards für Englisch und Französisch als erste-Fremdsprache auch Schreibaufgaben entwickelt, empirisch in den Jahrgangsstufen 8, 9 und 10 erprobt und auf einem vorläufigen Kompetenzstufenmodell verortet (vgl. z. B. Porsch, 2010a, 2010b; Porsch & Köller, 2010; Porsch & Tesch, 2010; Rupp, Vock, Harsch & Köller, 2008). Auf diese Arbeiten werden wir in den Kapiteln-5 „Testkonstrukt und Testspezifikationen“, 6-„Kriteriale Evaluation von Schreibkompetenzen“ und 7-„Entwicklung von Testaufgaben zum Schreiben“ noch eingehen. Auch im Rahmen von VERA -8 wird bisher lediglich Hörverstehen und / oder Leseverstehen getestet. Im Gegensatz zur ländervergleichenden Überprüfung der Bildungsstandards zielt VERA -8 dabei allerdings primär auf eine an den Bildungsstandards orientierte, evidenzbasierte Unterrichts- und Schulentwicklung (vgl. https: / / www.iqb.hu-berlin.de/ vera), wobei jedoch in einigen Bundesländern auch eine Evaluation der Schulen auf Klassenebene stattfindet. Hinweise zum Weiterlesen Eine weiterführende Darstellung der Bedeutung des GER und der Prinzipien der Handlungs- und Kompetenzorientierung für das Prüfen, Testen und Evaluieren findet sich u. a. in Grotjahn & Kleppin (2015, Kap. 2) und Ende, Grotjahn, Kleppin & Mohr (2013, Kap. 1). Die englische und französische Originalversion des GER aus dem Jahre 2001 ist zugänglich unter: http: / / www.coe.int/ t/ dg4/ linguistic/ Cadre1_en.asp http: / / www.coe.int/ t/ dg4/ linguistic/ Source/ Framework_ FR .pdf Einen kurzen Überblick über Aspekte der Standardorientierung beim Lernen und Lehren von Fremdsprachen an deutschen Schulen gibt Harsch (2016). Eine Vielzahl von Informationen zu Bildungsstandards/ Kompetenzstandards sowie z. T. auch Beispiele für Testaufgaben finden sich auf den Websites der folgenden für die Entwicklung und Implementation der Standards zuständigen Institutionen in Deutschland, Österreich und der Schweiz: Institut zur Qualitätsentwicklung im Bildungswesen ( IQB ) in Berlin (http: / / www.iqb.hu-berlin.de/ bista), das Institut für Bildungsforschung, Innovation & Entwicklung des österreichischen Schulwesens ( BIFIE ) (https: / / www.bifie.at/ bildungs standards) sowie die Schweizerische Konferenz der kantonalen Erziehungsdirektoren (EDK) (http: / / www.edk.ch/ dyn/ 12930.php). Einen kurzen informativen Überblick zu Curricula und Lehrplänen geben Hallet & Königs (2010). Problematische Aspekte von fremdsprachlichen Bildungsstandards und Kompetenzorientierung diskutieren Caspari, Grünewald, Hu, Küster, Nold, Vollmer & Zydatiß (2008), Caspari, Kötter, Rossa, Schramm, Tesch, Vollmer & Zydatiß (2012) und De Florio-Hansen (2015). Zur Auswirkung von Bildungsstandards und zentralen Prüfungen auf den Fremdsprachenunterricht in Deutschland vgl. Rossa (2016). Aus einer internationalen Perspektive wird das Thema von Pižorn & Huhta (2016) behandelt. <?page no="27"?> 26 2 Rahmenbedingungen für das Evaluieren von Schreibkompetenzen Die Evaluation sprachlicher Kompetenzen im Rahmen der standardbasierten Reform des Bildungswesens in englischsprachigen Ländern wird kritisch diskutiert in Menken, Hudson & Leung (2014) und Fulcher (2016). Hinweise zur Bedeutung von Überzeugungen und subjektiven Theorien für das unterrichtliche Evaluieren gibt z. B. Yin (2010). Literatur Cambridge University Press. (2013). Introductory guide to the CEFR for English language teachers. Cambridge: Cambridge University Press. [abrufbar unter http: / / www.englishprofile.org/ images/ pdf/ GuideToCEFR.pdf] Caspari, Daniela, Grünewald, Andreas, Hu, Adelheid, Küster, Lutz, Nold, Günter, Vollmer, Helmut J. & Zydatiß, Wolfgang. (2008). Kompetenzorientierung, Bildungsstandards und fremdsprachliches Lernen-- Herausforderungen an die Fremdsprachenforschung. Positionspapier von Vorstand und Beirat der DGFF , Oktober 2008. Zeitschrift für Fremdsprachenforschung, 19(2), 163-186. [abrufbar unter http: / / www.dgff.de/ fileadmin/ user_upload/ dokumente/ Sonstiges/ Kompetenzpapier_DGFF. pdf] Caspari, Daniela, Kötter, Markus, Rossa, Henning, Schramm, Karen, Tesch, Bernd, Vollmer, Helmut J. & Zydatiß, Wolfgang. (2012). Mindeststandards für Fremdsprachen am Ende der Pflichtschulzeit. Ein Positionspapier der Deutschen Gesellschaft für Fremdsprachenforschung ( DGFF ). Zeitschrift für Fremdsprachenforschung, 23(2), 243-268. [abrufbar unter http: / / www.dgff.de/ filead min/ user_upload/ dokumente/ Sonstiges/ 2013-Mai-Caspari.et.al_Positionspapier_final.pdf] Council of Europe. (2009). Relating language examinations to the Common European Framework of Reference for Languages: Learning, Teaching, Assessment ( CEFR ): A manual. Strasbourg: Council of Europe, Language Policy Division. [abrufbar unter http: / / www.coe.int/ t/ dg4/ linguistic/ Manuel1_ EN.asp] De Florio-Hansen, Inez. (2015). Standards, Kompetenzen und fremdsprachliche Bildung: Beispiele für den Englisch- und Französischunterricht. Tübingen: Narr. EDK [Schweizerische Konferenz der kantonalen Erziehungsdirektoren]. (2011). Grundkompetenzen für die Fremdsprachen: Nationale Bildungsstandards. Freigegeben von der EDK -Plenarversammlung am 16. Juni 2011. Bern: EDK . [abrufbar unter http: / / www.edk.ch/ dyn/ 12930.php] Ende, Karin, Grotjahn, Rüdiger, Kleppin, Karin & Mohr, Imke. (2013). Curriculare Vorgaben und Unterrichtsplanung. München: Klett-Langenscheidt. Europarat. (2001). Gemeinsamer europäischer Referenzrahmen für Sprachen: Lernen, lehren, beurteilen. Berlin: -Langenscheidt. [abrufbar unter www.coe.int/ lang und http: / / student.unifr.ch/ pluriling/ assets/ files/ Referenzrahmen2001.pdf] Europarat & ALTE . (2012). Handbuch zur Entwicklung und Durchführung von Sprachtests. Zur Verwendung mit dem GER . Erstellt von ALTE im Auftrag des Europarats-- Abteilung für Sprachenpolitik. Frankfurt am Main: telc GmbH. [abrufbar unter http: / / www.coe.int/ t/ dg4/ linguistic/ Source/ ManualAlte_Allemand.pdf] Fulcher, Glenn. (2016). Standards and frameworks. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 29-44). Boston: De Gruyter. Grotjahn, Rüdiger & Kleppin, Karin. (2015). Prüfen, Testen, Evaluieren. München: Klett-Langenscheidt. <?page no="28"?> 27 Literatur Hallet, Wolfgang & Königs, Frank G. (2010). Lehrpläne und Curricula. In Wolfgang Hallet & Frank G. Königs (Hrsg.), Handbuch Fremdsprachendidaktik (S. 54-58). Seelze-Velber: Kallmeyer. Harding, Luke & Kremmel, Benjamin. (2016). Teacher assessment literacy and professional development. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 413-427). Boston: De Gruyter. Harsch, Claudia. (2016). Standardorientierung im Kontext des Lernens und Lehrens von Sprachen. In Eva Burwitz-Melzer, Grit Mehlhorn, Claudia Riemer, Karl-Richard Bausch & Hans-Jürgen Krumm (Hrsg.), Handbuch Fremdsprachenunterricht (6., völlig überarb. und erweiterte Aufl., S. 88-92). Tübingen: Francke. Hilpisch, Kai. (2012). Gemeinsamer Europäischer Referenzrahmen für Sprachen: Der GER im Überblick. Hamburg: Diplomica. IQB [Institut zur Qualitätsentwicklung im Bildungswesen]. (2014). Integrierte Kompetenzstufenmodelle zu den Bildungsstandards für den Hauptschulabschluss und den Mittleren Schulabschluss im Fach Englisch-- Hörverstehen und Leseverstehen [Stand: 14. 10. 2014]. Berlin: IQB . [abrufbar unter https: / / www.iqb.hu-berlin.de/ bista/ ksm/ iKSM_Englisch_Le.pdf] Kecker, Gabriele. (2016). Der GeR als Referenzsystem für kompetenzorientiertes Testen: Was bedeutet der Bezug zum GeR für eine Sprachprüfung? Zeitschrift für Fremdsprachenforschung, 27(1), 13-37. KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2004). Bildungsstandards für die erste Fremdsprache (Englisch / Französisch) für den Mittleren Schulabschluss. Beschluss vom 4. 12. 2003. Neuwied: Luchterhand. [abrufbar unter https: / / www.kmk.org/ themen/ qualitaetssicherung-in-schulen/ bildungsstandards.html] KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2005a). Bildungsstandards der Kultusministerkonferenz: Erläuterungen zur Konzeption und Entwicklung. Neuwied: Luchterhand. [abrufbar unter http: / / www.kmk.org/ fileadmin/ Dateien/ veroeffentlichungen_beschluesse/ 2004/ 2004_12_16-Bildungsstandards- Konzeption-Entwicklung.pdf] KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2005b). Bildungsstandards für die erste Fremdsprache (Englisch / Französisch) für den Hauptschulabschluss (Jahrgangsstufe 9). Beschluss der Kultusministerkonferenz vom 15. 10. 2004. Neuwied: Luchterhand. [abrufbar unter https: / / www.kmk.org/ themen/ qualitaets sicherung-in-schulen/ bildungsstandards.html] KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2010). Konzeption der Kultusministerkonferenz zur Nutzung der Bildungsstandards für die Unterrichtsentwicklung. Beschluss der Kultusministerkonferenz von 10. 12. 2009. Köln: Wolters Kluwer-- Carl Link. [abrufbar unter https: / / www.kmk.org/ fileadmin/ Dateien/ veroeffentlichungen_beschluesse/ 2009/ 2009_12_10-Konzeption-Bildungsstandards.pdf]. KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2014). Bildungsstandards für die fortgeführte Fremdsprache (Englisch / Französisch) für die Allgemeine Hochschulreife. Beschluss der Kultusministerkonferenz vom 18. 10. 2012. Köln: Wolters Kluwer-- Carl Link. [abrufbar unter https: / / www.kmk.org/ fileadmin/ Dateien/ veroeffentlichungen_beschluesse/ 2012/ 2012_10_18-Bildungsstandards-Fortgef-FS-Abi.pdf] Menken, Kate, Hudson, Thom & Leung, Constant. (2014). Symposium: Language assessment in standards-based education reform. TESOL Quarterly, 48(3), 586-614. doi: 10.1002/ tesq.180 <?page no="29"?> 28 2 Rahmenbedingungen für das Evaluieren von Schreibkompetenzen MSW [ Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen]. (2007). Kernlehrplan für den verkürzten Bildungsgang des Gymnasiums-- Sekundarstufe I (G8) in Nordrhein- Westfalen: Englisch. Frechen: Ritterbach. [abrufbar unter http: / / www.schulentwicklung.nrw.de/ lehrplaene/ lehrplannavigator-s-i/ gymnasium-g8/ ] North, Brian. (2014). The CEFR in practice. Cambridge: Cambridge University Press. Pižorn, Karmen & Huhta, Ari. (2016). Assessment in educational settings. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 239-254). Boston: De Gruyter. Porsch, Raphaela. (2010a). Die Erprobung eines Kodierschemas zur Messung der Schreibkompetenz im Fach Französisch. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 267-285). Münster: Waxmann. Porsch, Raphaela. (2010b). Schreibkompetenzvermittlung im Englischunterricht in der Sekundarstufe I: Empirische Analysen zu Leistungen, Einstellungen, Unterrichtsmethoden und Zusammenhängen von Leistungen in der Mutter- und Fremdsprache. Münster: Waxmann. Porsch, Raphaela & Köller, Olaf. (2010). Erste empirische Befunde der Pilotierungsstudie im Fach Französisch (Sekundarstufe I). In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 209-243). Münster: Waxmann. Porsch, Raphaela & Tesch, Bernd. (2010). Messung der Schreibkompetenz im Fach Französisch. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 151-176). Münster: Waxmann. Rossa, Henning. (2016). Wie verändern Bildungsstandards und zentrale Prüfungen den Fremdsprachenunterricht? Skizze eines Forschungsdesiderats zu intendierten und beobachteten Effekten der Standard- und Kompetenzorientierung. Zeitschrift für Fremdsprachenforschung, 27(1), 99-122. Rupp, André A., Vock, Miriam, Harsch, Claudia & Köller, Olaf. (2008). Developing standards-based assessment tasks for English as a first foreign language: Context, processes, and outcomes in Germany. Münster: Waxmann. Yin, Muchun. (2010). Understanding classroom language assessment through teacher thinking research. Language Assessment Quarterly, 7(2), 175-194. doi: 10.1080/ 15434300903447736 <?page no="30"?> 29 3 Typen und Funktionen der Evaluation von Schreibkompetenzen Rüdiger Grotjahn & Karin Kleppin 3.1 Prüfen, Testen, Evaluieren, Diagnostizieren: Begriffliche Vorbemerkungen In der Fachliteratur, aber auch in der Praxis, werden die Begriffe Prüfen und Testen zum Teil synonym, zum Teil aber auch unterschiedlich verwendet. Dies gilt auch für das Englische (examination, test) und das Französische (examen, test). Ein gemeinsames Merkmal von Prüfen und Testen ist, dass die Prüflinge durch eine klare und eindeutige Aufgabenstellung zu Handlungen bzw. Reaktionen veranlasst werden. Sie sollen z. B. gesteuert durch Vorgaben wie Bilder, Graphiken oder kurze Texte dazu gebracht werden, einen eigenen Text zu verfassen (vgl. auch Rossa, 2016b, S. 399). Zur Vereinfachung werden im vorliegenden Band die Begriffe Prüfen und Testen synonym verwendet. Der Begriff Evaluieren bzw. Evaluation wird ebenfalls mit unterschiedlicher Bedeutung verwendet. In diesem Band wird von einem weiten Verständnis von Evaluation im Sinne einer gängigen Bedeutung von assessment im amerikanischen Englisch ausgegangen. Evaluieren / Evaluation ist damit ein Oberbegriff zu Prüfen und Testen und bezieht sich auch auf unterrichtliche Bewertungsformen wie (informelle) Beobachtungen, Korrekturen, Lob und Tadel, Einsatz von Portfolios (vgl. Grotjahn & Kleppin, 2015, S. 15 sowie auch Purpura, 2016, S. 191). Weiterhin findet man im Zusammenhang mit Prüfen, Testen und Evaluieren häufig den Begriff der Diagnose. In Bezug auf diesen Begriff sind eine enge und eine weite Verwendungsweise zu unterscheiden. Ein weiter Begriff von Diagnose liegt z. B. der Pädagogischen und Psychologischen Diagnostik zugrunde und entspricht weitgehend der Verwendungsweise von Evaluation im vorliegenden Buch. Beim fremdsprachlichen Testen und Evaluieren wird der Begriff Diagnose dagegen zumeist in einem engeren Sinne verwendet. Diagnose zielt dann insbesondere auf das Aufdecken und in vielen Fällen auch das Rückmelden spezifischer Stärken und Schwächen der Lernenden (vgl. Alderson, Brunfaut & Harding, 2015; Jang & Wagner, 2014; Lee, 2015 sowie auch Kapitel- 9.2.2). Sie kann sich dabei auf eher spezifische Aspekte von Schreibkompetenz, wie etwa auf die Fähigkeit zur Verwendung bestimmter kohäsionsstiftender Merkmale richten, oder auf allgemeinere Schreibkompetenzen zielen, wie etwa sozio-pragmatische Fähigkeiten. 3.2 Typen der Evaluation Es können eine Reihe von Funktionen und Typen der Evaluation von sprachlichen Kompetenzen und damit auch von Schreibkompetenzen unterschieden werden. Wir gehen zunächst auf folgende grundlegende Unterscheidungen und Typen ein: bezugsgruppenorientiert versus kriteriumsorientiert, summativ versus formativ, informell versus formell. Danach werden wir <?page no="31"?> 30 3 Typen und Funktionen der Evaluation von Schreibkompetenzen eine Reihe weiterer spezifischerer Funktionen / Ziele, die mit Prüfungen verbunden werden, kurz skizzieren (vgl. zum Folgenden auch Grotjahn, 2008; Grotjahn & Kleppin, 2015, Kap. 3.1). 3.2.1 Bezugsgruppenorientierte versus kriteriumsorientierte Evaluation Im Rahmen von schulischen Prüfungen orientieren sich Lehrkräfte bei der Beurteilung der Schülerinnen und Schüler mehr oder weniger explizit am Leistungsstand der jeweiligen Bezugsgruppe-- zumeist die Klassen oder Kurse, aus denen die entsprechenden Schülerinnen und Schüler stammen. Lehrkräfte bringen dann die Teilnehmenden in eine Rangfolge, wie z. B.: Schülerin- A ist leistungsstärker als Schüler- B; oder auch: Schülerin- C gehört zu den fünf leistungsstärksten in der Gruppe. Ein solches Vorgehen bezeichnet man als bezugsgruppenorientierte oder auch normorientierte Evaluation (vgl. auch Kapitel-6.3). Mit der Orientierung an einer sozialen Bezugsnorm ist allerdings ein entscheidendes Problem verbunden: Die Bewertung der Leistung als „schwach“ oder „stark“ oder auch als „schlechter“ oder „besser“ hängt vom Leistungsstand in der jeweiligen Gruppe sowie von der Schwierigkeit der jeweiligen Prüfungsaufgaben ab. Eine Aussage, an welcher Position jemand in einer Gruppe steht, bietet weder der Person selbst noch anderen Personen Informationen darüber, in welchen Situationen die jeweilige Person sprachlich adäquat handeln kann und über welche spezifischen sprachlichen Kompetenzen sie verfügt. Die Rangposition sagt damit nichts über den absoluten Leistungsstand einer Person aus. Häufig will man nicht lediglich relative Aussagen bezogen auf den Leistungsstand in der jeweiligen Lerngruppe, sondern absolute Aussagen zu globalen und / oder spezifischen Kompetenzen formulieren. In diesem Fall muss man eine (zusätzliche) Beurteilung auf der Basis von vorher festgelegten Kriterien durchführen, eine so genannte kriteriumsorientierte/ kriteriale Evaluation, auf die in Kapitel- 6 und- 8 noch ausführlich eingegangen wird. Eine solche kriteriumsorientierte Evaluation ist absolut und damit von unmittelbarer inhaltlicher Aussagekraft. Häufig hat eine entsprechende Evaluation die Form einer Kann-Beschreibung im Sinne des GER . Ist das Kriterium als Lern- oder Lehrziel formuliert, dann spricht man auch von lernzielbzw. lehrzielorientierter Evaluation. Eine kriteriale, an transparenten Lernzielen orientierte Evaluation kann für viele Schülerinnen und Schüler eine motivierende Funktion haben, da sie genau wissen, was von ihnen erwartet wird. Wenn allerdings alle an den gleichen Kriterien gemessen werden, kann eine solche Evaluation gerade bei schwächeren Lernenden auch demotivierend wirken. Insgesamt gilt, dass sich in der Mehrzahl der Fälle eine bezugsgruppenorientierte und eine kriteriumsorientierte Interpretation ein und derselben Prüfungsergebnisse keineswegs ausschließen. So ist ein Kennzeichen der Notengebung im Unterricht, dass häufig gleichzeitig bezugsgruppenorientiert und kriterial bewertet wird. <?page no="32"?> 31 3.2 Typen der Evaluation 3.2.2 Summative versus formative Evaluation Weiterhin kann eine Evaluation summativ oder formativ erfolgen, d. h., sie kann punktuell und produkt-/ ergebnisorientiert am Ende eines Lernabschnitts stattfinden (summativ) oder kontinuierlich und prozessorientiert in den Unterricht integriert und zur Steuerung des weiteren Lernens genutzt werden (formativ). Die summative Evaluation der Leistungen der Schülerinnen und Schüler kann dabei in weitgehender Eigenverantwortung intern an einer Schule stattfinden oder anhand externer Maßstäbe und Verfahren erfolgen. Ein typisches Beispiel einer internen summativen Evaluation der Schülerleistungen sind die am Ende eines Halbjahres oder Jahres in der Schule vergebenen Zeugnisnoten. Ein Beispiel für eine externe, eher summativ angelegte Evaluation ist VERA -8. Summative Evaluation zielt auf (punktuelle) Qualitätskontrolle und ist häufig verbunden mit Funktionen wie Notengebung oder den Vergleich von Bildungseinheiten wie Schulen oder Klassen. Entsprechend wird in der englischsprachigen Literatur die summative Evaluation häufig als assessment of learning, also als Evaluation des Lernens charakterisiert. Das zentrale Unterscheidungsmerkmal zwischen summativer und formativer Evaluation ist, dass bei der formativen Evaluation die Ergebnisse direkt in die Planung und Optimierung des Unterrichts zurückfließen. Deshalb wird diese auch als assessment for learning, d. h. als Evaluation im Dienste des Lernens charakterisiert. Formative Evaluation erfolgt üblicherweise kriteriumsorientiert und vermeidet dadurch einen bezugsgruppenorientierten Vergleich der Lernenden untereinander. Zudem werden die Lernziele und Bewertungskriterien transparent gemacht und soweit möglich von den Lehrkräften und Lernenden gemeinsam verantwortet. Während es sich bei summativen Evaluationen häufig um high-stakes Evaluationen handelt, d. h. um Evaluationen, die mit weitreichenden Konsequenzen für die Betroffenen verbunden sind, ist eine formative Evaluation in der Regel low-stakes. Wichtig ist, dass Rückmeldungen beim formativen Evaluieren deskriptiv und nicht bewertend formuliert werden; d. h. sie sollten Stärken und Schwächen des Lernenden beschreiben, und-- so weit möglich-- nicht mit einer Benotung verbunden sein (vgl. auch Kapitel-9). Ein häufig eingesetztes Verfahren, in dem formative und summative Evaluation sinnvoll verbunden sind, ist ein Schreibportfolio mit prozessbegleitenden, reflexiven Rückmeldeschleifen und einer am Ende des Unterrichtsabschnitts stattfindenden summativen Evaluation von Schreibprodukten, die der Lernende selbst ausgewählt hat (vgl. Yin, 2014, S. 668 f.). Ist formatives Evaluieren direkt in den Unterricht integriert und stehen Evaluieren und Unterrichten in einem dialektischen Wechselspiel, dann kann man von assessment as learning, d. h. von Evaluation im Zuge des Lernens sprechen. Dabei kann der Fokus eher auf dem Unterrichten oder eher auf der Evaluation liegen (vgl. auch die Unterscheidung von teaching through assessment und assessment through teaching bei Yin, 2014, S. 674). Ein prominentes Beispiel für eine Evaluation im Zuge des Lernens ist die so genannte interaktionistische dynamische Evaluation, auf die wir in Kapitel- 9.5 eingehen. Hierbei gibt eine Lehrkraft Schülerinnen und Schülern geeignete Hilfestellungen, damit diese möglichst eigenständig ihren Schreibprozess bzw. ihr Schreibprodukt im Hinblick auf bestimmte Kriterien wie etwa Korrektheit, Kohärenz, Adressatenadäquatheit optimieren und auf diese Weise über ihren <?page no="33"?> 32 3 Typen und Funktionen der Evaluation von Schreibkompetenzen aktuellen Stand ihrer Schreibkompetenz hinaus auch ihr Entwicklungs- und Lernpotential zeigen können. Wenn dies gelingt, dann kann dies auch einen positiven Effekt auf das Selbstwertgefühl und das weitere Lernen haben. Formative Evaluation zielt insgesamt auf kontinuierliche Qualitätsentwicklung im Unterricht. Sie gibt den Lehrkräften Rückmeldung hinsichtlich der Effizienz ihres Unterrichts und den Lernenden Rückmeldung hinsichtlich der Effizienz ihres Lernens. Weiterhin zielt die formative Evaluation häufig auf eine Steigerung der Motivation der Lernenden sowie auf die Entwicklung von Selbstevaluationskompetenz und den Aufbau von Lernbewusstheit und unterstützt die Lernenden dabei, ihre eigenen Fortschritte, aber auch mögliche Probleme wahrnehmen und reflektieren zu können. 3.2.3 Formelle und informelle Evaluation Schließlich kann noch zwischen formellen und informellen Verfahren der Evaluation fremdsprachlicher Kompetenzen unterschieden werden. Formelle Prüfungen und Tests sind in der Regel das Ergebnis langwieriger und aufwändiger Bemühungen von Spezialisten und zudem in Bezug auf die Testinhalte und den Testaufbau sowie die Durchführung des Tests und Bewertung der Testleistungen standardisiert. Beispiele sind die Cambridge Prüfungen für Englisch oder das DELF für Französisch. Formelle Tests müssen bestimmten, weithin akzeptierten Testgütekriterien wie z. B. Objektivität, Reliabilität (Zuverlässigkeit) und Validität (Gültigkeit) genügen (vgl. Kapitel-4). Bei informellen Prüfungen und Tests handelt es sich dagegen um ein weniger aufwändiges und weniger anspruchsvolles Erzeugnis von Unterrichtspraktikern. Trotzdem müssen auch informelle Tests bestimmten Qualitätsanforderungen wie Objektivität, Reliabilität und Validität genügen, allerdings in deutlich geringerem Maße als im Fall formeller Prüfungen und Tests, insb. im Hinblick auf die Objektivität und Reliabilität. Beispiele für informelle Formen der Evaluation sind von den Lehrkräften selbst erstellte Lernfortschrittstests, mit denen sich diese einen Überblick über den Lernfortschritt der Schülerinnen und Schüler oder auch über den aktuellen Lernstand einer neu übernommenen Klasse verschaffen wollen. Man könnte meinen, dass auch Klassen- oder Kursarbeiten zu den informellen Tests gezählt werden können. Dies ist in der Regel nicht gerechtfertigt, da Klassen- und Kursarbeiten bisher zumeist nicht in notwendigem Maße die Qualitätskriterien informeller Tests erfüllen (vgl. Grotjahn, 2008). 3.2.4 Selbstevaluation und Peer-Evaluation Bisher sind wir davon ausgegangen, dass die Evaluation entweder intern durch eine Lehrkraft oder extern an Hand einer standardisierten Prüfung wie DELF oder die Cambridge Englisch Prüfungen erfolgt. Die Evaluation kann aber auch durch den Lernenden selbst oder durch die jeweiligen Mitschüler und Mitschülerinnen durchgeführt werden. Eine Selbstevaluation erfolgt durch die Schülerinnen und Schüler, die ein Schreibprodukt verfasst haben. Sie wird bei Schreibaufgaben in der Regel durch die Lehrkraft initiiert. Durch <?page no="34"?> 33 3.3 Funktionen der Evaluation den Einsatz von Verfahren der Selbstevaluation soll bei den Schülerinnen und Schülern die Fähigkeit ausgebildet werden, Bewertungskriterien zu reflektieren und anzuwenden, also diagnostische und reflexive Kompetenzen zu entwickeln. Die Lernenden sollen u. a. befähigt werden, die eigenen Schreibprodukte im Hinblick auf unterschiedliche Kriterien wie etwa kohärenter Aufbau, Korrektheit, Kohäsion und soziale Angemessenheit zu überprüfen und gegebenenfalls dann auch zu korrigieren. Eine Selbstevaluation wird in der Schule in der Regel nicht zur formellen Notengebung eingesetzt. Bei einer Peer-Evaluation bewerten Schülerinnen und Schüler gegenseitig ihre Schreibprodukte auf der Basis vereinbarter Kriterien. Über gängige Bewertungskriterien wie Korrektheit, Kohärenz und Kohäsion hinaus können auch Kriterien verwendet werden wie Originalität oder auch Interessantheit und Verständlichkeit für die Mitschüler und Mitschülerinnen. Die Funktion von Peer-Evaluationen besteht vor allem darin, dass Lernende sich dabei gegenseitig helfen, über ihre sprachlichen Kompetenzen und Möglichkeiten zum Weiterlernen nachzudenken. Peer-Beurteilungen sind damit ebenso wie die Selbstevaluation ein wichtiges Verfahren für die Entwicklung der Fähigkeit zum selbstreflexiven Lernen. 3.3 Funktionen der Evaluation In diesem Kapitel wollen wir spezifische Funktionen und Ziele von Prüfungen kurz skizzieren, die mit mehr oder weniger weitreichenden Entscheidungen im Hinblick auf die unterrichtliche Qualitätsentwicklung verbunden sein können. Es lassen sich insb. folgende Funktionen und Ziele unterscheiden, die allerdings nicht immer klar voneinander abzugrenzen sind und die zum Teil von den Betroffenen (Schülerinnen und Schüler, Lehrkräfte, Eltern, bildungspolitische Entscheidungsträger) unterschiedlich wahrgenommen und interpretiert werden können (vgl. zum Folgenden Grotjahn & Kleppin, 2015, Kap. 1.3). ▶ Feststellen des Erreichens von Lernzielen, curricularen Vorgaben und Standards. Hierbei geht es darum zu überprüfen, ob lehrerseitig oder curricular vorgegebene Lernziele und / oder schulinterne oder schulexterne Standards erreicht wurden. Lehrerseitige Lernziele können sich sowohl auf Makrokompetenzen wie die Fähigkeit zum Verfassen eines informellen Briefes beziehen als auch Mikrokompetenzen wie z. B. die Fähigkeit zur Verwendung bestimmter sprachlicher Mittel für die Textproduktion (z. B. ein bestimmter thematischer Wortschatz) betreffen. Curriculare Vorgaben und Standards beziehen sich eher auf die z. B. in Kernlehrplänen beschriebenen Makrokompetenzen, die sich an den Deskriptoren des GER anlehnen wie z. B.: „Die Schülerinnen und Schüler können-… einfache, standardisierte Briefe und E-Mails adressatengerecht formulieren, z. B. Anfragen, Bewerbungen (B1)“ ( KMK , 2004, S. 14). Sollten die Lernziele, curricularen Vorgaben und Standards nicht erreicht werden, dann sind die Gründe hierfür zu analysieren und auf der Basis der Analysen gegebenenfalls Maßnahmen für die Weiterentwicklung des Unterrichts zu ergreifen (vgl. auch Harsch, 2016). ▶ Feststellen von Fortschritten. Hier will man an Hand von so genannten Lernfortschrittstests feststellen, ob und welche Fortschritte einzelne Lernende oder auch eine ganze Lern- <?page no="35"?> 34 3 Typen und Funktionen der Evaluation von Schreibkompetenzen gruppe im Hinblick auf bestimmte Lernziele gemacht haben. Geht es z. B. in einer Unterrichtseinheit um die Vermittlung von Kompetenzen für das Schreiben von Bewerbungen, dann wird überprüft, ob die Schülerinnen und Schüler am Ende der Unterrichtseinheit ein Anliegen, wie z. B. ein Bewerbungsschreiben für ein Auslandspraktikum, textsorten- und adressatengerecht schriftlich formulieren können. Ist dies nicht der Fall, dann ist wiederum nach den Ursachen zu fragen. Waren die Bewerbungen z. B. nicht höflich genug formuliert, dann sollte dieser Aspekt im Unterricht fokussiert werden. ▶ Feststellen des Potenzials. Hierzu kann man das bereits erwähnte Verfahren der interaktionistischen dynamischen Evaluation verwenden. Diese geht davon aus, dass der in einer Evaluationssituation gezeigte aktuelle Stand der Schreibkompetenzen nur sehr bedingt eine Vorhersage über die zukünftige Entwicklung der Schreibkompetenzen eines Lernenden oder auch einer Gruppe von Lernenden ermöglicht. Über welches Entwicklungspotenzial ein Lernender verfügt, kann man daran ablesen, inwieweit dieser geeignete Hilfen (z. B. Markierung eines Fehlers; Hinweis zur Fehlerart; Hinweise zu Korrekturmöglichkeiten) zur Verbesserung seines Schreibprodukts und zur Weiterentwicklung seiner Schreibkompetenzen nutzen kann. Genauere Hinweise, wie entsprechende Hilfen vor dem Hintergrund der interaktionistischen dynamischen Evaluation gestaltet und eingesetzt werden können, finden sich in Kapitel-9.5. ▶ Diagnose und Förderung. Die Diagnose soll Lehrkräften, Lernenden und eventuell auch Eltern Informationen liefern, die dann in die weiteren unterrichtlichen Entscheidungen und Handlungen (z. B. Förderung spezifischer Schülerinnen und Schüler, Fokussierung spezifischer Kompetenzbereiche) einfließen. Die diagnostische Zielsetzung sollte möglichst für die Beteiligten transparent sein. Eine Diagnose kann vor Beginn einer geplanten Unterrichtssequenz (Lernausgangsdiagnose), während des unterrichtlichen Lernprozesses (Lernprozessdiagnose) oder am Ende einer Unterrichtssequenz (Lernergebnisdiagnose) durchgeführt werden. Sie kann sich auf individuelle Schülerinnen und Schüler oder auch ganze Lerngruppen beziehen und auf der Basis einer gruppenbezogenen oder kriterialen Bezugsnorm erfolgen. ▶ Feedback (Rückmeldungen). Feedback ist dazu gedacht, den Lernenden oder auch den Eltern relevante Hinweise zu den erreichten Kompetenzen, Fortschritten, Defiziten und zur weiteren Entwicklung von Kompetenzen zu geben. Für Lehrkräfte können die Ergebnisse von Prüfungen Anlass sein, ihren Unterricht zu überdenken und gegebenenfalls neu auszurichten. Rückmeldungen können geplant z. B. in Form von systematischen lehrerseitigen Korrekturen von Schreibaufgaben oder auch ungeplant z. B. in Form einer spontanen Reaktion der Lehrkraft auf einen Tafelanschrieb einer Schülerin oder eines Schülers erfolgen (zu Formen des Feedbacks siehe Kapitel-9.2). Darüber hinaus können sich Rückmeldungen auch auf die Leistungen größerer Einheiten wie Schulklassen, Schulen oder Bundesländer beziehen. ▶ Motivierung. Unterrichtliche Prüfungen sollen häufig dazu dienen, Lernende zu erhöhter Anstrengung anzuspornen und sie so z. B. zu veranlassen, bestimmte Kenntnisse zu festigen oder bestimmte Inhalte zu wiederholen. Auch das erfolgreiche Ablegen einer externen <?page no="36"?> 35 3.3 Funktionen der Evaluation Zertifikatsprüfung kann sich positiv auf das Selbstwertgefühl der Schülerinnen und Schüler auswirken und zu weiteren Anstrengungen im Unterricht motivieren. ▶ Entwicklung diagnostischer und reflexiver Kompetenzen. Schülerinnen und Schüler können diagnostische und reflexive Kompetenzen nur entwickeln, wenn eine informative Rückmeldung zu den Schreibleistungen gegeben wird, die auf transparenten, den Lernenden klar verständlichen Kriterien beruht (zur kriterialen Bewertung und Rückmeldung siehe Kapitel-6, 8 und 9). Die Rückmeldung kann darüber hinaus-- auch im Rahmen von Selbst- und Peer-Evaluationen-- die Lernenden dazu anregen, sich mit den eigenen Produktionen noch einmal auseinander zu setzen. Diagnostische und reflexive Kompetenzen gelten als wichtige Voraussetzung für Lernerautonomie. ▶ Vergabe von Noten. Die Bewertung von Schreibkompetenzen erfolgt üblicherweise an Hand von Ziffernnoten, denen Punktzahlen zu Grunde liegen und die zum Teil mit zusätzlichen verbalen Beurteilungen verbunden werden. Ohne zusätzliche verbale Beurteilungen bieten Ziffernnoten im Hinblick auf eine Diagnose und Weiterentwicklung spezifischer Kompetenzen keine inhaltlich relevanten Informationen. Betrachtet man fremdsprachliche Tests und Prüfungen aus einer bildungspolitischen Perspektive, dann zielt deren Einsatz im Schulkontext stets auch auf Rechenschaftslegung und Qualitätsentwicklung. In diesem Zusammenhang wird häufig im Hinblick auf den Einsatz von Tests und Prüfungen auch der Begriff Lernstandserhebung verwendet. So werden etwa Vergleichsarbeiten wie VERA -8 auch als eine Form der Lernstandserhebung angesehen (vgl. Kniffka, 2016 sowie auch Groß Ophoff, 2013). 3 Im Rahmen dieses Monitoring-Paradigmas lassen sich folgende spezielle Funktionen und Ziele formulieren, die sich wiederum überschneiden können: ▶ Evaluation von erreichten Kompetenzen. Es sollen mit Hilfe standardisierter Tests Erkenntnisse darüber gewonnen werden, welches Niveau Lernende oder auch größere Bildungseinheiten zu einem bestimmten Zeitpunkt in einem bestimmten Kompetenzbereich tatsächlich erreicht haben. Ein Beispiel hierfür ist die DESI -Studie (Deutsch Englisch Schülerleistungen International) aus dem Jahre 2003/ 2004 zur Entwicklung von sprachlichen Fähigkeiten. Hierbei wurden insb. rezeptive und produktive Kompetenzen untersucht-- unter Einschluss von Schreibkompetenzen (vgl. DESI -Konsortium, 2008). ▶ Evaluation des Erreichens von bildungspolitischen Zielen. Es sollen mit Hilfe standardisierter Tests Erkenntnisse darüber gewonnen werden, inwieweit spezifische bildungspolitische Ziele erreicht wurden, wie etwa die Bildungsstandards für die erste Fremdsprache (Englisch / Französisch) für den Mittleren Schulabschluss. Entsprechende Untersuchungen fanden in den Jahren 2008 (Französisch), 2009 (Englisch) sowie 2015 (Englisch und Französisch) für Hörverstehen und Leseverstehen statt. Für die Überprüfung von Schreibkompetenzen wurden zwar 2007 und 2008 Testaufgaben entwickelt und pilotiert (vgl. die 3 Kniffka (2016, S. 404 f.) unterscheidet zwischen Lernstandserhebung und Lernstandsdiagnostik. Im ersten Fall ist die Evaluationsebene die Schule und / oder die Klasse bzw. Lerngruppe, im zweiten Fall geht es um die Erfassung von individuellen Lernständen. <?page no="37"?> 36 3 Typen und Funktionen der Evaluation von Schreibkompetenzen Hinweise in Kapitel 2.5), allerdings u. a. aus Gründen des hohen Bewertungsaufwandes nicht flächendeckend für die Überprüfung der Bildungsstandards eingesetzt. Ergebnisse aus Überprüfungen bildungspolitischer Ziele können für die Weiterentwicklung von Curricula (Formulierung realistischer Lernziele) genutzt werden. ▶ Vergleich größerer Bildungseinheiten. Es können z. B. Klassen, Schulen, Regionen oder auch ganze Länder an Hand standardisierter Tests verglichen werden. Beispiele hierfür sind die Ländervergleiche / Bildungstrends sprachlicher Kompetenzen in der ersten Fremdsprache in den Jahren 2008 / 2009 und 2015 im Rahmen der Überprüfung der Bildungsstandards (vgl. Köller, Knigge & Tesch, 2010; Stanat, Böhme, Schipolowski & Haag, 2016 sowie auch Kapitel-2.3). Ein anderes Beispiel, allerdings nicht aus dem fremdsprachlichen Bereich, ist die PISA -Studie. ▶ Positive Beeinflussung des Unterrichts. Fremdsprachenunterricht soll die Schülerinnen und Schüler dazu befähigen, sprachliche Handlungen in für sie (potenziell) relevanten lebensweltlichen Situationen auszuführen. Häufig wird in diesem Zusammenhang auch von Kompetenz- und Handlungsorientierung gesprochen (vgl. Europarat, 2001; KMK , 2004 sowie auch Kapitel-2 und 5). Der Einsatz lebensweltlich relevanter Prüfungsaufgaben zum Schreiben kann dazu beitragen, dass die Prinzipien der Kompetenz- und Handlungsorientierung im Unterricht tatsächlich umgesetzt werden. Erreicht man die intendierte positive Veränderung des Unterrichts durch die Prüfungsaufgaben, dann spricht man von einem positiven Washback-Effekt (vgl. Kapitel-4.2.4.1). Hinweise zum Weiterlesen Bachman & Palmer (2010) sehen die primäre Funktion des Einsatzes von Evaluationsinstrumenten in der datengestützten Begründung von kontextspezifischen Entscheidungen (vgl. auch Purpura, 2016). Moss (2016) zeigt, dass intendierte Funktion und faktischer Einsatz in der Praxis häufig auseinanderfallen. Ein weiter Begriff von Diagnose liegt z. B. Handbüchern zur Pädagogischen Diagnostik (vgl. z. B. Ingenkamp & Lissmann, 2008, S. 13 f.) und Psychologischen Diagnostik (vgl. z. B. Petermann & Eid, 2006) zugrunde. Folgt man dieser Verwendungsweise, ist auch der Begriff der Diagnoseaufgabe prinzipiell weiter als der Begriff der Testaufgabe. Eine unterrichtliche Diagnose spezifischer Stärken und Schwächen kann mit oder ohne den Einsatz formeller Messinstrumente wie z. B. Tests erfolgen (z. B. anhand von Beobachtungen) oder auch mit Hilfe von Dokumentationsverfahren wie Portfolios. Auch formelle Sprachtests können mit dem Ziel einer spezifischen Diagnose und Rückmeldung konzipiert sein. Ein Beispiel ist das auf die Kompetenzstufen des GER bezogene DIALANG -Testsystem (vgl. www.dialang.org sowie Alderson, 2005; Huhta, 2008; Lee, 2015). Speziell mit der Diagnose von Schreibkompetenzen beschäftigt sich Knoch (2009). Weitere Funktionen von Diagnoseaufgaben werden in Caspari, Grotjahn & Kleppin (2010, S. 63 f.) angesprochen. Einen kurzen, informativen Überblick über Formen unterrichtlicher Evaluation geben Katz & Gottlieb (2013). Hinweise zum Unterschied zwischen Fremdevaluation, Selbstevaluation und Peer-Evaluation finden sich bei Harsch (2009), Kleppin (2008), Oscarson (2014), Roche <?page no="38"?> 37 Literatur (2010) und Suomela-Salmi (2010). Eine Reihe unterschiedlicher Typen formativer unterrichtlicher Evaluation werden in Tsagari & Csépes (2011) beschrieben. Weitere unterrichtsrelevante Informationen zur formativen Evaluation fremdsprachlicher Kompetenzen und zum diagnostischen Feedback enthalten u. a. Dlaska & Krekeler (2009), Grotjahn & Kleppin (2015), Hamp-Lyons (2016), Huhta (2008), Jang & Wagner (2014), Kieweg (2010) und Lee (2015). Der GER (Europarat, 2001) unterscheidet-- allerdings wenig trennscharf-- zwischen kontinuierlicher und punktueller Beurteilung (Kapitel 9.3.4) sowie formativer und summativer Beurteilung (Kapitel 9.3.5). Wichtige Charakteristiken eines assessment for learning (Evaluation im Dienste des Lernens) hat u. a. bereits die Assessment Reform Group (2002) formuliert (vgl. für weiterführende Hinweise Jones & Saville, 2016). Über den Stand der Diskussion zum (unterrichtlichen) Stellenwert von cognitively based assessment of, for, and as learning sowie formativer und summativer Evaluation informiert Bennett (2010, 2011). Einen kurzen, fundierten Überblick über die formative Evaluation findet man auch unter: http: / / en.wikipedia. org/ wiki/ Formative_assessment. Aktuelle fremdsprachenspezifische Darstellungen unterschiedlicher Formen eines learning-oriented assessment finden sich in Jones & Saville (2016) sowie Turner & Purpura (2016). Eine ausführliche Darstellung der kriteriumsorientierten Evaluation fremdsprachlicher Kompetenzen geben z. B. Brown & Hudson (2002) sowie Hudson (2014). Wichtige Unterschiede zwischen einer normorientierten und einer kriteriumsorientierten Testwertinterpretation beschreiben Goldhammer & Hartig (2012) und Sawaki (2016). Speziell zum standardbasierten Testen informieren Hudson (2012) und Fulcher (2016). Einen kurzen Überblick über Aspekte der Standardorientierung beim Lernen und Lehren von Fremdsprachen an deutschen Schulen gibt Harsch (2016). Aktuelle Hinweise zu Funktionen und Auswirkungen von (zentralen) Sprachprüfungen vor dem Hintergrund von fremdsprachlichen Bildungsstandards und bildungspolitischem Monitoring-Paradigma finden sich bezogen auf den deutschen Kontext z. B. in Rossa (2016a). Pižorn & Huhta (2016) behandeln das Thema aus einer internationalen Perspektive. Literatur Alderson, J. Charles. (2005). Diagnosing foreign language proficiency: The interface between learning and assessment. London: Continuum. Alderson, J. Charles, Brunfaut, Tineke & Harding, Luke. (2015). Towards a theory of diagnosis in second and foreign language assessment: Insights from professional practice across diverse fields. Applied Linguistics, 36(2), 236-260. doi: 10.1093/ applin/ amt04 Assessment Reform Group. (2002). Assessment for learning: 10-principles. [abrufbar unter http: / / www.aaia.org.uk/ afl/ assessment-reform-group/ ] Bachman, Lyle F. & Palmer, Adrian S. (2010). Language assessment in practice: Developing language assessments and justifying their use in the real world. Oxford: Oxford University Press. Bennett, Randy E. (2010). Cognitively Based Assessment of, for, and as Learning ( CBAL ): A preliminary theory of action for summative and formative assessment. Measurement: Interdisciplinary Research and Perspectives, 8(2-3), 70-91. doi: 10.1080/ 15366367.2010.508686 <?page no="39"?> 38 3 Typen und Funktionen der Evaluation von Schreibkompetenzen Bennett, Randy E. (2011). Formative assessment: a critical review. Assessment in Education: Principles, Policy & Practice, 18(1), 5-25. doi: 10.1080/ 0969594X.2010.513678 Brown, James D. & Hudson, Thom. (2002). Criterion-referenced language testing. Cambridge: Cambridge University Press. Caspari, Daniela, Grotjahn, Rüdiger & Kleppin, Karin. (2010). Testaufgaben und Lernaufgaben. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe-I (S. 46-68). Münster: Waxmann. DESI -Konsortium [Eckhard Klieme, Wolfgang Eichler, Andreas Helmke, Rainer H. Lehmann, Günter Nold, Hans-Günter Rolff, Konrad Schröder, Günther Thomé & Heiner Willenberg]. (Hrsg.). (2008). Unterricht und Kompetenzerwerb in Deutsch und Englisch: Ergebnisse der DESI -Studie. Weinheim: Beltz. [abrufbar unter http: / / www.pedocs.de/ volltexte/ 2010/ 3149/ pdf/ 978_3_407_25491_7_1A_D_A.pdf] Dlaska, Andrea & Krekeler, Christian. (2009). Sprachtests: Leistungsbeurteilungen im Fremdsprachenunterricht evaluieren und verbessern. Baltmannsweiler: Schneider Verlag Hohengehren. Europarat. (2001). Gemeinsamer europäischer Referenzrahmen für Sprachen: Lernen, lehren, beurteilen. Berlin: Langenscheidt. [abrufbar unter http: / / www.coe.int/ lang und http: / / student.unifr.ch/ pluriling/ assets/ files/ Referenzrahmen2001.pdf] Fulcher, Glenn. (2016). Standards and frameworks. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 29-44). Boston: De Gruyter. Goldhammer, Frank & Hartig, Johannes. (2012). Interpretation von Testresultaten und Testeichung. In Helfried Moosbrugger & Augustin Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (2., aktual. und überarb. Aufl., S. 173-201). Heidelberg: Springer. Groß Ophoff, Jana. (2013). Lernstandserhebungen: Reflexion und Nutzung. Münster: Waxmann. Grotjahn, Rüdiger. (2008). Tests und Testaufgaben: Merkmale und Gütekriterien. In Bernd Tesch, Eynar Leupold & Olaf Köller (Hrsg.), Bildungsstandards Französisch: konkret. Sekundarstufe I: Grundlagen, Aufgabenbeispiele und Unterrichtsanregungen (S. 149-186). Berlin: Cornelsen Scriptor. Grotjahn, Rüdiger & Kleppin, Karin. (2015). Prüfen, Testen, Evaluieren. München: Klett-Langenscheidt. Hamp-Lyons, Liz. (2016). Purposes of assessment. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 13-27). Boston: De Gruyter. Harsch, Claudia. (2009). Externe Evaluation: Verhältnis zum fremdsprachlichen Unterricht. Praxis Fremdsprachenunterricht, 1, 9-14. Harsch, Claudia. (2016). Standardorientierung im Kontext des Lernens und Lehrens von Sprachen. In Eva Burwitz-Melzer, Grit Mehlhorn, Claudia Riemer, Karl-Richard Bausch & Hans-Jürgen Krumm (Hrsg.), Handbuch Fremdsprachenunterricht (6., völlig überarb. und erweiterte Aufl., S. 88-92). Tübingen: Francke. Hudson, Thom. (2012). Standards-based testing. In Glenn Fulcher & Fred Davidson (Hrsg.), Routledge handbook of language testing (S. 479-494). New York: Routledge. Hudson, Thom. (2014). Criterion-referenced approach to language assessment. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 561-577). Chichester: Wiley-Blackwell. Huhta, Ari. (2008). Diagnostic and formative assessment. In Bernard Spolsky & Francis M. Hult (Hrsg.), The handbook of educational linguistics (S. 469-482). Malden, MA : Blackwell. Ingenkamp, Karlheinz & Lissmann, Urban. (2008). Lehrbuch der Pädagogischen Diagnostik (6. Aufl.). Weinheim: Beltz. <?page no="40"?> 39 Literatur Jang, Eunice E. & Wagner, Maryam. (2014). Diagnostic feedback in the classroom. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 693-711). Chichester: Wiley-Blackwell. doi: 0.1002/ 9781405198431.wbeal0042 Jones, Neil & Saville, Nick. (2016). Learning oriented assessment: A systemic approach. Cambridge: Cambridge University Press. Katz, Anne & Gottlieb, Margo. (2013). Assessment in the classroom. In Carol A. Chapelle (Hrsg.), The encyclopedia of applied linguistics (S. 1-8). Chichester: Wiley-Blackwell. doi: 0.1002/ 9781405198431.wbeal0042 Kieweg, Werner. (Hrsg.). (2010). Diagnostizieren und fördern [Thementeil]. Der Fremdsprachliche Unterricht Englisch, 44(105). Kleppin, Karin. (2008). Selbstevaluation. In Bernd Tesch, Eynar Leupold & Olaf Köller (Hrsg.), Bildungsstandards Französisch: konkret. Sekundarstufe I: Grundlagen, Aufgabenbeispiele und Unterrichtsanregungen (S. 205-215). Berlin: Cornelsen Scriptor. KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2004). Bildungsstandards für die erste Fremdsprache (Englisch / Französisch) für den Mittleren Schulabschluss. Beschluss vom 4. 12. 2003. Neuwied: Luchterhand. [abrufbar unter http: / / www.kmk.org/ bildung-schule/ qualitaetssicherung-in-schulen/ bildungsstandards/ dokumen te.html] Kniffka, Gabriele. (2016). Verfahren der Lernstandserhebung. In Eva Burwitz-Melzer, Grit Mehlhorn, Claudia Riemer, Karl-Richard Bausch & Hans-Jürgen Krumm (Hrsg.), Handbuch Fremdsprachenunterricht (6., völlig überarb. und erweiterte Aufl., S. 403-407). Tübingen: Francke. Knoch, Ute. (2009). Diagnostic writing assessment: The development and validation of a rating scale. Frankfurt am Main: Lang. Köller, Olaf, Knigge, Michel & Tesch, Bernd. (Hrsg.). (2010). Sprachliche Kompetenzen im Ländervergleich. Münster: Waxmann. Lee, Yong-Won. (2015). Diagnosing diagnostic language assessment. Language Testing, 32(3), 299-316. doi: 0.1177/ 0265532214565387 Moss, Pamela A. (2016). Shifting the focus of validity for test use. Assessment in Education: Principles, Policy & Practice, 23(2), 236-251. doi: 10.1080/ 0969594X.2015.1072085 Oscarson, Mats. (2014). Self-assessment in the classroom. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 712-729). Chichester: Wiley- Blackwell. Petermann, Franz & Eid, Michael. (Hrsg.). (2006). Handbuch der Psychologischen Diagnostik. Göttingen: Hogrefe. Pižorn, Karmen & Huhta, Ari. (2016). Assessment in educational settings. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 239-254). Boston: De Gruyter. Purpura, James E. (2016). Second and foreign language assessment. The Modern Language Journal, 100(Supplement S1), 190-208. doi: 10.1111/ modl.12308 Roche, Jörg. (2010). Fremdevaluation und Selbstevaluation. In Wolfgang Hallet & Frank G. Königs (Hrsg.), Handbuch Fremdsprachendidaktik (S. 228-231). Seelze-Velber: Kallmeyer. Rossa, Henning. (2016a). Wie verändern Bildungsstandards und zentrale Prüfungen den Fremdsprachenunterricht? Skizze eines Forschungsdesiderats zu intendierten und beobachteten Effekten der Standard- und Kompetenzorientierung. Zeitschrift für Fremdsprachenforschung, 27(1), 99-122. Rossa, Henning. (2016b). Testen und Prüfen. In Eva Burwitz-Melzer, Grit Mehlhorn, Claudia Riemer, Karl-Richard Bausch & Hans-Jürgen Krumm (Hrsg.), Handbuch Fremdsprachenunterricht (6., völlig überarb. und erweiterte Aufl., S. 399-403). Tübingen: Francke. <?page no="41"?> 40 3 Typen und Funktionen der Evaluation von Schreibkompetenzen Sawaki, Yasuyo. (2016). Norm-referenced vs. criterion-referenced approach to assessment. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 45-60). Boston: De Gruyter. Stanat, Petra, Böhme, Katrin, Schipolowski, Stefan & Haag, Nicole. (Hrsg.). (2016). JQB - Bildungstrend 2015: Sprachliche Kompetenzen am Ende der 9. Jahrgangsstufe im zweiten Ländervergleich. Münster: Waxmann. [abrufbar unter http: / / www.iqb.hu-berlin.de/ bt/ BT2015/ Bericht] Suomela-Salmi, Eija. (2010). What is alternative assessment? In Fred Dervin & Eija Suomela-Salmi (Hrsg.), New approaches to assessing language and (inter-)cultural competences in higher education / Nouvelles approches de l’évaluation des compétences langagières et (inter-)culturelles dans l’enseignement supérieur (S. 209-233). Frankfurt am Main: Lang. Tsagari, Dina & Csépes, Ildikó. (Hrsg.). (2011). Classroom-based language assessment. Frankfurt am Main: Lang. Turner, Carolyn E. & Purpura, James E. (2016). Learning-oriented assessment in second and foreign language classrooms. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 255-273). Boston: De Gruyter. Yin, Muchun. (2014). Portfolio assessment in the classroom. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 659-676). Chichester: Wiley-Blackwell. <?page no="42"?> 41 4 Gütekriterien bei der Evaluation von Schreibkompetenzen Rüdiger Grotjahn & Karin Kleppin Die Qualität einer Evaluation wird üblicherweise anhand von bestimmten Gütekriterien beurteilt. Nur wenn diese hinreichend erfüllt sind, lassen sich die Interpretationen (z. B. von Punktwerten im Hinblick auf die Kompetenzstufen des GER ) und die auf der Basis der Punktwertinterpretationen getroffenen Entscheidungen (z. B. hinsichtlich unterrichtlicher Maßnahmen) rechtfertigen. In welchem Ausmaß die einzelnen Gütekriterien erfüllt sein müssen, hängt von den mit der Evaluation verbundenen Zielen und Konsequenzen ab. Sollen z. B. spezifische Aussagen über einzelne Individuen formuliert werden, sind in der Regel höhere Ansprüche an die Messgenauigkeit zu stellen, als wenn globale Aussagen über Gruppen gemacht werden sollen. Handelt es sich darüber hinaus um eine High-Stakes-Evaluation, d. h. um eine Evaluation mit weitreichenden Konsequenzen für die Betroffenen wie z. B. im Fall des Abiturs (vgl. Kapitel-3), sind ebenfalls höhere Ansprüche an die Präzision der Messung zu stellen als im Fall einer Evaluation ohne gravierende Konsequenzen. Mittlerweile besteht Einigkeit darüber, dass die jeweilige Verwendung eines Evaluationsinstruments sowie die sich hieraus ergebenden Konsequenzen bei der Beurteilung der Qualität einer Evaluation stets mit zu berücksichtigen sind. Auf diesen Sachverhalt weist auch Purpura (2016) in einem aktuellen Überblicksartikel zur Evaluation von zweit- und fremdsprachlichen Kompetenzen explizit hin: Most now recognize that assessments are used to make decisions in real-world contexts, involving factors outside the assessment itself, where the probability of making the ‘right’ decision about individual attributes or research questions is not only a function of the quality of the assessment and the related interpretations, but also a function of the use of the assessment for some intended purpose, together with the consequences of making those decisions. (S. 192 f.) 4.1 Evaluation von Schreibkompetenzen: Spezifika Während zur Evaluation von Lese- und Hörverstehenskompetenzen zumeist geschlossene und (weitgehend) objektiv auswertbare Aufgaben zum Einsatz kommen, ist ein Spezifikum einer kompetenz- und handlungsorientierten Überprüfung von Schreibfähigkeiten, 4 dass in der Regel offene Aufgabenformate mit einem beträchtlichen Bewertungsspielraum eingesetzt werden. Ein entscheidendes Merkmal ist dabei, dass die Aufgaben wesentliche Merkmale der lebensweltlichen Schreibhandlungen simulieren oder zumindest prototypisch abbilden, die 4 Kompetenz ist im vorliegenden Band im Sinne eines nicht unmittelbar beobachtbaren latenten Merkmals und komplexen theoretischen Konstrukts zu verstehen. Schreibleistungen sind damit lediglich mehr oder minder reliable und valide Indikatoren für die zu messenden Schreibkompetenzen, dürfen aber nicht mit diesen gleich gesetzt werden (vgl. die tiefer gehenden Ausführungen zum Kompetenzbegriff und zum Testkonstrukt in Kapitel-5). <?page no="43"?> 42 4 Gütekriterien bei der Evaluation von Schreibkompetenzen die Testteilnehmenden außerhalb der Testsituation bewältigen sollen (vgl. auch die Bemerkungen zur Authentizität in Kapitel-4.2.4.2). Von den Schreibaktivitäten in der Testsituation-- in diesem Zusammenhang auch als Performanz (engl. performance) bezeichnet-- soll dann auf die Fähigkeit zur Realisierung ähnlicher Schreibaktivitäten außerhalb der Testsituation und / oder auf hierfür wichtige Kompetenzen zurückgeschlossen werden (vgl. auch die Ausführungen zum Testkonstrukt in Kapitel-5). Ein entsprechendes performanzbasiertes Vorgehen wird auch als performanzbasierte Evaluation (performance-based assessment / testing) bezeichnet und das eingesetzte Instrument als Performanztest (performance assessment / test). Zur performanzbasierten Evaluation sind auch Formen der aufgabenbasierten Evaluation (task-based language assessment) und der aufgabenzentrierten Evaluation (task-centered language assessment) zu rechnen (vgl. Purpura, 2016, S. 195 f.). Dies gilt insbesondere dann, wenn die Bearbeitung der Aufgaben als eine funktionale Aktivität angesehen wird, in der ein Individuum Sprache in einem bestimmten Kontext zur Erreichung eines Ziels einsetzt (vgl. Van Gorp & Deygers, 2014, S. 579 sowie Bachman, 2007; Brindley, 2013; Fischer, Chouissa, Dugovičová & Virkkunen-Fullenwider, 2011a, 2011b und Norris, 2016). Performanzbasierte Evaluationsformen zielen auf eine (relativ) direkte Messung von Schreibleistungen und stehen damit im deutlichen Gegensatz z. B. zu einer indirekten Messung von Schreibleistungen anhand von geschlossenen Aufgaben zu Grammatik und Lexik. Mit Hilfe einer performanzbasierten Evaluation soll zum einen eine höhere Validität (Gültigkeit) der Messung von Schreibleistungen erreicht werden (vgl. Kapitel-4.2.3 sowie Kapitel-5). Zum anderen ist häufig auch eine positive Rückwirkung auf den Unterricht und eine intrinsische Motivierung der Testteilnehmenden intendiert (vgl. Yu, 2014). Dem steht allerdings u. a. als Nachteil gegenüber, dass eine zuverlässige und gültige Messung von Fähigkeiten und Fertigkeiten anhand von Performanztests in der Regel relativ aufwändig ist. Dies gilt z. B. im Hinblick auf die zur Testdurchführung benötigte Zeit oder bezüglich der Beurteilung der gezeigten Leistung (vgl. die Hinweise zur Praktikabilität und Ökonomie in Kapitel-4.2.4.4). Aus den genannten Gründen müssen in der Praxis u. a. bei der Zahl der eingesetzten Aufgaben und bei der Beurteilung der erbrachten Leistungen in der Regel Abstriche gemacht werden. Bei einem Performanztest zur Messung von Schreibkompetenzen kann es sich z. B. um ein durch Vorgaben gesteuertes Schreiben einer Anfrage bei einem Hostel (zu Zimmern, Leistungen und Aktivitäten), um eine komplexe Argumentation auf der Basis einer vorgegebenen Grafik oder auch um das Ausfüllen eines Formulars handeln. Die Schreibleistungen werden anhand von vorher festgelegten Kriterien durch entsprechend ausgebildete Beurteilende (z. B. Lehrerinnen und Lehrer) bewertet. Die von den Testteilnehmenden gezeigte Leistung und das abschließende Urteil über die Schreibkompetenz hängen damit nicht nur von der zu messenden Kompetenz und zusätzlichen konstruktirrelevanten Merkmalen der Testteilnehmenden (z. B. Prüfungsangst, soziokultureller Hintergrund) selbst ab. Vielmehr spielen u. a. auch Merkmale der Schreibaufgabe (z. B. kognitive Anforderungen), die verwendeten Beurteilungskriterien (z. B. fokussierte Bewertungsaspekte, Präzision, Eindeutigkeit) sowie Merkmale der Beurteilenden (z. B. Strenge / Milde, Verhaltenskonsistenz, Ausmaß an Schu- <?page no="44"?> 43 4.2 Typen und Funktionen von Gütekriterien lung) eine Rolle. Diese komplexen Wechselwirkungen insbesondere zwischen den Merkmalen der verwendeten Aufgaben, Beurteilungskriterien und Beurteilenden machen die Bewertung von Schreibkompetenzen zu einem anspruchsvollen Unterfangen und stellen hohe Ansprüche an die eingesetzten Aufgaben, die verwendeten Kriterienraster und die Kompetenzen der Beurteilenden. 4.2 Typen und Funktionen von Gütekriterien Es gibt eine Vielzahl von Kriterien zur Einschätzung der Qualität der eingesetzten Aufgaben, der verwendeten Beurteilungskriterien, der Beurteilenden, der Angemessenheit des Vorgehens bei der Evaluation sowie der Güte der auf der Basis der Evaluationsergebnisse gezogenen Schlüsse und getroffenen Entscheidungen. Von zentraler Bedeutung sind in diesem Zusammenhang die Gütekriterien der Validität (Gültigkeit), Reliabilität (Zuverlässigkeit) und Objektivität, wobei Reliabilität und Objektivität allerdings nicht immer als eigenständige Gütekriterien gesehen werden. So wird häufig die Objektivität auch als ein spezieller Aspekt der Reliabilität gesehen (siehe Kapitel-4.2.2.1). Ebenso kann wiederum Reliabilität als ein spezieller Aspekt bzw. als Grundvoraussetzung von Validität betrachtet werden (siehe Kapitel-4.2.3.1). Schließlich wird in der jüngeren Diskussion zunehmend auch Fairness als wichtiges (eigenständiges) Gütekriterium hervorgehoben. Neben diesen „Hauptgütekriterien“ werden als weitere mehr oder minder eigenständige „Nebengütekriterien“ z. B. Nützlichkeit, Ökonomie, Praktikabilität, Normierung, Skalierung, Zumutbarkeit, Schwierigkeit, Trennschärfe, Standardisierung, Rückwirkung auf den Unterricht (Washback/ Backwash), Authentizität, Transparenz sowie Handlungs- und Kompetenzorientierung genannt, wobei allerdings vor allem die Nützlichkeit zuweilen als zentrales Gütekriterium gesehen wird. Im Folgenden werden eine Reihe der genannten Kriterien im Hinblick auf ihre Relevanz für die (unterrichtliche) Prüfungspraxis kurz beschrieben- - mit einem Schwerpunkt auf wichtigen Aspekten von Objektivität, Reliabilität und Validität. Dabei werden wir auch eine Reihe von nützlichen terminologischen Differenzierungen vornehmen, auf die wir dann in den weiteren Kapiteln des vorliegenden Buches zurückgreifen können (vgl. zum Folgenden auch Grotjahn, 2008; Grotjahn & Kleppin, 2008; Grotjahn & Kleppin, 2015, Kap. 3.4). 4.2.1 Objektivität und Standardisierung Das Kriterium der Objektivität kann sich auf die Durchführung der Schreibprüfung (Durchführungsobjektivität), die Beurteilung der Schreibleistung (Beurteilungsobjektivität) und die Interpretation der Ergebnisse (Interpretationsobjektivität) beziehen (vgl. auch Moosbrugger & Kelava, 2012, S. 8-10). Entsprechend sind die schriftlichen Aufgaben so zu konstruieren, einzusetzen und auszuwerten, dass die anhand der Ergebnisse gezogenen Schlussfolgerungen u. a. unabhängig sind von den Personen, die a)- die Prüfung durchführen, b)- die Schreibleistung z. B. anhand einer Punktzahl beurteilen und c)-letztendlich eine Interpretation der Ergebnisse z. B. in Form einer Benotung vornehmen. Beim unterrichtsbezogenen schu- <?page no="45"?> 44 4 Gütekriterien bei der Evaluation von Schreibkompetenzen lischen Evaluieren handelt es sich zumeist um dieselbe Person, nämlich die jeweilige Lehrkraft. Die Forderung nach Durchführungsobjektivität bedeutet konkret, dass beim Einsatz des Tests z. B. darauf zu achten ist, dass die Lehrkräfte alle Schülerinnen und Schüler in der Prüfungssituation prinzipiell gleich behandeln. Eine hohe Durchführungsobjektivität kann man u. a. erreichen, indem beim Test alle Teilnehmenden die gleichen Arbeitsanweisungen erhalten und auf die gleichen Hilfsmittel (z. B. Wörterbücher) zurückgreifen können (vgl. Kapitel-7). Sollten Schülerinnen und Schüler signalisieren, dass sie einen Begriff in der Aufgabenstellung nicht verstehen, dann sollte zur Wahrung der Durchführungsobjektivität eine eventuelle Klärung des Begriffs für alle Testteilnehmenden erfolgen. Um dem Kriterium der Beurteilungsobjektivität zu genügen, d. h. um die notwendigerweise auftretende Subjektivität der Messung von Schreibleistungen anhand von Performanztests möglichst gering zu halten, gilt in Bezug auf die zu stellenden Aufgaben, dass z. B. klare Vorgaben zu formulieren sind, an denen sich die Schülerinnen und Schüler beim Schreiben orientieren. So sollte z. B. im Fall offener Schreibaufgaben angegeben werden, welche inhaltlichen Punkte von den Schülerinnen und Schülern anzusprechen sind und welche ungefähre Wortzahl das Schreibprodukt aufweisen sollte (vgl. Kapitel-7). Weiterhin sind angemessene Kriterien für die Beurteilung der Schreibprodukte durch die Lehrkräfte zu formulieren. Die Beurteilungskriterien unter Einschluss des Erwartungshorizonts sollten den Lernenden transparent gemacht werden, damit diese wissen, welche Aspekte (z. B. inhaltliche Gestaltung, sprachliche Korrektheit, Textsortenadäquatheit) sie beim Schreiben fokussieren sollen. Außerdem sollte die Bewertung nicht von den Leistungserwartungen der Lehrkraft bezüglich einzelner Lernender oder auch von individuellen Urteilstendenzen (wie Strenge / Milde oder Vermeidung von Extremwerten) abhängen. Diese im Hinblick auf die Fairness einer Prüfung wichtige Voraussetzung kann man z. B. dadurch zu erreichen suchen, dass man in bestimmten (High-Stakes-)Prüfungssituationen einen zweiten unabhängigen Bewertenden einsetzt (vgl. Kapitel-6). Interpretationsobjektivität kann schließlich dadurch gewährleistet werden, dass genau festgelegt wird, welche Leistungen z. B. als „gut“ und welche noch als „ausreichend“ zu bewerten sind. Prüfende sollten zur Gewährleistung der Interpretationsobjektivität bei derselben Punktzahl stets zu derselben Benotung kommen. Der Prozess der Vereinheitlichung der zu stellenden Aufgaben, der Durchführung der Prüfung, der Beurteilung der Leistungen sowie der Interpretation der Ergebnisse wird auch als Standardisierung bezeichnet. Standardisierung hilft nicht nur dem Kriterium der Objektivität zu genügen, sondern kann auch einen wichtigen Beitrag zur Reliabilität, Validität und Fairness von Prüfungen leisten. Außerdem ist nur im Fall einer hinreichenden Standardisierung eine verlässliche Einschätzung der Qualität einer Schreibprüfung im Hinblick auf die intendierten Prüfungsteilnehmenden und Einsatzbereiche möglich (vgl. Moss, 2016, S. 238). Bei Lernenden mit spezifischen Behinderungen, wie einer Rechtschreibschwäche, kann ein standardisierter Testeinsatz allerdings dazu führen, dass die Lernenden die zu messenden Kompetenzen nicht in optimaler Weise zeigen können und als Folge nicht hinreichend valide <?page no="46"?> 45 4.2 Typen und Funktionen von Gütekriterien und fair beurteilt werden. Ähnliches kann für Lernende mit einem Migrationshintergrund gelten. Es können dann testteilnehmerspezifische Anpassungen, wie z. B. ein Verzicht auf die Bewertung der Rechtschreibleistung, nötig sein. Es ist allerdings stets zu prüfen, inwieweit etwaige Anpassungen mit dem Ziel eines Nachteilsausgleichs die zu erfassenden Aspekte von Schreibkompetenz und damit das Testkonstrukt verändern (vgl. z. B. American Educational Research Association et al., 2014, S. 67-70, 190-191 sowie auch die Ausführungen zum Testkonstrukt in Kapitel-5). Außerdem ist etwa im Rahmen einer lernorientierten Evaluation, die darauf zielt, mit Hilfe von Feedback das Lernen zu fördern, eine Standardisierung der Evaluation in der Regel weder sinnvoll noch wünschenswert (vgl. hierzu Jones & Saville, 2016 sowie auch Kapitel-9 im vorliegenden Band). 4.2.2 Reliabilität 4.2.2.1 Reliabilität als umfassendes Konzept Eine ausreichende Objektivität gilt in der Regel als eine notwendige Voraussetzung für eine zufriedenstellende Reliabilität (Zuverlässigkeit / Verlässlichkeit) und wird deshalb auch häufig als ein spezifischer Aspekt der Reliabilität gesehen. Wenn z. B. eine Lehrkraft aufgrund subjektiver Vorlieben bei bestimmten Schülerinnen und Schülern besonders milde urteilt, so hat dies Auswirkungen auf die Messgenauigkeit. Reliabilität kann sich u. a. auf die Präzision der verwendeten Instrumente, die Konsistenz der resultierenden Messwerte (Punktwerte) und die Verlässlichkeit der anhand der Messwerte getroffenen kriterialen Entscheidungen beziehen 5 -- und zwar unabhängig davon, ob wirklich die Merkmale gemessen werden, die gemessen werden sollen. Bei den kriterialen Entscheidungen kann es sich z. B. um die Zuordnung zu einer GER -Niveaustufe oder um die Zulassung zu einem Sprachkurs handeln (vgl. auch Kapitel-4.2.2.5). Zur Bezeichnung dieser unterschiedlichen Bedeutungen und Verwendungsweisen wird in der neuesten Version der Standards for Educational and Psychological Testing auch das Begriffspaar Reliability / Precision verwendet (siehe American Educational Research Association et al., 2014, Kap. 2). Zur Vereinfachung der Darstellung verwenden wir im Folgenden Reliabilität in einer weiten Bedeutung, die alle genannten Aspekte mit beinhaltet. Reliabilität im Sinne von Messfehlerfreiheit wird im Hinblick auf eine bezugsgruppenorientierte Messung in der klassischen Testtheorie als Anteil der Varianz der ‚wahren‘ (idealen, messfehlerfreien) Werte an der tatsächlichen Varianz der vom Test gelieferten Messwerte definiert und anhand der beobachteten Testwerte in Form eines Reliabilitätskoeffizienten 5 Geht es speziell um die Verlässlichkeit von kriterialen Entscheidungen, wird in englischsprachigen Publikationen in Abhebung zum klassischen Konzept der Reliabilität auch der Terminus dependability verwendet (vgl. Hudson, 2014; Jones, 2012; Sawaki, 2016). Dabei kann zwischen der Konsistenz und der Genauigkeit von Entscheidungen differenziert werden. <?page no="47"?> 46 4 Gütekriterien bei der Evaluation von Schreibkompetenzen geschätzt (vgl. z. B. Schermelleh-Engel & Werner, 2012). 6 Bei standardisierten Tests ist die Berechnung eines Reliabilitätskoeffizienten ein notwendiger Bestandteil der Qualitätssicherung. Der Wert 0 zeigt völlig fehlende Reliabilität an (der Test produziert nur Messfehler) und der Wert 1 eine perfekte Reliabilität (keine Messfehler). Beim Testen sprachlicher Kompetenzen treten stets Messfehler auf (vgl. die folgenden Ausführungen). Je nach Kontext und zu treffenden Entscheidungen ist man daher mit deutlich niedrigeren Reliabilitätswerten als 1 zufrieden. Die klassische Reliabilitätstheorie geht davon aus, dass die beobachtete Varianz der Testwerte ausschließlich durch das zu messende Merkmal sowie zufällige Messfehler bedingt ist. Dabei wird das zu messende Merkmal, wie z. B. Schreibkompetenz, in der Regel als relativ konstante Disposition der aktuellen und potenziellen Testteilnehmenden verstanden. Die sogenannte Generalisierbarkeitstheorie als Weiterführung der klassischen Reliabilitätstheorie teilt die Messfehler darüber hinaus in einen nichtsystematischen Anteil (Zufallsfehler) und einen systematischen konstruktirrelevanten Anteil auf (vgl. auch die Ausführungen zur konstruktirrelevanten Varianz in Kapitel 4.2.3.3). Unter die Kategorie Zufallsfehler fällt etwa die unsystematische Beeinträchtigung der Leistung durch äußere Einflüsse wie z. B. nicht vorhersehbare Müdigkeit. Der systematische konstruktirrelevante Anteil kann im Fall der Messung von Schreibkompetenzen z. B. in folgende Komponenten (Facetten) zerlegt werden: Prüfungsteilnehmende (z. B. Gruppen von Erstsprachen), Aufgaben (z. B. unterschiedliche Themen und Textsorten), Beurteilende (z. B. Muttersprachler vs. Nicht-Muttersprachler) und Bewertungskriterien (z. B. analytisch vs. holistisch) (vgl. Brennan, 2011; Eckes, 2015a, S. 164 sowie auch Kapitel-6). Ziel ist eine Schätzung des Effekts sowohl des Zufallsfehlers als auch der systematischen konstruktirrelevanten Messfehlerkomponenten auf die Güte der Messung der Schreibkompetenz. Damit sollen Aussagen ermöglicht werden hinsichtlich der Generalisierbarkeit der Interpretation der Testwerte (z. B. über die jeweils eingesetzten Aufgaben hinaus) und der Verlässlichkeit der anhand der Testwerte getroffenen kriterialen Entscheidungen. Entsprechende Informationen können dann für eine Optimierung des Messinstruments sowie der Test- und Auswertungsprozeduren genutzt werden, z. B. bezüglich der Zahl der einzusetzenden Schreibtexte und Beurteilenden. Die Generalisierbarkeitstheorie fokussiert damit zugleich auch wichtige Aspekte der Validität (vgl. Kapitel 4.2.3). 7 6 Reliabilität im Sinne einer bezugsgruppenorientierten Evaluation auf der Basis der klassischen Testtheorie ist deutlich zu unterscheiden von der Konzeptualisierung von Reliabilität im Rahmen einer kriteriumsorientierten Evaluation (zum Unterschied zwischen bezugsgruppenorientierter und kriteriumsorientierter Evaluation vgl. Kapitel-3.2.1 und 6.3). Zur Reliabilität im Sinne von dependability und zu statistischen Verfahren zur Beurteilung des Grades des Verlässlichkeit (Konsistenz, Genauigkeit) kriterialer Entscheidungen siehe z. B. Brown & Hudson (2002), Hudson (2014), Jones (2012) und Sawaki (2016). 7 Das sogenannte Multifacetten-Rasch-Modell ermöglicht ebenfalls eine Berücksichtigung systematischer konstruktirrelevanter Einflüsse. Zusätzlich erlaubt dieses Modell auch eine Adjustierung der Ergebnisse der Testteilnehmenden in Form sogenannter fairer Werte (vgl. z. B. Eckes, 2010, 2015a). In Anbetracht der Komplexität des Modells und der für den Einsatz notwendigen relativ großen Teilnehmergruppen werden wir im vorliegenden Band nicht weiter auf das Multifacetten-Rasch-Modell eingehen. <?page no="48"?> 47 4.2 Typen und Funktionen von Gütekriterien Bezieht man sich ohne weitere Differenzierung auf die Zuverlässigkeit des gesamten Messinstruments im Hinblick auf eine bestimmte Population von Testteilnehmenden und einen bestimmten Einsatzbereich, spricht man auch von der Testreliabilität. Vor dem Hintergrund der Generalisierbarkeitstheorie kann man konzeptuell und statistisch insbesondere folgende in komplexer Wechselwirkung stehende Facetten der Testreliabilität unterscheiden: Reliabilität der Aufgaben (Aufgabenreliabilität), Reliabilität der Beurteilungskriterien bzw. Beurteilungsskalen (Skalenreliabilität) sowie Reliabilität der Beurteilenden (Beurteilerreliabilität/ Raterreliabilität). Häufig wird im Zusammenhang mit der Reliabilität eines Messinstruments noch der sogenannte Standardmessfehler zur Beurteilung der Güte der Messung herangezogen. Der Standardmessfehler lässt sich im Rahmen der klassischen Testtheorie anhand der Reliabilität und Streuung der Messwerte berechnen. Er zeigt an, wie gut ein beobachteter Testwert den „wahren“ Wert des Testteilnehmenden schätzt und gilt in seiner klassischen Form global für die gesamte Messwertskala. Darüber hinaus lässt sich- - allerdings aufwändiger- - z. B. mit Hilfe der Generalisierbarkeitstheorie oder probabilistischer Messmodelle ein bedingter, variabler Messfehler für jeden Skalenwert berechnen. Dieser trägt der Tatsache Rechnung, dass mit zunehmender Diskrepanz zwischen der Fähigkeit der Testteilnehmenden und der Testbzw. Aufgabenschwierigkeit auch der Fehler bei der Messung der individuellen Leistung tendenziell zunimmt. 4.2.2.2 Aufgabenreliabilität Aufgabenreliabilität bedeutet u. a., dass die Aufgaben- - unter Einschluss der Instruktion, Situierung sowie Inputmaterialien- - eine über die betreffenden Aufgaben hinausgehende Generalisierung hinsichtlich der zu erwartenden Leistungen bei äquivalenten Testaufgaben, Testsituationen, Bewertungskriterien und Beurteilenden erlauben (Gültigkeit der sogenannten Generalisierungsinferenz). Gerade bei Schreibaufgaben ist das Erreichen einer zufriedenstellenden Aufgabenreliabilität im Sinne von statistischer Generalisierbarkeit ein massives Problem, da die Art der eingesetzten Aufgaben einen deutlichen Einfluss auf das Messergebnis haben kann. So führen Unterschiede im Genre (z. B. zwischen Erzählungen und Beschreibungen) oder auch Aufgaben mit unterschiedlichen thematischen Schwerpunkten oder mit unterschiedlichen Zeitvorgaben bei den gleichen Testteilnehmenden häufig zu deutlich divergierenden Messwerten. Zudem konnten z. T. massive Wechselwirkungen zwischen Aufgabe, Beurteilenden und Beurteilungskriterien nachgewiesen werden (vgl. z. B. Bouwer, Béguin, Sanders & van den Bergh, 2015; In’nami & Koizumi, 2016; Schoonen, 2005; Van Steendam, Tillema & Rijlaarsdam, 2012). Das Problem der Aufgabenreliabilität stellt sich gerade auch im unterrichtlichen Kontext, da Lehrkräfte häufig die Schreibkompetenz nur anhand einer einzigen längeren Aufgabe überprüfen und die Ergebnisse dann als Beleg für ein weit gefasstes Konstrukt „Schreibkompetenz“ interpretieren. Angesichts des Einflusses insbesondere der eingesetzten Aufgaben auf das Messergebnis, sollte ein Urteil über ein breit definiertes Konstrukt stets auf mehreren, in ihren Anforderungen deutlich unterschiedlichen Schreibaufgaben beruhen. Werden nur <?page no="49"?> 48 4 Gütekriterien bei der Evaluation von Schreibkompetenzen eine Schreibaufgabe oder mehrere vom Typ her homogene Aufgaben eingesetzt (z. B. Aufgaben zum Schreiben argumentativer Texte), dann ist die Breite des Konstrukts hinreichend einzuschränken (z. B. als Fähigkeit zum Schreiben argumentativer Texte). Ist der Einsatz mehrerer Schreibaufgaben innerhalb einer Prüfung nicht möglich, sollte zumindest zeitlich versetzt mit unterschiedlichen Aufgabenformaten geprüft werden. Sind aus Gründen der Praktikabilität lediglich kurze Textproduktionen gefordert, sollte man sich zudem darüber im Klaren sein, dass möglicherweise andere Kompetenzen erfasst werden als anhand von längeren Texten (z. B. im Bereich Kohärenz/ Kohäsion; vgl. Kapitel-5, 6 und 8). Die Beispiele zeigen zugleich, dass eine Erhöhung der Reliabilität, z. B. durch Vergrößerung der Zahl der Aufgaben, zwar prinzipiell wünschenswert ist, aber nicht notwendigerweise auch zu einer valideren Messung führt und unter bestimmten Voraussetzungen die Validität (im Sinne von Konstruktrepräsentation) sogar verringern kann (vgl. zum Verhältnis von Reliabilität und Validität sowie zur Unterrepräsentation des Konstrukts auch Kapitel 4.2.3.3). 4.2.2.3 Kriterien- und Beurteilerreliabilität Die Kriterienreliabilität bezieht sich auf den Einfluss der eingesetzten Kriterien, Skalen und Raster (z. B. holistische oder analytische Skala; Fokus der jeweiligen Skala) auf die Beurteilung von Schreibkompetenzen (vgl. auch Kapitel- 6). Entsprechend wird im vorliegenden Band zuweilen auch der Begriff Skalenreliabilität verwendet. Die Beurteilerreliabilität erfasst den Einfluss der eingesetzten Bewertenden auf das resultierende Urteil. Dabei ist zwischen der Intrarater-Reliabilität und der Interrater-Reliabilität zu unterscheiden. Bezogen auf den Unterrichtskontext bedeutet dies u. a.: Eine hinreichende Intrarater-Reliabilität ist dann gegeben, wenn ein und dieselbe Lehrkraft sich bei der Beurteilung der Schreibprodukte seiner Schülerinnen und Schüler in konsistenter Weise an den Bewertungskriterien orientiert (z. B. die Kriterien bei den einzelnen Schülerinnen und Schülern in vergleichbarer Weise interpretiert oder auch in vergleichbarer Weise streng oder milde urteilt). Eine hinreichende Interrater-Reliabilität ist gegeben, wenn unterschiedliche Lehrkräfte bei der Bewertung ein und desselben Schreibprodukts an Hand derselben Kriterien in ihrem Urteil möglichst weitgehend übereinstimmen, d. h. z. B. nur wenig differierende Punktzahlen vergeben oder die Schülerinnen und Schüler zumindest in eine weitgehend gleiche Rangreihe bringen. 4.2.2.4 Retestreliabilität Schließlich sollte im Sinne der sogenannten Retestreliabilität (Testwiederholungsreliabilität) ein erneuter Einsatz ein und desselben Schreibkompetenztests bei den gleichen Schülerinnen und Schülern zu einer annähernd gleichen Einschätzung der Schreibkompetenz führen, sofern sich in der Zwischenzeit die Schreibkompetenz- - verstanden als relativ stabile Disposition-- nicht z. B. aufgrund des Unterrichts (deutlich) verändert hat und es keine Transfereffekte gibt. Reliabilität der eingesetzten Beurteilenden, Aufgaben und Kriterien sind wichtige Voraussetzungen für eine adäquate Testwiederholungsreliabilität. <?page no="50"?> 49 4.2 Typen und Funktionen von Gütekriterien Aufgrund der komplexen Wechselwirkungen zwischen Merkmalen der getesteten Person, Merkmalen der Aufgabe, Merkmalen der Bewertungskriterien, Merkmalen der Bewertenden und Merkmalen des produzierten Textes ist der spezifische Einfluss der eingesetzten Aufgaben, der verwendeten Kriterien und Skalen sowie der jeweiligen Beurteilenden auf die Reliabilität des resultierenden Messwerts nur sehr eingeschränkt und mit hohem Aufwand abschätzbar. Aufgrund der Wechselwirkungen sind in der Regel die üblichen Maße der Beurteilerübereinstimmung auch nicht als Maß der Reliabilität z. B. der Ratingskala selbst, d. h. als inhärente Eigenschaft der Skala, zu interpretieren, sondern als Maß der Zuverlässigkeit der Ratingskala in Verbindung mit bestimmten Aufgaben und Ratern in einer bestimmten Stichprobe. Wir werden auf die Reliabilität der Beurteilung und insbesondere auf die Frage nach der Reliabilität der verwendeten Kriterien und Skalen noch in Kapitel- 6 zurückkommen. 4.2.2.5 Verlässlichkeit von Entscheidungen Ordnet man Testteilnehmende verschiedenen Kompetenzniveaus zu, handelt es sich um sogenannte absolute Entscheidungen. Diese stellen höhere Anforderungen an die Messgenauigkeit als sogenannte relative Entscheidungen, die lediglich die Rangordnung der Testteilnehmenden betreffen (vgl. Sawaki, 2016 sowie auch die Ausführungen zur kriteriumsorientierten vs. bezugsgruppenorientierten Evaluation in den Kapiteln-3.2.1 und 6.3). Unterteilt man die Testwerteverteilung mit Hilfe von Schwellenwerten (Trennwerten; Cut-Scores) in Kompetenzniveaus, dann ist im Fall eines hohen Standardmessfehlers (vgl. Kapitel-4.2.2.1) die Klassifikation von Teilnehmenden mit Testwerten in der Nähe der Schwellenwerte mit einer hohen Unsicherheit und Gefahr der Fehlklassifikation verbunden. Muss z. B. für die Zulassung zu einem Kurs eine bestimmte Punktzahl erreicht werden, dann ist bei einem Ergebnis knapp unter oder knapp über dem geforderten Wert im Fall eines hohen Standardmessfehlers die Gefahr einer Fehlentscheidung tendenziell größer als im Fall eines geringen Standardmessfehlers. Hierüber sollte man sich beim Einsatz von Schreibprüfungen für Klassifikationsentscheidungen im Klaren sein. Genauere Aussagen zur tatsächlichen Verlässlichkeit von Klassifikationsentscheidungen im Hinblick auf spezifische Trennwerte lassen sich mit Hilfe von speziell für kriteriale Messungen entwickelten Koeffizienten treffen (vgl. z. B. Brown & Hudson, 2002; Hudson, 2014; Sawaki, 2016). 4.2.2.6 Generalisierbarkeit von Schreibleistungen Wie oben bereits angedeutet, belegt mittlerweile eine zunehmende Zahl von statistischen Generalisierbarkeitsstudien, dass der Anteil der Varianz in den Messwerten, der auf die jeweilige Methode der Messung-- und zwar insbesondere auf die Facetten „Aufgaben“ und „Beurteilende“- - zurückzuführen ist, zum Teil größer ist als der Anteil, der durch Unterschiede in der Schreibkompetenz bedingt ist (vgl. z. B. Bouwer et al., 2015; Van Steendam, Tillema & Rijlaarsdam, 2012). Insbesondere der starke Effekt von Genre und Thema auf die Schreibleistung sollte in der unterrichtlichen Prüfungspraxis verstärkt beachtet werden. Geht man von <?page no="51"?> 50 4 Gütekriterien bei der Evaluation von Schreibkompetenzen einer weiten Definition von Schreibkompetenz aus, dann reicht es nicht aus, zur Überprüfung nur auf ein einziges Genre und Thema zurückzugreifen. Außerdem ist noch kritisch anzumerken, dass die beobachteten Aufgabeneffekte nicht notwendigerweise als konstruktirrelevant anzusehen sind. Konzeptualisiert man Schreibkompetenz nicht als eine stabile Disposition, sondern als dynamisches, kontextuell variierendes mehrdimensionales und sich nichtlinear entwickelndes Konstrukt (vgl. z. B. Chalhoub-Deville, 2003; Mislevy & Yin, 2009; Van Steendam, Tillema & Rijlaarsdam, 2012, S. xx; Verspoor, Schmid & Xu, 2012), dann ist in Abhebung von der Generalisierbarkeitstheorie die Varianz, die auf die eingesetzten Aufgaben zurückgeht, als konstruktrelevant zu interpretieren (vgl. auch Bouwer et al., 2015, S. 96). Folgt man dieser Argumentation, hätte dies allerdings u. a. zur Folge, dass Aussagen zum Stand der Schreibkompetenzen stets einschränkend im Hinblick auf die eingesetzten Aufgaben zu formulieren sind, z. B. als Fähigkeit zum Schreiben argumentativer und deskriptiver Texte (vgl. auch die Ausführungen zum Testkonstrukt in Kapitel-5). Abschließend ist noch darauf hinzuweisen, dass die im Zusammenhang mit der Reliabilität mehrfach angesprochene Frage nach der Generalisierbarkeit im Sinne der Gültigkeit der Generalisierungsinferenz nicht zu verwechseln ist mit der Frage, inwieweit ein Test es ermöglicht, anhand der beobachteten Leistungen auf die Fähigkeit zur Bewältigung äquivalenter Schreibaufgaben außerhalb der Testsituation zu schließen. Dieser Schluss, der Generalisierbarkeit normalerweise voraussetzt, wird auch als Extrapolationsinferenz bezeichnet und ist ein Aspekt der im Folgenden besprochenen Validität (vgl. z. B. Kane, 2013, S. 10 f.; 28 f.). 4.2.3 Validität Die Validität (Gültigkeit) gilt als das wichtigste Gütekriterium eines Tests. Es handelt sich allerdings um ein komplexes, kontrovers diskutiertes „polymorphes Konzept“ (Eckes, 2015b), das häufig in einem sehr weiten und unscharfen Sinne oder auch in sehr unterschiedlichen und z. T. inkompatiblen Bedeutungen verwendet wird (vgl. Newton & Shaw, 2014, 2016). Bevor man Validität als Testgütekriterium verwendet, ist deshalb stets zu klären, von welchem Verständnis des Konzepts man ausgeht. 4.2.3.1 Validität als umfassendes Konzept Validität kann sich zunächst einmal auf das Ausmaß beziehen, in dem die Testergebnisse das erfassen, was sie erfassen sollen oder auch inwieweit wir mit Hilfe der Testergebnisse auf die angezielten fremdsprachlichen Verwendungskontexte extrapolieren können (Gültigkeit der Extrapolationsinferenz). Weiterhin kann sich Validität auf die Frage beziehen, inwieweit die mit Hilfe der Testergebnisse getroffenen Entscheidungen gerechtfertigt sind. Die Validität wird damit als von der Interpretation und Verwendung der Testergebnisse abhängig gesehen (vgl. bereits Messick, 1989, 1996, 1998). Ändert sich die Interpretation und / oder Verwendung oder sprechen neue theoretische und / oder empirische Belege für oder gegen die bisherige <?page no="52"?> 51 4.2 Typen und Funktionen von Gütekriterien Interpretation und Verwendung, ist auch die Validität jeweils neu zu bewerten (vgl. hierzu auch Moss, 2016). Der beschriebene Sachverhalt spiegelt sich auch in der folgenden Definition von Validität in der jüngsten Auflage der international höchst einflussreichen Standards for Educational and Psychological Testing (American Educational Research Association et al., 2014) wider: Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests. Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests. The process of validation involves accumulating relevant evidence to provide a sound scientific basis for the proposed score interpretations. It is the interpretations of test scores for proposed uses that are evaluated, not the test itself. (S. 11) Es ist allerdings nicht unumstritten, inwieweit bei der Bewertung der Validität die Verwendung der Testwerte überhaupt eine Rolle spielen sollte. So schließen einige Autoren diesen Aspekt explizit aus ihrem Verständnis von Validität aus und propagieren ein eher enges, konservatives Konzept von Validität. Dies bedeutet allerdings nicht, dass diese Autoren die Wichtigkeit der Testwertverwendung für die Bewertung der Qualität eines Testinstruments negieren (vgl. die Diskussion dieses Aspekts in Kane, 2016; Markus, 2016; Newton & Shaw, 2016; Sireci, 2016). Für eine explizite Ausweitung der Validitätstheorie in Richtung auf eine stärkere Berücksichtigung der tatsächlichen Verwendung von Testergebnissen in der Praxis spricht sich u. a. Moss (2016) aus-- und zwar mit folgendem Argument: By focusing validity theory exclusively on intended interpretations and uses of test scores, we overlook an important aspect of how tests actually inform and impact teaching and learning. Intended interpretations from standardised tests are always locally mediated and provide, at best, partial answers to local questions- … A comprehensive validity theory in educational assessment needs to acknowledge the ways that education professionals- - teachers, school and district leaders, and policy-makers- - use tests and other evidence relevant to their students learning in their ongoing work. (S. 247) Bei der Betrachtung der Validität als umfassendes Konzept können eine Reihe von Einzelaspekten unterschieden werden. Objektivität und Reliabilität (Generalisierbarkeit / Verlässlichkeit) gelten zumeist als notwendige, jedoch nicht hinreichende Voraussetzungen für Validität. Dies bedeutet, dass eine hohe Objektivität und Reliabilität nicht notwendigerweise auch eine hohe Validität implizierten, dass aber ohne eine hinreichende Objektivität und Reliabilität keine ausreichende Validität erreicht werden kann (vgl. auch Hartig, Frey & Jude, 2012). So hat z. B. ein in hohem Maße objektiver und reliabler computerbasierter Lexiktest im Hinblick auf die Messung eines breiten Konstrukts von Schreibkompetenz nur eine sehr eingeschränkte Validität. Gleichzeitig gilt, dass eine Beurteilung von Schreibkompetenzen anhand von unzuverlässigen Kriterienrastern und Bewertenden nicht hinreichend valide sein kann-- z. B. im Sinne einer Übereinstimmung mit einem unabhängigen Außenkriterium. Vor diesem Hintergrund ist bei der Betrachtung der Validität von Schreibaufgaben eine <?page no="53"?> 52 4 Gütekriterien bei der Evaluation von Schreibkompetenzen Berücksichtigung der Gütekriterien der Objektivität und Reliabilität und der verwendeten Bewertungskriterien unverzichtbar. Legt man allerdings ein sehr enges Verständnis von Validität zugrunde, bei dem es lediglich darum geht, inwieweit die zu messenden Kompetenzen die Unterschiede in den Messergebnissen kausal bewirken, dann ist eine hohe Reliabilität weder notwendig noch hinreichend für die Erfüllung des Kriteriums der Validität. Nach diesem Verständnis können Schreibaufgaben durchaus valide sein, auch wenn sie die angezielten Schreibkompetenzen wenig reliabel messen (vgl. zu dieser Position Markus, 2016, S. 256 f.; Markus & Borsboom, 2013, S. 64; Newton & Shaw, 2016, S. 283 f. sowie auch die Ausführungen zur Konstruktvalidität weiter unten). Üblicherweise versucht man bereits beim Design und der Entwicklung eines Tests u. a. durch eine genaue Spezifikation der Testziele und des Testkonstrukts sowie durch strenge Qualitätskontrollen bei der Entwicklung der Aufgaben und Beurteilungsskalen soweit a priori möglich die Validität eines Tests zu gewährleisten (Design-Validität oder a priori Validität; vgl. auch Kim & Davidson, 2014; Mislevy & Yin, 2012). Zum (vorläufigen) Nachweis der Validität eines vorliegenden Tests im Hinblick auf eine bestimmte Verwendung bedarf es allerdings, wie bereits angedeutet, einer mehr oder minder komplexen Argumentation unter Rückgriff auf theoretische Überlegungen und empirische Befunde. Folgt man Kane (2012, 2013, 2016), dann besteht der erste Schritt dabei in einer möglichst detaillierten Spezifikation der vorgesehenen Interpretationen und Verwendungen der Testwerte (Interpretations- und Verwendungsargument). Anschließend ist in einem zweiten Schritt die Gesamtplausibilität der Interpretationen und Verwendungen zu prüfen (Validitätsargument; vgl. auch Chapelle, 2012; Eckes, 2015b). Hierbei wird man z. B. im Fall eines eher informellen unterrichtsbezogenen Schreibtests geringere Ansprüche an die argumentbasierte Validierung stellen als bei einem Hochschulzulassungstest wie dem TOEFL i BT oder IELTS (vgl. das umfassende Validitätsargument zum TOEFL i BT in Chapelle, Enright & Jamieson, 2008 sowie auch Chapelle & Voss, 2014, S. 1091 f.). Zentrale Kriterien sind aber in allen Fällen die Klarheit und Kohärenz des Gesamtarguments sowie die Plausibilität der einzelnen Inferenzen und der impliziten und expliziten Annahmen. Es kann konzeptuell zwischen einer Reihe von Einzelaspekten der Validität als übergreifendes Konzept oder auch- - in Übereinstimmung mit den Standards for Educational and Psychological Testing (American Educational Research Association et al., 2014, S. 13 ff.)-- zwischen unterschiedlichen Quellen für die Begründung der Validität differenziert werden. Da die Ergebnisse der Evaluation von Schreibkompetenzen u. a. von den eingesetzten Aufgaben, von den verwendeten Bewertungskriterien und von den jeweiligen Beurteilenden abhängen, kann man ähnlich wie bei der Reliabilität zunächst zwischen der Validität der Aufgaben (Aufgabenvalidität), der Beurteilungskriterien bzw. Beurteilungsskalen (Kriterienbzw. Skalenvalidität) und der Beurteilenden (Beurteilervalidität / Ratervalidität) unterscheiden. Aufgabenvalidität, Kriterienbzw. Skalenvalidität und Ratervalidität sind wiederum im Zusammenhang mit den etablierten Gütekriterien der Inhaltsvalidität und Konstruktvalidität zu sehen. Wir werden auf die Kriterienbzw. Skalenvalidität sowie die Ratervalidität noch genauer in Kapitel-6 eingehen. <?page no="54"?> 53 4.2 Typen und Funktionen von Gütekriterien 4.2.3.2 Inhaltsvalidität und curriculare Validität Die Inhaltsvalidität gibt das Ausmaß an, in dem die Testaufgaben z. B. bestimmte sprachliche oder thematische Aspekte oder auch bestimmte sprachliche Aktivitäten, die curricular vorgesehen und / oder im Unterricht behandelt wurden oder die als prototypisch für einen bestimmten beruflichen Verwendungskontext angesehen werden, repräsentieren. Die Inhaltsvalidität wird zumeist anhand von Expertenurteilen ermittelt. Insbesondere dann, wenn sich die Testaufgaben auf curricular vorgesehene Kompetenzen und Inhalte beziehen, wird anstelle von Inhaltsvalidität häufig von curricularer Validität gesprochen. Es ist zu beachten, dass sich curriculare und inhaltliche Validität nicht notwendigerweise decken müssen. Ist z. B. das Schreiben einer komplexen Argumentation in Lehrplänen vorgesehen, aber im Unterricht nicht gelehrt worden, dann ist eine Prüfungsaufgabe, die eine komplexe Argumentation verlangt, curricular valide im Hinblick auf das intendierte Curriculum, nicht jedoch valide in Bezug auf das im Unterricht realisierte Curriculum. Lehrkräfte sollten in einem solchen Fall die Ergebnisse der Leistungsüberprüfung zum Anlass nehmen, die curricular verlangten Kompetenzen und Inhalte auch im Unterricht zu vermitteln. Wenn dies als Folge des Einsatzes der Testaufgaben eintritt, ist dies ein Beispiel für einen positiven Rückwirkungseffekt des Tests auf den Unterricht (vgl. die Ausführungen zur konsequentiellen Validität und zum Gütekriterium der Rückwirkung (Washback) in den Kapiteln 4.2.3.7 und 4.2.4.1). 4.2.3.3 Konstruktvalidität Während die Konzepte der Inhaltsvalidität und der curricularen Validität die Relevanz und Repräsentativität von Testaufgaben im Hinblick auf im Unterricht vermittelte Inhalte und Kompetenzen und / oder bestimmte zukünftig zu bewältigende Domänen und Situationen fokussieren, geht es bei der Bestimmung der Konstruktvalidität darüber hinaus um eine theoriebasierte Interpretation der beobachteten Testleistungen im Hinblick auf nicht direkt beobachtbare zugrunde liegende Kompetenzen (vgl. auch Hartig, Frey & Jude, 2012, S. 152-162). Bezogen auf „Schreibkompetenz“ sind in diesem Zusammenhang u. a. folgende Fragen zu beantworten: Inwieweit kann man an Hand eines vorliegenden Schreibprodukts auf bestimmte Aspekte des theoretischen, nicht direkt beobachtbaren Konstrukts „Schreibkompetenz“ schließen? Oder als Kausalzusammenhang formuliert: Inwieweit sind Unterschiede in der zugrunde liegenden Schreibkompetenz der jeweiligen Testteilnehmenden die zentrale Ursache für die beobachteten Leistungsunterschiede? Im Fall des Schreibens ist der Schluss vom Produkt auf das zu Grunde liegende theoretische Konstrukt zwar direkter und damit offensichtlicher als z. B. im Fall einer Hörverstehensaufgabe im Multiple-Choice-Format, bei der von der angekreuzten Lösung auf Aspekte der zu Grunde liegenden Hörverstehenskompetenz geschlossen werden soll. Zur Beurteilung der Konstruktvalidität bedarf es allerdings auch im Fall der Evaluation von Schreibkompetenzen neben einer Beschreibung der zielsprachlichen Verwendungssituation eines theoretischen Modells des zu messenden Konstrukts „Schreibkompetenz“. Darüber hinaus müssen auch die Anforderungscharakteristiken der zur Messung benutzten Testaufgaben, die Merkmale der <?page no="55"?> 54 4 Gütekriterien bei der Evaluation von Schreibkompetenzen zugrunde gelegten Bewertungskriterien sowie Eigenschaften der eingesetzten Bewertenden bei der Beurteilung der Konstruktvalidität berücksichtigt werden. Auf die Frage nach der zielsprachlichen Verwendungssituation sowie auf theoretische Modelle von Schreibkompetenz wird in Kapitel- 5 „Testkonstrukt und Testspezifikationen“ eingegangen. In Kapitel 6 „Kriteriale Evaluation von Schreibkompetenzen“ werden dann Bewertungskriterien und Bewertende thematisiert. Die Anforderungen, die mit der Bearbeitung bestimmter Schreibaufgaben z. B. hinsichtlich der Komplexität der inhaltlichen Darstellung oder auch in Bezug auf die notwendigen lexikalisch-grammatikalischen Ressourcen verbunden sind, werden in Kapitel- 7 „Entwicklung von Testaufgaben zum Schreiben“ noch genauer aufgeführt. Bei der Beurteilung der Konstruktvalidität eines Tests oder auch einer einzelnen Aufgabe sind u. a. folgende Ursachen für eine unzureichende Testbzw. Aufgabenvalidität zu berücksichtigen: a)- Unterrepräsentation des zu messenden Konstrukts; b)- konstruktirrelevante Test- und Aufgabenvarianz. Im Fall einer Unterrepräsentation des Konstrukts sind der Test oder die Aufgaben zu eng gefasst und lassen wichtige Dimensionen des Konstrukts unberücksichtigt. Geht man von einem breiten Verständnis von Schreibkompetenzen aus, dann würde z. B. der Einsatz eines Diktats zu einer Konstruktunterrepräsentation und damit auch zu einer unzureichenden Aufgabenvalidität führen. Das Diktat erfasst zwar z. B. orthografische Fähigkeiten und Hörverstehenskompetenzen, nicht aber die Fähigkeit, einen zusammenhängenden Text selbstständig zu verfassen. Natürlich kann ein Test stets nur einen kleinen Ausschnitt der im Unterricht zu entwickelnden Kompetenzen erfassen; der Unterricht wird also wesentlich breiter z. B. auch auf strategische und interkulturelle Kompetenzen ausgerichtet sein. Außerdem wird man aus Gründen der Praktikabilität und Ökonomie nicht immer die zielsprachliche Verwendungssituation in allen Aspekten im Test abbilden können (vgl. die Ausführungen zu Praktikabilität und Ökonomie in Kapitel-4.2.4.4). Konstruktirrelevante Varianz liegt vor, wenn bestimmte Merkmale, die keinen inhaltlichen Bezug zu der zu messenden Fähigkeit aufweisen, die Leistung systematisch beeinflussen. Konstruktirrelevante Varianz führt zu einer Minderung der Validität der Interpretation der Testergebnisse. Mögliche Quellen konstruktirrelevanter Varianz, wie die eingesetzten Aufgaben, Bewertungskriterien und Beurteilenden, haben wir schon im Zusammenhang mit dem Konzept der Reliabilität kurz thematisiert (vgl. die Kapitel-4.2.2.1 und 4.2.2.6). Ein konkreter mit der Facette „Beurteilende“ zusammenhängender Fall konstruktirrelevanter Varianz ist z. B. dann gegeben, wenn eine schöne Handschrift systematisch zu einer besseren Bewertung und damit höheren Einschätzung der Schreibkompetenz führt, obwohl Aspekte der Handschrift nicht zum Testkonstrukt gehören. Man spricht dann auch von einem sogenannten Bias, d. h. von einer systematischen Verzerrung der Prüfungsergebnisse. Konstruktirrelevante Varianz und damit zugleich systematische Verzerrungen lassen sich beim Testen und Prüfen nie gänzlich vermeiden. Es muss allerdings danach getrachtet werden, den Einfluss konstruktirrelevanter Faktoren möglichst gering zu halten. Im Kapitel- 2 „Rahmenbedingungen für das Evaluieren von Schreibkompetenzen“ haben wir bereits Handlungs-, Kompetenz- und Aufgabenorientierung als grundlegende Prinzipien <?page no="56"?> 55 4.2 Typen und Funktionen von Gütekriterien eines modernen Fremdsprachenunterrichts genannt (vgl. hierzu auch Kapitel- 5 „Testkonstrukt und Testspezifikationen“). Im Hinblick auf die Validität von Prüfungen bedeuten diese Prinzipien u. a., dass die in der Prüfung gezeigte Leistung Rückschlüsse darauf erlauben soll, in welchem Ausmaß Lernende in der Lage sind, ähnliche Situationen auch außerhalb der Prüfungssituation zu bewältigen. Dies heißt, dass auch in einer Prüfung in der Regel konkrete lebensweltliche Aufgaben zu lösen sind, wie z. B. höfliches Bitten um Informationen in einer Mail. Weitere wichtige Aspekte der Validität von Sprachtests werden im sozio-kognitiven Modell von Cyril J. Weir unterschieden (vgl. Weir, 2005). Dieses häufig zitierte Rahmenmodell, in dem die Sprachverwendenden nicht nur als kognitiv, sondern auch als sozial Handelnde gesehen werden, bildet die Grundlage für die Entwicklung und Validierung der Cambridge English Examinations (vgl. zur Schreibkomponente dieser Prüfungen Shaw & Weir, 2007). In der aktuellen Fassung unterscheidet das sozio-kognitive Rahmenmodell folgende fünf eng miteinander verbundene Komponenten der Validität: Kontextvalidität (context validity), kognitive Validität (cognitive validity), Scoring-Validität (scoring validity; Validität der Ergebnisermittlung), konsequentielle Validität (consequential validity; Testwirkungsvalidität) und kriterienbezogene Validität (criterion-related validity). 4.2.3.4 Kontextvalidität Die Kontextvalidität betrifft die Angemessenheit der sprachlichen und inhaltlichen Anforderungen und der Testdurchführung und damit u. a. folgende spezifische Aspekte: Art der Administration einer Schreibaufgabe in der Prüfungssituation, Form der Arbeitsanweisung (Testinstruktion) und Situierung, Zeit- und Umfangsvorgaben, Art des Inputs (Bildmaterial, Lesetext, Thema), Information über Bewertungskriterien. Damit umfasst der Begriff der Kontextvalidität auch das bereits genannte Konzept der Inhaltsvalidität. 4.2.3.5 Kognitive Validität Die kognitive Validität bezieht sich insbesondere auf die Frage, inwieweit die bei der Bearbeitung einer Prüfungsaufgabe zum Schreiben involvierten kognitiven Prozesse mit den kognitiven Prozessen übereinstimmen, die beim Schreiben in den angezielten Verwendungssituationen ablaufen. Dazu gehört z. B. eine situations-, adressaten- und textsortenangemessene Planung des Schreibprozesses (vgl. für eine tiefergehende Diskussion des grundlegenden Konzepts der kognitiven Validität Field, 2013). 4.2.3.6 Scoring-Validität Das im Hinblick auf die Messung von Schreibkompetenzen wichtige Kriterium der Scoring- Validität definieren Shaw & Weir (2007, S. 6) unter Bezug auf Weir (2005) dabei folgendermaßen: <?page no="57"?> 56 4 Gütekriterien bei der Evaluation von Schreibkompetenzen Scoring validity is linked directly to both context and cognitive validity and is employed as a superordinate term for all aspects of reliability-… Scoring validity accounts for the extent to which test scores are based on appropriate criteria, exhibit consensual agreement in their marking, are as free as possible from measurement error, stable over time, consistent in terms of their content sampling and engender confidence as reliable decision-making indicators. Scoring-Validität umfasst damit sowohl Aspekte der Reliabilität als auch der Validität (wie z. B. die Angemessenheit der Bewertungskriterien im Hinblick auf das zu messende Konstrukt). 8 Kontextvalidität, kognitive Validität und Scoring-Validität stellen nach Shaw & Weir (2007, S. 7) zentrale Komponenten der Konstruktvalidität dar. Während im argumentbasierten Validierungsmodell von Kane (2012, 2013) die Scoring- Inferenz als einfach und unproblematisch charakterisiert wird, weist Chapelle (2012, S. 23) zu Recht darauf hin, dass im Fall der Messung produktiver sprachlicher Kompetenzen mit Hilfe von Performanztests die Art der Punktvergabe von erheblicher Bedeutung im Hinblick auf die Interpretation der Testwerte ist und deshalb die Entwicklung, Implementierung und Rechtfertigung valider Regeln für die Punktvergabe ein anspruchsvoller Prozess sind. 4.2.3.7 Konsequentielle Validität Die konsequentielle Validität im Sinne von Shaw & Weir (2007) und anderen Autoren bezieht sich u. a. auf die Art der Rückwirkungen und Konsequenzen, die der Einsatz von Testaufgaben und die Verwendung der Testergebnisse für die Betroffenen und den Unterricht haben (vgl. hierzu bereits Messick, 1989, 1996, 1998 sowie auch Cheng, Sun & Ma, 2015). Es ist ein erklärtes Ziel z. B. von Cambridge English, mit den angebotenen Prüfungen eine positive Rückwirkung (impact; washback / backwash) zu erzielen. Entsprechend werden Konsequenzen und Rückwirkungen bereits bei der Testentwicklung berücksichtigt (im Sinne eines Impact by design) und die tatsächlichen Konsequenzen und Rückwirkungen anschließend empirisch untersucht (vgl. Cambridge English Language Assessment, 2013; Jones & Saville, 2016; Saville & Khalifa, 2016). Auf das Kriterium der Rückwirkung gehen wir noch genauer in Kapitel-4.2.4.1 ein. 4.2.3.8 Kriterienbezogene Validität Die von Shaw & Weir (2007) und vielen weiteren Autoren genannte kriterienbezogene Validität wird anhand eines Vergleichs der Ergebnisse der Lernenden in dem zu validierenden Test mit den Ergebnissen in einem unabhängigen validen Außenkriterium ermittelt (vgl. auch American Eucational Research Association et al., 2014, S. 17 f.). Im Fall eines Schreibtests oder auch einer einzelnen Schreibaufgabe kann das externe Kriterium z. B. die Leistung in einem bereits validierten Schreibkompetenztest oder die Ermittlung von Schreibkompetenzen an- 8 Dies bedeutet nicht, dass Weir (2005) und Shaw & Weir (2007) auf die Verwendung des Begriffs der Reliabilität und auf die Diskussion spezifischer Aspekte der Messgenauigkeit verzichten (vgl. Weir, 2005, S. 22 ff.). <?page no="58"?> 57 4.2 Typen und Funktionen von Gütekriterien hand eines als valide erachteten Schreibportfolios sein. Stimmen die Ergebnisse in dem zu validierenden Instrument mit den Ergebnissen im externen Kriterium weitgehend überein, ist dies ein Beleg für die kriterienbezogene Validität des zu validierenden Instruments und gegebenenfalls auch für die Gültigkeit der Extrapolationsinferenz. Auch im unterrichtlichen Kontext ist die kriterienbezogene Validität durchaus von Bedeutung: Wenn z. B. Schülerinnen und Schüler in einem externen Test wie den Cambridge English Prüfungen oder dem französischen Zertifikatstest DELF deutlich anders in ihren Schreibkompetenzen bewertet werden als bei der Leistungsüberprüfung im Unterricht, dann kann eine Lehrkraft die Ergebnisse im externen Test als Außenkriterium nutzen und sich fragen, ob die im Unterricht eingesetzte Prüfung hinreichend valide (und reliabel) war. Insgesamt gilt, dass es zur Validierung von Sprachtests und Sprachtestaufgaben in der Regel einer komplexen, sowohl theoretisch als auch empirisch möglichst breit gestützten Argumentation bedarf. Wir werden auf die genannten Aspekte der Validität in den folgenden Kapiteln des Studienbuches noch zurückkommen. 4.2.4 Weitere Gütekriterien Neben Objektivität, Reliabilität und Validität wird häufig Fairness als zentrales Gütekriterium aufgeführt (vgl. auch die Hinweise zum Weiterlesen). Zuweilen wird Fairness jedoch auch in erster Linie als spezieller Aspekt der Validität gesehen. Eine Schreibaufgabe ist insbesondere dann fair, wenn sie bestimmte Gruppen von Testteilnehmenden nicht aufgrund von konstruktirrelevanten Faktoren systematisch benachteiligt. Ein entsprechender Bias kann z. B. dann auftreten, wenn sich die Testteilnehmenden im Hinblick auf eine bestimmte Schreibaufgabe in ihrem nicht konstruktrelevanten thematischen Wissen oder in ihrer Vertrautheit mit den Beurteilungskriterien deutlich unterscheiden oder wenn die Durchführungsbedingungen Gruppen von Testteilnehmern systematisch benachteiligen. 4.2.4.1 Rückwirkung Weiterhin wird häufig die bereits im Zusammenhang mit der konsequentiellen Validität genannte Rückwirkung von Tests als eigenständiges Gütekriterium gesehen. Dabei kann sich die Rückwirkung z. B. auf Unterrichtsmaterialien und -methoden, auf die Prozesse und Produkte des Lehrens und Lernens, auf Emotionen und Einstellungen der betroffenen Personen oder auch gesamtgesellschaftliche Effekte beziehen. Weiterhin können intendierte oder auch nicht intendierte bzw. nicht antizipierte Rückwirkungen gemeint sein (vgl. Cheng, Sun & Ma, 2015; Rossa, 2016; Saville & Khalifa, 2016; Xi & Davis, 2016, S. 73 f.). 9 9 Insbesondere wenn es um die Rückwirkung des Testens auf den unterrichtlichen Mikrokontext des Lehrens und Lernens geht, wird in englischsprachigen Publikationen häufig von washback (oder auch backwash) gesprochen. Impact wird dagegen zumeist als übergeordnetes Konzept zur Bezeichnung gesellschaftlicher makrokontextueller Rückwirkungseffekte von Tests verwendet-- z. B. im Zusammenhang mit Zuwanderung und Einbürgerung (vgl. z. B. Saville & Khalifa, 2016). Werden die Termini Washback <?page no="59"?> 58 4 Gütekriterien bei der Evaluation von Schreibkompetenzen In Bezug auf die potentielle Rückwirkung insbesondere standardisierter Tests wird zuweilen kritisch angemerkt, dass deren Einsatz im Unterricht zu einer negativen Rückwirkung in Form eines teaching to the test führe. Die Rückwirkung kann aber auch im Fall standardisierter Tests durchaus positiv sein. Handelt es sich z. B. um einen handlungs- und kompetenzorientierten Test, der authentische Situationen antizipiert, und bereitet man die Schülerinnen und Schüler auf einen solchen Test kompetenzorientiert vor, dann bereitet man damit gleichzeitig auf lebensweltlich relevante Aufgaben vor. Wichtig für eine positive Rückwirkung ist auch, dass die Testergebnisse benutzerfreundlich berichtet werden-- z. B. in Form von verständlichen und aussagekräftigen Niveaubeschreibungen (vgl. Montee & Malone, 2014, S. 849). Auch am IQB wird bei der Entwicklung und dem Einsatz der Testaufgaben versucht, durch eine Orientierung an den Prinzipien der Handlungs- und Kompetenzorientierung sowie durch eine geeignete Form der Rückmeldung eine möglichst positive Rückwirkung zu erzielen. Die tatsächliche Rückwirkung von Tests ist allerdings ein höchst komplexes Phänomen, das von einer Vielzahl von kontextuellen Variablen abhängig ist. Vor dem Hintergrund einer Reihe von Studien zur Rückwirkung von standardisierten Tests stellt deshalb Hamp-Lyons (2016, S. 19) kritisch fest: „It would seem then that we must question whether it would be of any value to make beneficial washback itself a test purpose.“ Auch wenn man die Möglichkeit, mit Hilfe von Tests bestimmte positive Rückwirkungseffekte zu erzielen, eher kritisch sieht, sollte u. E. die potenzielle Rückwirkung auf jeden Fall bei der Testentwicklung mit bedacht werden. 4.2.4.2 Authentizität Ein vor allem von Vertreterinnen und Vertretern performanz- und aufgabenbasierter Evaluationsformen genanntes Qualitätsmerkmal bezieht sich auf das bereits kurz angesprochene Kriterium der Authentizität. Das Kriterium kann sich dabei auf Testaufgaben-- unter Einschluss der Vorgaben wie Bildmaterial und zu behandelnde Inhaltspunkte sowie der Situierung und der damit verbundenen Arbeitsanweisungen -, auf die Art der Testdurchführung sowie auch auf die Bewertungskriterien beziehen. Das Merkmal der Authentizität steht in engem Zusammenhang insbesondere mit den Qualitätsmerkmalen der Handlungs- und Aufgabenorientierung und damit auch in einem engen Bezug zur Validität von Sprachtests. „Authentisch“ bezieht sich u. a. auf den Grad der Übereinstimmung zwischen den Merkmalen einer gegebenen Testaufgabe und den Merkmalen der jeweiligen zielsprachlichen Verwendungskontexte. Bei der Gestaltung von Aufgaben wird man in Übereinstimmung mit dem Prinzip der Handlungsorientierung versuchen, potenzielle Handlungskontexte der Schülerinnen und Schüler zu antizipieren. Wenn z. B. die Fähigkeit zum Verfassen eines Bewerbungsschreibens überprüft werden soll, dann wäre ein Input in Form einer Stellenanzeige für einen Hochschulkanzler zusammen mit der Aufforderung, eine informelle Bewerbungsmail zu schreiben, ein Extrembeispiel für eine unauthentische Aufgabenstellung. Dies gilt oder Backwash in deutschsprachigen Publikationen benutzt, beziehen sie sich dagegen zumeist auch auf den Makrokontext. <?page no="60"?> 59 4.2 Typen und Funktionen von Gütekriterien sowohl im Hinblick auf die für Schülerinnen und Schüler relevanten Handlungskontexte als auch in Bezug auf die in dem Kontext übliche Textsorte. Bezogen auf die Bewertungskriterien von Schreibleistungen bedeutet die Forderung nach Authentizität u. a., dass sich auch die im Prüfungskontext verwendeten Kriterien (möglichst weitgehend) an den im zielsprachlichen Verwendungskontext üblicherweise zugrunde gelegten Kriterien orientieren sollten. Spielt z. B. in einem bestimmten zielsprachlichen Verwendungskontext für die Empfänger eines Schreibens die Verständlichkeit und kommunikative Effizienz eine größere Rolle als die Korrektheit der verwendeten sprachlichen Mittel, so sollte sich dieser Sachverhalt auch bei der Bewertung der Prüfungsleistungen widerspiegeln (vgl. hierzu auch Kapitel-6). Ein anderer Aspekt der Authentizität ist der Grad der Übereinstimmung in den kognitiven Prozessen bei der Lösung der Testaufgaben und beim Gebrauch der Zielsprache außerhalb der Testsituation. Verlangt der zielsprachliche Verwendungskontext z. B. umfangreiche Planungsprozesse beim Schreiben, dann sollte auch die Bearbeitung der Schreibaufgabe entsprechende Prozesse verlangen. Dieser Aspekt wurde weiter oben auch als kognitive Validität bezeichnet. Situationell und kognitiv authentische / valide Aufgaben erlauben Extrapolationen im Hinblick auf die Fähigkeit zur Lösung analoger zielsprachlicher Probleme außerhalb der Testsituation. 4.2.4.3 Augenscheinvalidität Vor allem bezogen auf den Unterrichtskontext wird nicht selten auch die sogenannte Augenscheinvalidität/ Augenscheingültigkeit (face validity) als Gütekriterium von Aufgaben und Tests genannt. Die Augenscheinvalidität bezeichnet die Akzeptanz eines Verfahrens in den Augen der Betroffenen (Testteilnehmende und Nutzende der Testergebnisse) und steht im Zusammenhang insbesondere zum Gütekriterium der Authentizität. Wenn Schülerinnen und Schüler Aufgaben als authentisch wahrnehmen, werden sie diese eher als gültige, aussagekräftige Instrumente zur Überprüfung ihrer Kompetenzen akzeptieren und die Bearbeitung der Aufgaben ernst nehmen. Dies kann wiederum einen positiven Einfluss auf die Konstruktvalidität haben. Die Augenscheinvalidität betrifft damit zumindest mittelbar auch die Gültigkeit der anhand der Testwerte getroffenen Interpretationen und Entscheidungen. Außerdem kann eine geringe Augenscheingültigkeit der Aufgaben negative Auswirkungen auf die Akzeptanz des Verfahrens und damit auch auf die weitere unterrichtliche Qualitätsentwicklung haben. Entsprechend spielt die Augenscheingültigkeit z. B. bei den vom IQB erstellten schriftlichen Vergleichsarbeiten ( VERA ) zur Feststellung des Lernstandes in den beteiligten Bundesländern (vgl. Kapitel-2.5) eine wichtige Rolle. Ein u. a. mit der Augenscheingültigkeit zusammenhängendes Problem ergibt sich im Fall von Aufgabenformaten, die lediglich einen sehr indirekten Bezug zu den zu messenden Kompetenzen aufweisen. So wurden lange Zeit in einigen bekannten internationalen Tests Schreibkompetenzen ausschließlich auf indirektem Wege u. a. anhand von Multiple-Choice- Tests zu Grammatik und Vokabular überprüft. Dies ist zumindest aus folgenden Gründen problematisch: a)-Die Augenscheinvalidität solcher Aufgaben ist im Hinblick auf das Alltags- <?page no="61"?> 60 4 Gütekriterien bei der Evaluation von Schreibkompetenzen verständnis der Kompetenz Schreiben äußerst gering. b)-Das Konstrukt „Schreibkompetenz“, insbesondere wenn es handlungsorientiert definiert wird, ist deutlich unterrepräsentiert. c)- Entsprechende Testaufgaben können eine negative Rückwirkung auf die unterrichtliche Vermittlung von Schreibkompetenzen haben (z. B. in Form eines teaching to the test). Authentizität und Augenscheinvalidität stehen damit auch im engen Zusammenhang zur konsequentiellen Validität und zum Rückwirkungseffekt (Washback) von Tests. 4.2.4.4 Praktikabilität und Ökonomie Gerade im Unterrichtskontext sind auch die Praktikabilität und Ökonomie (im Sinne von Wirtschaftlichkeit) einer Prüfung wichtige Kriterien. Diese beiden Kriterien können sich auf die Herstellung, Durchführung, Auswertung und Verwendung von Prüfungen beziehen. Nach Moosbrugger & Kelava (2012, S. 21) erfüllt ein Test das Gütekriterium der Ökonomie, „wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig finanzielle und zeitliche Ressourcen beansprucht“. Ähnlich definieren Bachman & Palmer (2010, S. 262) Praktikabilität (engl. practicality) als die Differenz zwischen verfügbaren Ressourcen und notwendigen Ressourcen. Unter dem Gesichtspunkt der Praktikabilität/ Ökonomie wird man z. B. bei einer eher informellen Überprüfung von Schreibkompetenzen nicht für jeden möglichen Punktwert eine detaillierte Kann-Beschreibung formulieren und auch auf eine Bewertung durch eine weitere Lehrkraft verzichten. Es ist allerdings zu bedenken, dass eine Erhöhung der Wirtschaftlichkeit einer Prüfung in vielen Fällen zu einer Verringerung der Validität führt. So würde z. B. die indirekte Überprüfung von Schreibkompetenzen anhand von Multiple-Choice-Aufgaben zu Grammatik und Lexik die für die Durchführung und Bewertung notwendigen Ressourcen reduzieren. Zugleich wäre damit jedoch eine deutliche Einschränkung der Authentizität, Augenscheingültigkeit und Konstruktvalidität der Prüfung sowie die Gefahr einer negativen Rückwirkung verbunden (vgl. die vorangehenden Ausführungen). 4.2.4.5 Nützlichkeit Nützlichkeit (auch Zweckmäßigkeit; engl. usefulness) gilt für einige Autoren als übergeordnetes Gütekriterium und bestimmt dann den Stellenwert der anderen Kriterien (vgl. z. B. Bachman & Palmer, 1996, 2010 sowie auch Moss, 2016). Vor dem Hintergrund des Kriteriums der Nützlichkeit wird man je nach Zielsetzung einer Prüfung und den zur Verfügung stehenden Ressourcen insbesondere der Validität, Reliabilität, Authentizität und dem Washback-Effekt ein jeweils unterschiedliches Gewicht geben. So wird man für einen informellen Test der Schreibkompetenz im Unterrichtskontext die Reliabilität eher geringer gewichten. Dagegen ist es bei einem Vergleich größerer Bildungseinheiten, wie etwa im Fall der vom IQB durchgeführten Bildungstrend-Studien (ehemals Ländervergleiche) oder auch bei einer Prüfung, deren Ausgang für die Testteilnehmenden mit gravierenden Konsequenzen verbunden ist, nicht akzeptabel, wenn z. B. eine Erhöhung der Authentizität zugleich zu einer massiven Verringerung der Reliabilität führt. <?page no="62"?> 61 4.2 Typen und Funktionen von Gütekriterien 4.2.4.6 Transparenz Schließlich wird zunehmend auch Transparenz als Gütekriterium genannt. Transparenz bedeutet im schulischen Kontext u. a., dass den Lernenden die Testdurchführungsmodalitäten, Aufgabenformate, Bewertungskriterien und Leistungserwartungen hinreichend vertraut sein sollten und dass das gewählte Vorgehen den Lernenden gegenüber auch begründet werden sollte (vgl. auch Kapitel-6). Außerdem sollte eine Rückmeldung zu den Leistungen in einer Form erfolgen, die für die Schülerinnen und Schüler nachvollziehbar ist (vgl. auch Kapitel-9). 4.2.4.7 Schwierigkeit / Leichtigkeit Auch die Schwierigkeit bzw. Leichtigkeit einer Aufgabe oder auch der gesamten Prüfung ist ein wichtiges Qualitätsmerkmal. Die Schwierigkeit ist dabei zum einen im Hinblick auf die Messgenauigkeit von Schreibprüfungen und insbesondere im Hinblick auf die Passung von Personenfähigkeit und Aufgabenschwierigkeit zu betrachten. Wenn z. B. die Überprüfung von Schreibkompetenzen auf dem Niveau- B1 intendiert ist, die Lösung der Aufgabe aber lediglich Kompetenzen auf dem Niveau A1 verlangt-- wie z. B. das Ausfüllen eines einfachen Formulars mit Fragen zur Person (Alter, Schulform usw.)--, dann können die Prüflinge mit ihren Schreibprodukten nicht zeigen, dass sie auch über Fähigkeiten verfügen, die über das Niveau A1 hinausgehen (vgl. auch Kapitel-6 sowie die Ausführungen zu Unilevel- und Multilevel-Aufgaben in den Kapiteln-5, 6 und 7). Weiterhin ist die Schwierigkeit im Zusammenhang mit der Konstruktvalidität zu sehen. Unterscheiden sich die Testteilnehmenden z. B. deutlich in ihrem thematischen Wissen im Hinblick auf die zu bearbeitende Schreibaufgabe und ist dieses Wissen nicht Teil des Testkonstrukts (vgl. Kapitel-5), dann kann dies zu einer konstruktirrelevanten Erhöhung der Schwierigkeit bzw. Leichtigkeit der Aufgabe für die betroffenen Testteilnehmenden und damit zugleich zu einer Beeinträchtigung der Fairness führen (vgl. zur Konstruktrelevanz von Schwierigkeit bzw. Leichtigkeit Bühner, 2011, S. 66 f.). Es ist deshalb bei der Erstellung von Testaufgaben stets zu überlegen, inwieweit das Thema möglicherweise bestimmte Lernende benachteiligt. Auch die Bewertungskriterien müssen natürlich in ihrer Schwierigkeit dem jeweiligen Kompetenzniveau der Gruppe entsprechen. Wenn z. B. die Testteilnehmenden ein Kriterium fast alle erfüllen, dann erlaubt es dieses Kriterium nicht, messgenau zwischen den Schreibleistungen der Teilnehmenden zu differenzieren. Ist allerdings in erster Linie eine kriteriale Evaluation z. B. anhand eines lernzielorientierten Tests intendiert (vgl. Kapitel-3.2.1 und 6.3), darf ein Kriterium auch von allen Testteilnehmenden erfüllt sein. Die durchgängige Erfüllung würde dann lediglich bedeuten, dass alle Testteilnehmenden das entsprechende Lernziel erreicht haben. Schließlich müssen die Bewertenden die Kriterien natürlich auch im intendierten Sinne interpretieren. Das heißt u. a., dass die Beurteilenden keine Tendenz zu einer unangemessenen Strenge oder Milde zeigen dürfen. Insgesamt gilt, dass die Schwierigkeit einer Schreibaufgabe für einen bestimmten Testteilnehmenden über die Schreibkompetenz hinaus in komplexer Weise von Merkmalen der <?page no="63"?> 62 4 Gütekriterien bei der Evaluation von Schreibkompetenzen Aufgabe (unter Einschluss u. a. der Instruktion, der Kontextualisierung sowie der Zeit- und Umfangsvorgaben), von Merkmalen der Bewertungsskala (z. B. Gewichtung der sprachlichen Korrektheit) sowie von Eigenschaften der jeweiligen Beurteilenden abhängt (vgl. auch die Ausführungen zum Gütekriterium der Reliabilität in Kapitel-4.2.2). Wir werden auf diesen Aspekt noch genauer in den Kapiteln-5 bis 8 des Studienbuches eingehen. 4.2.4.8 Trennschärfe Die bisher genannten Gütekriterien können sich sowohl auf einzelne Aufgaben als auch auf den gesamten Test beziehen, d. h. sie können sowohl als Testals auch als Aufgabengütekriterium fungieren. Das Kriterium der Trennschärfe wird dagegen üblicherweise nur zur Bewertung der Güte einzelner Aufgaben verwendet. Die Trennschärfe einer Aufgabe steht in engem Zusammenhang mit der Schwierigkeit bzw. der Leichtigkeit der entsprechenden Aufgabe sowie auch mit der Test- und Aufgabenreliabilität. Erreichen z. B. bei einer Aufgabe alle Schülerinnen und Schüler gleichermaßen eine hohe oder auch eine niedrige Punktzahl, d. h. ist die Aufgabe sehr leicht oder sehr schwer für die entsprechende Gruppe, dann trägt-- wie bereits angedeutet-- eine solche Aufgabe nichts oder nur sehr wenig zur Differenzierung zwischen den Prüflingen bei. Setzt man mehrere Schreibaufgaben ein und ermittelt an Hand der Einzelaufgaben einen Gesamtpunktwert, dann hat eine Einzelaufgabe eine zufriedenstellende Trennschärfe, wenn der Punktwert der Einzelaufgabe und der Gesamtpunktwert zu einer vergleichbaren Klassifikation der Schülerinnen und Schüler in kompetente und weniger kompetente Schreibende führen. Eine Maßzahl für die Trennschärfe ist damit die statistische Korrelation zwischen dem Punktwert der Lernenden bei der Einzelaufgabe und ihrem Gesamtpunktwert. Ist die Trennschärfe unzureichend, kann dies u. a. folgende Ursachen haben: a)-Die Aufgabe misst unzuverlässig (z. B. weil sie zu schwer oder zu leicht für die Lernenden ist). b)-Die Aufgabe misst einen anderen Aspekt des Konstrukts „Schreibkompetenz“ als die übrigen Aufgaben. c)- Die Aufgabe misst in erster Linie einen konstruktfremden Aspekt (z. B. die kognitive Leistungsfähigkeit oder thematisches Wissen). d)-Die Bewertenden beurteilen die Leistung nicht hinreichend zuverlässig (z. B. mit intra- oder interindividuell variierender Strenge). e)-Es liegen Kodierfehler vor. f)-Die Testreliabilität ist insgesamt gering (z. B. weil der Test insgesamt zu leicht oder zu schwer ist). Ein spezifischer Fall liegt vor, wenn Schülerinnen und Schüler mit einem hohen Gesamtpunktwert bei einer gestellten Aufgabe tendenziell schlechter abschneiden als Schülerinnen und Schüler mit einem eher geringen Gesamtpunktwert. In einem solchen Fall ist die Trennschärfe negativ. Als mögliche Erklärungen kommen dann die Punkte b), c) und d) in Frage. 4.3 Gütekriterien dynamischer Evaluation Abschließend möchten wir noch kurz die Frage der Gütekriterien aus der Perspektive der dynamischen Evaluation ansprechen. Für viele Vertreterinnen und Vertreter der dynamischen Evaluation ist von zentraler Bedeutung, inwieweit die im Zusammenhang mit der Evaluation <?page no="64"?> 63 Hinweise zum Weiterlesen entweder unmittelbar oder später ergriffenen Maßnahmen (in Form von Feedback oder speziellem Training) erfolgreich sind. Damit wird die sogenannte Treatment-Validität (Behandlungs- oder Interventionsvalidität) zu einem entscheidenden Gütekriterium (vgl. z. B. Lidz & Haywood, 2014 sowie auch Grigorenko, 2009 und Grotjahn, 2015). Für Vertreterinnen und Vertreter der interaktionistischen dynamischen Evaluation im Sinne von Lantolf & Poehner (2013, 2014), auf die wir in Kapitel-9.5 näher eingehen, bilden Diagnose und Intervention (in Form von Unterricht) sogar eine untrennbare Einheit. Entsprechend favorisieren Lantolf & Poehner kooperative Dialoge zwischen Lerner und Mediator (Lehrkraft, Peer) als Mittel einer interventions- und individuenzentrierten Diagnostik. Im Hinblick auf das Gütekriterium der Objektivität argumentieren sie, dass letztendlich nur ein nichtstandardisiertes Vorgehen eine faire unterrichtsbezogene Diagnose individueller Kompetenzen ermögliche. Hinweise zum Weiterlesen Einen kurzen Überblick über Gütekriterien psychologischer Tests geben z. B. Moosbrugger & Kelava (2012). Weitere Hinweise zu Gütekriterien für die Entwicklung und den Einsatz von Verfahren zur Evaluation sprachlicher Kompetenzen finden sich u. a. in Bachman & Palmer (2010), Grotjahn (2008) und Kunnan (2014). Unterschiedliche Konzepte von Fairness werden von American Educational Research Association et al. (2014, Kap. 3), Karami & Mok (2013) und Stoynoff (2013) vorgestellt. Auf Aspekte der Validität, Authentizität und Rückwirkung (Impact; Washback) im Rahmen performanz- und aufgabenbasierter Evaluationsformen gehen z. B. ein: Bachman (2007); Brindley (2013); Fischer, Chouissa, Dugovičová & Virkkunen-Fullenwider (2011a, 2011b); Norris (2016); Van Gorp & Deygers (2014); Yu (2014). Aktuelle Überblicke über Konzepte von Validität und Validierung unter Einschluss komplexer argumentbasierter Verfahren geben Chapelle, Enright & Jamieson (2008), Eckes (2015b), Hartig, Frey & Jude (2012), Kane (2013, 2016), Newton & Shaw (2014, 2016), Xi & Davis (2016). Hinweise zu ethischen Aspekten der Evaluation finden sich u. a. in Abel (2010), Brown (2012) und Taylor (2013). Bachman & Palmer (2010) beschäftigen sich vor dem Hintergrund des Konzepts der Nützlichkeit speziell mit der argumentbasierten Rechtfertigung der Entwicklung und Verwendung von Evaluationsinstrumenten im Hinblick auf reale Kontexte und Zielsetzungen (z. B. Entscheidungen über Individuen oder Bildungsprogramme und intendierte und nicht intendierte Konsequenzen). Dabei verzichten die Autoren explizit auf die Verwendung der Termini Validität und Validierung und greifen auf Konzepte wie Aussagekraft (meaningfulness), Relevanz (relevance) und Vollständigkeit (sufficiency) der Interpretation der Evaluationsergebnisse im Hinblick auf die zu treffenden Entscheidungen zurück. Auf den Aspekt der Rückwirkung (washback) von Sprachtests (auf den Unterricht) gehen ausführlich Cheng, Sun & Ma (2015) im Rahmen des argumentbasierten Ansatzes der Validierung ein. Weitere Aspekte der Rückwirkung werden in Saville & Khalifa (2016) sowie Turner & Purpura (2016) thematisiert. <?page no="65"?> 64 4 Gütekriterien bei der Evaluation von Schreibkompetenzen Das Problem der Beurteilerreliabilität und Beurteilerübereinstimmung behandeln ausführlich Gwet (2014) und Wirtz & Kaspar (2002). Ein kurzer aktueller Überblick findet sich bei Eckes (2011). Eckes (2015a) beschreibt die Verwendungsmöglichkeiten des Multifacetten- Rasch-Modells zur Analyse und Sicherung der Fairness beurteilergestützter Kompetenzmessungen. Speziell mit der Reliabilität und Validität bei der Beurteilung von Schreibaufgaben beschäftigen sich z. B. Böhme, Bremerich-Vos & Robitzsch (2009), Eckes (2012) sowie Harsch & Martin (2013). Zur komplexen Wechselwirkung von Aufgaben, Beurteilungskriterien, Beurteilenden und Schreibkompetenz sowie zur Generalisierbarkeit von Messwerten aus Schreibtests vgl. z. B. Arras (2007), Barkaoui (2010a, 2010b), Böhme, Bremerich-Vos & Robitzsch (2009), Bouwer, Béguin, Sanders & van den Bergh (2015), Eckes (2012), Gebril (2010), Harsch & Rupp (2011), Huhta, Alanen, Tarnanen, Martin & Hirvelä (2014), Lee & Kantor (2005) sowie Schoonen (2005, 2012). Auf Unterschiede zwischen Test- und Lernaufgaben vor dem Hintergrund von Testgütekriterien gehen Caspari, Grotjahn & Kleppin (2010) ein. Literatur Abel, Andrea. (2010). Sprachtests und soziale Implikationen. Deutsch als Fremdsprache, 47(4), 202-209. American Educational Research Association, American Psychological Association & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. Washington, DC : American Educational Research Association. Arras, Ulrike. (2007). Wie beurteilen wir Leistung in der Fremdsprache? Strategien und Prozesse bei der Beurteilung schriftlicher Leistungen in der Fremdsprache am Beispiel der Prüfung Test Deutsch als Fremdsprache (TestDaF). Tübingen: Narr. Bachman, Lyle F. (2007). What is the construct? The dialectic of abilities and contexts in defining constructs in language assessment. In Janna Fox, Marjorie B. Wesche, Doreen Bayliss, Liying Cheng, Carolyn Turner & Christine Doe (Hrsg.), Language testing reconsidered (S. 41-71). Ottawa: Ottawa University Press. Bachman, Lyle F. & Palmer, Adrian S. (1996). Language testing in practice: Designing and developing useful language tests. Oxford: Oxford University Press. Bachman, Lyle F. & Palmer, Adrian S. (2010). Language assessment in practice: Developing language assessments and justifying their use in the real world. Oxford: Oxford University Press. Barkaoui, Khaled. (2010a). Explaining ESL essay holistic scores: A multilevel modeling approach. Language Testing, 27(4), 515-535. doi: 0.1177/ 0265532210368717 Barkaoui, Khaled. (2010b). Variability in ESL essay rating processes: The role of the rating scale and rater experience. Language Assessment Quarterly, 7(1), 54-74. doi: 10.1080/ 15434300903464418 Böhme, Katrin, Bremerich-Vos, Albert & Robitzsch, Alexander. (2009). Aspekte der Kodierung von Schreibaufgaben. In Dietlinde Granzer, Olaf Köller, Albert Bremerich-Vos, Marja van den Heuvel- Panhuizen, Kristina Reiss & Gerd Walther (Hrsg.), Bildungsstandards Deutsch und Mathematik: Leistungsmessung in der Grundschule (S. 290-329). Weinheim: Beltz. Bouwer, Renske, Béguin, Anton, Sanders, Ted & van den Bergh, Huub. (2015). Effect of genre on the generalizability of writing scores. Language Testing, 32(1), 83-100. doi: 0.1177/ 0265532214542994 <?page no="66"?> 65 Literatur Brennan, Robert L. (2011). Generalizability theory and classical test theory. Applied Measurement in Education, 24(1), 1-21. doi: 10.1080/ 08957347.2011.532417 Brindley, Geoff. (2013). Task-based assessment. In Carol A. Chapelle (Hrsg.), The encyclopedia of applied linguistics (S. 1-6). Chichester: Wiley-Blackwell. doi: 10.1002/ 9781405198431.wbeal1141 Brown, Annie. (2012). Ethics in language testing and assessment. In Christine Coombe, Peter Davidson, Barry O'Sullivan & Stephen Stoynoff (Hrsg.), The Cambridge guide to second language assessment (S. 113-121). Cambridge: Cambridge University Press. Brown, James D. & Hudson, Thom. (2002). Criterion-referenced language testing. Cambridge: Cambridge University Press. Bühner, Markus. (2011). Einführung in die Test- und Fragebogenkonstruktion (3., aktual. und erw. Aufl.). München: Pearson Studium. Cambridge English Language Assessment. (2013). Principles of good practice: Quality management and validation in language assessment. Cambridge: Cambridge English Language Assessment. [abrufbar unter http: / / www.cambridgeenglish.org/ research-and-validation/ quality-and-accounta bility/ ] Caspari, Daniela, Grotjahn, Rüdiger & Kleppin, Karin. (2010). Testaufgaben und Lernaufgaben. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 46-68). Münster: Waxmann. Chalhoub-Deville, Micheline. (2003). Second language interaction: Current perspectives and future trends. Language Testing, 20(4), 369-383. doi: 10.1191/ 0265532203lt264oa Chapelle, Carol A.. (2012). Validity argument for language assessment: The framework is simple-… Language Testing, 29(1), 19-27. doi: 0.1177/ 0265532211417211 Chapelle, Carol A., Enright, Mary K. & Jamieson, Joan M. (Hrsg.). (2008). Building a validity argument for the Test of English as a Foreign Language TM . New York: Routledge. Chapelle, Carol A. & Voss, Erik. (2014). Evaluation of language tests through validation research. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. III : Evaluation, methodology, and interdisciplinary themes (S. 1081-1097). Chichester: Wiley-Blackwell. Cheng, Liying, Sun, Youyi & Ma, Jia. (2015). Review of washback research literature within Kane's argument-based validation framework. Language Teaching, 48(4), 436-470. doi: 10.1017/ S0261444815000233 Eckes, Thomas. (2010). Die Beurteilung sprachlicher Kompetenz auf dem Prüfstand: Fairness in der beurteilergestützten Leistungsmessung. In Karin Aguado, Karen Schramm & Helmut J. Vollmer (Hrsg.), Fremdsprachliches Handeln beobachten, messen, evaluieren: Neue methodische Ansätze der Kompetenzforschung und der Videographie (S. 65-97). Frankfurt am Main: Lang. Eckes, Thomas. (2011). Facetten der Genauigkeit. Zur Reliabilität der Beurteilung fremdsprachlicher Leistungen. Deutsch als Fremdsprache, 48(4), 195-204. Eckes, Thomas. (2012). Operational rater types in writing assessment: Linking rater cognition to rater behavior. Language Assessment Quarterly, 9(1), 270-292. doi: 10.1080/ 15434303.2011.649381 Eckes, Thomas. (2015a). Introduction to many-facet Rasch measurement: Analyzing and evaluating rater-mediated assessments (2., rev. und erw. Aufl.). Frankfurt am Main: Lang. Eckes, Thomas. (2015b). Validität: Flexionen eines polymorphen Konzepts. In Jessica Böcker & Anette Stauch (Hrsg.), Konzepte aus der Sprachlehrforschung-- Impulse für die Praxis. Festschrift für Karin Kleppin (S. 449-468). Frankfurt am Main: Lang. Field, John. (2013). Cognitive validity. In Ardeshir Geranpayeh & Lynda Taylor (Hrsg.), Examining listening: Research and practice in assessing second language listening (S. 77-151). Cambridge: Cambridge University Press. <?page no="67"?> 66 4 Gütekriterien bei der Evaluation von Schreibkompetenzen Fischer, Johann, Chouissa, Catherine, Dugovičová, Stefania & Virkkunen-Fullenwider, Anu. (2011a). Evaluer par les tâches les langues à fins spécifiques à l’université: Un guide. Graz: European Centre for Modern Languages. [abrufbar unter http: / / gult.ecml.at/ ] Fischer, Johann, Chouissa, Catherine, Dugovičová, Stefania & Virkkunen-Fullenwider, Anu. (2011b). Guidelines for task-based university language testing. Graz: European Centre for Modern Languages. [abrufbar unter http: / / gult.ecml.at/ ] Gebril, Atta. (2010). Bringing reading-to-write and writing-only assessment tasks together: A generalizability analysis. Assessing Writing, 15(2), 100-117. doi: 10.1016/ j.asw.2010.05.002 Grigorenko, Elena L. (2009). Dynamic assessment and response to intervention: Two sides of one coin. Journal of Learning Disabilities, 42(2), 111-132. doi: 10.1177/ 0022219408326207 Grotjahn, Rüdiger. (2008). Tests und Testaufgaben: Merkmale und Gütekriterien. In Bernd Tesch, Eynar Leupold & Olaf Köller (Hrsg.), Bildungsstandards Französisch: konkret. Sekundarstufe I: Grundlagen, Aufgabenbeispiele und Unterrichtsanregungen (S. 149-186). Berlin: Cornelsen Scriptor. Grotjahn, Rüdiger. (2015). Dynamisches Assessment: Grundlagen, Probleme, Potenzial. In Jessica Böcker & Anette Stauch (Hrsg.), Konzepte aus der Sprachlehrforschung-- Impulse für die Praxis. Festschrift für Karin Kleppin (S. 469-488). Frankfurt am Main: Lang. Grotjahn, Rüdiger & Kleppin, Karin. (2008). Bewertung produktiver sprachlicher Leistungen. In Bernd Tesch, Eynar Leupold & Olaf Köller (Hrsg.), Bildungsstandards Französisch: konkret. Sekundarstufe I: Grundlagen, Aufgabenbeispiele und Unterrichtsanregungen (S. 187-204). Berlin: Cornelsen Scriptor. Grotjahn, Rüdiger & Kleppin, Karin. (2015). Prüfen, Testen, Evaluieren. München: Klett-Langenscheidt. Gwet, Kilem L. (2014). Handbook of inter-rater reliability: the definitive guide to measuring the extent of agreement among raters (4. Aufl.). Gaithersburg, MD : Advanced Analytics. Hamp-Lyons, Liz. (2016). Purposes of assessment. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 13-27). Boston: De Gruyter. Harsch, Claudia & Martin, Guido. (2013). Comparing holistic and analytic scoring methods: issues of validity and reliability. Assessment in Education: Principles, Policy & Practice, 20(3), 281-307. doi: 10.1080/ 0969594X.2012.742422 Harsch, Claudia & Rupp, André A. (2011). Designing and scaling level-specific writing tasks in alignment with the CEFR : A test-centered approach. Language Assessment Quarterly, 8(1), 1-33. doi: 10.1080/ 15434303.2010.535575 Hartig, Johannes, Frey, Andreas & Jude, Nina. (2012). Validität. In Helfried Moosbrugger & Augustin Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (2., aktual. und überarb. Aufl., S. 143-171). Heidelberg: Springer. Hudson, Thom. (2014). Criterion-referenced approach to language assessment. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 561-577). Chichester: Wiley-Blackwell. Huhta, Ari, Alanen, Riikka, Tarnanen, Mirja, Martin, Maisa & Hirvelä, Tuija. (2014). Assessing learners’ writing skills in a SLA study: Validating the rating process across tasks, scales and languages. Language Testing, 31(3), 307-328. doi: 0.1177/ 0265532214526176 In’nami, Yo & Koizumi, Rie. (2016). Task and rater effects in L2 speaking and writing: A synthesis of generalizability studies. Language Testing, 33(3), 341-366. doi: 0.1177/ 0265532215587390 Jones, Neil. (2012). Reliability and dependability. In Glenn Fulcher & Fred Davidson (Hrsg.), Routledge handbook of language testing (S. 350-362). New York: Routledge. <?page no="68"?> 67 Literatur Jones, Neil & Saville, Nick. (2016). Learning oriented assessment: A systemic approach. Cambridge: Cambridge University Press. Kane, Michael T. (2012). Validating score interpretations and uses: Messick Lecture, Language Testing Research Colloquium, Cambridge, April 2010. Language Testing, 29(1), 3-17. doi: 0.1177/ 0265532211417210 Kane, Michael T. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50(1), 1-73. doi: 10.1111/ jedm.12000 Kane, Michael T. (2016). Explicating validity. Assessment in Education: Principles, Policy & Practice, 23(2), 198-211. doi: 10.1080/ 0969594X.2015.1060192 Karami, Hossein & Mok, Magdalena M. C. (Hrsg.). (2013). Fairness issues in educational assessment [Special Issue]. Educational Research and Evaluation, 19(2-3). Kim, Jiyoung & Davidson, Fred. (2014). Effect-driven test specifications. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 788-795). Chichester: Wiley-Blackwell. Kunnan, Antony J. (Hrsg.). (2014). The companion to language assessment. Chichester: Wiley-Blackwell [4 Bände]. Lantolf, James P. & Poehner, Matthew E. (2013). The unfairness of equal treatment: Objectivity in L2 testing and dynamic assessment. Educational Research and Evaluation, 19(2-3), 141-157. doi: 10.1080/ 13803611.2013.767616 Lantolf, James P. & Poehner, Matthew E. (2014). Sociocultural theory and the pedagogical imperative in L2 education: Vygotskian praxis and the research / practice divide. New York: Routledge. Lee, Yong-Won & Kantor, Robert. (2005). Dependability of new ESL writing test scores: Evaluating prototype tasks and alternative rating schemes ( TOEFL Monograph Series N. 31). Princeton, NJ : Educational Testing Service. [abrufbar unter https: / / www.ets.org/ research/ policy_research_re ports/ publications/ report/ 2005/ ibao] Lidz, Carol S. & Haywood, H. Carl. (2014). From dynamic assessment to intervention: Can we get there from here? Transylvanian Journal of Psychology, Special Issue, 81-108. Markus, Keith A. (2016). Alternative vocabularies in the test validity literature. Assessment in Education: Principles, Policy & Practice, 23(2), 252-267. doi: 10.1080/ 0969594X.2015.1060191 Markus, Keith A. & Borsboom, Denny. (2013). Frontiers of test validity theory: Measurement, causation, and meaning. New York: Routledge. Messick, Samuel. (1989). Validity. In Robert L. Linn (Hrsg.), Educational measurement (3. Aufl., S. 1-103). New York: American Council on Education / Macmillan. Messick, Samuel. (1996). Validity and washback in language testing. Language Testing, 13(3), 241-256. doi: 10.1002/ j.2333-8504.1996.tb01695.x Messick, Samuel. (1998). Test validity: A matter of consequence. Social Indicators Research, 45(1-3), 35-44. doi: 10.1023/ A: 1006964925094 Mislevy, Robert J. & Yin, Chengbin. (2009). If language is a complex adaptive system, what is language assessment? Language Learning, 59(1), 249-267. doi: 10.1111/ j.1467-9922.2009.00543.x Mislevy, Robert J. & Yin, Chengbin. (2012). Evidence-centered design in language testing. In Glenn Fulcher & Fred Davidson (Hrsg.), Routledge handbook of language testing (S. 208-222). New York: Routledge. Montee, Megan & Malone, Margaret E. (2014). Writing scoring criteria and score reports. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 847-859). Chichester: Wiley-Blackwell. <?page no="69"?> 68 4 Gütekriterien bei der Evaluation von Schreibkompetenzen Moosbrugger, Helfried & Kelava, Augustin. (2012). Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien). In Helfried Moosbrugger & Augustin Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (2., aktual. und überarb. Aufl., S. 7-26). Heidelberg: Springer. Moss, Pamela A. (2016). Shifting the focus of validity for test use. Assessment in Education: Principles, Policy & Practice, 23(2), 236-251. doi: 10.1080/ 0969594X.2015.1072085 Newton, Paul E. & Shaw, Stuart D. (2014). Validity in educational and psychological assessment. London: Sage. Newton, Paul E. & Shaw, Stuart D. (2016). Disagreement over the best way to use the word ‘validity’ and options for reaching consensus. Assessment in Education: Principles, Policy & Practice, 23(2), 178-197. doi: 10.1080/ 0969594X.2015.1037241 Norris, John M. (2016). Current uses for task-based language assessment. Annual Review of Applied Linguistics, 36, 230-244. doi: 10.1017/ S0267190516000027 Purpura, James E. (2016). Second and foreign language assessment. The Modern Language Journal, 100(Supplement S1), 190-208. doi: 10.1111/ modl.12308 Rossa, Henning. (2016). Wie verändern Bildungsstandards und zentrale Prüfungen den Fremdsprachenunterricht? Skizze eines Forschungsdesiderats zu intendierten und beobachteten Effekten der Standard- und Kompetenzorientierung. Zeitschrift für Fremdsprachenforschung, 27(1), 99-122. Saville, Nick & Khalifa, Hanan. (2016). The impact of language assessment. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 77-94). Boston: De Gruyter. Sawaki, Yasuyo. (2016). Norm-referenced vs. criterion-referenced approach to assessment. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 45-60). Boston: De Gruyter. Schermelleh-Engel, Karin & Werner, Christina S. (2012). Methoden der Reliabilitätsbestimmung. In Helfried Moosbrugger & Augustin Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (2., aktual. u. überarb. Aufl., S. 119-141). Heidelberg: Springer. Schoonen, Rob. (2005). Generalizability of writing scores: an application of structural equation modeling. Language Testing, 22(1), 1-30. doi: 10.1191/ 0265532205lt295oa Schoonen, Rob. (2012). The generalisability of scores from language tests. In Glenn Fulcher & Fred Davidson (Hrsg.), Routledge handbook of language testing (S. 341-355). New York: Routledge. Shaw, Stuart D. & Weir, Cyril J. (2007). Examining writing: Research and practice in assessing second language writing. Cambridge: Cambridge ESOL / Cambridge University Press. Sireci, Stephen G. (2016). On the validity of useless tests. Assessment in Education: Principles, Policy & Practice, 23(2), 226-235. doi: 10.1080/ 0969594X.2015.1072084 Stoynoff, Stephen. (2013). Fairness in language assessment. In Carol A. Chapelle (Hrsg.), The encyclopedia of applied linguistics (S. 1-7). Chichester: Wiley-Blackwell. doi: 10.1002/ 9781405198431. wbeal0409 Taylor, Lynda. (2013). Ethics in language assessment. In Carol A. Chapelle (Hrsg.), The encyclopedia of applied linguistics (S. 1-7). Chichester: Wiley-Blackwell. doi: 10.1002/ 9781405198431.wbeal0393 Turner, Carolyn E. & Purpura, James E. (2016). Learning-oriented assessment in second and foreign language classrooms. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 255-273). Boston: De Gruyter. Van Gorp, Koen & Deygers, Bart. (2014). Task-based language assessment. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 578-593). Chichester: Wiley-Blackwell. <?page no="70"?> 69 Literatur Van Steendam, Elke, Tillema, Marion & Rijlaarsdam, Gert. (2012). Introduction. In Elke Van Steendam, Marion Tillema, Gert Rijlaarsdam & Huub Van den Bergh (Hrsg.), Measuring writing: Recent insights into theory, methodology and practice (S. ix-xxi). Leiden: Brill. Verspoor, Marjolijn, Schmid, Monika S. & Xu, Xiaoyan. (2012). A dynamic usage based perspective on L2 writing. Journal of Second Language Writing, 21(3), 239-263. doi: 10.1016/ j.jslw.2012.03.007 Weir, Cyril J. (2005). Language testing and validation: An evidence-based approach. New York: Palgrave Macmillan. Wirtz, Markus A. & Caspar, Franz M. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität: Methoden zur Bestimmung und Verbesserung der Zuverlässigkeit von Einschätzungen mittels Kategoriensystemen und Ratingskalen. Göttingen: Hogrefe. Xi, Xiaoming & Davis, Larry. (2016). Quality factors in language assessment. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 61-76). Boston: De Gruyter. Yu, Guoxing. (2014). Performance assessment in the classroom. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 617-630). Chichester: Wiley-Blackwell. <?page no="72"?> 71 Literatur 5 Testkonstrukt und Testspezifikationen Rüdiger Grotjahn Was mit Hilfe der Aufgaben und Bewertungskriterien eines Tests gemessen werden soll, wird auch als Testkonstrukt bezeichnet (vgl. American Educational Research Association et al., 2014, S. 11). Dabei kann sich der Begriff „Konstrukt“ sowohl auf nicht direkt beobachtbare theoriebasierte Merkmale als auch auf direkt beobachtbare Verhaltensaspekte beziehen. Eine adäquate Definition des Testkonstrukts ist in mehrfacher Hinsicht von zentraler Bedeutung. Zum einen ist eine genaue Spezifikation des Testkonstrukts eine wichtige Voraussetzung, dass bei der Entwicklung von Aufgaben und Bewertungskriterien auch wirklich die Merkmale des Konstrukts „Schreiben“ erfasst werden, die erfasst werden sollen. Zum anderen kann eine begründete Aussage zur Validität der Interpretation von Testergebnissen und zur Angemessenheit der mit einem Test verbundenen Entscheidungen nur dann getroffen werden, wenn man das jeweilige Testkonstrukt und dessen mögliche Teilkomponenten und Dimensionen hinreichend spezifiziert (vgl. auch Grotjahn, 2003, S. 11 ff.; 2007). 10 Im Folgenden gehe ich relativ ausführlich auf das Thema „Testkonstrukt“ ein. Dazu thematisiere ich zunächst einige Merkmale der Evaluation von Schreibkompetenz anhand (weitgehend) authentischer Schreibaktivitäten. Sodann gehe ich kurz auf den bereits häufig verwendeten und für den vorliegenden Band wichtigen Begriff der Kompetenz ein. Im Anschluss beschreibe ich unterschiedliche Vorgehensweisen bei der Konstruktdefinition und spreche auch die Struktur und Dimensionalität sowie die potenzielle (zeitliche) Instabilität des Konstrukts „Schreibkompetenz“ an. In einem nächsten Schritt wird gezeigt, wie das jeweilige Testkonstrukt unter Berücksichtigung der Adressaten und Zielsetzungen anhand theoretischer Annahmen und empirischer Befunde zur Schreibfähigkeit als Komponente kommunikativer Kompetenz spezifiziert werden kann. Darauf aufbauend wird angedeutet, wie auf der Basis des Testkonstrukts Test- und Aufgabenspezifikationen formuliert werden können, die ihrerseits einen Rahmen für die Aufgabenerstellung (siehe Kapitel- 7) und die Bewertung von Schreibleistungen (siehe Kapitel- 6 und 8) abgeben. Abschließend stelle ich heraus, dass im Hinblick auf die faktische Validität eines Schreibtests neben den eingesetzten Aufgaben auch die zugrunde gelegten Bewertungskriterien und deren Verwendung durch die Rater von entscheidender Bedeutung sind. 10 Entsprechend dieser Sicht kann ein Testkonstrukt aus mehreren (psychometrisch) unterscheidbaren Komponenten bestehen. Außerdem können einer Menge von Prüfungsaufgaben oder auch einer einzelnen Prüfungsaufgabe mehrere (psychometrisch) unterscheidbare Testkonstrukte zugrunde liegen (siehe auch die Kapitel- 5.4.6 und 5.4.7 sowie Kapitel- 6). Dieser Sachverhalt ist zu beachten, wenn im Folgenden vereinfachend von dem Testkonstrukt gesprochen wird. <?page no="73"?> 72 5 Testkonstrukt und Testspezifikationen 5.1 Aufgabenbasierte Evaluation von Schreibkompetenzen In Kapitel- 4.1 wurde bereits darauf hingewiesen, dass im Rahmen einer kompetenz- und handlungsorientierten Überprüfung von Schreibfähigkeiten in der Regel Aufgaben zum Einsatz kommen, die Merkmale lebensweltlicher Schreibhandlungen simulieren oder zumindest prototypisch abbilden. Von den Schreibaktivitäten in der Testsituation-- in diesem Zusammenhang auch als Performanz (engl. performance) bezeichnet-- soll dann auf die Fähigkeit zur Realisierung ähnlicher Schreibaktivitäten außerhalb der Testsituation und / oder auf hierfür wichtige Kompetenzen zurückgeschlossen werden. Ein solches performanzbasiertes Vorgehen wird auch als performanzbasierte Evaluation (performance-based assessment / testing) und das eingesetzte Instrument als Performanztest (performance assessment / test) bezeichnet. Zur performanzbasierten Evaluation sind auch Formen der aufgabenbasierten Evaluation (task-based language assessment) zu zählen. Dies gilt insbesondere dann, wenn die Lösung der Aufgaben als funktionale Aktivität konzipiert wird, mit deren Hilfe ein Individuum in einem bestimmen sozio-kognitiven Kontext im Rahmen einer bedeutungszentrierten Kommunikation ein bestimmtes Ziel erreichen möchte (vgl. Bachman, 2007; Brindley, 2013; Bygate, Norris & Van den Branden, 2015; Fischer, Chouissa, Dugovičová & Virkkunen-Fullenwider, 2011a, 2011b; Norris, 2016; Purpura, 2016, S. 195 f.; Van Gorp & Deygers, 2014). Ein entsprechendes Aufgabenkonzept liegt auch den Beiträgen im vorliegenden Band als Zielvorstellung zugrunde. Aufgaben mit den genannten Merkmalen werden häufig auch als „authentisch“ charakterisiert. Der Einsatz (weitgehend) authentischer Aufgaben zur Messung von Schreibkompetenzen und die Bewertung der Leistung anhand geeigneter kriterialer Raster hat u. a. folgende Vorteile: a)-Die Bearbeitung der Testaufgaben selbst kann bereits eine positive Lernerfahrung darstellen. b)- Der Einsatz authentischer Aufgaben verbessert die Möglichkeiten einer lernorientierten, formativen Evaluation. c)- Es verringert sich die potenzielle Distanz zwischen Testaufgaben und den in einem aufgabenbasierten oder aufgabenunterstützten Fremdsprachenunterricht eingesetzten (komplexen) Lernaufgaben. Der Einsatz authentischer Testaufgaben kann damit auch einen Beitrag zu einer besseren Übereinstimmung zwischen Prüfungs- und Lehr-Lern-Aktivitäten leisten und einen positiven Washback-Effekt auf den Unterricht haben (vgl. Bygate, Norris & Van den Branden, 2015; Jones & Saville, 2016; Norris, 2016; Turner & Purpura, 2016; Yu, 2014). Authentische Aufgaben weisen allerdings- - verglichen mit objektiv auswertbaren geschlossenen Aufgabenformaten wie etwa Ankreuzaufgaben-- auch eine Reihe von Nachteilen auf. So erfordert die Bearbeitung authentischer Aufgaben in der Regel vergleichsweise viel Zeit, und die adäquate Beurteilung der gezeigten Leistung ist relativ aufwändig (vgl. hierzu auch Kapitel-4.1). Bei einer Evaluation anhand weitgehend authentischer Schreibaufgaben handelt es sich um eine relativ direkte Messung von Schreibleistungen. Diese steht im Gegensatz zu einer indirekten Messung von Schreibkompetenzen anhand von geschlossenen Aufgaben wie etwa Multiple-Choice-Items zu Grammatik und Lexik. Während mit einer indirekten Messung in erster Linie überprüft werden kann, ob für die Realisierung von Schreibaktivitäten <?page no="74"?> 73 5.1 Aufgabenbasierte Evaluation von Schreibkompetenzen wichtige Ressourcen überhaupt vorhanden sind, ermöglicht eine direkte Messung anhand authentischer Schreibaufgaben zusätzlich eine Aussage darüber, inwieweit die vorhandenen sprachlichen und nichtsprachlichen Ressourcen in kommunikativen Situationen genutzt werden können. Obwohl performanzbasierte Formen der Evaluation die jeweils fokussierten Schreibaktivitäten vergleichsweise direkt repräsentieren, ist auch bei einer performanzbasierten Überprüfung von Schreibleistungen anhand authentischer Aufgaben bei der Konstruktion der Aufgaben und der Entwicklung der Bewertungskriterien stets genau zu klären, welche Merkmale des Konstrukts „Schreiben“ die Aufgaben und die zugehörigen Bewertungskriterien bei den jeweiligen Testteilnehmenden erfassen sollen. Außerdem ist stets zu prüfen, ob die Aufgaben und Bewertungskriterien dann letztendlich auch tatsächlich das erfassen, was sie erfassen sollen. Diese Argumentation steht im Widerspruch zu der Annahme, dass authentische Testaufgaben, die lebensweltliche Aktivitäten direkt repräsentieren, zugleich automatisch valide seien. Brindley (2013) nennt u. a. folgende Gründe dafür, dass auch authentische Testaufgaben nicht automatisch valide sind: In the first place, an assessment activity is by definition an artificial situation: no matter how realistic the task is, people still know they are being assessed under special conditions (Spolsky, 1985), and their performance may not be the same as it would in real life. A second problem with ‘authentic’ assessment tasks is the difficulty of generalizing from a one-off performance to other situations of language use. Although a language learner may demonstrate competence in one context-… this skill may not transfer to other contexts. (S. 2 f.) Auf den von Brindley (2013) angesprochenen Sachverhalt, dass es sich bei einer Prüfungssituation grundsätzlich um eine künstliche Situation mit ganz spezifischen Merkmalen handelt, hat bereits Spolsky (1985) in einem viel zitierten Aufsatz hingewiesen (vgl. auch Bachman & Cohen, 1998, S. 22). 11 Die von Brindley ebenfalls genannte Tatsache, dass die Aktualisierung von Kompetenzen vom jeweiligen Kontext abhängen kann und dass deshalb das Ergebnis einer einmaligen Messung nicht automatisch auf andere Kontexte verallgemeinert werden kann, wurde schon in Kapitel- 4.2.2.6 „Generalisierbarkeit von Schreibleistungen“ thematisiert. Ich werde auf diesen Aspekt im Folgenden noch zurückkommen. Dabei werde ich weitere Gründe nennen, warum authentische Aufgaben nicht auch automatisch valide sind. Zuvor gehe ich jedoch kurz auf den wichtigen Begriff der Kompetenz und auf die Rolle der Adressaten und Verwendungskontexte bei der Definition des Testkonstrukts ein. 11 Vgl. auch die Beschreibung der in der DESI -Studie eingesetzten Schreibaufgaben durch Harsch, Neumann, Lehmann & Schröder (2007, S. 44): „Schulische Aufsätze, wie sie auch den Testkonzepten von DESI zu Grunde liegen, sind Texte, die in einer künstlich geschaffenen Situation entstehen, in der die Probanden wissen, dass sie für einen fiktiven Empfänger schreiben. Dieser-- in der schulischen Praxis normalerweise der Lehrer- - bewertet ihre ‚Arbeiten‘. In dieser spezifischen Situation ist die Authentizität nur noch bedingt vorhanden- … Dennoch sind handlungsorientierte Testaufgaben zumindest Annäherungen an die außerschulische Wirklichkeit, weshalb sich von diesen in gewissem Rahmen Verallgemeinerungen auf die kommunikative Handlungsfähigkeit im realen Leben ableiten lassen.“ <?page no="75"?> 74 5 Testkonstrukt und Testspezifikationen 5.2 Kompetenz: begriffliche Klärungen Entsprechend einer häufig zitierten, bei Weinert (2001) aufgeführten Definition können Kompetenzen verstanden werden als die bei Individuen verfügbaren oder durch sie erlernbaren kognitiven Fähigkeiten und Fertigkeiten, um bestimmte Probleme zu lösen, sowie die damit verbundenen motivationalen, volitionalen und sozialen Bereitschaften und Fähigkeiten um die Problemlösungen in variablen Situationen erfolgreich und verantwortungsvoll nutzen zu können. (S. 27 f.) Kompetenzen sind damit zentrale Leistungs- und Handlungsvoraussetzungen (latente Dispositionen) und umfassen u. a. deklaratives Wissen (Wissen über einen bestimmten Gegenstandsbereich), prozedurale Fertigkeiten (etwas tun können) und die Bereitschaft, das Wissen und Können in bestimmten Handlungs- und Problemlösungssituationen auch in adäquater Form einzusetzen. Wichtig ist, dass das Wissen und die Fähigkeiten, Fertigkeiten und Bereitschaften, soweit nicht bereits vorhanden, als prinzipiell erlernbar und kontextbezogen angesehen werden (vgl. auch Canz, 2015, Kap. 2; Fleischer, Koeppen, Kenk, Klieme & Leutner, 2013; Hartig & Klieme, 2006; Klieme et al., 2003, S. 21-24, 71-80; Klieme & Hartig, 2007; Krumm, Mertin & Dries, 2012; Schott & Azizi Ghanbari, 2012, Kap. 2). Dies steht im Gegensatz zum Gemeinsamen europäischen Referenzrahmen ( GER ), wo abweichend vom üblichen persönlichkeits- oder kognitionspsychologischen Sprachgebrauch auch (relativ) stabile und nicht auf spezifische Kontexte und Domänen bezogene Persönlichkeitsmerkmale wie Merkfähigkeit, Introversion und Intelligenz unter „Persönlichkeitsbezogene Kompetenz“ subsumiert werden (vgl. Europarat, 2001, S. 106 f. sowie weiter unten Kapitel 5.5.1, Tabelle-1). Kompetenz im Sinne eines komplexen hypothetischen Konstrukts bzw. eines nicht unmittelbar beobachtbaren latenten Merkmals darf damit auch nicht, wie es zuweilen der Fall ist, gleich gesetzt werden mit der in einem Test gezeigten Leistung. Zudem hängt die Testleistung über die zu messende Kompetenz hinaus stets noch von weiteren Faktoren ab (z. B. Vertrautheit mit dem Testformat, Testangst, Intelligenz). Die Leistung ist somit lediglich ein mehr oder minder reliabler und valider Indikator für die zu messende Kompetenz (siehe zur weiteren Begründung auch das Zitat aus Brindley, 2013 in Kapitel-5.1). Die Definition von Kompetenz bei Weinert (2001) spiegelt ein relativ weites Verständnis von Kompetenzen wider, das auch motivationale, volitionale und soziale Einflüsse bei der Bewältigung von Aufgaben und der Lösung von Problemen berücksichtigt. 12 Im vorliegenden Band liegt- - wie auch bei den Kompetenzmessungen im Rahmen der Überprüfung der länderübergreifenden fremdsprachlichen Bildungsstandards-- der Fokus auf den kognitiven 12 In der englischsprachigen Literatur nordamerikanischer Provenienz findet man insbesondere zur Bezeichnung von Qualifikationsvoraussetzungen für bestimmte berufsbezogene Tätigkeiten zunehmend auch das Akronym KSA . KSA steht für knowledge, skills und abilities und bezeichnet ähnlich wie der Begriff Kompetenz zumeist ein komplexes Konstrukt bestehend aus deklarativem Wissen, prozeduralen Fertigkeiten und (auf Anlage beruhenden) Fähigkeiten (vgl. auch Krumm, Mertin & Dries, 2012, S. 9 ff.). Ein aktuelles Beispiel für die Verwendung des Akronyms im Kontext der Evaluation von L2-Kompetenzen ist Purpura (2016). <?page no="76"?> 75 5.3 Adressaten und Verwendungskontexte Aspekten von Kompetenzen, ohne allerdings motivationale und affektive Faktoren als wichtige Bedingungsvariablen von Schreibleistungen aus der Diskussion auszuschließen. 5.3 Adressaten und Verwendungskontexte Sprachtests werden stets für spezifische Gruppen von Adressaten, im Hinblick auf relevante zielsprachliche Verwendungskontexte sowie mit bestimmten Zielsetzungen entwickelt. Deshalb sind die Adressaten, die zielsprachlichen Verwendungskontexte und die mit dem Einsatz des Tests verbundenen Ziele bei der Definition des Testkonstrukts stets mit zu berücksichtigen (vgl. hierzu auch Kapitel 6 sowie ALTE , 2006, Modul 1; Mislevy & Risconscente, 2006; Mislevy & Yin, 2012). Entsprechend werden in den deutschen fremdsprachlichen Bildungsstandards die geforderten Schreibkompetenzen auch mit Blick auf bestimmte Schulformen, Jahrgangsstufen und Verwendungskontexte beschrieben (vgl. Kapitel-5.7). Ein wichtiges Merkmal ist in diesem Zusammenhang der Leistungsstand der jeweiligen Testteilnehmenden. So wird man in Gruppen mit einem niedrigen Stand der Schreibkompetenzen den Fokus eher auf die funktionale Verwendung von Lexik, Grammatik und Orthografie richten, in Gruppen mit einem hohen Stand dagegen stärker auch Merkmale wie Kohärenz/ Kohäsion oder soziolinguistisch-pragmatische Angemessenheit fokussieren (vgl. hierzu auch Kapitel 6, 7 und 8). Dies bedeutet allerdings nicht, dass die Adressaten bereits in der Beschreibung des Testkonstrukts notwendigerweise zu spezifizieren sind. Man kann das Testkonstrukt durchaus auch ohne entsprechende Spezifizierungen beschreiben und die Adressaten dann in den Testspezifikationen nennen. In Kapitel 5.9 findet man ein Beispiel für dieses Vorgehen. Zur Ermittlung der im Hinblick auf die jeweiligen Testteilnehmenden, Verwendungskontexte und Zielsetzungen relevanten Aufgaben und Kompetenzen werden bei der Entwicklung professioneller Tests in der Regel empirische Bedarfsanalysen durchgeführt (vgl. zu Bedarfsanalysen Li, Yukin & Brindley, 2013; Long, 2005). So wurde für den neuen TOEFL i BT ermittelt, welche Schreibaktivitäten und Kompetenzen besonders relevant in Bezug auf den Studienerfolg an englischsprachigen Universitäten sind (vgl. Jamieson, Eignor, Grabe & Kunnan, 2008, S. 84-86). Entwickeln Lehrkräfte Prüfungsaufgaben für ihren jeweiligen Unterrichtskontext, beziehen sie sich dabei eher auf curriculare Vorgaben und / oder die verwendeten Lehrwerke. Sie sollten sich aber dennoch stets fragen, ob die Schreibaufgaben altersadäquat sind, aktuelle oder auch zukünftige Verwendungskontexte der Lernenden repräsentieren, zentrale Kompetenzen erfassen sowie dem Ziel der Testung (z. B. Notengebung, spezifische Diagnostik) angemessen sind. Die Notwendigkeit einer vorgängigen Klärung entsprechender Fragen wird auch im GER immer wieder angesprochen. So weisen die Autoren im Kapitel- 4 „Sprachverwendung, Sprachverwendende und Sprachenlernende“ darauf hin, dass sich die Benutzerinnen und Benutzer des Referenzrahmens in Hinblick auf die zukünftigen Verwendungskontexte u. a. folgende Fragen stellen sollten (Europarat, 2001, S. 51 f.): <?page no="77"?> 76 5 Testkonstrukt und Testspezifikationen ▶ Kann ich vorhersagen, in welchen Lebensbereichen (Domänen) die Lernenden agieren werden und welchen Situationen sie gerecht werden müssen? Wenn ja, welche Rollen müssen sie in diesen Lebensbereichen und Situationen übernehmen? ▶ Mit welcher Art von Menschen werden sie zu tun haben? ▶ Was werden ihre persönlichen oder beruflichen Beziehungen sein, und in welchem institutionellen Rahmen werden sie stattfinden? -… ▶ Welche Aufgaben werden sie zu bewältigen haben? ▶ Mit welchen Themen werden sie umgehen müssen? -… ▶ Unter welchen Bedingungen werden sie handeln müssen? ▶ Welches Weltwissen oder welches Wissen über eine andere Kultur werden sie nutzen müssen? -… Weiterhin weisen die Autoren des GER im selben Kapitel darauf hin, dass die Benutzer des Referenzrahmens bedenken und, soweit sinnvoll, angeben sollten, ▶ zu welchen Zwecken die Lernenden welche Schreibaktivitäten ausführen müssen-… (S. 68); ▶ an welchen Arten von kommunikativer Interaktion die Lernenden teilnehmen müssen-… (S. 87); ▶ welche Rollen Lernende in der Interaktion übernehmen müssen-… (S. 87) Schließlich werden im Kapitel-5 des GER die Benutzer des Referenzrahmens aufgefordert, die Kompetenzen zu spezifizieren, die notwendig sind, um die „in kommunikativen Situationen erforderlichen Aufgaben und Aktivitäten auszuführen“ (Europarat, 2001, S. 103). 5.4 Definition des Testkonstrukts: grundlegende Aspekte Je nach Testkonstrukt können Testaufgaben und Bewertungskriterien sehr unterschiedliche Aspekte von Schreibaktivitäten und Schreibkompetenzen fokussieren. So kann man mit einer Schreibaufgabe versuchen herauszufinden, inwieweit die Lernenden in der Lage sind, ▶ orthografisch korrekt zu schreiben; ▶ vorgegebene Formulare, die in ihrer Lebenswelt häufig vorkommen (z. B. Anmeldeformulare), auszufüllen; ▶ (komplexe) Inhalte in Übereinstimmung mit einer bestimmten Kommunikationsabsicht adressatenspezifisch zu formulieren (z. B. eine E-Mail); ▶ auf der Basis von vorgegebenen Bildern oder verbalen Stimuli einen einfachen Blog zu verfassen; ▶ anhand von Vorgaben (z. B. einer Grafik, Bildsequenzen) einen beschreibenden Text zu verfassen; ▶ auf der Basis von Informationen aus unterschiedlichen Quellen (z. B. Vortrag und Input- Text zum selben Thema) einen kohärenten argumentativen Text zu verfassen (vgl. auch Kapitel-7.2.3). Bei der Definition des Testkonstrukts spielen theoretische Überlegungen und empirische Befunde, aber auch kontext- und kulturabhängige Vorstellungen von Schreibqualität eine wichtige Rolle. Außerdem können sich Beschreibungen ein und desselben Testkonstrukts je <?page no="78"?> 77 5.4 Definition des Testkonstrukts: grundlegende Aspekte nach Adressat und Zielsetzung erheblich im Hinblick auf Umfang, Komplexität oder auch Verwendung von Fachterminologie unterscheiden. Soll die Definition des Testkonstrukts der Aufgabenentwicklung durch professionelle Aufgabenerstellerinnen und Aufgabenersteller dienen, dann sollte die Beschreibung relativ detailliert sein. Zudem kann sie zur Erhöhung der Präzision auch Fachterminologie enthalten. Soll dagegen (jüngeren) Testteilnehmenden oder auch praxisorientierten Testnutzenden lediglich ein ungefährer Eindruck vermittelt werden, was mit Hilfe der Prüfung gemessen werden soll, dann ist die Beschreibung des Testkonstrukts eher kurz und einfach zu gestalten. Es lassen sich eine Reihe von spezifischen Ansätzen der Konstruktdefinition unterscheiden, die wiederum zur Unterscheidung von Typen der Evaluation sprachlicher Fähigkeiten und Wissensbestände genutzt werden können (vgl. Bachman, 2007; Bachman & Palmer, 2010, S. 209-241; Chalhoub-Deville, 2003; Chapelle, 1998; Deville & Chalhoub-Deville, 2006; Purpura, 2016, S. 193-198). Grundlegend ist in diesem Zusammenhang die von Chapelle (1998) unter Bezug u. a. auf Messick (1981, 1989) und Bachman (1990) getroffene Differenzierung zwischen verhaltenszentrierten, traitzentrierten und interaktionalen Ansätzen. 13 Im Folgenden werde ich auf die drei genannten Ansätze näher eingehen-- mit einem Schwerpunkt auf dem interaktionalen Ansatz. Außerdem werde ich einen weiteren, von mir als „interaktionistisch“ bezeichneten Ansatz kurz beschreiben. 5.4.1 Verhaltenszentrierte Ansätze Im Fall eines verhaltenszentrierten Ansatzes liegt der Fokus auf der Bewältigung der Aufgaben selbst. Messick (1994, S. 14-17) und Chapelle, Enright & Jamieson (2008b, S. 2-5) sprechen deshalb auch von einem aufgabengesteuerten (task-driven) bzw. aufgabenzentrierten (task-centered) Ansatz der Testentwicklung und Testwertinterpretation. Im Unterschied zu traitzentrierten und interaktionalen Ansätzen werden bei einer verhaltenszentrierten Evaluation beobachtete Verhaltenskonsistenzen nicht auf zugrunde liegende (sprachliche) Fähigkeiten der Prüfungsteilnehmenden, sondern ausschließlich auf Kontextfaktoren zurückgeführt, und das Verhalten in der Prüfungssituation wird als Stichprobe des Verhaltens in einem definierten zielsprachlichen Kontext interpretiert. Um die Repräsentativität der im Zuge der Messung erhobenen Verhaltensstichprobe zu gewährleisten, werden in verhaltens- oder aufgabenzentrierten Ansätzen die Prüfungsaufgaben so konzipiert, dass die Aufgaben und die von den Testteilnehmenden erwarteten Reaktionen möglichst weitgehend die im spezifizierten zielsprachlichen Kontext zu lösenden Aufgaben und die dabei erwarteten Verhaltensweisen replizieren. Eine mit einer verhaltenszentrierten Spezifikation des Testkonstrukts häufig verbundene Zielsetzung ist vorherzusagen, inwieweit Lernende in der Lage sind, in für sie (künftig) relevanten beruflichen zielsprachlichen Verwendungskontexten erfolgreich sprachlich zu 13 Chapelle (1998) verwendet die Begriffe behaviorist approaches / perspectives, trait approaches / perspectives und interactionalist approaches / perspectives. Messick (1981, 1989) diskutiert auch Übergangsformen und kombinierte Ansätze. <?page no="79"?> 78 5 Testkonstrukt und Testspezifikationen handeln. Eine andere Zielsetzung- - z. B. im Rahmen einer lernorientierten Evaluation- - kann sein, verhaltensnahe Leistungsaspekte, wie z. B. die adäquate Verwendung spezifischer kohäsionsstiftender Mittel beim Schreiben argumentativer Texte, zu messen und die Ergebnisse dann den Lernenden in verhaltensnaher Form zurückzumelden. Ein solches Feedback ist für die Lernenden zumeist verständlicher als ein verhaltensfern formuliertes kompetenzorientiertes Feedback (vgl. Kapitel-9). Im Hinblick auf weiteres remediales Lernen und Unterrichten ist eine Diagnose, die ohne Bezug auf zugrunde liegende Ursachen erfolgt, allerdings nur von eingeschränktem Wert (vgl. Lee, 2015). Häufig ist das letztendlich entscheidende Erfolgskriterium im Rahmen eines verhaltensbzw. aufgabenzentrierten Ansatzes nicht die von den Testteilnehmenden gezeigte fremdsprachliche Leistung, sondern die Lösung des gestellten Problems. Bei einer Aufgabe wie dem Verfassen einer Wegbeschreibung anhand eines grafischen Inputs wäre dann nicht die Qualität der sprachlichen Leistung ausschlaggebend, sondern die Tatsache, ob kompetente Lesende das im Rahmen der Aufgabenstellung vorgegebene Ziel anhand der Wegbeschreibung korrekt lokalisieren. Insbesondere wenn bei einem aufgabenzentrierten Ansatz nichtsprachliche Kriterien als zentral für die Beurteilung der Leistung betrachtet werden oder auch die gezeigte Leistung anhand von Kriterien beurteilt wird, die möglichst weitgehend mit den im zielsprachlichen Verwendungskontext üblichen Kriterien erfolgreicher Kommunikation übereinstimmen, sprechen McNamara (1996, S. 43-45) und weitere Autoren auch von einem Performanztest im starken Sinne (vgl. auch Bachman, 2007; Brindley, 2013; Grotjahn, 2003, S. 32-37; Lockwood, 2015; Norris, 2016). Performanztests im starken Sinne kommen vor allem in spezifischen beruflichen Kontexten zum Einsatz wie z. B. bei der Überprüfung der sprachlichen Qualifikationen von Ärzten, Pflegepersonal, Fluglotsen oder auch Mitarbeiterinnen und Mitarbeitern im Kundenservice von Firmen (vgl. die Hinweise in Lockwood, 2015 und Norris, 2016). In solchen spezifischen Kontexten können sie eine hohe Vorhersagevalidität aufweisen. Mit einem verhaltenszentrierten Ansatz und einem performanzbasierten Testen im starken Sinne sind allerdings-- bezogen auf das Konstrukt „Schreiben“-- u. a. die folgenden Probleme verbunden: a)-Die potenziellen zielsprachigen Schreibaktivitäten von Lernenden lassen sich vor allem im Schulkontext häufig nicht hinreichend antizipieren. b)-Nicht alle zielsprachigen Schreibaktivitäten können im Prüfungskontext adäquat repliziert werden. c)- Es ist im Prüfungskontext aus Gründen der Praktikabilität und Ökonomie zumeist nicht möglich, so viele Schreibaufgaben zu administrieren, dass anhand der Prüfungsleistung (als Verhaltensstichprobe) valide auf das Schreibverhalten im angezielten Verwendungskontext generalisiert werden kann. d)-Aufgrund ihrer zumeist hohen Kontextspezifik ist die Möglichkeit einer Extrapolation auf andere Kontexte deutlich eingeschränkt. Bachman & Palmer (2010) kommen deshalb in Bezug auf ein verhaltenszentriertes Testen anhand von möglichst authentischen Aufgaben zu folgendem Schluss: In summary, we believe that interpretations simply of how well task takers have performed on assessment tasks that closely resemble TLU [target language use, RG ] tasks are of very limited use for making predictions. Scores from such assessments cannot be interpreted as indicators of what test <?page no="80"?> 79 5.4 Definition des Testkonstrukts: grundlegende Aspekte takers know and bring to their performance on the task. Without such interpretations, we cannot make inferences about test takers’ capacity for using their knowledge or abilities to performance on other tasks. (S. 220) 5.4.2 Traitzentrierte Ansätze Traitzentrierte Ansätze der Evaluation von Schreibleistungen versuchen den in Kapitel 5.4.1 genannten Problemen dadurch zu begegnen, dass sie das Testkonstrukt anhand der Fähigkeiten definieren, die zur Bewältigung der Testaufgaben als notwendig erachtet werden. Die zu messenden Fähigkeiten und Prozesse werden dabei als relativ stabile, eigenständige Konstrukte betrachtet. 14 Ziel der Messung ist eine über die eingesetzten Aufgaben und spezifischen Kontexte hinausgehende Generalisierung und Rückführung der gezeigten Leistung auf die jeweiligen Konstrukte. Das entscheidende Erfolgskriterium für eine Schreibaktivität ist die im Test gezeigte sprachliche Leistung (z. B. in den Bereichen Lexik, Grammatik, Kohäsion). Liegt einer aufgabenbasierten Evaluation ein entsprechender Ansatz zugrunde, wird auch von einem Performanztest im schwachen Sinne gesprochen. In Übereinstimmung mit dem Ziel einer kontextübergreifenden Messung werden in traitzentrierten Ansätzen die Testaufgaben und Bewertungskriterien möglichst ohne Kontextbezug formuliert (vgl. Chapelle, 1998, S. 42). Treten Aufgaben- und Kontexteffekte auf, werden diese als messfehlergenerierende Störeffekte betrachtet. Ein Beispiel für einen eindeutig traitzentrierten Ansatz ist die indirekte Messung von Schreibfähigkeiten z. B. anhand von Multiple-Choice-Aufgaben zu Grammatik und Lexik. 5.4.3 Interaktionale Ansätze Interaktionale Ansätze gehen dagegen davon aus, dass die Leistung in einem Sprachtest in variablen Anteilen auf zugrunde liegenden Merkmalen des Sprachbenutzers, Kontexteinflüssen und komplexen Wechselwirkungen zwischen Merkmalen des Sprachbenutzers und Merkmalen des Kontexts beruht. Messick (1981) charakterisiert diesen Ansatz auch als intermediate view und stellt hierzu fest: 15 14 Entsprechend definiert Messick (1989) Trait folgendermaßen: „A trait is a relatively stable characteristic of a person-- an attribute, enduring process, or disposition-- which is consistently manifested to some degree when relevant, despite considerable variation in the range of settings and circumstances“ (S. 15; Hervorhebung im Original) Unter den Begriff Trait fallen damit sowohl an bestimmte Problemlösungssituationen gebundene Kompetenzen als auch spezifische Kontexte und Domänen übergreifende Merkmale wie Intelligenz (vgl. Kapitel 5.2). 15 Vgl. auch die Aufteilung der Messfehler im Rahmen der Generalisierbarkeitstheorie in einen nichtsystematischen Anteil (Zufallsfehler) und einen Kontexteinflüsse berücksichtigenden systematischen konstruktirrelevanten Anteil (siehe Kapitel 4.2.2 im vorliegenden Band). Vgl. ferner die Berücksichtigung von Situations- und Aufgabeneffekten im Rahmen von Latent-State-Trait-Theorien (Kelava & Schermelleh-Engel, 2012) und Multitrait-Multimethod-Analysen (Schermelleh-Engel & Schweizer, 2012). Eine systematische Korrektur von die Fairness mindernden Situations- und Aufgabeneffekten <?page no="81"?> 80 5 Testkonstrukt und Testspezifikationen In intermediate views, some behavioral consistencies are referenced to traits, some to situational factors, and some to interactions between them, in various and arguable proportions-… (S. 576) Entsprechend gilt es im Rahmen eines interaktionalen Ansatzes nicht nur Merkmale des Sprachbenutzers und Merkmale des Kontextes im Rahmen der Definition des Konstrukts „Schreiben“ zu berücksichtigen, sondern auch potenzielle Wechselwirkungen-- z. B. indem auch metakognitive Strategien zur Bewertung der situationellen Angemessenheit der zu wählenden sprachlichen Mittel in die Konstruktdefinition aufgenommen werden (vgl. Chapelle, 1998, S. 43 sowie auch Kapitel-5.8). Eine bekannte Variante eines interaktionalen Ansatzes ist die von Bachman (1990) als „interactional / ability approach“ bezeichnete Konzeption der Messung sprachlicher Kompetenzen. Bachman (1990) beschreibt diesen Ansatz folgendermaßen 16 : Rather than looking at non-test language performance per se as a criterion, the IA [interactional / ability, RG ] approach focuses on what it sees as the distinguishing characteristic of communicative language use- - the interaction between the language user, the context, and the discourse. It thus attempts to design tests that will involve the test taker in the appropriate expression and interpretation of illocutionary acts. Test performance is interpreted as an indication of the extent to which the test taker possesses various communicative language abilities, and there is a clear distinction in this approach between the abilities to be measured, on the one hand, and the performance we observe and the context in which observations take place, on the other. (S. 302 f.; Hervorhebung im Original) Die Abbildung-1 illustriert einen den zielsprachlichen Kontext berücksichtigenden interaktionalen Ansatz kompetenzorientierter Evaluation und illustriert damit zugleich den Ansatz, der sowohl den in den Kapiteln-7 und 8 des vorliegenden Bandes besprochenen Schreibaufgaben als auch dem in Kapitel-8 beschriebenen Bewertungsraster zugrunde liegt. Sie basiert auf Abbildung-2.3 in Messick (1989, S. 30), wobei allerdings eine Reihe von Vereinfachungen und Anpassungen vorgenommen wurden. Die Beschreibung der Abbildung orientiert sich in erster Linie an den grundlegenden Ausführungen in Messick (1989, S. 26-30). In Abbildung-1 wird zunächst einmal zwischen Kompetenzen als real existierenden Merkmalen des Prüfungsteilnehmenden und dem Testkonstrukt als theorie- und empiriegeleitete Spezifikation der entsprechenden Merkmale unterschieden. Der gestrichelte doppelseitige Pfeil zwischen Testkonstrukt und Kompetenzen soll u. a. andeuten, dass bestimmte, z. B. kulturell geprägte Vorstellungen von Schreibkompetenz in die Konstruktdefinition einfließen und dass die Konstruktdefinition wiederum über das Verständnis von Schreibkompetenzen als Merkmale der Prüfungsteilnehmenden entscheidet. Die beiden durchgehenden Pfeile von den Kompetenzen auf das Verhalten in und außerhalb der Prüfungssituation sollen anzeigen, dass die Kompetenzen als ursächlich für das jeweilige Verhalten angesehen werden. erlaubt das bei der Messung von Schreibkompetenzen zunehmend eingesetzte Multifacetten-Rasch- Modell (vgl. Eckes, 2010; 2015). 16 Vgl. auch die Beschreibung der Konzepte der internen und externen „Interactiveness“ in Bachman & Palmer (1996, S. 62; 2010, S. 34) sowie die Diskussion der Dialektik von Fähigkeiten und Kontext in Bachman (2007). <?page no="82"?> 81 5.4 Definition des Testkonstrukts: grundlegende Aspekte Die beiden gestrichelten Pfeile vom Prüfungskontext und Nicht-Prüfungskontext zum Testkonstrukt zeigen, dass in die Spezifikation des Testkonstrukts Informationen zu Verhaltenskonsistenzen sowohl im Prüfungsals auch im Nicht-Prüfungskontext einfließen können. Durch die Doppelpfeile soll dabei u. a. angedeutet werden, dass das Testkonstrukt auch zur Vorhersage des Verhaltens in den genannten Kontexten benutzt werden kann. Wichtig ist, dass der Kreis, der das Testkonstrukt bezeichnet, mit den Kreisen für den Prüfungskontext und den Nicht-Prüfungskontext überlappt. Hierdurch soll illustriert werden, dass beide Kontexte bei der Konstruktdefinition und -interpretation zu berücksichtigen sind. Dazu kann man Hilfstheorien zu Kontexteffekten formulieren oder auch Kompetenzen und Kontexte im Sinne einer „unified theory of the construct-in-context“ in einem gemeinsamen Theorieansatz integrieren (vgl. Messick, 1989, S. 27 sowie die folgenden Bemerkungen zu interaktionistischen Ansätzen der Konstruktdefinition). Testkonstrukt Verhalten im Prüfungskontext Verhalten außerhalb des Prüfungskontexts Kompetenzen des Prüfungsteilnehmenden Abbildung 1: Interaktionaler Ansatz kompetenzorientierter Evaluation Damit in einem interaktionalen, kompetenzorientierten Ansatz von der Testleistung in valider Weise auf die Fähigkeit zur Bewältigung relevanter zielsprachlicher Aufgaben extrapoliert werden kann, ist nachzuweisen, dass die im Testkonstrukt definierten Schreibkompetenzen zum einen eine wesentliche Ressource bei der Bewältigung der als relevant erachteten zielsprachlichen Aufgaben darstellen und dass die Testaufgaben zusammen mit den Beurteilungskriterien zum anderen die Kompetenzen valide operationalisieren und messen. Für diesen Nachweis bedarf es theoretisch und möglichst auch empirisch gestützter Modelle der zu messenden Kompetenzen. Dabei kann, wie im Folgenden gezeigt wird, u. a. auf Modelle kommunikativer Kompetenz (vgl. Kapitel- 5.5), psycholinguistische und sozio- <?page no="83"?> 82 5 Testkonstrukt und Testspezifikationen kognitive Modelle fremdsprachlichen Schreibens (vgl. Kapitel- 5.8) und bereits vorhandene Beurteilungsskalen zurückgegriffen werden (vgl. Kapitel-5.6, 5.7 und 5.9). Folgt man einem interaktionalen Ansatz kompetenzorientierter Evaluation und orientiert sich bei der Gestaltung der Schreibaufgaben an zielsprachlichen Aktivitäten, dann müssen die Testaufgaben die zielsprachlichen Aktivitäten nicht notwendigerweise simulieren, sondern lediglich in den relevanten Merkmalen hinreichend repräsentieren. Gerade im schulischen Kontext ist allerdings eine möglichst hohe Authentizität und Augenscheingültigkeit der Aufgaben im Hinblick auf potenzielle Rückwirkungseffekte wünschenswert (siehe auch Kapitel 4.2.4). Bei der Spezifikation der relevanten zielsprachlichen Aufgaben kann man auf bereits existierende Curricula oder auch auf empirische Bedarfsanalysen zurückgreifen (vgl. Bachman & Palmer, 2010, S. 213 f.). Letztere können sich dabei auf für die jeweiligen Lernenden relevante aktuelle oder zukünftige Domänen beziehen und Schreibaktivitäten und / oder Schreibkompetenzen betreffen (vgl. Kapitel 5.3). 5.4.4 Interaktionistische Ansätze Während der interaktionale Ansatz im Sinne von Bachman und anderen Autoren zwischen zu messenden Kompetenzen und Kontext explizit unterscheidet, gehen interaktionistische Ansätze einen Schritt weiter und betrachten Kompetenzen und Kontext als nicht oder nur sehr schwer voneinander trennbar. 17 Interaktionistische Ansätze werden vor allem im Hinblick auf die Messung mündlicher Kompetenzen mit Hilfe von Oral Proficiency Interviews ( OPI ) oder auch Partnerprüfungen diskutiert (vgl. zu diesen Prüfungsformen Grotjahn & Kleppin, 2015, S. 94-97) und sollen der Ko-Konstruktivität mündlicher Interaktion Rechnung tragen (vgl. Nakatsuhara, 2013). Chalhoub-Deville (2003, S. 372) spricht in einem viel zitierten Aufsatz in Bezug auf solche kontextgebundenen Fähigkeiten des Sprachbenutzers auch von “ability-- in language user-- in context”. 18 Konzeptualisiert man Schreibkompetenz im Sinne des interaktionistischen Ansatzes, hat dies-- wie bereits angedeutet-- zur Folge, dass Aussagen zum Stand der Kompetenzen stets einschränkend im Hinblick auf bestimmte Kontexte und Aufgaben zu spezifizieren sind. Dies kann angebracht sein, wenn es um die Messung von Schreibkompetenzen als Qualifikation für 17 Der von mir als „interaktionistisch“ bezeichnete Ansatz kann auch als eine extreme Variante des in Abbildung-1 dargestellten interaktionalen Ansatzes gesehen werden. Der interaktionistische Ansatz ist nicht zu verwechseln mit dem „interactionist approach“ im Sinne von Purpura (2016). Purpura unterscheidet folgende Ansätze der Konstruktdefinition: 1)-trait-based; 2)-task-centered; 3)-interactionist; 4)-sociointeractional. Dabei ordnet der Autor die Ansätze von Bachman (1990) und Bachman & Palmer (1996, 2000) als „trait-based“ ein (vgl. S. 194 f.). Den von Chapelle (1998) als „interactionalist approach“ und von mir als „interaktional“ bezeichneten Ansatz ordnet Purpura dagegen seinem breit definierten „interactionist approach“ zu (vgl. S. 196 f.). 18 Auch der interaktionistischen dynamischen Evaluation (vgl. Kapitel- 9.5 im vorliegenden Band) liegt entsprechend dieser Differenzierung ein interaktionistisches Verständnis von Kompetenz zugrunde (vgl. Grotjahn, 2015). Purpura (2016, S. 198) nennt diese Richtung dagegen als Beispiel für seinen als „sociointeractional approach“ bezeichneten vierten Ansatz. <?page no="84"?> 83 5.4 Definition des Testkonstrukts: grundlegende Aspekte einen spezifischen beruflichen Kontext geht. Im vorliegenden Band liegt der Fokus allerdings auf der Messung und Entwicklung von zumindest partiell kontextübergreifenden fremdsprachlichen Schreibkompetenzen in einem allgemeinbildenden schulischen Kontext. Dabei wird möglichen Aufgaben- und / oder Kontexteffekten jedoch durchaus Rechnung getragen. 5.4.5 Variabilität und Nichtlinearität von Schreibleistungen und Kompetenz Die Bedeutsamkeit von Aufgabeneffekten und die Variabilität von Schreibleistungen und Schreibkompetenzen werden u. a. von Van Steendam, Tillema, Rijlaarsdam & Van den Bergh (2012) herausgestellt (vgl. auch die Ausführungen zur Konstruktrelevanz von Aufgabeneffekten am Ende von Kapitel 4.2.2 im vorliegenden Band): One certainty seems to be that variability is inherent in writing. Variability in writing scores-… seems to be inherent in the construct-…. (S. xix; Hervorhebung im Original) Zudem weisen die Autoren darauf hin, dass sich Schreibkompetenzen höchst individuell und nicht notwendigerweise linear entwickeln. Außerdem unterscheiden sich die einzelnen Sprachentwicklungsstufen z. B. in Bezug auf die Bedeutung von Lexik und Grammatik (vgl. Verspoor, Schmid & Xu, 2012 sowie auch Green, 2012; Hawkins & Filipović, 2012). Bei der Messung von Schreibkompetenzen ist der beschriebenen Variabilität und Nichtlinearität Rechnung zu tragen. So ist stets zu berücksichtigen, dass sich die lernersprachlichen Kompetenzen zur Zeit der Messung in einer hoch instabilen Phase der Restrukturierung befinden können und dass deshalb eine einmalige Messung eine sehr eingeschränkte Aussagkraft haben kann. 5.4.6 Struktur und Dimensionalität von Schreibkompetenz Ein anderer wichtiger Aspekt, der sowohl bei der Konstruktdefinition als auch bei der Entwicklung von Bewertungskriterien und Testaufgaben zu beachten ist, betrifft die Struktur und Dimensionalität des Konstrukts „Schreiben“. Üblicherweise wird „Schreiben“ in eine Reihe von Komponenten zerlegt, wie z. B. lexikalische und grammatikalische Kompetenzen, Diskurskompetenzen oder metakognitive Kontrollprozesse (vgl. die Kapitel 5.6-5.8 sowie z. B. die in Harsch et al. 2007, S. 57-60 beschriebenen Leistungsdimensionen). Bei den Komponenten kann es sich aber auch um sehr spezifische Kompetenzen handeln, wie z. B. die Fähigkeit, anhand von Vorgaben (z. B. einer Grafik) einen beschreibenden Text zu verfassen (vgl. die Beispiele am Anfang des Kapitels- 5.4). Dabei bleibt allerdings häufig ungeklärt, inwieweit die einzelnen Komponenten als voneinander (partiell) abhängige Subkomponenten oder als voneinander (weitgehend) unabhängige, eigenständige Dimensionen anzusehen sind. Auch mögliche komplexe Wechselwirkungen zwischen den Komponenten bleiben zumeist unberücksichtigt. In diesem Zusammenhang ist zwischen der theoretischen und der psychometrischen Unterscheidbarkeit möglicher Komponenten zu differenzieren. Dabei ist zu beachten, dass psychometrische Mehrdimensionalität zwar eine hinreichende, aber keine notwendige Bedingung für <?page no="85"?> 84 5 Testkonstrukt und Testspezifikationen die qualitative Unterschiedlichkeit der bei der Lösung einer Aufgabe involvierten Kompetenzen ist. Konkret bedeutet dies, dass auch im Fall statistisch hoch korrelierender Leistungsdaten die zugrunde liegenden kognitiven Kompetenzen qualitativ durchaus unterschiedlich sein können (vgl. z. B. Hartig & Höhler, 2010; Schnotz et al. 2010, S. 144). Das Problem der Struktur und Dimensionalität von Schreibkompetenz wird im Kapitel-6 „Kriteriale Evaluation von Schreibkompetenzen“ und Kapitel- 7 „Entwicklung von Testaufgaben zum Schreiben“ nochmals aufgegriffen. 5.4.7 Level-spezifischer vs. Multi-Level-Ansatz Ein weiterer Aspekt betrifft die Frage, ob bei der Spezifikation des Testkonstrukts und dessen Operationalisierung anhand von Aufgaben und Bewertungskriterien lediglich ein einzelnes, relativ enges Kompetenzniveau (z. B. das GER -Niveau A2) oder ein breiteres Band aus mehreren Kompetenzniveaus (z. B. die GER -Niveaus A1-B2) fokussiert wird (vgl. auch Kapitel 6.5.1 im vorliegenden Band). In Bezug auf den erstgenannten Fall spricht Harsch (2010) von einem level-spezifischen bzw. niveauspezifischen Ansatz, in Bezug auf den letztgenannten Fall von einem Multi-Level-Ansatz (vgl. auch Harsch & Rupp, 2011). Bezieht sich ein niveauspezifischer Ansatz auf ein einziges GER -Niveau, wird häufig die Bezeichnung Uni-Level-Ansatz verwendet (vgl. Porsch, 2010, 106-138; Porsch & Tesch, 2010, S. 159-161). Im Rahmen eines Uni-Level-Ansatzes wird eine Aufgabe so konzipiert, dass für eine erfolgreiche Bearbeitung die Kompetenzen notwendig sind, die im Testkonstrukt, den Testspezifikationen und den Bewertungskriterien als Merkmale für das entsprechende Kompetenzniveau genannt werden. Als Folge kann anhand der Bearbeitung z. B. einer B1-Aufgabe auch nur eine Aussage darüber getroffen werden, ob ein Testteilnehmender das B1-Niveau erreicht, nicht erreicht oder überschreitet. 19 Ob die Person möglicherweise über Schreibkompetenzen auf dem Niveau C1 verfügt oder sich erst auf dem Niveau A1 befindet, kann anhand einer B1-Aufgabe dagegen nicht valide und reliabel gemessen werden. Im Fall einer leistungshomogenen Testpopulation hat ein Uni-Level-Ansatz den Vorteil, dass eine bessere Passung zwischen den Anforderungen und der Schwierigkeit der jeweiligen Aufgabe und der Kompetenz der getesteten Personen erreicht werden kann. Hierdurch lassen sich mögliche konstruktirrelevante affektive Reaktionen der Lernenden auf für sie sehr schwere Aufgaben reduzieren. Außerdem erhöht sich bei einer optimalen Passung von Aufgabenschwierigkeit und Kompetenzniveau die Messgenauigkeit (vgl. auch Porsch, 2010, S. 108 f.). Im Rahmen eines Multi-Level-Ansatzes wird eine Aufgabe dagegen so konzipiert, dass sie eine Differenzierung über ein breiteres Band von Kompetenzniveaus in einer leistungsheterogenen Gruppe von Lernenden erlaubt. Handelt es sich z. B. um eine A1-C1-Aufgabe, dann muss diese in ihren Anforderungsmerkmalen so gestaltet sein, dass anhand der Bearbeitung der Aufgabe durch die Testteilnehmenden eine Aussage darüber möglich ist, welchem spezi- 19 Unterscheidet man innerhalb des Niveaus B1 z. B. noch die Stufen B1.1 und B1.2, dann ist auch eine Aussage dazu möglich, in welchem Umfang ein Testteilnehmender die Stufe B1 erreicht hat (vgl. hierzu auch Kapitel 8.2). <?page no="86"?> 85 5.4 Definition des Testkonstrukts: grundlegende Aspekte fischen GER -Niveau des Bereichs A1 bis C1 ein Testteilnehmender zuzuordnen ist. Um eine zufrieden stellende Validität und Reliabilität zu erreichen, ist es allerdings häufig nötig, nicht nur eine, sondern mehrere Multi-Level-Aufgaben einzusetzen. Ein entsprechender Multi-Level-Ansatz liegt z. B. dem DESI -Projekt (vgl. Harsch et al., 2007) und akademischen Zulassungstests wie dem TOEFL i BT oder dem International English Language Testing System ( IELTS ) zugrunde. Die Cambridge English Examinations oder auch die französischen DELF -Prüfungen folgen dagegen einem niveauspezifischen Ansatz. Will man die Schreibkompetenzen einer leistungsheterogenen Gruppe von Lernenden auf der Basis eines Uni-Level-Ansatzes messen, dann sind für jedes Niveau ein eigenes Testkonstrukt, eigene Test- und Aufgabenspezifikationen sowie ein eigenes Bewertungsschema zu konzipieren (vgl. auch Kapitel- 5.9), und auf dieser Grundlage ist dann mindestens eine spezifische Aufgabe für jedes Kompetenzniveau zu entwickeln. Die Abbildung- 2, die aus Porsch & Tesch (2010, S. 159) entnommen ist, illustriert das unterschiedliche Vorgehen im Rahmen eines Uni-Level- und eines Multi-Level-Ansatzes im Fall einer leistungsheterogenen Testpopulation. Der Hintergrund ist dabei die Messung von Schreibkompetenzen im Rahmen der Überprüfung der Bildungsstandards für die erste Fremdsprache (Englisch / Französisch). 20 Das GER -Niveau C2 wurde nach Aussage der Autoren nicht berücksichtigt, da entsprechende Schülerleistungen nicht zu erwarten waren (vgl. auch Porsch, 2010, S. 107 f.). Abbildung 2: Uni-Levelvs. Multi-Level-Ansatz nach Porsch & Tesch (2010, S. 159) 20 Es handelt sich um ein mittlerweile ausgelaufenes Aufgabenentwicklungsprojekt des IQB . Speziell die Bewertung von Schreibprodukten im Rahmen des Uni-Level-Ansatz illustriert eine weitere Grafik in Porsch & Tesch (2010, S. 163). Mögliche Unterschiede zwischen Uni-Level- und Multi-Level-Ansatz im Hinblick auf die Dimensionalität der Bewertung von Schreibproduktionen hat Porsch (2010, S. 128-138) untersucht. <?page no="87"?> 86 5 Testkonstrukt und Testspezifikationen Im Hinblick auf den Multi-Level-Ansatz verweisen die Autoren u. a. auf die Schwierigkeit, Schreibaufgaben zu erstellen, mit deren Hilfe ein breites Spektrum von Kompetenzniveaus jeweils valide und reliabel gemessen werden kann. Auf der Basis einer Analyse von Kann- Beschreibungen im GER unter Einschluss der im GER abgedruckten DIALANG -Skalen (Europarat, 2001, S. 229) kommen sie in diesem Zusammenhang zu dem Schluss, „dass eine Aufgabe maximal zwei aufeinander folgende Niveaustufen sinnvoll abbilden kann, wenn die Deskriptoren Berücksichtigung finden sollen“ (Porsch & Tesch, 2010, S. 108). Ein weiterer Ansatz ist gegeben, wenn sich Testkonstrukt, Aufgaben und Bewertungskriterien auf zwei benachbarte GER -Niveaus beziehen. Ein solcher Bi-Level-Ansatz liegt dem im Kapitel- 8 des vorliegenden Bandes vorgestellten Bewertungsraster und der dort besprochenen Aufgabenbewertung zugrunde. Der Ansatz fokussiert die Niveaustufen A2 und B1 und erlaubt in Verbindung mit einer vierstufigen Rating-Skala sowohl zwischen den Niveaus A2 und B1 als auch jeweils innerhalb von A2 und B1 zu differenzieren. Ähnlich wie in Bezug auf den Uni-Level-Ansatz gilt, dass außerhalb des fokussierten Bereichs A2 / B1 nur die Aussagen < A2 oder > B1 möglich sind. 5.5 Modelle kommunikativer Kompetenz und kommunikativen Sprachgebrauchs Es wurde bereits mehrfach darauf hingewiesen, dass man für den Schluss von den gezeigten Schreibleistungen auf zugrunde liegende Kompetenzen theoretisch und empirisch begründete Modelle der Wissensbestände und Fähigkeiten benötigt, die dem Sprachgebrauch innerhalb und außerhalb der Testsituation zugrunde liegen. Im Folgenden wird deshalb etwas ausführlicher auf entsprechende Modelle eingegangen (vgl. für weitere Aspekte auch Jude, 2008; Jude & Klieme, 2007). 5.5.1 Der gemeinsame europäische Referenzrahmen für Sprachen ( GER ) Wie bereits in Kapitel- 2 des vorliegenden Bandes herausgestellt wurde, spielt der GER bei der Beschreibung und Evaluation sprachlicher Kompetenzen eine äußerst wichtige Rolle. So wird in den Bildungsstandards für die erste Fremdsprache ( KMK , 2004, 2005) und für die fortgeführte Fremdsprache ( KMK , 2014) im beträchtlichen Umfang auf den GER Bezug genommen. Auch die Entwicklung von standardisierten Sprachtests orientiert sich in Europa in starkem Maße am GER (vgl. z. B. Europarat & ALTE , 2012; Kecker, 2016). Für den GER sind die Prinzipien der Handlungsorientierung und Kompetenzorientierung von zentraler Bedeutung: Sprachlernende und Sprachverwendende werden als sozial Handelnde betrachtet, die im Rahmen ihrer kognitiven und emotionalen Möglichkeiten bestimmte kommunikative Aufgaben lösen (vgl. Europarat, 2001, Kap. 2.1). Dazu bedarf es bestimmter (kommunikativer) Kompetenzen. Der GER unterscheidet sowohl im Hinblick auf das sprachliche Handeln als auch in Bezug auf die Kompetenzen der Sprachverwendenden / Sprachlernenden eine Vielzahl von Teilkomponenten. Tabelle-1 zeigt in kondensierter Form zentrale Komponenten der kommunikativen Verwendung von Sprache und der (kommunikativen) Kompetenzen des Sprachbenutzers / Sprachlernenden aus den Kapiteln 4 und 5 des GER (vgl. auch Grotjahn, 2007, S. 23 f.). <?page no="88"?> 87 5.5 Modelle kommunikativer Kompetenz und kommunikativen Sprachgebrauchs 1. Kontext der Sprachverwendung 1.1 Lebensbereiche (Domänen) (Öffentlichkeit, Beruf, Bildungswesen-…) 1.2 Situationen (Ort, Zeit, Institutionen, Objekte, Ereignisse, Texte-…) 1.3 Merkmale des externen Kontexts als potenzielle Einflussgrößen (physikalische Bedingungen, soziale Konstellation, Zeitdruck-…) 1.4 Mentaler Kontext der Sprachverwendenden / Sprachenlernenden (subjektive Interpretation des externen Kontexts) 1.5 Mentaler Kontext des Kommunikationspartners (subjektive Interpretation des externen Kontexts) 2. Themen der Kommunikation 3. Kommunikative Aufgaben und Ziele 4. Kommunikative Aktivitäten und Strategien 4.1 Produktiv 4.2 Rezeptiv 4.3 Interaktiv 4.4 Sprachmittlung (Übersetzen, Dolmetschen) 4.5 Nonverbale Kommunikation (paratextuelle Mittel wie Illustrationen, Layout-…) 5. Kommunikative Sprachprozesse 5.1 Planung 5.2 Ausführung 5.3 Kontrolle (Monitoring) 6. Texte 6.1 Texte und Medien (Print, TV , Telefon-…) 6.2 Textsorten 7. Kompetenzen der Sprachverwendenden / Lernenden 7.1 Allgemeine Kompetenzen 7.1.1 Deklaratives Wissen (savoir) 7.1.2 Fertigkeiten und prozedurales Wissen (savoir-faire) 7.1.3 Persönlichkeitsbezogene Kompetenz (savoir-être) (Einstellungen, Motivation, kognitiver Stil, Introversion, Intelligenz-…) 7.1.4 Lernfähigkeit (savoir-apprendre) 7.2 Kommunikative Sprachkompetenzen 7.2.1 Linguistische Kompetenzen 7.2.1.1 Lexikalische Kompetenz 7.2.1.2 Grammatische Kompetenz 7.2.1.3 Semantische Kompetenz 7.2.1.4 Phonologische Kompetenz 7.2.1.5 Orthografische Kompetenz 7.2.2 Soziolinguistische Kompetenzen 7.2.2.1 Sprachliche Kennzeichnung sozialer Beziehungen 7.2.2.2 Höflichkeitskonventionen 7.2.2.3 Redewendungen, Aussprüche, Zitate und Redensarten 7.2.2.4 Registerunterschiede 7.2.2.5 Varietäten (sozial, regional, ethnisch usw.) 7.2.3 Pragmatische Kompetenzen 7.2.3.1 Diskurskompetenz 7.2.3.2 Funktionale Kompetenz (Argumentieren, Erklären, soziale Routinen-…) Tabelle 1: Komponenten der Sprachverwendung und Kompetenzen der Sprachverwendenden / Sprachlernenden im GER (Europarat, 2001) <?page no="89"?> 88 5 Testkonstrukt und Testspezifikationen Die in Tabelle- 1 aufgeführten Komponenten und Unterscheidungen sind nicht nur von Bedeutung im Hinblick auf die Beschreibung des Testkonstrukts, sondern auch in Bezug auf die Konstruktion von Testaufgaben (Kapitel-7) und die Evaluation von Schreibkompetenzen mit Hilfe kriterialer Raster (Kapitel-6 und 8). Hervorzuheben in Tabelle- 1 ist zunächst die Charakterisierung der Sprachverwendung anhand der Hauptkomponenten 1)- Kontext der Sprachverwendung; 2)- Themen der Kommunikation; 3)- Kommunikative Aufgaben und Ziele; 4)- Kommunikative Aktivitäten und Strategien; 5)-Kommunikative Sprachprozesse; 6)-Texte. Wichtig und einflussreich ist die Differenzierung des Kontexts der Sprachverwendung in Lebensbereiche (d. h. sprachliche Handlungsfelder), Situationen, externer Kontext und mentaler Kontext. So wird bei Prüfungen unter Bezug auf den GER bei der Spezifikation des Testkonstrukts häufig zwischen den sprachlichen Handlungsfeldern (Domänen) „privater Bereich“, „öffentlicher Bereich“, „beruflicher Bereich“ und „Bildungsbereich“ unterschieden. Merkmale des externen Kontexts sind die Art der Administration einer Schreibaufgabe oder auch Zeit- und Umfangsvorgaben (vgl. die Ausführungen zur Kontextvalidität in Kapitel 4.2.3.4). Das Konzept des mentalen Kontexts trägt der Tatsache Rechnung, dass der externe Kontext erst im Zuge der mentalen Verarbeitung durch den jeweiligen Lernenden handlungswirksam wird. So sind bei schriftlichen Interaktionen nicht notwendigerweise die tatsächlichen Dominanzverhältnisse zwischen den Schreibenden für das kommunikative Handeln ausschlaggebend, sondern vielmehr die dem Adressaten subjektiv zugeschriebene Dominanz. Ähnlich ist auch bei der Vorgabe von Zeitbeschränkungen letztendlich bezüglich des Aufbaus von Zeitdruck entscheidend, wie die Lernenden die Vorgabe (z. B. im Lichte früherer Erfahrungen) interpretieren. Zum anderen beschreibt das GER -Modell auch die der Verwendung und dem Erlernen von Sprache zugrunde liegenden allgemeinen und sprachbezogenen Kompetenzen (siehe Punkt-7 in Tabelle-1). Dabei wird ein sehr weiter Kompetenzbegriff zugrunde gelegt, der auch (relativ) stabile Persönlichkeitsmerkmale umfasst (vgl. Kapitel-5.2). Im Zusammenhang mit der Beschreibung kommunikativer Aktivitäten und Kompetenzen haben die Autoren des GER zudem eine Vielzahl von gestuften Skalen vorgelegt. Diese gelten mittlerweile als zentrales Instrument der Qualitätsentwicklung und Qualitätssicherung im Bereich des Lernens und Lehrens von Sprachen und der Evaluation sprachlicher Kompetenzen. Allerdings werden gerade die Skalen des GER aus einer Reihe unterschiedlicher Perspektiven auch massiv kritisiert. Zum einen wird kritisiert, dass die Skalen in erster Linie subjektive Einschätzungen von Kompetenzen durch Lehrkräfte und Fachleute widerspiegeln. Damit verbunden werden als weitere Kritikpunkte u. a. genannt: unklare Terminologie; unzureichende Präzision der Leistungsdeskriptoren; fehlerhafte Übersetzungen; geringe Benutzerfreundlichkeit; Inkohärenz; Eklektizismus; fehlende Kalibrierung vieler Skalen; Konfundierung sprachlicher Kompetenzen und (entwicklungsabhängiger) intellektueller Fähigkeiten; unzureichende Anschlussfähigkeit an die Fremdsprachenerwerbsforschung und an Modelle kommunikativer Kompetenz (vgl. Bärenfänger, 2016; Bartning, Martin & Vedder, <?page no="90"?> 89 5.6 Schreibaktivitäten und Schreibkompetenzen im GER 2010; Fulcher, 2016; Harsch, 2007; Harsch & Martin, 2012; Hilpisch, 2012; Hulstijn, 2015, Kap. 10; Little & Taylor, 2013; North, 2014, Kap. 5; Simons & Colpaert, 2015; Wisniewski, 2014). 5.5.2 Modell kommunikativer Kompetenz von Bachman & Palmer (1996) Der Ansatz des Europarats bezieht sich u. a. auf das Modell kommunikativer Kompetenz von Bachman & Palmer (1996, Kap. 4), das seinerseits in wesentlichen Teilen auf Bachman (1990) beruht. Dieses relativ detaillierte und zum Teil empirisch gestützte Modell kommunikativer Kompetenz als Basis kommunikativen Sprachgebrauchs innerhalb und außerhalb von Testsituationen hat sowohl die theoretische Diskussion als auch die Entwicklung von professionellen Tests und Testaufgaben maßgeblich beeinflusst (vgl. auch Bachman & Palmer, 2010). Bachman & Palmer (1996) explizieren Sprachfähigkeit („language ability“) als zentrales Merkmal des Testteilnehmenden (oder allgemein des Sprachbenutzers) und als Teil eines Modells kommunikativen Sprachgebrauchs in und außerhalb von Testsituationen. Die Sprachfähigkeit unterteilen die Autoren unter Bezug auf eine Reihe weiterer Modelle kommunikativer Kompetenz in die Komponenten „sprachliches Wissen“ und „strategische Kompetenz“-- mit jeweils einer Reihe von Teilkomponenten. Andere zentrale Komponenten des Modells sind thematisches Wissen, persönliche Merkmale des Sprachbenutzers (z. B. Alter, Geschlecht, Muttersprache) sowie die mit der jeweiligen sprachlichen Aufgabe verbundenen bewussten oder unbewussten affektiven Schemata. Während es sich beim Sprachwissen um spezifische, im Gedächtnis gespeicherte sprachliche Wissensbestände handelt, bezeichnet strategische Kompetenz die generelle metakognitive Fähigkeit zum Einsatz sprachlicher und nichtsprachlicher Wissensbestände und Fähigkeiten in einer gegebenen Situation. Strategische Kompetenz trägt der Tatsache Rechnung, dass Sprachbenutzende in unterschiedlichem Maße in der Lage sind, ihr (deklaratives) Sprachwissen bei der kommunikativen Verwendung von Sprache zu aktualisieren. Daneben können aber auch spezifische Fertigkeiten, wie etwa Planungs- und Revisionsprozesse beim Verfassen eines Textes, als Zeichen strategischer Kompetenz angesehen werden. Dies ist ein wichtiger Unterschied zu Modellen, in denen der strategischen Kompetenz lediglich eine kompensatorische Funktion zugebilligt wird (z. B. Ausgleich spezifischer lexikalischer Defizite mit Hilfe von Paraphrasen). 21 5.6 Schreibaktivitäten und Schreibkompetenzen im GER Im Hinblick auf die Definition und Evaluation von Schreibkompetenzen sind zunächst einmal eine Reihe von begrifflichen Unterscheidungen aus dem GER von Interesse. Dabei handelt es sich insbesondere um qualitative Differenzierungen innerhalb der folgenden Kategorien: 21 Eine Vielzahl von weiteren Hinweisen zu Modellen kommunikativer Kompetenz findet sich in Fulcher & Davidson (2007). Eine relativ ausführliche Taxonomie von für das Schreiben in einer L2 relevanten sprachlichen und metakognitiven Wissensbeständen haben Grabe & Kaplan (1996) mit explizitem Bezug auf Modelle kommunikativer Kompetenz vorgestellt. Die Taxonomie ist in adaptierter Form bei Weigle (2002, S. 30-31) abgedruckt. <?page no="91"?> 90 5 Testkonstrukt und Testspezifikationen Kontext der Sprachverwendung; Themen der Kommunikation; kommunikative Aufgaben und Ziele; kommunikative Aktivitäten und Strategien; kommunikative Sprachprozesse; Texte und Medien; Kompetenzen der Sprachverwendenden / Lernenden. Darüber hinaus sind trotz der oben genannten massiven Kritik an den Skalen vor allem die gestuften Beschreibungen kommunikativer Aktivitäten und kommunikativer Kompetenzen sowie die zugehörigen Kommentierungen im GER eine wichtige Grundlage beim Einsatz von Schreibaufgaben im schulischen Kontext. Sie bieten-- z. T. vermittelt über die Bildungsstandards (vgl. Kapitel 5.7)-- eine Orientierung für Lehrkräfte, die eine Schreibaufgabe erstellen und dabei festlegen müssen, was genau sie mit dieser Aufgabe testen wollen. Weiterhin können sie Lehrkräften dabei helfen zu erkennen, ob sich eine vorliegende Aufgabe für die Überprüfung bestimmter Schreibkompetenzen im Sinne von GER und Bildungsstandards eignen könnte. Auch bei der Bewertung von Schreibleistungen mit Hilfe von Kriterienrastern (vgl. Kapitel 6 und 8) wird häufig auf die relevanten Skalen des GER Bezug genommen. Allerdings sind hierfür in der Regel mehr oder minder umfangreiche kontextspezifische Anpassungen nötig (für eine Begründung vgl. Harsch & Martin, 2012). Schließlich können die Skalen des GER auch für eine Rückmeldung an die Prüfungsteilnehmenden selbst sowie für eine Beschreibung der Kompetenzen der Prüfungsteilnehmenden für weitere Nutzer wie etwa Eltern oder Arbeitgeberinnen und Arbeitgeber verwendet werden (vgl. Europarat, 2001, S. 46-49 sowie Alderson, 1991; Montee & Malone, 2014). Relevante Skalen und Kommentierungen findet man im GER in Kapitel- 4 „Sprachverwendung, Sprachverwendende und Sprachlernende“ und Kapitel- 5 „Die Kompetenzen der Sprachverwendenden / Lernenden“. Entsprechend den Ausführungen im Kapitel-5.4 des vorliegenden Beitrags sind dabei die Skalen des Kapitels-4 des GER einem verhaltenszentrierten Ansatz, die kompetenzorientierten und in vielen Fällen zugleich kontextbezogenen Skalen des Kapitels-5 dagegen einem interaktionalen Ansatz zuzurechnen. Im Kapitel 4.4 „Kommunikative Aktivitäten und Strategien“ werden u. a. folgende Skalen aufgeführt: „Schriftliche Produktion allgemein“, „Kreatives Schreiben“, „Berichte und Aufsätze schreiben“, „Schriftliche Interaktion allgemein“, „Korrespondenz“ sowie „Notizen, Mitteilungen und Formulare“ (vgl. Europarat, 2001, S. 66-68; 85-87). In Kapitel 4.6.3 „Textsorten“ finden sich die Skalen „Notizen machen (in Vorträgen, Seminaren etc.)“ sowie „Texte verarbeiten“ (vgl. Europarat, 2001, S. 98). Weitere relevante Schreibaktivitäten werden im Kapitel 4.6.4 „Texte und Aktivitäten“ im Zusammenhang mit der Sprachmittlung genannt (vgl. Europarat, 2001, S. 99-102). Allerdings gibt es dort für die Sprachmittlung im Gegensatz zu den entsprechenden Ausführungen in den Bildungsstandards keine illustrierenden Beispielskalen. 22 Skalen zu den im Hinblick auf das Schreiben wichtigen sprachlichen Kompetenzen werden im Kapitel 5.2 „Kommunikative Sprachkompetenzen“ aufgeführt. Dort finden sich im Unterkapitel 5.2.1 „Linguistische Kompetenzen“ folgende relevante Skalen und Kom- 22 Die Entwicklung von skalierten Deskriptoren für den Bereich Sprachmittlung (Mediation) ist ein Schwerpunkt aktueller Projekte zur Aktualisierung und Erweiterung der Deskriptoren des GER (vgl. North & Docherty, 2016; North & Panthier, 2016). <?page no="92"?> 91 5.6 Schreibaktivitäten und Schreibkompetenzen im GER mentierungen: „Spektrum sprachlicher Mittel (allgemein)“, „Wortschatzspektrum“, „Wortschatzbeherrschung“, „Grammatische Korrektheit“, „Beherrschung der Orthographie“ (vgl. Europarat, 2001, S. 110-118). Im Kapitel 5.2.2 „Soziolinguistische Kompetenzen“ finden sich Ausführungen zu Höflichkeitskonventionen und Registerunterschieden sowie eine Skala „Soziolinguistische Angemessenheit“ (vgl. Europarat, 2001, S. 118-122). Die Skala bezieht sich zwar in erster Linie auf die mündliche Produktion, kann aber auch in Teilen zur Beschreibung schriftlicher Kompetenzen genutzt werden. Das Kapitel 5.2.3 „Pragmatische Kompetenzen“ enthält schließlich u. a. die Skalen „Flexibilität“, „Themenentwicklung“, „Kohärenz und Kohäsion“, und „Genauigkeit“ (vgl. Europarat, 2001, S. 123-130) sowie weitere Ausführungen z. B. zur Textgestaltung und zu Textfunktionen, die insbesondere ab dem Niveau A2 Anregungen für die Bewertung schriftlicher Kompetenzen bieten (vgl. auch die Hinweise zu GER -Skalen mit potenzieller Relevanz für die Evaluation von Schreibkompetenzen in Glaboniat, Perlmann-Balme & Studer, 2013, Kap. 6.3). Eine Reihe der genannten Skalen des GER sind im Anhang des vorliegenden Beitrags abgedruckt. Die Teilung innerhalb einer Niveaustufe-- wie im Fall von B1 in der Skala „Schriftliche Interaktion allgemein“-- bedeutet, dass der Deskriptor oberhalb der Linie den oberen Kompetenzbereich der Stufe beschreibt, also das Niveau B1+ bzw. B1.2. Im Folgenden gehe ich zur Illustration aktivitätsbezogener Skalierungen der Schreibkompetenz zunächst kurz auf die Skalen „Schriftliche Produktion allgemein“ und „Schriftliche Interaktion allgemein“ aus dem Kapitel 4.4 „Kommunikative Aktivitäten und Strategien“ des GER ein. Anschließend werden als Beispiele für die Skalierung relevanter linguistischer Kompetenzen kurz die Skalen „Spektrum sprachlicher Mittel (allgemein)“, „Wortschatzbeherrschung“, „Grammatische Korrektheit“ und „Beherrschung der Orthographie“ aus dem Kapitel 5.2.1 „Linguistische Kompetenzen“ sowie die Skala „Kohärenz und Kohäsion“ aus dem Kapitel 5.2.3 „Pragmatische Kompetenzen“ kommentiert. Die Wahl der letztgenannten Skalen ist vor dem Hintergrund zu sehen, dass bei der Bewertung von Schreibleistungen die Breite, Korrektheit und Angemessenheit der sprachlichen Mittel in der Regel einen zentralen Stellenwert einnehmen (vgl. auch Kapitel 6 und 8 im vorliegenden Band). In Bezug auf die Skalen „Schriftliche Produktion allgemein“ (Anhang-1) und „Schriftliche Interaktion allgemein“ (Anhang-2) fällt u. a. auf, dass die Erfüllung der in den Deskriptoren der Stufen B2 bis C2 beschriebenen Kriterien von Schreibexpertise in starkem Maße von den kognitiven Fähigkeiten und schulischen Bildungsprozessen der Adressaten abhängt. Insbesondere die Kriterien der Stufen C1 und C2 werden vermutlich auch viele Muttersprachlerinnen und Muttersprachler mit mittlerem oder höherem Schulabschluss nicht hinreichend erfüllen. Die entsprechenden Deskriptoren kommen deshalb am ehesten für eine Charakterisierung fremdsprachlicher Schreibkompetenz am Ende der Sekundarstufe- II oder im universitären Kontext in Frage. 23 23 Auf die Konfundierung von sprachlichen Kompetenzen und (entwicklungsabhängigen) intellektuellen Fähigkeiten hat u. a. Hulstijn (2015, Kap. 10) hingewiesen (vgl. auch Fulcher, 2016). Die Modellierung und Messung des Schreibens im Rahmen der Bildungsstandards für die fortgeführte Fremdsprache für die Allgemeine Hochschulreife beschreiben Schröder, Nold & Tesch (2017). <?page no="93"?> 92 5 Testkonstrukt und Testspezifikationen Hervorzuheben ist, dass vor allem die Deskriptoren der unteren Stufen der genannten Skalen relativ verhaltensnah konzipiert sind. Insbesondere der Deskriptor für A2 in der Skala „Schriftliche Produktion allgemein“, in dem beispielhaft auf Konnektoren verwiesen wird, eignet sich deshalb prinzipiell nicht nur im Hinblick auf eine verhaltensnahe Konstruktdefinition, sondern auch für die Bewertung von Schreibleistungen. Da zudem in den Deskriptoren der Skala „Schriftliche Interaktion allgemein“ auf einen (fiktiven) Adressaten sowie z. T. auch spezifische Textsorten Bezug genommen wird, kann man speziell auf diese Skala zurückgreifen, wenn man die Fähigkeit zum adressaten- und / oder textsortenspezifischen Schreiben genauer charakterisieren möchte. So verfahren etwa Glaboniat, Perlmann-Balme & Studer (2013, S. 83), indem sie in der Deutschprüfung Zertifikat B1 für die Aufgabe-1 des Moduls Schreiben den Deskriptor B1.1 der Skala „Schriftliche Interaktion allgemein“ als Kann-Beschreibung aufführen. Ähnlich kann man auch im Fall des in Kapitel-8 des vorliegenden Bandes vorgestellten Bewertungsrasters prüfen, inwieweit die Skala „Schriftliche Interaktion allgemein“ zur Formulierung von spezifischen Deskriptoren für die Kriterien „Anforderungen der Textsorte“ sowie „Berücksichtigung der Situation und des Adressaten (intendierten Lesers)“ beitragen kann. Die im Anhang aufgeführten Skalen linguistischer und pragmatischer Kompetenzen beschreiben eine Reihe von sprachlichen Mitteln, die im Hinblick auf die schriftliche Produktion und Interaktion in der Regel als zentral angesehen werden. Dabei werden zwar zum Teil Lebensbereiche und ausgewählte Kontextmerkmale wie z. B. Themen spezifiziert, es erfolgt jedoch keine Einschränkung etwa im Hinblick auf bestimmte Textsorten. Ein Schwerpunkt liegt im Bereich der lexikalischen und grammatikalischen Fähigkeiten, die üblicherweise als zentrale Komponenten von Schreibkompetenz angesehen werden. In Bezug auf die Korrektheit der sprachlichen Mittel wird dabei zwischen systematischen und nichtsystematischen Fehlern unterschieden. Außerdem wird berücksichtigt, inwieweit Fehler die Kommunikation behindern. Beide Aspekte werden auch im vorliegenden Band im Hinblick auf die Bewertung von Schreibleistungen als wesentlich angesehen (vgl. Kapitel 6 und 8). Es gilt allerdings wiederum, dass die Skalen für einen Einsatz als Bewertungsinstrument zu präzisieren und adaptieren sind. 24 Auch die im Anhang 6 in der Skala „Beherrschung der Orthographie“ beschriebenen Aspekte werden üblicherweise als Merkmale von Schreibkompetenz betrachtet. Welchen Stellenwert man orthografischen Kompetenzen letztendlich einräumt, kann dabei vom zielsprachlichen Verwendungskontext abhängen (z. B. Verwendung von Französisch in einem Bildungskontext vs. Gebrauch von Englisch als Lingua Franca). Über die (Teil-)Satzgrenze hinausgehende Diskurskompetenzen als wesentlicher Bestandteil pragmatischer Kompetenz werden schließlich in der Skala „Kohärenz und Kohäsion“ (Anhang-7) beschrieben, wobei sich die Beschreibung sowohl auf schriftliche als auch mündliche Aktivitäten bezieht. Die Skala steht im engen Zusammenhang insbesondere zur Skala 24 Es ist z. B. nicht hinreichend klar, was unter „kleinere Schnitzer“ oder „begrenzter Wortschatz“ zu verstehen ist. Eine ausführliche kritische Analyse der GER -Skalen zur lexikalischen Kompetenz findet sich in Wisniewski (2014, S. 276-287). <?page no="94"?> 93 5.7 Schreibaktivitäten und Schreibkompetenzen in den Bildungsstandards „Schriftliche Produktion (allgemein)“ und spezifiziert die textuellen Kompetenzen, die für eine erfolgreiche Ausübung der in der Skala „Schriftliche Produktion (allgemein)“ genannten niveauspezifischen Aktivitäten notwendig sind. Vor allem im Fall weiter fortgeschrittener Lernender gilt die Fähigkeit, Texte kohärent und kohäsiv zu gestalten, üblicherweise als zentraler Bestandteil von Schreibkompetenz (vgl. zur Definition und Stellenwert von Kohärenz und Kohäsion auch Knoch, 2009, S. 90-100). Weitere potenzielle Komponenten von Schreibkompetenz diskutiert Knoch (2009, Kap. 4). 5.7 Schreibaktivitäten und Schreibkompetenzen in den Bildungsstandards In den Bildungsstandards für die erste Fremdsprache für den Mittleren Schulabschluss ( KMK , 2004) und für den Hauptschulabschluss ( KMK , 2005) wird auf die Beschreibungen schriftlicher Kompetenzen im GER zwar zurückgegriffen, sie werden allerdings an den Schulkontext angepasst und anhand von Aufgabenbeispielen konkretisiert (vgl. auch die Hinweise zu den Bildungsstandards in Kapitel- 2.3). In den Bildungsstandards für den Hauptschulabschluss wird dabei als Regelstandard für die kommunikative Fertigkeit „Schreiben“ in Englisch und Französisch als erster Fremdsprache die Stufe A2 / A2+ angesetzt: Die Schülerinnen und Schüler können in einer Reihe einfacher Sätze über die eigene Familie, die Lebensumstände und die Schule schreiben. Sie können eine sehr kurze, elementare Beschreibung von Ereignissen, Handlungen, Plänen und persönlichen Erfahrungen erstellen sowie kurze Geschichten nach sprachlichen Vorgaben verfassen (A2 / A2+). Die Schülerinnen und Schüler können ▶ kurze, einfache Notizen und Mitteilungen schreiben, die sich auf unmittelbare Bedürfnisse und notwendige Dinge beziehen (A2), ▶ einfache, persönliche Briefe und E-Mails schreiben (A2), ▶ nach sprachlichen Vorgaben kurze einfache Texte (Berichte, Beschreibungen, Geschichten, Gedichte) verfassen (A2). ( KMK , 2005, S. 13) Ich beschränke mich im Folgenden auf eine Darstellung der Ausführungen zu Schreibkompetenzen in den Bildungsstandards für den Mittleren Schulabschluss. 25 Dort wird sowohl für Englisch als auch Französisch die Stufe B1 / B1+ als Regelstandard genannt: Die Schülerinnen und Schüler können zusammenhängende Texte zu vertrauten Themen aus ihrem Interessengebiet verfassen (B1). Die Schülerinnen und Schüler können 25 Ich verzichte auf eine kritische Kommentierung der Ausführungen in den Bildungsstandards. Da sich die Bildungsstandards allerdings im starken Maße an den Skalen und Deskriptoren des GER orientieren, trifft zumindest ein Teil der zuvor in den Kapiteln-5.5 und 5.6 im Hinblick auf den GER genannten Kritik auch auf die Bildungsstandards zu. Weitere problematische Aspekte der fremdsprachlichen Bildungsstandards werden in der im Kapitel-2 in den Hinweisen zum Weiterlesen genannten Literatur diskutiert. <?page no="95"?> 94 5 Testkonstrukt und Testspezifikationen ▶ eine Nachricht notieren, wenn jemand nach Informationen fragt oder ein Problem erläutert (B1+), ▶ in persönlichen Briefen Mitteilungen, einfache Informationen und Gedanken darlegen (B1), ▶ einfache standardisierte Briefe und E-Mails adressatengerecht formulieren, z. B. Anfragen, Bewerbungen (B1), ▶ unkomplizierte, detaillierte Texte zu einer Reihe verschiedener Themen aus ihren Interessengebieten verfassen, z. B. Erfahrungsberichte, Geschichten, Beschreibungen (B1), ▶ kurze einfache Aufsätze zu Themen von allgemeinem Interesse schreiben (B1), ▶ kurze Berichte zu vertrauten Themen schreiben, darin Informationen weitergeben, Gründe für Handlungen angeben und Stellung nehmen (B1+). ( KMK 2004, S. 14) Weitere Schreibkompetenzen sind in den Bildungsstandards für den Mittleren Schulabschluss im Zusammenhang mit der Sprachmittlung aufgeführt: Die Schülerinnen und Schüler können mündlich in Routinesituationen und schriftlich zu vertrauten Themen zusammenhängende sprachliche Äußerungen und Texte sinngemäß von der einen in die andere Sprache übertragen. Die Schülerinnen und Schüler können ▶ in Alltagssituationen sprachmittelnd agieren, ▶ persönliche und einfache Sach- und Gebrauchstexte sinngemäß übertragen. ( KMK , 2004, S. 14) Außerdem finden sich in den Bildungsstandards unter der Überschrift „Verfügung über die sprachlichen Mittel“ eine Reihe von relevanten Hinweisen zu Kenntnissen und Fertigkeiten in den Bereichen „Wortschatz“, „Grammatik“ und „Orthographie“ (vgl. KMK , 2004, S. 14-16). Die Autoren beziehen sich dabei explizit auf das Kapitel 5.2.1 „Linguistische Kompetenzen“ des GER . Die sprachlichen Mittel werden als funktionale Bestandteile der Kommunikation mit dienender Funktion angesehen. Als Regelstandard wird das GER -Niveau B1 angesetzt. In Bezug auf den Bereich Wortschatz heißt es z. B.: Die Schülerinnen und Schüler verfügen über einen hinreichend großen Wortschatz, um sich mit Hilfe von einigen Umschreibungen über die häufigsten Alltagsthemen der eigenen und der fremdsprachlichen Gesellschaft und Kultur (vgl. Kapitel 3.3) äußern zu können. Darüber hinaus sind sie in der Lage, zusätzliche lexikalische Einheiten hörend oder lesend zu verstehen (rezeptiver Wortschatz) oder selbstständig aus Texten zu erschließen (potentieller Wortschatz). Die Schülerinnen und Schüler machen aber noch elementare Fehler, wenn es darum geht, komplexere Sachverhalte auszudrücken und wenig vertraute Themen und Situationen zu bewältigen. ( KMK , 2004, S. 14 f.) Schließlich werden in den Bildungsstandards im Zusammenhang mit Ausführungen zur Textproduktion (Sprechen und Schreiben) auch unter „Methodenkompetenzen“ Aspekte von Schreibkompetenz genannt: Die Schülerinnen und Schüler können ▶ sich Informationen aus unterschiedlichen fremdsprachlichen Textquellen beschaffen, diese vergleichen, auswählen und bearbeiten, <?page no="96"?> 95 5.8 Psycholinguistische und sozio-kognitive Modelle fremdsprachlichen Schreibens ▶ Techniken des Notierens zur Vorbereitung eigener Texte oder Präsentationen nutzen, ▶ mit Hilfe von Stichworten, Gliederungen, Handlungsgeländern Texte mündlich vortragen oder schriftlich verfassen, ▶ die Phasen des Schreibprozesses (Entwerfen, Schreiben, Überarbeiten) selbstständig durchführen. ( KMK , 2004, S. 17) Eine zusammenfassende, sehr breite Definition von Schreibkompetenz im Sinne der Bildungsstandards für den Mittleren Schulabschluss geben Porsch (2010) und Porsch & Tesch (2010), wobei die Autoren das Anfertigen von Notizen als Mitschrift und das sinngemäße Übertragen im Rahmen der Sprachmittlung ausklammern. Die Definition gilt für Englisch und Französisch mit der GER -Stufe B1 / B1+ als Regelstandard: Fremdsprachliche Schreibkompetenz umfasst die Fertigkeit, selbstständig zusammenhängende Texte unterschiedlicher Textsorten zu verschiedenen Themen aus dem eigenen Interessengebiet in kommunikativen Zusammenhängen in der Zielsprache zu verfassen. Die Schreiber kennen elementare spezifische Kommunikations- und Interaktionsregeln englischsprachiger Länder. Sie berücksichtigen in ihren Texten kritisch Sicht- und Wahrnehmungsweisen, Vorurteile und Stereotype des eigenen Landes und der englischsprachigen Länder. Orthographie, Wortschatz und Grammatik haben für das Schreiben eine dienende Funktion: Ziel ist die Verständlichkeit für den Leser. Fremdsprachenschreiber können verschiedene Lern- und Schreibstrategien anwenden und diese in den einzelnen Schreibphasen (Entwerfen, Schreiben, Überarbeiten) einsetzen. Sie verfügen über die Fähigkeit, Fehler zu erkennen und diese für den eigenen Lernfortschritt zu nutzen. Schüler sind in der Lage, Texte in verschiedenen Sozialformen zu schreiben und mit unterschiedlichen Medien zu präsentieren. (Porsch, 2010, S. 56; Porsch & Tesch, 2010, S. 156) 5.8 Psycholinguistische und sozio-kognitive Modelle fremdsprachlichen Schreibens Sowohl der GER als auch die Bildungsstandards nennen zwar eine Reihe von Merkmalen zur Charakterisierung von Schreibkompetenzen, es wird allerdings kein psycholinguistisches oder sozio-kognitives Modell (aufgabenbasierten) fremdsprachlichen Schreibens präsentiert. Auch in Modellen kommunikativer Kompetenz wie dem GER -Modell oder dem Modell von Bachman & Palmer (1996) (siehe Kapitel 5.5) wird nicht im Detail auf die beim Schreiben ablaufenden kognitiven und affektiven Prozesse eingegangen. Ähnliches gilt in Bezug auf die Prozesse, die bei der Rezeption eines lernersprachlichen Textes auf Seiten der Lesenden / Bewertenden ablaufen. Auch wenn man Schreibkompetenzen-- wie zumeist üblich-- produktbezogen anhand der von den Lernenden produzierten Texte misst, 26 ist eine Modellierung der zum Produkt führenden Prozesse aus einer Reihe von Gründen von Bedeutung. Prozessmodelle ermöglichen eine genauere Spezifizierung des Testkonstrukts, eine tiefergehende Analyse von schwierig- 26 Für die empirische Analyse des Schreibprozesses kann man auf Verfahren wie Videografie, Aufzeichnung der Blickbewegungen, Protokollierung der Tastatureingaben oder Lautes Denken zurückgreifen (vgl. hierzu auch Krings, 2016, S. 108 f.). <?page no="97"?> 96 5 Testkonstrukt und Testspezifikationen keitsgenerierenden Merkmalen von Aufgaben oder auch die Entwicklung von theoretisch und empirisch besser fundierten Bewertungsrastern. Angesichts der Bedeutsamkeit einer psycholinguistischen und sozio-kognitiven Modellierung fremd- und muttersprachlichen Schreibens für die Evaluation von Schreibkompetenzen wäre eine umfassendere Auseinandersetzung mit dem Thema sicherlich wünschenswert, würde aber den Rahmen des vorliegenden Beitrags sprengen. Ich beschränke mich deshalb im Folgenden auf einige wenige Hinweise zu ausgewählten Aspekten. Eine umfassendere Darstellung der Thematik findet sich in Shaw & Weir (2007) und zwar insbesondere in den Kapiteln zur kognitiven Validität (Kap. 3) und Kontextvalidität (Kap. 4). Dabei thematisieren die Autoren in Übereinstimmung mit Weirs sozio-kognitiven Ansatz der Validierung von Sprachtests auch Schreiben im Sinne von sozialer Interaktion und Konstruktion. Ein kurzer, gut lesbarer Überblick über eine Reihe ‚klassischer‘ Modelle findet sich in Weigle (2002, Kap. 2). Wichtige Aspekte werden auch bei Rupp, Vock, Harsch & Köller (2008, S. 71-77) im Hinblick auf die Entwicklung von Schreibaufgaben zur Überprüfung der Bildungsstandards für die erste Fremdsprache (Englisch / Französisch) genannt. Weitere Aspekte werden in einem kurzen Überblicksartikel zum fremdsprachlichen Schreiben von Krings (2016) angesprochen. Zur Vertiefung sei auch auf die „Hinweise zum Weiterlesen“ am Ende dieses Kapitels verwiesen. Modelle des Schreibprozesses unterscheiden üblicherweise zwischen verschiedenen Phasen, und zwar insbesondere zwischen Planen (Entwerfen), Formulieren und Überarbeiten (Revidieren). 27 Dabei wird davon ausgegangen, dass der Schreibprozess in der Regel nicht linear, sondern rekursiv verläuft. Ein bekanntes, allerdings nicht fremdsprachenspezifisches Modell geht auf Hayes (1996) zurück. Als Prozesskomponenten werden dort u. a. genannt: die Schreibaufgabe, der soziale Kontext (unter Einschluss der Adressaten), der physische Kontext (unter Einschluss des bis zu einem bestimmten Zeitpunkt produzierten Textes) sowie die Wissensbestände und kognitiv-affektiven Merkmale des Schreibenden. Außerdem wird auf Konstrukte wie Arbeits- und Langzeitgedächtnis und metakognitive Kontrollprozesse (Monitoring) zurückgegriffen. Weiterhin wird die Bedeutsamkeit von Leseprozessen und Lesekompetenzen für den Schreibprozess unter Berücksichtigung der verschiedenen Phasen herausgestellt. Dabei geht der Autor auch relativ detailliert auf das kritische Lesen des bis zu einem bestimmten Zeitpunkt produzierten eigenen Textes ein. Allerdings ist das Modell unterspezifiziert insbesondere in Bezug auf Kontextfaktoren und die für das Schreiben notwendigen Wissensbestände (vgl. Weigle, 2002, S. 24-29). Das folgende Beispiel illustriert, dass eine Berücksichtigung von Prozessmerkmalen sowohl bei der Entwicklung von validen Schreibtests als auch bei der Interpretation der Testergeb- 27 Vgl. z. B. das in Grießhaber (2008, S. 232) abgedruckte Modell, das auch zu finden ist unter http: / / spzwww.uni-muenster.de/ griesha/ eps/ wrt/ prozess/ hayesuflowers.html. Der GER unterscheidet u. a. zwischen den kommunikativen Sprachprozessen „Planung“, „Ausführung“ und „Kontrolle (Monitoring)“ (vgl. im vorliegenden Kapitel-5.5.1, Tabelle- 1). Auch die Autoren der Bildungsstandards differenzieren zwischen den Phasen „Entwerfen“, „Schreiben“ und „Überarbeiten“. Problematisch ist m. E., dass sie die genannten Phasen zusammen u. a. mit „Techniken des Notierens zur Vorbereitung eigener Texte oder Präsentationen“ unter Methodenkompetenzen aufführen (vgl. KMK, 2004, S. 17 sowie auch Kapitel-5.5.2). <?page no="98"?> 97 5.8 Psycholinguistische und sozio-kognitive Modelle fremdsprachlichen Schreibens nisse von Bedeutung ist. So kann etwa eine Reduzierung der für die Bearbeitung einer Aufgabe insgesamt zur Verfügung stehenden Zeit zu Einschränkungen bei den Planungs- und Revisionsprozessen führen und sich als Folge negativ auf die Komplexität und Korrektheit des Schreibprodukts auswirken. Will man mit Hilfe von Schreibaufgaben die wichtige Fähigkeit zum Einsatz metakognitiver Strategien bei der Planung und Revision von Texten erfassen (vgl. hierzu auch Kapitel 5.5.2 oben), ist deshalb der Zeitrahmen für die Bearbeitung der Aufgaben eher großzügig zu gestalten. Soll dagegen (in erster Linie) der Grad der Automatisierung der Schreibkompetenzen gemessen werden, sollte den Testteilnehmenden für die Formulierung ihrer Gedanken eher wenig Zeit zur Verfügung stehen. Dieser Sachverhalt ist sowohl bei der Festlegung der Zeitvorgaben im Rahmen der Testentwicklung (vgl. hierzu auch Kapitel- 7) als auch bei der Interpretation der Testergebnisse im Hinblick auf das jeweilige Testkonstrukt zu berücksichtigen (vgl. zur Bedeutung von Zeitvorgaben auch Shaw & Weir, 2007, S. 83-86). Shaw & Weir (2007, S. 42) sprechen sich in diesem Zusammenhang dafür aus, dass zur Sicherung der kognitiven Validität eines Schreibtests die Aufgaben stets auch Planungs-, Überwachungs- und Revisionsprozesse aktivieren sollten. Auch Krings (2016) nennt neben der Beherrschung der Schreibmotorik, der Orthografie, des fremdsprachlichen Schriftsystems und der relevanten Textsortenkonventionen (unter Einschluss von Spezifika der Schriftsprache) „die Fähigkeit, die komplexen mentalen Teilprozesse der Textproduktion zu planen und zu steuern“ (S. 107) als zentralen Aspekt fremdsprachlicher Schreibkompetenz. Der Autor stellt zu dieser von ihm als Schreibprozessmanagement bezeichneten Komponente fest: Diese Teilkompetenz-… ist die am häufigsten übersehene Teilkompetenz des Schreibens. Je umfangreicher und anspruchsvoller der hervorzubringende Text gemessen an den Schreiberfahrungen des Textproduzenten ist, desto größer ist die Bedeutung dieser Teilkompetenz. (S. 107) Ein anderer häufig genannter Aspekt betrifft die auf Bereiter & Scardamalia (1987, Kap. 1) bzw. Scardamalia & Bereiter (1987) zurückgehende Unterscheidung zwischen der Wiedergabe von Wissen („knowledge telling“) und der Transformation von Wissen („knowledge transforming“) beim Schreiben (vgl. auch Chuy, Scardamalia & Bereiter, 2012; Weigle, 2002, S. 29-35). Die beiden Konzepte beziehen sich vor allem auf Aspekte der Planung und werden insbesondere zur Differenzierung zwischen Novizen und Experten 28 sowie zur Charakterisierung des kognitiven Anspruchsniveaus von Schreibaufgaben genutzt. Die Wissenswiedergabe ist ähnlich wie spontanes Sprechen durch wenig Planung gekennzeichnet und in erster Linie reproduktiv. Ein Beispiel für eine Schreibaufgabe, die in erster Linie die Wiedergabe von Wissen verlangt, ist die Beschreibung eines linearen Handlungsablaufs anhand von vorgegebenen Bildern. Bei der Wissenstransformation handelt es sich dagegen um einen komplexen und kognitiv anspruchsvollen Problemlösungsprozess, der durch hohe Anteile an Planung und metakognitivem Monitoring gekennzeichnet ist und bei 28 Aus Gründen der Lesbarkeit verzichte ich im Folgenden auf eine genderspezifische Differenzierung zwischen Novize und Novizin sowie Experte und Expertin und verwende stattdessen die maskulinen Formen wie weithin üblich im generischen Sinne. <?page no="99"?> 98 5 Testkonstrukt und Testspezifikationen dem nicht nur Wissen reproduziert, sondern auch neues Wissen generiert wird. Ein Beispiel ist das Schreiben einer komplexen Argumentation anhand von sich widersprechenden Aussagen als Vorgaben. Schreibexperten sind im Gegensatz zu Novizen nicht nur zur Wiedergabe, sondern auch zur Transformation von Wissen in der Lage. Entsprechend verlangen die im Rahmen der Cambridge English Examinations eingesetzten Schreibaufgaben bis zum GER -Niveau B1 in erster Linie die Wiedergabe von Wissen. Auf den darüber liegenden Niveaus wird dagegen zur Lösung der Aufgaben zunehmend auch die Fähigkeit zur Transformation von Wissen benötigt (vgl. Shaw & Weir, 2007, S. 44). Zwei weitere wichtige Aspekte betreffen den Stellenwert muttersprachlicher Schreibkompetenzen beim Schreiben in einer L2 im Sinne von Fremd- oder Zweitsprache sowie die Abhängigkeit der Schreibleistung vom kognitiven Entwicklungsstand der Lernenden. In Bezug auf das Konstrukt Schreibkompetenz werden in diesem Zusammenhang zwei zentrale Teilkomponenten unterschieden: Schreibexpertise und Sprachkompetenz. Schreibexpertise bezieht sich auf die Fähigkeit, Ideen zu generieren, zu organisieren und zu revidieren (unter Einbezug metakognitiver Strategien). Sprachkompetenz betrifft dagegen die Verfügbarkeit sprachlicher Mittel, die zum Schreiben in einer bestimmten Sprache notwendig sind (vgl. Porsch, 2010, S. 41). In einer Fremdsprache Schreibende können zumindest prinzipiell die Schreibexpertise nutzen, die sie im Zuge ihrer muttersprachlichen (schulischen) Schreibsozialisation erworben haben. Sie haben jedoch in der Regel im Vergleich zu ihrer Sprachkompetenz in der Muttersprache erhebliche Defizite in der Zielsprachenkompetenz. Porsch (2010, S. 40-45) nennt unter Bezug auf relevante Forschungsliteratur insbesondere Defizite in folgenden Bereichen: ▶ Umfang und Qualität der sprachlichen Ressourcen (Grammatik, Lexik, Orthografie, kohäsionsstiftende Mittel, Stilistik usw.); ▶ Grad der Automatisierung der sprachlichen Ressourcen; ▶ Umfang und Qualität des (kulturspezifischen) Textsortenwissens. Dabei weist Krings (2016, S. 109) darauf hin, dass die meisten beim Schreiben in der Fremdsprache auftretenden fremdsprachenspezifischen Probleme lexiko-semantischer Art sind. Entsprechende Defizite bei den fremdsprachlichen Ressourcen wirken sich nicht nur auf die sprachliche Qualität des Schreibprodukts aus, sondern führen auch zu einer im Vergleich zum Schreiben in der Muttersprache deutlich höheren Beanspruchung kognitiver Ressourcen. Als Folge kann z. B. für die Planung des Schreibprozesses weniger Verarbeitungskapazität zur Verfügung stehen. Ebenso kann der Transfer muttersprachlicher Schreibexpertise-- etwa im Bereich der Wissenstransformation- - erschwert oder sogar verhindert werden (vgl. für weitere Aspekte Krings, 2016, S. 109; Schröder, Nold & Tesch, 2017, Kap. 2.6.1.4). Weiterhin weist Porsch vor dem Hintergrund muttersprachlicher Schreibentwicklungsmodelle im Hinblick auf das Schreiben fremdsprachlicher Texte darauf hin, dass die Fähigkeit zum Einbezug der Leserperspektive sowohl von der Fähigkeit zum Perspektivenwechsel in der Muttersprache als auch vom kognitiven Entwicklungsstand der Lernenden abhängig ist (vgl. auch Burwitz-Melzer, 2016, S. 143; Linnemann, 2014, S. 38). Die Autorin stellt dazu fest: <?page no="100"?> 99 5.8 Psycholinguistische und sozio-kognitive Modelle fremdsprachlichen Schreibens Für Schüler in der Sekundarstufe I, die Englisch als erste Fremdsprache lernen und im Alter von ca. 14 Jahren sind, ist-… anzunehmen, dass sie die Leserperspektive in der Fremdsprache nur einbeziehen können, wenn sie das bereits in ihrer Muttersprache können bzw. den notwendigen kognitiven Entwicklungsstand erreicht haben. (Porsch, 2010, S. 34 f.) In Bezug auf den selbstständigen Gebrauch komplexer Kohäsionsmittel ist nach Porsch (2010, S. 36) beim kognitiven Entwicklungsstand möglicherweise sogar von einer unteren Grenze von ca. 15-16 Jahren auszugehen. Die Ausführungen zum Stellenwert muttersprachlicher Schreibkompetenzen beim Schreiben in einer L2 sowie zur Abhängigkeit der Schreibleistung vom kognitiven Entwicklungsstand der Lernenden haben eine Reihe von Implikationen für die Evaluation von Schreibkompetenzen. Zum einen kann man die grundsätzliche Frage stellen, ob vor allem solche Aspekte fremdsprachlicher Schreibkompetenz gemessen werden sollten, die (weitgehend) unabhängig von der muttersprachlichen Schreibkompetenz sind. Entscheidet man sich entsprechend, dann sollten das Testkonstrukt und die Bewertungskriterien vor allem fremdsprachliche Kompetenzen fokussieren-- und zwar insbesondere in den Bereichen Lexik und Grammatik. Weiterhin sollte man sich stets fragen, inwieweit Mängel bei der inhaltlichen Gestaltung eines fremdsprachlichen Schreibprodukts ein Indikator für eine unzureichende Schreibexpertise oder für eine unzureichende fremdsprachliche Kompetenz sind. Stellt man etwa fest, dass ein Text zwar inhaltlich defizitär, sprachlich jedoch komplex und angemessen ist, dann kann dies als möglicher Hinweis darauf interpretiert werden, dass die inhaltlichen Mängel in erster Linie auf einer defizitären Schreibexpertise beruhen. Ist ein Text dagegen sowohl in Bezug auf die sprachlichen Mittel als auch die inhaltliche Gestaltung unzureichend, ist nicht auszuschließen, dass der Verfasser oder die Verfasserin zwar über eine ausreichende (muttersprachliche) Schreibexpertise verfügt, diese jedoch aufgrund defizitärer fremdsprachlicher Kompetenz nicht adäquat nutzen konnte. 29 Schließlich sollte man sich vor allem im Fall jüngerer Schülerinnen und Schüler die Frage stellen, ob ein unzureichender Einbezug der Leserperspektive oder eine unzureichende inhaltliche Strukturierung eines Textes nicht darauf zurückzuführen sind, dass die Lernenden (noch) nicht die relevanten kognitiven Fähigkeiten entwickelt haben. Ist dies anzunehmen, dann sollten entsprechende Merkmale bei der Evaluation von Schreibkompetenzen unberücksichtigt bleiben. 29 Es sind natürlich noch weitere Konstellationen und Erklärungen möglich. So ist es z. B. denkbar, dass Lernende, selbst wenn sie über eine hinreichende Schreibexpertise verfügen, vor allem lexikogrammatikalische Aspekte fokussieren-- z. B. weil sie (irrtümlich) annehmen, dass bei der Bewertung die Qualität von Lexik und Grammatik ausschlaggebend ist. Das Beispiel zeigt, wie wichtig es ist, dass die Schreibenden mit den Bewertungskriterien und deren Gewichtung vertraut gemacht werden (vgl. Kapitel 6). <?page no="101"?> 100 5 Testkonstrukt und Testspezifikationen 5.9 Test- und Aufgabenspezifikationen Für die Entwicklung von standardisierten Tests werden üblicherweise sogenannte Testspezifikationen erstellt (vgl. Davidson & Fulcher, 2012; Davidson & Lynch, 2002; Fulcher & Davidson, 2007, S. 52-61; Spaan, 2006). Testspezifikationen konkretisieren das Testkonstrukt und gelten als zentrale Leitdokumente für die Test- und Aufgabenerstellung. Auch im unterrichtlichen Kontext sind Testspezifikationen ein wichtiges Hilfsmittel, um adäquate Prüfungen zu erstellen. Testspezifikationen können sehr unterschiedlich gestaltet sein und sich auch im Hinblick auf Umfang und Detailliertheit der präsentierten Informationen deutlich unterscheiden. Sie können Angaben und Beschreibungen u. a. zu folgenden Merkmalen enthalten (vgl. Grotjahn & Kleppin, 2015, S. 57 f., die Hinweise zum Weiterlesen am Ende dieses Kapitels sowie auch die Ausführungen zur Entwicklung von Testaufgaben zum Schreiben in Kapitel 7): ▶ Testziele; ▶ Testkonstrukt; ▶ zielsprachlicher Verwendungskontext; ▶ intendierter Leser der Schreibprodukte; ▶ geforderte Textsorte; ▶ Prüfungsteilnehmende; ▶ Prüfungscurriculum; ▶ Aufgabenformate; ▶ Art der Inputmaterialien; ▶ Art der Arbeitsanweisungen (Instruktionen); ▶ Art der Situierung; ▶ Zahl der Aufgaben und Items; ▶ Bearbeitungszeiten (von einzelnen Aufgaben, Testteilen, dem Gesamttest); ▶ Abfolge der Aufgaben; ▶ Art der erwarteten Reaktion auf die Aufgaben; ▶ Form der Testdurchführung (Administration); ▶ Art der Beurteilung der Leistung; ▶ Form der Rückmeldung. Ein zentraler Bestandteil der Testspezifikationen ist die Beschreibung der zu verwendenden Aufgaben in Form von mehr oder minder standardisierten und detaillierten Aufgabenspezifikationen. Sollen z. B. Aufgaben für parallele Prüfungen erstellt werden, die über die jeweilige Klasse bzw. den jeweiligen Kurs hinaus einen Leistungsvergleich erlauben, dann ist sicherzustellen, dass sich die Prüfungen insgesamt möglichst wenig unterscheiden. Schriftliche Test- und Aufgabenspezifikationen können hier einen wichtigen Beitrag zur Qualitätssicherung leisten. Bei der Erstellung von Spezifikationen speziell für die Entwicklung von Schreibtests oder auch von individuellen Schreibaufgaben kann man u. a. auf eine Reihe von Rastern zurückgreifen, die von der Association of Language Testers in Europe ( ALTE ) entwickelt worden <?page no="102"?> 101 5.9 Test- und Aufgabenspezifikationen sind. Hier sind insbesondere zu nennen: die Checklisten für individuelle Komponenten ( ALTE , 2009a, 2009b) sowie die CEFR Content Analysis Grids for Writing Tasks (Council of Europe, 2009, S. 161-164, 165-170). Im Fall der für die Konstruktion von standardisierten Tests und Aufgaben entwickelten ausführlichen Test- und Aufgabenspezifikationen handelt es sich zumeist um nicht öffentlich zugängliche interne Dokumente der jeweils verantwortlichen Institutionen. 30 Ein illustratives Beispiel für ein entsprechendes internes Papier sind die Testspezifikationen für die GER -Niveaus A1 bis C1 (Version 3, September 2012), die am IQB im Hinblick auf die Konstruktion von Schreibaufgaben für VERA -8 entwickelt wurden. 31 In der Abbildung- 3 sind die Spezifikationen für das Niveau A2 abgedruckt. Auf einen Abdruck der Versionen für die übrigen Niveaus habe ich verzichtet, da diese in ihren wesentlichen Konstruktionsprinzipien mit der Version für A2 übereinstimmen. In den Testspezifikationen in Abbildung-3 werden zunächst der Zweck, das Testkonstrukt, die zielsprachlichen Verwendungssituationen, die Testteilnehmenden sowie das angezielte GER -Niveau spezifiziert. Es folgen Hinweise zu den Testaufgaben unter Einschluss der Adressaten der Schreibaktivitäten, zu der von den Testeilnehmenden erwarteten Reaktion (Output) sowie zu den Bewertungskriterien. Die Gewichtung der Aufgaben und die Form der Administration werden zwar als Kriterien genannt, jedoch nicht weiter ausgeführt. Es fällt auf, dass das Testkonstrukt in erster Linie anhand von Schreibaktivitäten und deren Effizienz charakterisiert wird. Welche sprachlichen Kompetenzen und Ressourcen für die Durchführung der Aktivitäten benötigt werden, bleibt (weitgehend) unspezifiziert. Notwendige grammatikalische, lexikalische und textuelle Kompetenzen werden lediglich in den Bewertungskriterien genannt, ohne dass jedoch ein expliziter Bezug zum Testkonstrukt hergestellt wird. Dies erschwert die Interpretation der gezeigten Leistungen im Hinblick auf das Testkonstrukt. Vergleicht man die Spezifikationen für A2 mit denen für B1, fällt auf, dass bei der Beschreibung des Testkonstrukts im Fall von A2 nur fünf, bei B1 dagegen 13 Aktivitäten aufgeführt sind. Außerdem gibt es in Bezug auf den geforderten Output eine Reihe von Unterschieden: So werden für B1 z. T. anspruchsvollere Textsorten und Diskurstypen genannt und beim Inhalt „concrete and slightly abstract“ als Merkmal aufgeführt. Weiterhin werden für B1 als Output nicht nur 40, sondern mindestens 100-Wörter gefordert. Das Spektrum und die Komplexität der geforderten Schreibaktivitäten werden damit zu einem wichtigen Unterscheidungsmerkmal zwischen Leistungen auf den GER -Stufen A2 und B1 (vgl. zu diesem Aspekt auch Green, 2012). 30 Es ist allerdings auch bei den ‚großen‘ internationalen Testanbietern eine zunehmende Tendenz zu Transparenz und zur Rechtfertigung der entwickelten Instrumente zu beobachten. So haben Chapelle, Enright & Jamieson (2008a) zusammen mit weiteren Autoren ein umfassendes Validitätsargument für den neuen TOEFL i BT vorgelegt-- mit Angabe von Bewertungskriterien und Zusammenfassungen der Spezifikationen für Writing, Speaking, Listening und Reading. 31 Da am IQB aktuell keine fremdsprachlichen Schreibaufgaben entwickelt werden, wurden diese Spezifikationen nicht mehr aktualisiert. <?page no="103"?> 102 5 Testkonstrukt und Testspezifikationen Criteria Description Purpose To determine whether the learners’ writing ability is at A2 level. Construct 1. Can write a series of simple phrases and sentences linked with simple connectors like ‘and’, ‘but’ and ‘because’. 2. Can write a series of simple phrases and sentences about their family, living conditions, educational background, present or more recent job. Can write short simple imaginary biographies and simple poems about people. 3. Can write short, simple, formulaic notes relating to matters in areas of immediate need. 4. Can write very simple personal letters, for example, expressing thanks and apology. 5. Can take short simple messages provided he / she can ask for repetition and reformulation. Can write short simple notes and messages relating to matters in areas of immediate need. Target language situation Everyday situations English in the classroom English as lingua franca Description of the test taker Mainly 8 th graders of all school types Heterogeneous population (cultural, religious, German as a second language etc.) Age mainly 13-14 English as a 1 st foreign language Test level A2 CEFR Task prompt Instructions should include purpose, addressee*, context, amount of time given, text type and length of output desired Text or / and visual support Sources: internet, (youth) magazines, newspapers, leaflets, adverts, signs, CD / DVD covers, books, menus, posters, blurbs, reviews, brochures, reference books / encyclopaedias, selfcreated input Type of input: frame prompt / text-based prompt** Discourse type: narrative (e. g. stories, reports) descriptive (e. g. leaflets, layout of a place) instructive (e. g. adverts, public information, signs) expository (e. g. definitions, TV programmes, blurbs) phatic (e. g. post-its, snail + email, sms) Nature of content: concrete, simple and familiar Length: including instructions up to a maximum of 80 words Authenticity: wherever possible Topic areas: everyday life, free time, travelling, entertainment, house and home, environment, health and body care, education, shopping, food and drink, services, places, weather, multicultural society, celebrities, animals, festivals/ customs, world of work Topics to be avoided (see reading) Output Type: words / phrases, isolated and / or linked sentences as in notes; forms; emails / blogs, letters / postcards, posters, invitations, stories, personal / imaginary biographies, reports etc. Discourse type: narrative, descriptive, phatic, simple expository e. g. explain experiences, simple argumentations e. g. give opinion on a familiar topic Nature of content: concrete and simple Length: a minimum of 40 words Weighting of tasks - Criteria of assessment Task fulfilment, Organisation (coherence, cohesion / paragraphs), Grammar (range and accuracy), Vocabulary (range and accuracy) See separate rating scale Administration - <?page no="104"?> 103 5.10 Testkonstrukt und Bewertungskriterien * peers, authorities (headmaster of an exchange school, employers- …), holiday acquaintances, celebrities, international organisations, magazines, services (hotel, travel agents-…), pen pals ** timetables, menus, instructions, manuals, newspaper / magazine articles etc., leaflets, programs, blurbs, CD covers, reviews, adverts, e-mails, personal letters, postcards, text messages, stories Abbildung 3: VERA -8, Testspezifikationen Schreiben A2, Version 3, September 2012, © IQB 5.10 Testkonstrukt und Bewertungskriterien Abschließend möchte ich noch kurz auf den Zusammenhang zwischen Testkonstrukt und Bewertungskriterien eingehen. Eine ausführliche Beschäftigung mit dem Thema „Bewertung von Schreibleistungen“ erfolgt in den Kapiteln 6 und 8. Bewertungskriterien und -skalen- - und gegebenenfalls zugehörige Leistungsbeispiele- - operationalisieren zusammen mit den zur Messung des Konstrukts vorgesehen Aufgaben das Testkonstrukt (vgl. Berger, 2015, S. 58 f.; Brindley, 2013, S. 3; Knoch, 2009, S. 42). Entsprechend stellen Eckes, Müller-Karabil & Zimmermann (2016) unter der Überschrift „Operationalizing the construct“ fest: In writing assessment, the construct of interest is typically reflected in two components: The first component is the test task, which is designed to represent the construct and aims at eliciting a corresponding written performance; the second component is the rating scale, which explicitly represents the construct through its descriptors, guides the scoring procedure and, thus, impacts greatly on the assessment outcomes. (S. 151) Aufgaben und Bewertungskriterien spiegeln damit auch das Verständnis des Testkonstrukts durch die Entwicklerinnen und Entwickler der Aufgaben und Bewertungskriterien wider. Sie operationalisieren allerdings zumeist nur einen Teil der Merkmale des Konstrukts. Bleiben zentrale Merkmale des Konstrukts unberücksichtigt oder werden konstruktirrelevante Merkmale fokussiert, kann dies zu einer massiven Minderung der Validität der Messung führen (vgl. die Bemerkungen zur Konstruktunterrepräsentation und zu konstruktirrelevanten Faktoren in Kapitel 4.2.3). Ausführliche Bewertungskriterien, die im Hinblick auf das Testkonstrukt und die zur Messung vorgesehen Aufgaben entwickelt werden, stellen damit zugleich auch eine Spezifikation des Testkonstrukts dar. Für Shaw & Weir (2007) sind die Bewertungskriterien deshalb nicht nur eine Operationalisierung, sondern ein Teil des Testkonstrukts: The scoring criteria in writing are an important part of the construct in addition to context and processing since they describe the level of performance that is required. Particularly at the upper levels of writing ability, it is the quality of the performance that enables distinctions to be made between levels of proficiency-… (S. 7) Ähnlich sprechen auch McNamara, Hill & May (2002, S. 229) von den Bewertungsskalen und Bewertungskriterien sowie deren Interpretation durch die Bewertenden als faktischen Testkonstrukten: “-… rating scales and rating criteria, and their interpretation by raters, act <?page no="105"?> 104 5 Testkonstrukt und Testspezifikationen as de facto test constructs-…”. Damit trennen die genannten Autoren allerdings nicht mehr hinreichend deutlich zwischen Konstrukten als theoretisch definierten Konzepten und der Operationalisierung von Konstrukten im Zuge der Entwicklung von Messinstrumenten. Auf jeden Fall gilt jedoch, dass im Hinblick auf die faktische Validität eines Schreibtests neben den eingesetzten Aufgaben die zugrunde gelegten Bewertungskriterien und deren Verwendung durch die Rater eine entscheidende Rolle spielen. Hinweise zum Weiterlesen Eine ausführliche Auseinandersetzung mit dem Kompetenzbegriff aus der Sicht der Kompetenzdiagnostik findet sich bei Schott & Azizi Ghanbari (2012). Einen kurzen fremdsprachenbezogenen Überblick über Merkmale von Kompetenzmodellen gibt Zydatiß (2010). Candelier et al. (2012) gehen im Zusammenhang mit dem u. a. in einer englischen, französischen und deutschen Version vorliegenden „Referenzrahmens für Plurale Ansätze zu Sprachen und Kulturen“ umfassend auf das Verhältnis von Kompetenzen zu Ressourcen ein. Eine Vielzahl von Komponenten von Schreibkompetenz wird in Knoch (2009, Kap. 4) beschrieben. Kritische Auseinandersetzungen mit den Skalen des GER finden sich z. B. bei Bartning, Martin & Vedder (2010); Harsch (2007); Vogt (2011); Wisniewski (2014). Prozessmodelle mutter- und fremdsprachlichen Schreibens sowie z. T. Schreibentwicklungsmodelle werden relativ ausführlich in Shaw & Weir (2007, Kap. 3 und 4) beschrieben. Weiterhin beschäftigen sich mit der Thematik sowie z. T. auch mit Schreibentwicklungsmodellen: Becker-Mrotzek & Böttcher (2015, Kap. 2 und 3); Grießhaber (2008); Harsch et al. (2007); Johnson, Mercado & Acevedo (2012); Krings (2016); Porsch (2010, Kap. 2.1 und 2.2); Schoonen, Snellings, Stevenson & Van Gelderen (2009); Weigle (2002, Kap. 2). Dabei geht Porsch (2010) auch ausführlich auf die wichtige Frage nach dem Zusammenhang zwischen dem Schreiben in der L1 und der L2 ein (bei Porsch Deutsch und Englisch). Hinweise speziell zu Aufgabeneffekten und schwierigkeitsgenerierenden Merkmalen enthalten mehrere Beiträge in Van Steendam, Tillema, Rijlaarsdam & Van den Bergh (2012). Aryadoust & Liu (2015) haben anhand der Schreibprodukte chinesischer Englischlernender sowohl den Zusammenhang zwischen Ebenen mentaler Repräsentation und statistischen Textmerkmalen als auch zwischen Textmerkmalen und der durch menschliche Beurteilende eingeschätzten Testqualität analysiert. Zur Rolle individueller Unterschiede beim Schreiben in einer L2 siehe Kormos (2012). Hinweise zum Zusammenhang von Aufgabenmerkmalen und der Komplexität, Korrektheit und Flüssigkeit der Schreibprodukte findet man u. a. in Housen, Kuiken & Vedder (2012). Zur Rolle speziell von Flüssigkeit und lexikalischer Kompetenz in Schreibprozessmodellen siehe Wisniewski (2014, Kap. 2). Spezifika der Konstruktdefinition und Messung im Fall integrierter Aufgabenformate diskutieren Cumming (2014), Gebril & Plakans (2013), Knoch & Sitajalabhorn (2013) und Wolfersberger (2013). Mögliche Veränderungen des Testkonstrukts bei der automatisierten Bewertung von Schreibleistungen werden in Bejar, Flor, Futagi & Ramineni (2014) und Deane (2013a, 2013b) angesprochen. <?page no="106"?> 105 Literatur Literatur Alderson, J. Charles. (1991). Bands and scores. In J. Charles Alderson & Brian North (Hrsg.), Language testing in the 1990s: The communicative legacy (S. 71-86). London: Macmillan. ALTE [Association of Language Testers in Europe]. (2006). ALTE -Handreichungen für Testautoren. [abrufbar unter https: / / www.testdaf.de/ aktuelles/ archiv-2007/ ] ALTE [Association of Language Testers in Europe]. (2009a). Writing: Individual component checklist. [abrufbar unter http: / / www.alte.org/ attachments/ files/ writing_check.pdf] ALTE [Association of Language Testers in Europe]. (2009b). Writing: Individual component checklist for use with one task. [abrufbar unter http: / / www.alte.org/ attachments/ files/ writing_check_one task.pdf] American Educational Research Association, American Psychological Association & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. Washington, DC : American Educational Research Association. Aryadoust, Vahid & Liu, Sha. (2015). Predicting EFL writing ability from levels of mental representation measured by Coh-Metrix: A structural equation modeling study. Assessing Writing, 24, 35-58. doi: 10.1016/ j.asw.2015.03.001 Bachman, Lyle F. (1990). Fundamental considerations in language testing. Oxford: Oxford University Press. Bachman, Lyle F. (2007). What is the construct? The dialectic of abilities and contexts in defining constructs in language assessment. In Janna Fox, Marjorie B. Wesche, Doreen Bayliss, Liying Cheng, Carolyn Turner & Christine Doe (Hrsg.), Language testing reconsidered (S. 41-71). Ottawa: Ottawa University Press. Bachman, Lyle F. & Cohen, Andrew D. (1998). Language testing-- SLA interfaces: An update. In Lyle F. Bachman & Andrew D. Cohen (Hrsg.), Interfaces between second language acquisition and language testing research (S. 1-31). Cambridge: Cambridge University Press. Bachman, Lyle F. & Palmer, Adrian S. (1996). Language testing in practice: Designing and developing useful language tests. Oxford: Oxford University Press. Bachman, Lyle F. & Palmer, Adrian S. (2010). Language assessment in practice: Developing language assessments and justifying their use in the real world. Oxford: Oxford University Press. Bärenfänger, Olaf. (2016). Die Skalen des Gemeinsamen europäischen Referenzrahmens für Sprachen im Praxistest: Eine empirische Studie zur Validität des Referenzrahmens. Zeitschrift für Fremdsprachenforschung, 27(1), 59-76. Bartning, Inge, Martin, Marisa & Vedder, Ineke. (Hrsg.). (2010). Communicative proficiency and linguistic development: Intersections between SLA and language testing research. Rome: Edisegno srl. [abrufbar unter http: / / eurosla.org/ monographs/ EM01/ EM01home.html] Becker-Mrotzek, Michael & Böttcher, Ingrid. (2015). Schreibkompetenz entwickeln und beurteilen (6., überarb. Aufl.). Berlin: Cornelsen Scriptor. Bejar, Isaac I., Flor, Michael, Futagi, Yoko & Ramineni, Chaintanya. (2014). On the vulnerability of automated scoring to construct-irrelevant response strategies ( CIRS ): An illustration. Assessing Writing, 22, 48-59. doi: 10.1016/ j.asw.2014.06.001 Bereiter, Carl & Scardamalia, Marlene. (1987). The psychology of written composition. Hillsdale, NJ : Erlbaum. Berger, Armin. (2015). Validating analytic rating scales: A multi-method approach to scaling descriptors for assessing academic speaking. Frankfurt am Main: Lang. <?page no="107"?> 106 5 Testkonstrukt und Testspezifikationen Brindley, Geoff. (2013). Task-based assessment. In Carol A. Chapelle (Hrsg.), The encyclopedia of applied linguistics (S. 1-6). Chichester: Wiley-Blackwell. doi: 10.1002/ 9781405198431.wbeal1141 Burwitz-Melzer, Eva. (2016). Text- und Medienkompetenz. In Eva Burwitz-Melzer, Grit Mehlhorn, Claudia Riemer, Karl-Richard Bausch & Hans-Jürgen Krumm (Hrsg.), Handbuch Fremdsprachenunterricht (6., völlig überarb. und erweiterte Aufl., S. 141-144). Tübingen: Francke. Bygate, Martin, Norris, John & Van den Branden, Kris. (2015). Task-based language teaching. In Carol A. Chapelle (Hrsg.), The encyclopedia of applied linguistics (S. 1-8). Chichester, UK : Wiley- Blackwell. doi: 10.1002/ 9781405198431.wbeal1467 Candelier, Michel, Camilleri Grima, Antoinette, Castellotti, Véronique, de Pietro, Jean-François, Lörincz, Ildikó, Meißner, Franz-Joseph, Noguerol, Artur & Schröder-Sura, Anna. (2012). FREPA -- A Framework of Reference for Pluralistic Approaches to Languages and Cultures: Competences and resources. Graz: European Centre for Modern Languages & Council of Europe. [abrufbar unter http: / / www.ecml.at/ tabid/ 277/ PublicationID/ 82/ Default.aspx; dort auch Abruf der französischen und deutschen Version] Canz, Thomas. (2015). Validitätsaspekte bei der Messung von Schreibkompetenzen. Dissertation zur Erlangung des akademischen Grades Dr. rer. nat. im Fach Psychologie. Lebenswissenschaftliche Fakultät der Humboldt-Universität zu Berlin. [abrufbar unter http: / / edoc.hu-berlin.de/ dissertatio nen/ canz-thomas-2015-10-19/ PDF/ canz.pdf] Chalhoub-Deville, Micheline. (2003). Second language interaction: Current perspectives and future trends. Language Testing, 20(4), 369-383. doi: 10.1191/ 0265532203lt264oa Chapelle, Carol A. (1998). Construct definition and validity inquiry in SLA research. In Lyle F. Bachman & Andrew D. Cohen (Hrsg.), Interfaces between second language acquisition and language testing research (S. 32-70). Cambridge: Cambridge University Press. Chapelle, Carol A., Enright, Mary K. & Jamieson, Joan M. (Hrsg.). (2008a). Building a validity argument for the Test of English as a Foreign Language TM . New York: Routledge. Chapelle, Carol A., Enright, Mary K. & Jamieson, Joan M. (2008b). Test score interpretation and use. In Carol A. Chapelle, Mary K. Enright & Joan M. Jamieson (Hrsg.), Building a validity argument for the Test of English as a Foreign Language TM (S. 1-25). New York: Routledge. Chuy, Maria, Scardamalia, Marlene & Bereiter, Carl. (2012). Development of ideational writing through knowledge building: Theoretical and empirical bases. In Elena L. Grigorenko, Elisa Mambrino & David D. Preiss (Hrsg.), Writing: A mosaic of new perspectives (S. 175-190). New York: Psychology Press. Council of Europe. (2009). Relating language examinations to the Common European Framework of Reference for Languages: Learning, Teaching, Assessment ( CEFR ): A manual. Strasbourg: Council of Europe, Language Policy Division. [abrufbar unter http: / / www.coe.int/ t/ dg4/ linguistic/ Manuel1_ EN.asp] Cumming, Alister. (2014). Assessing integrated skills. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 216-229). Chichester: Wiley-Blackwell. Davidson, Fred & Fulcher, Glenn. (2012). Developing test specifications for language assessment. In Christine Coombe, Peter Davidson, Barry O'Sullivan & Stephen Stoynoff (Hrsg.), The Cambridge guide to second language assessment (S. 59-65). Cambridge: Cambridge University Press. Davidson, Fred & Lynch, Brian K. (2002). Testcraft: A teacher’s guide to writing and using language test specifications. New Haven: Yale University Press. Deane, Paul. (2013a). Covering the construct: An approach to automated essay scoring motivated by a socio-cognitive framework for defining literacy skills. In Mark D. Shermis & Jill Bur- <?page no="108"?> 107 Literatur stein (Hrsg.), Handbook on automated essay evaluation: Current application and new directions (S. 298-312). New York: Routledge. Deane, Paul. (2013b). On the relation between automated essay scoring and modern views of the writing construct. Assessing Writing, 18(1), 7-24. doi: 10.1016/ j.asw.2012.10.002 Deville, Craig & Chalhoub-Deville, Micheline. (2006). Old and new thoughts on test score variability: Implications for reliability and validity. In Micheline Chalhoub-Deville, Carol A. Chapelle & Patricia Duff (Hrsg.), Inference and generalizability in applied linguistics: Multiple perspectives (S. 9-25). Amsterdam: Benjamins. Eckes, Thomas. (2010). Die Beurteilung sprachlicher Kompetenz auf dem Prüfstand: Fairness in der beurteilergestützten Leistungsmessung. In Karin Aguado, Karen Schramm & Helmut J. Vollmer (Hrsg.), Fremdsprachliches Handeln beobachten, messen, evaluieren: Neue methodische Ansätze der Kompetenzforschung und der Videographie (S. 65-97). Frankfurt am Main: Lang. Eckes, Thomas. (2015). Introduction to many-facet Rasch measurement: Analyzing and evaluating rater-mediated assessments (2., rev. und erw. Aufl.). Frankfurt am Main: Lang. Eckes, Thomas, Müller-Karabil, Anika & Zimmermann, Sonja. (2016). Assessing writing. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 147-164). Boston: De Gruyter. Europarat. (2001). Gemeinsamer europäischer Referenzrahmen für Sprachen: Lernen, lehren, beurteilen. Berlin: Langenscheidt. [abrufbar unter: http: / / www.coe.int/ lang und http: / / student.unifr.ch/ pluriling/ assets/ files/ Referenzrahmen2001.pdf] Europarat & ALTE . (2012). Handbuch zur Entwicklung und Durchführung von Sprachtests. Zur Verwendung mit dem GER . Erstellt von ALTE im Auftrag des Europarats-- Abteilung für Sprachenpolitik. Frankfurt am Main: telc GmbH. [abrufbar unter http: / / www.coe.int/ t/ dg4/ linguistic/ Source/ ManualAlte_Allemand.pdf] Fischer, Johann, Chouissa, Catherine, Dugovičová, Stefania & Virkkunen-Fullenwider, Anu. (2011a). Evaluer par les tâches les langues à fins spécifiques à l’université: Un guide. Graz: European Centre for Modern Languages. [abrufbar unter http: / / gult.ecml.at/ ] Fischer, Johann, Chouissa, Catherine, Dugovičová, Stefania & Virkkunen-Fullenwider, Anu. (2011b). Guidelines for task-based university language testing. Graz: European Centre for Modern Languages. [abrufbar unter http: / / gult.ecml.at/ ] Fleischer, Jens, Koeppen, Karoline, Kenk, Martina, Klieme, Eckhard & Leutner, Detlev. (2013). Kompetenzmodellierung: Struktur, Konzepte und Forschungszugänge des DFG -Schwerpunktprogramms. Zeitschrift für Erziehungswissenschaft, 16(1), 5-22. doi: 10.1007/ s11618-013-0379-z Fulcher, Glenn. (2016). Standards and frameworks. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 29-44). Boston: De Gruyter. Fulcher, Glenn & Davidson, Fred. (2007). Language testing and assessment: An advanced resource book. London: Routledge. Gebril, Atta & Plakans, Lia. (2013). Toward a transparent construct of reading-to-write tasks: The interface between discourse features and proficiency. Language Assessment Quarterly, 10(1), 9-27. doi: 10.1080/ 15434303.2011.642040 Glaboniat, Manuela, Perlmann-Balme, Michaela & Studer, Thomas. (2013). Zertifikat B1: Deutschprüfung für Jugendliche und Erwachsene-- Prüfungsziele, Testbeschreibung. Ismaning: Hueber. Grabe, William & Kaplan, Robert B. (1996). Theory and practice of writing. New York: Longman. Green, Anthony. (2012). Language functions revisited: Theoretical and empirical bases for language construct definition across the ability range. Cambridge: Cambridge University Press. <?page no="109"?> 108 5 Testkonstrukt und Testspezifikationen Grießhaber, Wilhelm. (2008). Schreiben in der Zweitsprache Deutsch. In Bernt Ahrenholz & Ingelore Oomen-Welke (Hrsg.), Deutsch als Zweitsprache (S. 228-238). Baltmannsweiler: Schneider Hohengehren. Grotjahn, Rüdiger. (2003). Leistungsmessung und Leistungsbewertung. Hagen: FernUniversität [Fernstudienbrief für den Weiterbildungs-Masterstudiengang „Deutschlandstudien. Schwerpunkt: Deutsche Sprache und ihre Vermittlung“]. Grotjahn, Rüdiger. (2007). Testen und Prüfen: Aktuelle Tendenzen. Neue Beiträge zur Germanistik, 6(2), 19-38. Grotjahn, Rüdiger. (2015). Dynamisches Assessment: Grundlagen, Probleme, Potenzial. In Jessica Böcker & Anette Stauch (Hrsg.), Konzepte aus der Sprachlehrforschung-- Impulse für die Praxis. Festschrift für Karin Kleppin (S. 469-488). Frankfurt am Main: Lang. Grotjahn, Rüdiger & Kleppin, Karin. (2015). Prüfen, Testen, Evaluieren. München: Klett-Langenscheidt. Harsch, Claudia. (2007). Der gemeinsame europäische Referenzrahmen für Sprachen: Leistung und Grenzen. Saarbrücken: VDM Verlag Dr. Müller. [zugleich Dissertation Universität Augsburg 2006; abrufbar unter http: / / opus.bibliothek.uni-augsburg.de/ opus4/ frontdoor/ index/ index/ docId/ 297] Harsch, Claudia. (2010). Schreibbewertung im Zuge der Normierung der KMK -Bildungsstandards: Der „niveauspezifische Ansatz“ und ausgewählte Schritte zu seiner Validierung. In Karin Aguado, Karen Schramm & Helmut J. Vollmer (Hrsg.), Fremdsprachliches Handeln beobachten, messen, evaluieren: Neue methodische Ansätze der Kompetenzforschung und der Videographie (S. 99-117). Frankfurt am Main: Lang. Harsch, Claudia & Martin, Guido. (2012). Adapting CEF -descriptors for rating purposes: Validation by a combined rater training and scale revision approach. Assessing Writing, 17(4), 228-250. doi: 10.1016/ j.asw.2012.06.003 Harsch, Claudia, Neumann, Astrid, Lehmann, Rainer H. & Schröder, Konrad. (2007). Schreibfähigkeit. In Bärbel Beck & Eckhard Klieme (Hrsg.), Sprachliche Kompetenzen: Konzepte und Messung. DESI -Studie (Deutsch Englisch Schülerleistungen International) (S. 42-62). Weinheim: Beltz. [abrufbar unter http: / / www.pedocs.de/ volltexte/ 2010/ 3140/ pdf/ 978_3_407_25398_9_1A_D_A.pdf] Harsch, Claudia & Rupp, André A. (2011). Designing and scaling level-specific writing tasks in alignment with the CEFR : A test-centered approach. Language Assessment Quarterly, 8(1), 1-33. doi: 10.1080/ 15434303.2010.535575 Hartig, Johannes & Höhler, Jana. (2010). Modellierung von Kompetenzen mit mehrdimensionalen IRT -Modellen: Projekt MIRT . In Eckhard Klieme, Detlev Leutner & Martina Kenk (Hrsg.), Kompetenzmodellierung: Zwischenbilanz des DFG -Schwerpunktprogramms und Perspektiven des Forschungsansatzes (S. 189-198). Weinheim: Beltz. [abrufbar unter http: / / www.pedocs.de/ voll texte/ 2010/ 3324/ pdf/ Beiheft56_komplett_D_A.pdf] Hartig, Johannes & Klieme, Eckhard. (2006). Kompetenz und Kompetenzdiagnostik. In Karl Schweizer (Hrsg.), Leistung und Leistungsdiagnostik (S. 127-143). Heidelberg: Springer. Hawkins, John A. & Filipović, Luna. (2012). Criterial features in L2 English: Specifying the reference levels of the Common European Framework. Cambridge: Cambridge University Press. Hayes, John R. (1996). A new framework for understanding cognition and affect in writing. In C. Michael Levy & Sarah Ransdell (Hrsg.), The science of writing: Theories, methods, individual differences, and applications (S. 1-27). Mahwah, NJ : Erlbaum. Hilpisch, Kai. (2012). Gemeinsamer Europäischer Referenzrahmen für Sprachen: Der GER im Überblick. Hamburg: Diplomica. <?page no="110"?> 109 Literatur Housen, Alex, Kuiken, Folkert & Vedder, Ineke. (Hrsg.). (2012). Dimensions of L2 performance and proficiency: complexity, accuracy and fluency in SLA . Amsterdam: Benjamins. Hulstijn, Jan. (2015). Language proficiency in native and non-native speakers: Theory and research. Amsterdam: Benjamins. Jamieson, Joan M., Eignor, Daniel, Grabe, William & Kunnan, Antony J. (2008). Frameworks for a new TOEFL . In Carol A. Chapelle, Mary K. Enright & Joan M. Jamieson (Hrsg.), Building a validity argument for the Test of English as a Foreign Language TM (S. 55-95). New York: Routledge. Johnson, Mark D., Mercado, Leonardo & Acevedo, Anthony. (2012). The effect of planning subprocesses on L2 writing fluency, grammatical complexity, and lexical complexity. Journal of Second Language Writing, 21, 264-282. doi: 10.1016/ j.jslw.2012.05.011 Jones, Neil & Saville, Nick. (2016). Learning oriented assessment: A systemic approach. Cambridge: Cambridge University Press. Jude, Nina. (2008). Zur Struktur von Sprachkompetenz. Diss. phil., Fachbereich Psychologie und Sportwissenschaften der Johann Wolfgang Goethe-Universität, Frankfurt am Main. [abrufbar unter http: / / www.fachportal-paedagogik.de/ fis_bildung/ suche/ fis_set.html? FId=880590] Jude, Nina & Klieme, Eckhard. (2007). Sprachliche Kompetenz aus Sicht der pädagogischpsychologischen Diagnostik. In Bärbel Beck & Eckhard Klieme (Hrsg.), Sprachliche Kompetenzen: Konzepte und Messung. DESI -Studie (Deutsch Englisch Schülerleistungen International) (S. 9-22). Weinheim: Beltz. [abrufbar unter: http: / / www.pedocs.de/ volltexte/ 2010/ 3140/ pdf/ 978_3_407_25398_9_1A_D_A.pdf] Kecker, Gabriele. (2016). Der GeR als Referenzsystem für kompetenzorientiertes Testen: Was bedeutet der Bezug zum GeR für eine Sprachprüfung? Zeitschrift für Fremdsprachenforschung, 27(1), 13-37. Kelava, Augustin & Schermelleh-Engel, Karin. (2012). Latent-State-Trait-Theorie ( LST -Theorie). In Helfried Moosbrugger & Augustin Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (2., aktual. und überarb. Aufl., S. 363-381). Heidelberg: Springer. Klieme, Eckhard & Hartig, Johannes. (2007). Kompetenzkonzepte in den Sozialwissenschaften und im erziehungswissenschaftlichen Diskurs. Zeitschrift für Erziehungswissenschaft, Sonderheft 8, 11-29. Klieme, Eckhard, Avenarius, Hermann, Blum, Werner, Döbrich, Peter, Gruber, Hans, Prenzel, Manfred, Reiss, Kristina, Riquarts, Kurt, Rost, Jürgen, Tenorth, Heinz-Elmar & Vollmer, Helmut J. (2003). Zur Entwicklung nationaler Bildungsstandards: Eine Expertise. Berlin: Bundesministerium für Bildung und Forschung [Nachdruck 2009 der 2. unveränderten Aufl. von 2007; abrufbar unter: https: / / www.bmbf.de/ pub/ Bildungsforschung_Band_1.pdf]. KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2004). Bildungsstandards für die erste Fremdsprache (Englisch / Französisch) für den Mittleren Schulabschluss: Beschluss vom 4. 12. 2003. Neuwied: Luchterhand. [abrufbar unter: https: / / www.kmk.org/ themen/ qualitaetssicherung-in-schulen/ bildungsstandards.html] KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2005). Bildungsstandards für die erste Fremdsprache (Englisch/ Französisch) für den Hauptschulabschluss (Jahrgangsstufe 9). Beschluss der Kultusministerkonferenz vom 15. 10. 2004. Neuwied: Luchterhand. [abrufbar unter https: / / www.kmk.org/ themen/ qualitaetssiche rung-in-schulen/ bildungsstandards.html] KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2014). Bildungsstandards für die fortgeführte Fremdsprache (Englisch / Französisch) für die Allgemeine Hochschulreife. Beschluss der Kultusministerkonferenz vom 18. 10. 2012. <?page no="111"?> 110 5 Testkonstrukt und Testspezifikationen Köln: Wolters Kluwer-- Carl Link. [abrufbar unter https: / / www.kmk.org/ themen/ qualitaetssiche rung-in-schulen/ bildungsstandards.html] Knoch, Ute. (2009). Diagnostic writing assessment: The development and validation of a rating scale. Frankfurt am Main: Lang. Knoch, Ute & Sitajalabhorn, Woranon. (2013). A closer look at integrated writing tasks: Towards a more focussed definition for assessment purposes. Assessing Writing, 18(4), 300-308. doi: 10.1016/ j. asw.2013.09.003 Kormos, Judit. (2012). The role of individual differences in L2 writing. Journal of Second Language Writing, 21, 390-403. doi: 10.1016/ j.jslw.2012.09.003 Krings, Hans P. (2016). Schreiben. In Eva Burwitz-Melzer, Grit Mehlhorn, Claudia Riemer, Karl- Richard Bausch & Hans-Jürgen Krumm (Hrsg.), Handbuch Fremdsprachenunterricht (6., völlig überarb. und erweiterte Aufl., S. 107-111). Tübingen: Francke. Krumm, Stefan, Mertin, Inga & Dries, Christian. (2012). Kompetenzmodelle. Göttingen: Hogrefe. Lee, Yong-Won. (2015). Diagnosing diagnostic language assessment. Language Testing, 32(3), 299-316. doi: 10.1177/ 0265532214565387 Linnemann, Markus. (2014). Kognitive Prozesse der Adressatenantizipation beim Schreiben. Diss. phil., Humanwissenschaftliche Fakultät der Universität zu Köln. [abrufbar unter http: / / kups.ub.unikoeln.de/ 5859/ ] Little, David & Taylor, Shelley K. (Hrsg.). (2013). Implementing the Common European Framework of Reference for Languages and the European Language Portfolio: Lessons for future research / Tirer des leçons des recherches empiriques sur la mise en oeuvre du Cadre européen commun de référence pour les langues et du Portfolio européen des langues pour les recherches futures [Special Issue]. The Canadian Modern Language Review / La Revue canadienne des langues vivantes, 69(4). Li, Song, Yukin, Zhao & Brindley, Geoff. (2013). Needs analysis. In Michael Byram & Adelheid Hu (Hrsg.), Routledge encyclopedia of language teaching and learning (2. Aufl., S. 500-505). London: Routledge. Lockwood, Jane E. (2015). Language for Specific Purpose ( LSP ) performance assessment in Asian call centres: strong and weak definitions. Language Testing in Asia, 5(3), 1-11. doi: 10.1186/ s40468-014- 0009-6 Long, Michael H. (Hrsg.). (2005). Second language needs analysis. Cambridge: Cambridge University Press. McNamara, Tim F. (1996). Measuring second language performance. London: Longman. McNamara, Tim F., Hill, Kathryn & May, Lynette. (2002). Discourse and assessment. Annual Review of Applied Linguistics, 22, 221-242. Messick, Samuel. (1981). Constructs and their vicissitudes in educational and psychological measurement. Psychological Bulletin, 89(3), 575-588. doi: 10.1037/ 0033-2909.89.3.575 Messick, Samuel. (1989). Validity. In Robert L. Linn (Hrsg.), Educational measurement (3. Aufl., S. 1-103). New York: American Council on Education / Macmillan. Messick, Samuel. (1994). The interplay of evidence and consequences in the validation of performance assessments. Educational Researcher, 23(2), 13-23. doi: 10.3102/ 0013189X023002013 Mislevy, Robert J. & Risconscente, Michelle. (2006). Evidence-centered assessment design. In Steven M. Downing & Thomas M. Haladyna (Hrsg.), Handbook of test development (S. 61-90). Mahwah, NJ : Erlbaum. <?page no="112"?> 111 Literatur Mislevy, Robert J. & Yin, Chengbin. (2012). Evidence-centered design in language testing. In Glenn Fulcher & Fred Davidson (Hrsg.), Routledge handbook of language testing (S. 208-222). New York: Routledge. Montee, Megan & Malone, Margaret E. (2014). Writing scoring criteria and score reports. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 847-859). Chichester: Wiley-Blackwell. Nakatsuhara, Fumiyo. (2013). The co-construction of conversation in group oral tests. Frankfurt am Main: Lang. Norris, John M. (2016). Current uses for task-based language assessment. Annual Review of Applied Linguistics, 36, 230-244. doi: 10.1017/ S0267190516000027 North, Brian. (2014). The CEFR in practice. Cambridge: Cambridge University Press. North, Brian & Docherty, Coreen. (2016). Validating a set of CEFR illustrative descriptors for mediation. Research Notes, 63, 24-30. [abrufbar unter http: / / www.cambridgeenglish.org/ images/ 301971research-notes-63.pdf] North, Brian & Panthier, Johanna. (2016). Updating the CEFR descriptors: The context. Research Notes, 63, 16-23. [abrufbar unter http: / / www.cambridgeenglish.org/ images/ 301971-researchnotes-63.pdf] Porsch, Raphaela. (2010). Schreibkompetenzvermittlung im Englischunterricht in der Sekundarstufe I: Empirische Analysen zu Leistungen, Einstellungen, Unterrichtsmethoden und Zusammenhängen von Leistungen in der Mutter- und Fremdsprache. Münster: Waxmann. Porsch, Raphaela & Tesch, Bernd. (2010). Messung der Schreibkompetenz im Fach Französisch. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 151-176). Münster: Waxmann. Purpura, James E. (2016). Second and foreign language assessment. The Modern Language Journal, 100(Supplement S1), 190-208. doi: 10.1111/ modl.12308 Rupp, André A., Vock, Miriam, Harsch, Claudia & Köller, Olaf. (2008). Developing standards-based assessment tasks for English as a first foreign language: Context, processes, and outcomes in Germany. Münster: Waxmann. Scardamalia, Marlene & Bereiter, Carl. (1987). Knowledge telling and knowledge transforming in written composition. In Sheldon Rosenberg (Hrsg.), Advances in applied psycholinguistics, Vol. 2: Reading, writing, and language learning (S. 142-175). Cambridge: Cambridge University Press. Schermelleh-Engel, Karin & Schweizer, Karl. (2012). Multitrait-Multimethod-Analysen. In Helfried Moosbrugger & Augustin Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (2., aktual. und überarb. Aufl., S. 345-362). Heidelberg: Springer. Schnotz, Wolfgang, Horz, Holger, McElvany, Nele, Schroeder, Sascha, Ullrich, Mark, Baumert, Jürgen, Hachfeld, Axinja & Richter, Tobias. (2010). Das BITE -Projekt: Integrative Verarbeitung von Bildern und Texten in der Sekundarstufe I. In Eckhard Klieme, Detlev Leutner & Martina Kenk (Hrsg.), Kompetenzmodellierung: Zwischenbilanz des DFG -Schwerpunktprogramms und Perspektiven des Forschungsansatzes (S. 143-153). Weinheim: Beltz. [abrufbar unter http: / / www.pedocs.de/ volltexte/ 2010/ 3324/ pdf/ Beiheft56_komplett_D_A.pdf] Schoonen, Rob, Snellings, Patrick, Stevenson, Marie & Van Gelderen, Amos. (2009). Towards a blueprint for the foreign language writer: The linguistic and cognitive demands of foreign language writing. In Rosa M. Manchón (Hrsg.), Writing in foreign language contexts: Learning, teaching, and research (S. 77-101). Clevedon, UK : Multilingual Matters. <?page no="113"?> 112 5 Testkonstrukt und Testspezifikationen Schott, Franz & Azizi Ghanbari, Shahram. (2012). Bildungsstandards, Kompetenzdiagnostik und kompetenzorientierter Unterricht zur Qualitätssicherung des Bildungswesens: Eine problemorientierte Einführung in die theoretischen Grundlagen. Münster: Waxmann. Schröder, Konrad, Nold, Günter & Tesch, Bernd. (2017). Schreiben. In Bernd Tesch, Xenia von Hammerstein, Petra Stanat & Henning Rossa (Hrsg.), Bildungsstandards aktuell: Englisch / Französisch in der Sekundarstufe II (S. 142-158). Braunschweig: Diesterweg. Shaw, Stuart D. & Weir, Cyril J. (2007). Examining writing: Research and practice in assessing second language writing. Cambridge: Cambridge ESOL / Cambridge University Press. Simons, Mathea & Colpaert, Jozef. (2015). Judgmental evaluation of the CEFR by stakeholders in language testing. Revista de Lingüística y Lenguas Aplicadas, 10, 66-77. doi: 10.4995/ rlyla.2015.3434 Spaan, Mary. (2006). Test and item specifications development. Language Assessment Quarterly, 3(1), 71-79. doi: 10.1207/ s15434311laq0301_5 Spolsky, Bernard. (1985). The limits of authenticity in language testing. Language Testing, 2(1), 31-40. doi: 10.1177/ 0 26553228500200104 Turner, Carolyn E. & Purpura, James E. (2016). Learning-oriented assessment in second and foreign language classrooms. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 255-273). Boston: De Gruyter. Van Gorp, Koen & Deygers, Bart. (2014). Task-based language assessment. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 578-593). Chichester: Wiley-Blackwell. Van Steendam, Elke, Tillema, Marion, Rijlaarsdam, Gert & Van den Bergh, Huub. (Hrsg.). (2012). Measuring writing: Recent insights into theory, methodology and practice. Leiden: Brill. Verspoor, Marjolijn, Schmid, Monika S. & Xu, Xiaoyan. (2012). A dynamic usage based perspective on L2 writing. Journal of Second Language Writing, 21, 239-263. doi: 10.1016/ j.jslw.2012.03.007 Vogt, Karin. (2011). Fremdsprachliche Kompetenzprofile: Entwicklung und Abgleichung von GeR-Deskriptoren für Fremdsprachenlernen mit einer beruflichen Anwendungsorientierung. Tübingen: Narr. Weigle, Sarah C. (2002). Assessing writing. Cambridge: Cambridge University Press. Weinert, Franz E. (2001). Vergleichende Leistungsmessung in Schulen-- eine umstrittene Selbstverständlichkeit. In Franz E. Weinert (Hrsg.), Leistungsmessung in Schulen (S. 17-31). Weinheim: Beltz. Wisniewski, Katrin. (2014). Die Validität der Skalen des Gemeinsamen europäischen Referenzrahmes für Sprachen: Eine empirische Untersuchung der Flüssigkeits- und Wortschatzskalen des Ge RS am Beispiel des Italienischen und des Deutschen. Frankfurt am Main: Lang. Wolfersberger, Mark. (2013). Refining the construct of classroom-based writing-from-readings assessment: The role of task representation. Language Assessment Quarterly, 10(1), 49-72. doi: 10.1080/ 15434303.2012.750661 Yu, Guoxing. (2014). Performance assessment in the classroom. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 617-630). Chichester: Wiley-Blackwell. Zydatiß, Wolfgang. (2010). Kompetenzen und Fremdsprachenlernen. In Wolfgang Hallet & Frank G Königs (Hrsg.), Handbuch Fremdsprachendidaktik (S. 59-63). Seelze-Velber: Kallmeyer. <?page no="114"?> 113 Anhänge Anhänge Anhang 1: GER -Skala „Schriftliche Produktion allgemein“ Schriftliche Produktion allgemein C2 Kann klare, flüssige, komplexe Texte in angemessenen und effektiven Stil schreiben, deren logische Struktur den Lesern das Auffinden der wesentlichen Punkte erleichtert. C1 Kann klare, gut strukturierte Texte zu komplexen Themen verfassen und dabei die entscheidenden Punkte hervorheben, Standpunkte ausführlich darstellen und durch Unterpunkte oder geeignete Beispiele oder Begründungen stützen und den Text durch einen angemessenen Schluss abrunden. B2 Kann klare, detaillierte Texte zu verschiedenen Themen aus seinem / ihrem Interessengebiet verfassen und dabei Informationen und Argumente aus verschiedenen Quellen zusammenführen und gegeneinander abwägen. B1 Kann unkomplizierte, zusammenhängende Texte zu mehreren vertrauten Themen aus seinem / ihrem Interessengebiet verfassen, wobei einzelne kürzere Teile in linearer Abfolge verbunden werden. A2 Kann eine Reihe einfacher Wendungen und Sätze schreiben und mit Konnektoren wie und, aber oder weil verbinden. A1 Kann einfache, isolierte Wendungen und Sätze schreiben. (Europarat, 2001, S. 67) Anhang 2: GER -Skala „Schriftliche Interaktion allgemein“ Schriftliche Interaktion allgemein C2 wie C1 C1 Kann sich klar und präzise ausdrücken und sich flexibel und effektiv auf die Adressaten beziehen. B2 Kann Neuigkeiten und Standpunkte effektiv schriftlich ausdrücken und sich auf solche von anderen beziehen. B1 Kann Informationen und Gedanken zu abstrakten wie konkreten Themen mitteilen, Informationen prüfen und einigermaßen präzise ein Problem erklären oder Fragen dazu stellen. Kann in persönlichen Briefen und Mitteilungen einfache Informationen von unmittelbarer Bedeutung geben oder erfragen und dabei deutlich machen, was er / sie für wichtig hält. A2 Kann kurze, einfache, formelhafte Notizen machen, wenn es um unmittelbar notwendige Dinge geht. A1 Kann schriftlich Informationen zur Person erfragen oder weitergeben. (Europarat, 2001, S. 86) <?page no="115"?> 114 5 Testkonstrukt und Testspezifikationen Anhang 3: GER -Skala „Spektrum sprachlicher Mittel (allgemein)“ Spektrum sprachlicher Mittel (allgemein) C2 Kann aufgrund einer umfassenden und zuverlässigen Beherrschung eines sehr großen Spektrums sprachlicher Mittel Gedanken präzise formulieren, Sachverhalte hervorheben, Unterscheidungen treffen und Unklarheiten beseitigen. Erweckt nicht den Eindruck, sich in dem, was er / sie sagen möchte, einschränken zu müssen. C1 Kann aus seinen / ihren umfangreichen Sprachkenntnissen Formulierungen auswählen, mit deren Hilfe er / sie sich klar ausdrücken kann, ohne sich in dem, was er / sie sagen möchte, einschränken zu müssen. B2 Kann sich klar ausdrücken, ohne dabei den Eindruck zu erwecken, sich in dem, was er / sie sagen möchte, einschränken zu müssen. Verfügt über ein hinreichend breites Spektrum sprachlicher Mittel, um klare Beschreibungen, Standpunkte auszudrücken und etwas zu erörtern; sucht dabei nicht auffällig nach Worten und verwendet einige komplexe Satzstrukturen. B1 Verfügt über ein hinreichend breites Spektrum sprachlicher Mittel, um unvorhersehbare Situationen zu beschreiben, die wichtigsten Aspekte eines Gedankens oder eines Problems mit hinreichender Genauigkeit zu erklären und eigene Überlegungen zu kulturellen Themen (wie Musik und Filme) auszudrücken. Verfügt über genügend sprachliche Mittel, um zurechtzukommen; der Wortschatz reicht aus, um sich, manchmal zögernd und mit Hilfe von einigen Umschreibungen, über Themen äußern zu können wie Familie, Hobbys, Interessen, Arbeit, Reisen, aktuelle Ereignisse, aber der begrenzte Wortschatz führt zu Wiederholungen und manchmal auch zu Formulierungsschwierigkeiten. A2 Verfügt über ein Repertoire an elementaren sprachlichen Mitteln, die es ihm / ihr ermöglichen, Alltagssituationen mit voraussagbaren Inhalten zu bewältigen; muss allerdings in der Regel Kompromisse in Bezug auf die Realisierung der Sprechabsicht machen und nach Worten suchen. Kann kurze gebräuchliche Ausdrücke verwenden, um einfache konkrete Bedürfnisse zu erfüllen und beispielsweise Informationen zur Person, Alltagsroutinen, Wünsche, Bedürfnisse auszudrücken und um Auskunft zu bitten. Kann einfache Satzmuster verwenden und sich mit Hilfe von memorierten Sätzen, kurzen Wortgruppen und Redeformeln über sich selbst und andere Menschen und was sie tun und besitzen sowie über Orte usw. verständigen. Verfügt über ein begrenztes Repertoire kurzer memorierter Wendungen, das für einfachste Grundsituationen ausreicht; in nicht-routinemäßigen Situationen kommt es häufig zu Abbrüchen und Missverständnissen. A1 Verfügt über ein sehr elementares Spektrum einfacher Wendungen in Bezug auf persönliche Dinge und Bedürfnisse konkreter Art. (Europarat, 2001, S. 110 f.) <?page no="116"?> 115 Anhänge Anhang 4: GER -Skala „Wortschatzbeherrschung“ Wortschatzbeherrschung C2 Durchgängig korrekte und angemessene Verwendung des Wortschatzes. C1 Gelegentliche kleinere Schnitzer, aber keine größeren Fehler im Wortgebrauch. B2 Die Genauigkeit in der Verwendung des Wortschatzes ist im Allgemeinen groß, obgleich einige Verwechslungen und falsche Wortwahl vorkommen, ohne jedoch die Kommunikation zu behindern. B1 Zeigt eine gute Beherrschung des Grundwortschatzes, macht aber noch elementare Fehler, wenn es darum geht, komplexere Sachverhalte auszudrücken oder wenig vertraute Themen und Situationen zu bewältigen. A2 Beherrscht einen begrenzten Wortschatz in Zusammenhang mit konkreten Alltagsbedürfnissen. A1 keine Deskriptoren verfügbar (Europarat, 2001, S. 113) Anhang 5: GER -Skala „Grammatische Korrektheit“ Grammatische Korrektheit C2 Zeigt auch bei der Verwendung komplexer Sprachmittel eine durchgehende Beherrschung der Grammatik, selbst wenn die Aufmerksamkeit anderweitig beansprucht wird (z. B. durch vorausblickendes Planen oder Konzentration auf die Reaktionen anderer). C1 Kann beständig ein hohes Maß an grammatischer Korrektheit beibehalten; Fehler sind selten und fallen kaum auf. B2 Gute Beherrschung der Grammatik; gelegentliche Ausrutscher oder nichtsystematische Fehler und kleinere Mängel im Satzbau können vorkommen, sind aber selten und können oft rückblickend korrigiert werden. Gute Beherrschung der Grammatik; macht keine Fehler, die zu Missverständnissen führen. B1 Kann sich in vertrauten Situationen ausreichend korrekt verständigen; im Allgemeinen gute Beherrschung der grammatischen Strukturen trotz deutlicher Einflüsse der Muttersprache. Zwar kommen Fehler vor, aber es bleibt klar, was ausgedrückt werden soll. Kann ein Repertoire von häufig verwendeten Redefloskeln und von Wendungen, die an eher vorhersehbare Situationen gebunden sind, ausreichend korrekt verwenden. A2 Kann einige einfache Strukturen korrekt verwenden, macht aber noch systematisch elementare Fehler, hat z. B. die Tendenz, Zeitformen zu vermischen oder zu vergessen, die Subjekt-Verb-Kongruenz zu markieren; trotzdem wird in der Regel klar, was er / sie ausdrücken möchte. A1 Zeigt nur eine begrenzte Beherrschung einiger weniger einfacher grammatischer Strukturen und Satzmuster in einem auswendig gelernten Repertoire. (Europarat, 2001, S. 114) <?page no="117"?> 116 5 Testkonstrukt und Testspezifikationen Anhang 6: GER -Skala „Beherrschung der Orthographie“ Beherrschung der Orthographie C2 Die schriftlichen Texte sind frei von orthographischen Fehlern. C1 Die Gestaltung, die Gliederung in Absätze und die Zeichensetzung sind konsistent und hilfreich. Die Rechtschreibung ist, abgesehen von gelegentlichem Verschreiben, richtig. B2 Kann zusammenhängend und klar verständlich schreiben und dabei die üblichen Konventionen der Gestaltung und der Gliederung in Absätze einhalten. Rechtschreibung und Zeichensetzung sind hinreichend korrekt, können aber Einflüsse der Muttersprache zeigen. B1 Kann zusammenhängend schreiben; die Texte sind durchgängig verständlich. Rechtschreibung, Zeichensetzung und Gestaltung sind exakt genug, so dass man sie meistens verstehen kann. A2 Kann kurze Sätze über alltägliche Themen abschreiben - z. B. Wegbeschreibungen. Kann kurze Wörter aus seinem mündlichen Wortschatz ‚phonetisch‘ einigermaßen akkurat schriftlich wiedergeben (benutzt dabei aber nicht notwendigerweise die übliche Rechtschreibung). A1 Kann vertraute Wörter und kurze Redewendungen, z. B. einfache Schilder oder Anweisungen, Namen alltäglicher Gegenstände, Namen von Geschäften oder regelmäßig benutzte Wendungen abschreiben. Kann seine Adresse, seine Nationalität und andere Angaben zur Person buchstabieren. (Europarat, 2001, S. 118) Anhang 7: GER -Skala „Kohärenz und Kohäsion“ Kohärenz und Kohäsion C2 Kann einen gut gegliederten und zusammenhängenden Text erstellen und dabei eine Vielfalt an Mitteln für die Gliederung und Verknüpfung angemessen einsetzen. C1 Kann klar, sehr fließend und gut strukturiert sprechen und zeigt, dass er / sie die Mittel der Gliederung sowie der inhaltlichen und sprachlichen Verknüpfung beherrscht. B2 Kann verschiedene Verknüpfungswörter sinnvoll verwenden, um inhaltliche Beziehungen deutlich zu machen. Kann eine begrenzte Anzahl von Verknüpfungsmitteln verwenden, um seine / ihre Äußerungen zu einem klaren zusammenhängenden Text zu verbinden; längere Beiträge sind möglicherweise etwas sprunghaft. B1 Kann eine Reihe kurzer und einfacher Einzelelemente zu einer linearen, zusammenhängenden Äußerung verbinden. A2 Kann die häufigsten Konnektoren benutzen, um einfache Sätze miteinander zu verbinden, um eine Geschichte zu erzählen oder etwas in Form einer einfachen Aufzählung zu beschreiben. Kann Wortgruppen durch einfache Konnektoren wie und, aber und weil verknüpfen. A1 Kann Wörter oder Wortgruppen durch sehr einfache Konnektoren wie und oder dann verbinden. (Europarat, 2001, S. 125) <?page no="118"?> 117 6 Kriteriale Evaluation von Schreibkompetenzen Rüdiger Grotjahn & Karin Kleppin Bewerten gehört zum alltäglichen „Geschäft“ einer Lehrkraft und wird häufig als eine Art Handwerk verstanden. Dabei wird zuweilen vergessen, dass die kriteriale Evaluation von Schreibkompetenz immer auch vor dem Hintergrund theoretischer Konzepte und empirischer Befunde zu sehen ist. Weiterhin wird häufig vergessen, dass das Ergebnis der Bewertung von Schreibleistungen durch menschliche Beurteilerinnen und Beurteiler von einer Vielzahl von Faktoren abhängt und als Folge durchaus fehlerhaft sein kann. Es ist daher wichtig, dass sich Lehrkräfte mit dem Beurteilungsprozess auch theoretisch auseinandersetzen und ihre eigene Bewertungspraxis kritisch reflektieren. Dieses Kapitel soll hierbei behilflich sein. Zudem bietet das Kapitel Hintergrundinformationen zu Aspekten, die an anderer Stelle im vorliegenden Buch eine wichtige Rolle spielen. Dies gilt insbesondere für das Kapitel 8, in dem ein eigenes Bewertungsraster vorgestellt und die Bewertung anhand von authentischen Schülerleistungen ausführlich illustriert wird. Zu den im vorliegenden Kapitel diskutierten Aspekten zählen u. a.: ▶ Spezifika einer beurteilergestützten Bewertung von Schreibleistung; ▶ Faktoren, die eine Bewertung (in konstruktirrelevanter Weise) beeinflussen können; ▶ Unterschiede zwischen bezugsgruppenorientierter und kriterialer Bewertung; ▶ mögliche Bewertungskriterien; ▶ Typen (existierender) Bewertungsskalen und Bewertungsraster; ▶ Typen der Bewertung. Diese und weitere Aspekte werden anhand einer Reihe von Beispielen illustriert und im Hinblick auf eine Verbesserung der (schulischen) Bewertungspraxis diskutiert. Der Beitrag schließt mit Hinweisen zu einer situationsabhängigen Flexibilisierung kriterialer Bewertung und Anregungen zur Reflexion der eigenen (schulischen) Bewertungspraxis. 6.1 Performanzbasierte beurteilergestützte Evaluation In den Kapiteln 4.1, 5.1 und 5.2 sind wir bereits auf die grundlegende Unterscheidung zwischen Kompetenz und Performanz eingegangen. Performanz wurde als direkt beobachtbare Leistung (z. B. in Form eines vorliegenden Schreibprodukts) definiert und die beobachtbare Leistung auf zugrundeliegende Kompetenzen (im Sinne von Leistungsvoraussetzungen) zurückgeführt. Zudem wurden im Hinblick auf die zugrundeliegenden Kompetenzen u. a. folgende Teilkomponenten unterschieden: (domänenspezifisches) Wissen (knowledge), er- <?page no="119"?> 118 6 Kriteriale Evaluation von Schreibkompetenzen lernte prozedurale Fertigkeiten (skills) und nicht direkt beobachtbare erlernte oder auch teilweise anlagebedingte Fähigkeiten (abilities). Weiterhin wurde herausgestellt, dass im Rahmen einer kompetenz- und handlungsorientierten Überprüfung von Schreibfähigkeiten in der Regel Aufgaben zum Einsatz kommen, die Merkmale lebensweltlicher Schreibhandlungen prototypisch abbilden. Ein entsprechendes Vorgehen wurde als performanzbasierte Evaluation bezeichnet und das eingesetzte Instrument als Performanztest (vgl. Kapitel 5.1). Die eingesetzten Aufgaben können sich dabei in ihrem lebensweltlichen Bezug und ihrer Komplexität deutlich unterscheiden. So kann es sich z. B. um eine kognitiv anspruchsvolle Argumentation auf der Basis einer vorgegebenen Grafik oder auch lediglich um das Ausfüllen eines einfachen Formulars handeln. Die von den Lernenden gezeigten Schreibleistungen werden bei einer performanzbasierten Evaluation in der Regel anhand von diversen inhaltlichen und sprachlichen Kriterien durch menschliche Bewertende-- im schulischen Kontext zumeist Lehrerinnen und Lehrer-- beurteilt. 32 Diese spezifische Form der Messung und Bewertung wird auch als „beurteilergestützte Leistungsmessung“ bzw. rater-mediated assessment bezeichnet (vgl. Eckes, 2010, S. 70; Eckes, 2015). Für eine solche beurteilergestützte Evaluation ist kennzeichnend, dass das abschließende Urteil über die Schreibkompetenz der Testpersonen nicht nur von den eingesetzten Aufgaben, sondern in entscheidender Weise von Merkmalen der Beurteilenden sowie von den verwendeten Beurteilungskriterien und -skalen abhängen kann (vgl. auch Kapitel 4.1 und 8). Zu Recht weisen Eckes, Müller-Karabil & Zimmermann (2016) deshalb darauf hin, dass es sich im Fall einer beurteilergestützten Evaluation nicht-- wie häufig behauptet-- um eine direkte Form der Messung von Schreibleistung handelt, 33 sondern vielmehr um einen im starken Maße indirekten und zudem höchst komplexen Prozess: Though often referred to as a kind of direct assessment (e. g., Huot 1990), the process of assessing examinee performance actually is an indirect one, involving a complex reading-evaluation-scoring process-… (S. 155) Will man Schreibkompetenz valide und fair messen, gilt es die Komplexität des Urteilsprozesses angemessen zu berücksichtigen. Wir werden deshalb im Folgenden zunächst einmal etwas genauer auf einige Einflussgrößen bei der beurteilergestützten Messung von Schreibkompetenz eingehen. 32 Zuweilen wird zwischen Bewerten und Beurteilen differenziert. So wird unter Bewertung etwa ein wertender Vergleich mit Soll-Werten (z. B. Bildungsstandards; Lernzielen; Schwellenwerte für ein Zertifikat), unter Beurteilung dagegen die deskriptive Feststellung von Ist-Werten (z. B. in Form einer Zuweisung zu einer Kompetenzstufe ohne gleichzeitige Notenvergabe) verstanden. Wir verzichten-- u. a. angesichts der häufigen Unschärfe-- auf eine entsprechende Differenzierung und verwenden die Begriffe Bewerten, Beurteilen und Messen in (weitgehend) synonymer Bedeutung. 33 Vgl. die Definition eines „direct test of writing“ bei Weigle (2013, S. 2). <?page no="120"?> 119 6.2 Urteilsprozess: Einflussfaktoren 6.2 Urteilsprozess: Einflussfaktoren Nach Eckes und anderen Autoren (vgl. z. B. Eckes, 2010, S. 70; Eckes, 2015; Engelhard, 2013; Shaw, 2007; Shaw & Weir, 2007, Kap. 5) hängt das Resultat einer beurteilergestützten Evaluation von Schreibkompetenzen u. a. von folgenden Bündeln von Merkmalen-- häufig auch als Facetten bezeichnet-- ab: 34 ▶ Merkmale der Beurteilenden: z. B. Erfahrung, beruflicher Hintergrund, Alter, Geschlecht, Strenge / Milde, persönliche Präferenzen; ▶ Merkmale der Testbzw. Urteilssituation: z. B. standardisierte Testung, informelle Leistungskontrolle; ▶ Merkmale der gewählten Beurteilungsskala: z. B. Präzision und Eindeutigkeit der Kriterien, Handhabbarkeit durch die Bewerterinnen und Bewerter, holistische vs. analytische Bewertung, aufgabenspezifische vs. aufgabenunspezifische Bewertung (vgl. die Kapitel 6.4 und 6.5); ▶ Schwierigkeiten der verwendeten Kriterien: z. B. unzureichende Passung zwischen Kriterium und fokussiertem Kompetenzniveau (die Testeilnehmenden erhalten z. B. im Durchschnitt extrem hohe Werte in einem Kriterium); 35 ▶ Merkmale der Aufgabe: z. B. Art des Inputmaterials, Itemformat, Gestaltung der Instruktion, geforderter Output, Art der Testdurchführung (z. B. Papier-Bleistift vs. technologiebasiertes Testen), Schwierigkeit der Aufgabe (vgl. Kapitel-7); ▶ Merkmale der Testpersonen: z. B. sprachliche Fähigkeiten, Weltwissen, kultureller Hintergrund, Alter, kognitiver Entwicklungsstand, Vertrautheit mit dem Aufgabenformat, Schreibkompetenzen in der Muttersprache bzw. Erstsprache. Die Abbildung 1 illustriert in Form eines konzeptuellen Rahmenmodells etwas genauer den Einfluss einer Reihe sich z. T. wechselseitig bedingender Faktoren bei der beurteilergestützten Messung von Schreibkompetenz (vgl. zum Folgenden auch Tesch & Grotjahn, 2010, S. 198-201). Der mittlere Teil von Abbildung 1 zeigt proximale Faktoren, die unmittelbar die Leistungsbeurteilung bestimmen. Hierzu zählen zunächst einmal das zu messende Konstrukt, d. h. die Schreibkompetenz der Schülerinnen und Schüler (vgl. Kapitel 5 im vorliegenden Band), sowie Quellen potenzieller konstruktirrelevanter Varianz wie Schwierigkeit der Aufgaben und Kriterien sowie potenzielle Urteilsfehler (vgl. Kapitel 4.1, 4.2.2, 4.2.3 und 4.2.4.7). Die Abbildung verdeutlicht weiterhin die zentrale Bedeutung der verwendeten Ratingskala 36 für die Leistungsbeurteilung. So sind die Messergebnisse nur dann sinnvoll interpretierbar, wenn die eingesetzte Skala-- oder 34 Vgl. auch Eckes, Müller-Karabil & Zimmermann (2016, S. 152); Grotjahn & Kleppin (2008, S. 188 f.); Van Moere (2014). 35 Vgl. für ein Beispiel unterschiedlich schwieriger Kriterien die Untersuchung von Bärenfänger (2016) zur Validität von GER -Skalen aus dem Bereich „Linguistische Kompetenzen“ (u. a. „Beherrschung der Orthografie“ und „Grammatische Korrektheit“) bei der Bewertung deutscher und italienischer L2- Schreibproduktionen. Vgl. auch Harsch & Rupp (2011, S. 24). 36 Neben Ratingskala werden im Hinblick auf die Evaluation von Schreibleistungen auch die Termini Bewertungsskala, Beurteilungsskala, Bewertungsraster und Beurteilungsraster verwendet. Dabei wird der Begriff „Raster“ eher zur Bezeichnung komplexerer Instrumente mit mehreren Skalen verwendet. Wir verzichten in diesem Kapitel auf eine mögliche Differenzierung zwischen den genannten Begriffen und <?page no="121"?> 120 6 Kriteriale Evaluation von Schreibkompetenzen in anderer Terminologie das eingesetzte Bewertungsraster-- Unterschiede in den Ausprägungen der latenten Variablen „Schreibkompetenz“ weitgehend strukturtreu abzubilden vermag. Nicht dargestellt sind mögliche Wechselwirkungen z. B. zwischen dem Aufgabenformat und der verwendeten Skala. Wichtig im Hinblick u. a. auf die Aufgabenerstellung (vgl. Kapitel 7) ist, dass aufgrund möglicher Wechselwirkungen eine bestimmte Aufgabe auch nicht ohne weiteres als leicht oder schwer bezeichnet werden kann (vgl. Eckes, Müller-Karabil & Zimmermann, 2016, S. 153). Die linke Seite der Abbildung zeigt dagegen eher indirekt wirkende distale Faktoren als weitere Quellen konstruktirrelevanter Varianz. Die Faktoren stehen in Wechselwirkung (angezeigt durch die gestrichelten Pfeile), und ihr Einfluss ist nach Eckes (2005, S. 78) eher diffus. 37 Nicht abgedruckt ist die bei Eckes zu findende Darstellung von Möglichkeiten der nachträglichen Erhöhung der Fairness von Leistungsbeurteilungen mit Hilfe von Multifacetten-Rasch- Analysen (siehe Eckes, 2010, S. 71; 2015, S. 49). Entsprechende modellbasierte statistische Analysen spielen zwar bei internationalen Testanbietern sowie auch im Forschungskontext mittlerweile eine wichtige Rolle. Sie haben allerdings nur eine eingeschränkte Relevanz im Kontext des vorliegenden Bandes, da entsprechende Analysen im Rahmen einer unterrichtsnahen Evaluation in der Regel nicht sinnvoll oder auch nicht praktikabel sind. Gegenstand der Messung: Fähigkeit der Personen Leistungsbeurteilung Urteilsfehler (Strenge/ Milde, zentrale Tendenz, Halo-Effekt) Schwierigkeit der Aufgaben Schwierigkeit der Kriterien Struktur der Ratingskala Merkmale der Personen (Geschlecht, Alter, Nationalität, Einstellungen, Motivation) Merkmale der Beurteiler (Berufserfahrung, Status, Einstellungen, Motivation, Konzentration) Merkmale der Testbzw. Urteilssituation (Durchführungsbedingungen, Urteilskontext, Richtlinien) Abbildung 1: Rahmenmodell potenzieller Einflussfaktoren bei der Beurteilung von Schreibkompetenzen nach Eckes (2005, S. 78; 2010, S. 71) verwenden die Begriffe z. T. parallel und synonym. In Kapitel 8 wird der Begriff „Bewertungsraster“ benutzt. 37 Eine neuere, leicht modifizierte und komplexere Version des in Abbildung 1 dargestellten Rahmenmodells findet sich in Eckes (2015, S. 49). Dort werden auch Wechselwirkungen zwischen proximalen Faktoren aufgeführt. <?page no="122"?> 121 6.2 Urteilsprozess: Einflussfaktoren Abbildung 1 zeigt neben einer Reihe von anderen Einflussfaktoren Urteilsfehler wie unangemessene Strenge oder Milde, zentrale Tendenz sowie Halo-Effekte. Diese stellen wichtige proximale Quellen konstruktirrelevanter Varianz dar. Mit zentraler Tendenz- - oder auch Tendenz zur Mitte- - ist die Bevorzugung der mittleren Kategorien einer mehrstufigen Skala gemeint (vgl. Döring & Bortz, 2016, S. 249). Eine entsprechende Tendenz verringert die Differenzierungsfähigkeit der Skala und erhöht den Messfehler. Eine Tendenz zur Mitte hängt von persönlichen Merkmalen des Bewertenden, vom Objekt der Bewertung sowie von der jeweiligen Skala ab. Eine Möglichkeit, eine Tendenz zur Mitte auszuschließen oder zumindest zu reduzieren, besteht darin, eine Skala mit einer geraden Anzahl von Werten zu verwenden. Die Entwickler des in Kapitel 8 beschriebenen Bewertungsrasters haben sich u. a. aus diesem Grunde dazu entschlossen, bei der Bewertung der Einzelmerkmale der Kategorien Umsetzung der Aufgabenstellung und Sprachliche Realisierung jeweils vierstufige Skalen mit den Ausprägungen „trifft nicht zu“, „trifft teilweise zu“, „trifft überwiegend zu“ und „trifft voll zu“ zugrunde zu legen (vgl. Kapitel 8.1). Ein weniger leicht zu lösendes Problem ergibt sich, wenn Beurteilende generell oder auch lediglich in spezifischen Fällen unangemessen streng oder milde urteilen. Unterschiede und Inkonsistenzen in der Strenge bzw. Milde können die Validität der Messung von Schreibkompetenz massiv einschränken. Zudem sind Strenge und Milde relativ stabile Persönlichkeitsmerkmale, die sich auch mit Hilfe eines systematischen Beurteilertrainings nur sehr schwer nachhaltig verändern lassen (vgl. Eckes, 2012; 2015, S. 40-42; Knoch, 2011a). Allerdings kann ein geeignetes Training zumeist die Konsistenz der Beurteilung verbessern, wodurch sich die Möglichkeit einer statistischen Kontrolle von Strengebzw. Mildeeffekten eröffnet (vgl. die umfassende Darstellung in Eckes, 2015). Wichtig ist in diesem Zusammenhang, dass die auch im schulischen Kontext zuweilen praktizierte Methode einer (unabhängigen) Beurteilung der Leistung durch mehrere Bewertende im Hinblick auf eine Kontrolle von Strengebzw. Mildeeffekten nicht unproblematisch ist. Zumeist kann nämlich nicht ausgeschlossen werden, dass ein und dieselbe Testperson durch mehrere besonders strenge oder auch milde Bewertende beurteilt wird (vgl. hierzu auch Eckes, 2011). Ein auch in einer Vielzahl von Alltagssituationen auftretender Effekt besteht darin, dass eine positive oder negative Beurteilung eines Merkmals dazu führt, dass andere Merkmale ebenfalls eher positiv oder eher negativ beurteilt werden. Ein solcher Halo-Effekt (Hof-Effekt) sollte auch beim Einsatz analytischer Skalen (vgl. Kapitel 6.5 und 8.1.1) stets in Betracht gezogen werden. So kann z. B. im Fall des in Kapitel 8 vorgestellten Bewertungsrasters eine erste holistische Bewertung in Form eines positiven Gesamteindrucks eines Schreibprodukts dazu führen, dass anschließend Aspekte der sprachlichen Realisierung zu positiv bewertet werden. Dies kann wiederum zur Folge haben, dass beim abschließenden globalen Urteil eine zu hohe Kompetenzstufe vergeben wird. Weiterhin ist z. B. denkbar, dass die Korrektheit der sprachlichen Mittel in unangemessener Weise die Beurteilung stilistischer Aspekte der Schreibkompetenz beeinflusst. 38 38 Vgl. z. B. die entsprechenden Befunde in Canz (2015, Kap. 8) aus der 2011 in 9. und 10. Klassen durchgeführten Normierungsstudie zur Überprüfung des Erreichens der Bildungsstandards im Kompetenz- <?page no="123"?> 122 6 Kriteriale Evaluation von Schreibkompetenzen Ein spezieller Fall eines Halo-Effekts ist gegeben, wenn ein konstruktirrelevantes Merkmal, wie etwa die Qualität der Handschrift, die Beurteilung anderer konstruktrelevanter Aspekte beeinflusst. In diesem Fall wird auch von Kriteriumskontamination oder einem Kontaminationseffekt gesprochen (vgl. auch Arras, 2007, S. 72). Eine weitere wichtige Quelle von Verzerrungen bei der Beurteilung schriftlicher Leistungen gerade auch im unterrichtlichen Alltagskontext können sogenannte Reihenfolgeeffekte (Positionseffekte, serielle Effekte) sein. So werden z. B. zuerst beurteilte Arbeiten zuweilen strenger bewertet als nachfolgende Arbeiten. Weiterhin kann es der Fall sein, dass Beurteilende, die gerade eine Reihe von sehr schwachen Schreibprodukten bewertet haben, ein unmittelbar nachfolgendes besseres Schreibprodukt möglicherweise zu gut bewerten (vgl. Arras, 2007, S. 73; Döring & Bortz, 2016, S. 254). Beim Vorliegen des letztgenannten Phänomens wird häufig auch von einem positiven Kontrasteffekt gesprochen. Ein negativer Kontrasteffekt liegt dagegen vor, wenn ein Objekt aufgrund eines vorangehenden positiv bewerteten Vergleichsobjekts negativer bewertet wird als bei einer isolierten Beurteilung. Auch diese Möglichkeit ist im Hinblick auf die Beurteilung schriftlicher Leistungen im schulischen Kontext in Betracht zu ziehen. Sicherlich lassen sich bei der beurteilergestützten Evaluation von Schreibkompetenzen anhand authentischer Aufgabenformate Verzerrungen aufgrund von Urteilsfehlern nie völlig vermeiden. Vor allem dann, wenn das Ergebnis der Leistungsbeurteilung mit wichtigen Konsequenzen für die Testpersonen verbunden ist, sollten die Bewertenden gründlich geschult werden. Dies ist bei internationalen standardisierten Sprachtests wie Cambridge English oder TestDaF der Fall. Zudem kommen dort auch statistische Verfahren zur Erhöhung der Fairness der Bewertung zum Einsatz (vgl. Eckes, 2015; Shaw & Weir, 2007, Kap. 5). Auch im schulischen Kontext sollte man danach trachten, den Einfluss verzerrender Faktoren wie z. B. Halo-Effekte oder Inkonsistenzen in der Strenge bzw. Milde der Beurteilung möglichst gering zu halten. Eine Sensibilisierung der Lehrkräfte für mögliche Urteilsfehler und eine angemessene Vermittlung diagnostischer Kompetenzen in der Lehrerausbildung können hierzu einen wichtigen Beitrag leisten (vgl. auch Kapitel 1). So könnten Lehrkräfte z. B. in schulinternen Veranstaltungen gemeinsam Schreibproduktionen von Lernenden bewerten und Unterschiede in der Bewertung im Hinblick auf konstruktirrelevante Einflussfaktoren analysieren und reflektieren. 6.3 Bezugsnormen bei der Bewertung Die Bewertung eines vorliegenden Schreibprodukts kann mit sehr unterschiedlichen Zielsetzungen verbunden sein. Das Ziel kann z. B. eine globale Einschätzung der Schreibkompetenz zum Zweck der Notengebung oder auch eine Diagnose spezifischer Aspekte der Schreibkompetenz als Basis eines detaillierten unterrichtlichen formativen Feedbacks sein (vgl. Kapitel 3 bereich Schreiben für das Fach Deutsch. In Bezug auf Englisch in der Sekundarstufe I siehe Porsch (2010b, S. 203). Hinweise zu Unterschieden zwischen Ratern bei der Bewertung von mutter- und fremdsprachlichen Schreibprodukten finden sich bei Kuiken & Vedder (2014). <?page no="124"?> 123 6.3 Bezugsnormen bei der Bewertung und 9). Entsprechend unterschiedlich können die Anforderungen im Hinblick auf die in Kapitel-4 beschriebenen Gütekriterien sein. Zudem können der Leistungsbewertung unterschiedliche Bezugsnormen zugrunde liegen (vgl. Kapitel 3.2.1 sowie Grotjahn, 2008, S. 175-177). Man kann zwischen einer sozialen, einer kriterialen (auch: sachorientierten) und einer individuellen Bezugsnorm unterscheiden. Parallel dazu kann zwischen einer bezugsgruppenorientierten (auch: normorientierten), einer kriterialen (auch: kriteriumsorientierten) und einer ipsativen Bewertung differenziert werden. Die drei genannten Bezugsnormen und Bewertungsformen können auch in Kombination auftreten und sich gegenseitig ergänzen (vgl. Goldhammer & Hartig, 2012, S. 191 f.). Im Fall einer sozialen Bezugsnorm wird die Leistung der Lernenden relativ zu den Leistungen in einer Bezugsgruppe interpretiert- - z. B. Mitschülerinnen und Mitschüler in der Klasse oder eine repräsentative Schülerstichprobe einer bestimmten Region. Ein eindeutiger Fall einer solchen bezugsgruppenorientierten Bewertung liegt z. B. dann vor, wenn Lehrkräfte die Schreibprodukte der Lernenden ohne Rückgriff auf explizite Leistungsdeskriptoren anhand eines wechselseitigen Leistungsvergleichs zwischen den Lernenden auf einer Notenskala bewerten. Da sich die Lehrkräfte in diesem Fall in der Regel an den mittleren Leistungen in der jeweiligen Lerngruppe orientieren, sind mittlere Rangplätze besonders häufig, extreme Rangplätze (d. h. sehr gute oder sehr schlechte Leistungen) eher selten (Normalverteilungsmodell der Ziffernbenotung). 39 Häufig erfolgt eine bezugsgruppenorientierte Bewertung auch in Form von Prozenträngen (z. B. Peter gehört zu den 20 % leistungsstärksten Schülerinnen und Schülern seiner Klasse). Dies kann z. B. dann angemessen sein, wenn es lediglich darum geht, die Spitzenleistungen in einer Gruppe zu prämieren. Orientiert man sich bei der Interpretation der Ergebnisse der Testpersonen ausschließlich an den Testwerten der jeweiligen Testgruppe (Lerngruppe, Klasse, Kurs), hat dies den entscheidenden Nachteil, dass ein und derselbe Punktwert in Abhängigkeit vom Leistungsstand der jeweiligen Gruppe und / oder der Schwierigkeit der eingesetzten Aufgaben zu einer völlig unterschiedlichen Bewertung der Leistung der Testperson führen kann. Dieses Problem lässt sich vermeiden, wenn man den Punktwert einer Testperson zusätzlich mit den Testwerten einer relevanten externen Bezugsgruppe vergleicht-- wie z. B. vergleichbaren Schülerinnen und Schülern desselben Bundeslandes. Mit einer bezugsgruppenorientierten Bewertung anhand von inhaltlich nicht weiter spezifizierten Testwerten ist allerdings noch ein weiteres Problem verbunden: Weder die Lernenden selbst noch andere Personen erhalten Informationen darüber, in welchen Situationen 39 Rossa (2016, S. 400) weist in diesem Zusammenhang u. a. auf folgenden wichtigen Sachverhalt hin: „Im schulischen Fremdsprachenunterricht lässt sich bspw. beobachten, dass Lehrkräfte die Leistungsunterschiede zwischen den Lernenden in einer Gruppe in der Regel recht gut einschätzen können. Allerdings bedeutet dies nicht, dass verschiedene Lehrkräfte für vergleichbare Leistungen auch dieselben Noten vergeben würden. Es zeigt sich, dass für eine faire Einschätzung von Schülerleistungen die klasseninternen Bezugsmaßstäbe um ein vergleichbares, externes Kriterium (z. B. curricular erwartete Kompetenzbeschreibungen) ergänzt werden müssen-…“ <?page no="125"?> 124 6 Kriteriale Evaluation von Schreibkompetenzen die Lernenden sprachlich handeln können und über welche spezifischen sprachlichen Kompetenzen sie verfügen. Um entsprechende Aussagen machen zu können, bedarf es einer kriterialen Bezugsnorm und einer von der jeweiligen Bezugsgruppe unabhängigen kriterialen Bewertung. Bei einer ausschließlich kriterialen Bewertung beurteilen die Lehrkräfte die individuelle Leistung jeder Schülerin und jedes Schülers sachorientiert anhand eines theoretisch und empirisch begründeten Systems (kompetenzorientierter) Beurteilungskriterien unter Ausblendung der Leistungen der übrigen Schülerinnen und Schüler. Auch die letztendliche Interpretation der gezeigten Leistungen z. B. in Form von (kompetenzorientierten) Kann-Beschreibungen sowie eine eventuelle Benotung erfolgt im Idealfall ohne Bezug auf die übrigen Testteilnehmenden (vgl. die weiterführende Darstellung von criterion-referenced measurement und standardsbased assessment in Hudson, 2014 sowie auch Goldhammer & Hartig, 2012). Kriteriale Evaluationsinstrumente können jederzeit auch bezugsgruppenorientiert verwendet werden (z. B. 50 % der Lernenden haben das GER -Niveau A2 erreicht, 30 % B1). Dagegen lassen sich Instrumente, die ausschließlich im Hinblick auf eine bezugsgruppenorientierte Bewertung entwickelt wurden, nicht ohne weiteres auch für kriteriale Bewertungen einsetzen. Ein Beispiel für eine kriteriale Bewertung und Rückmeldung mit einer zusätzlichen Orientierung an einer externen Bezugsgruppe sind die u. a. in Nordrhein-Westfalen im Rahmen von VERA zusätzlich durchgeführten „fairen Vergleiche“. Hiermit soll den Schulen ermöglicht werden, sich mit den Ergebnissen solcher Schulen zu vergleichen, die im Hinblick auf soziodemografische Merkmale wie Migrantenanteil, soziale Herkunft oder Urbanisationsgrad eine ähnliche Struktur aufweisen (siehe MSW , 2011, S. 10 sowie auch das in Kapitel 9.2.1 des vorliegenden Bandes besprochene Beispiel für eine Rückmeldung im Rahmen von VERA - 8 English in Berlin / Brandenburg). Legt man eine individuelle Bezugsnorm zugrunde, erfolgt die Bewertung im Vergleich zu den vorhergehenden Leistungen der jeweiligen Schülerin oder des jeweiligen Schülers. Es handelt sich somit um einen Vergleich verschiedener Messzeitpunkte. Eine sachorientierte ipsative Bewertung könnte z. B. lauten: „Du hast im vorliegenden Text im Vergleich zu früheren Arbeiten unterordnende Konjunktionen wie since, as, because, whereas oder while adäquat verwendet“. Ipsative Bewertungen anhand von geeigneten Kriterien sind bei der Evaluation von Schreibleistungen im schulischen Kontext von besonderer Bedeutung, da der Leistungsfortschritt sich direkt in der eigenen Produktion manifestiert und damit für die Lernenden-- eventuell gefördert durch eine Rückmeldung der Lehrerin oder des Lehrers-- eher sichtbar wird als im Fall von rezeptiven Leistungen (siehe auch die Ausführungen zum Feedback in Kapitel 9). Allerdings setzt eine ipsative Bewertung eine hinreichende Vergleichbarkeit der Beurteilungssituationen voraus. Dies ist z. B. hinsichtlich der eingesetzten Aufgaben häufig nur mit Einschränkungen gewährleistet. <?page no="126"?> 125 6.4 Bewertungskriterien 6.4 Bewertungskriterien Wie bereits angedeutet, sollte eine professionelle Bewertung von Schreibprodukten und Schreibkompetenzen möglichst auf der Basis geeigneter sprachlicher und inhaltlicher Kriterien erfolgen. Zum einen erhöht der Einsatz entsprechender Kriterien den diagnostischen Wert der Messung und eröffnet Möglichkeiten für ein lernerorientiertes Feedback (vgl. für eine weitergehende Begründung Jang & Wagner, 2014, Lee, 2015 sowie Kapitel 9). Zum anderen kann die Verwendung geeigneter Kriterien dazu beitragen, dass die Bewertung in hinreichendem Maße den Gütekriterien der Objektivität, Reliabilität, Validität und Fairness genügt (vgl. Kapitel 4). Bei den Kriterien kann es sich zum einen um relativ spezifische Merkmale des Schreibprodukts handeln, wie etwa die relative Häufigkeit der adäquaten Verwendung von Vergangenheitsformen oder auf einer höheren Kompetenzstufe von Heckenausdrücken (hedges) wie z. B. might zur Einschränkung der Geltung einer Aussage. Zumeist werden allerdings eher (relativ) breit gefasste Kategorien zugrunde gelegt wie z. B.: ▶ sprachliche Realisierung; ▶ grammatische Korrektheit; ▶ syntaktische Komplexität; ▶ Breite des Wortschatzes; ▶ Ausdrucksfähigkeit; ▶ Kohärenz und Kohäsion; ▶ soziale und pragmatische Adäquatheit; ▶ inhaltliche und sachliche Angemessenheit; ▶ Textsortenangemessenheit; ▶ kommunikativer Erfolg; ▶ Umsetzung der Aufgabenstellung; ▶ Schrift des Prüflings; ▶ Kreativität; ▶ adäquater Einsatz von Kompensationsstrategien. Inwieweit ein Kriterium sinnvoll einsetzbar ist, hängt u. a. vom Testkonstrukt und dem jeweiligen Bewertungskontext ab. So wird etwa die Schrift des Prüflings in der Regel bei der Bewertung von Schreibleistungen im Englischen oder im Französischen nicht als explizites Kriterium zugrunde gelegt. Sie kann aber als implizites Kriterium die Bewertung in konstruktirrelevanter Weise beeinflussen. Einige der genannten Kriterien lassen sich zudem nur sehr eingeschränkt operationalisieren, wie z. B. Kreativität, Ausdruckfähigkeit und adäquater Einsatz von Kompensationsstrategien. Häufig hält man in der Testpraxis die Anzahl der Bewertungskriterien relativ gering, indem man nur einige wenige umfassendere Bewertungskriterien mit einigen wenigen Unterkriterien unterscheidet. Dies geschieht aus Gründen der Ökonomie und Praktikabilität sowie zur Entlastung des Arbeitsgedächtnisses der Beurteilenden. Ein Beispiel wäre das globale Kriterium der sprachlichen Realisierung mit Unterkriterien wie Breite des Wortschatzes, <?page no="127"?> 126 6 Kriteriale Evaluation von Schreibkompetenzen syntaktische Komplexität und Korrektheit, Textkohärenz und -kohäsion. Meist werden die Unterkriterien in der Form von Kompetenzbeschreibungen wie „verfügt über X“, „beherrscht Y“, „kann Z“ formuliert. Die Auswahl und Gewichtung der Bewertungskriterien richtet sich auch danach, ob sie zur Bewertung schriftlicher oder mündlicher Produktionen gedacht sind. Für die mündliche Produktion spielt insbesondere die sprachliche Richtigkeit in der Regel eine geringere Rolle als etwa der kommunikative Erfolg. Weiterhin spiegeln Bewertungskriterien auch die Bedeutung wider, die einzelnen Teilkomponenten der Schreibkompetenz zugemessen wird. Hier kann es durchaus z. B. institutionelle, regionale oder auch gruppenspezifische Unterschiede geben: So hat die sprachliche Richtigkeit in Bezug auf Englisch als lingua franca für Teilnehmende an Volkshochschulkursen mit einer touristischen Ausrichtung sicherlich eine geringere Bedeutung als für Personen, die Englisch im Hinblick auf einen Auslandsaufenthalt an einer englischsprachigen Schule oder Universität erlernen. Auf der Basis der Bewertungskriterien können dann Bewertungsskalen / Bewertungsraster definiert werden, die eine quantitative Charakterisierung des Leistungsstandes in Bezug auf die einzelnen Kriterien ermöglichen. Welche Kriterien und Skalen zum Einsatz kommen sollten, hängt dabei im starken Maße vom Leistungsstand der Testteilnehmenden und den eingesetzten Aufgabenformaten ab. So ist etwa das Kriterium „Kohärenz und Kohäsion“ wenig sinnvoll, wenn es sich bei der Aufgabe um das Ausfüllen eines einfachen Formulars handelt. Bewertungskriterien können in Form von Bewertungsskalen bzw. Bewertungsrastern sowohl für eine vertikale Differenzierung zwischen unterschiedlichen Kompetenzniveaus (z. B. zwischen A2 und B1) als auch für eine horizontale Ausdifferenzierung unterschiedlicher Aspekte ein und desselben Kompetenzniveaus (z. B. Lexik, Grammatik und Orthografie auf B1) genutzt werden. Auf unterschiedliche Typen von Bewertungsskalen gehen wir im folgenden Kapitel ein. Wir beschränken uns dabei auf einige grundlegende Aspekte. Ein Bewertungsraster für die Kompetenzniveaus A2 und B1 des GER , das als Vorarbeit zum vorliegenden Band neu entwickelt wurde, wird im Detail in Kapitel 8.1 beschrieben. In Kapitel 8.2 werden dann anhand authentischer Schreibproduktionen Hinweise zum Einsatz des vorgestellten Bewertungsrasters gegeben. 6.5 Bewertungsskalen und Bewertungsraster Bei der Entwicklung von Bewertungsskalen und Bewertungsrastern 40 kann man sich-- geleitet vom Testkonstrukt und den Testspezifikationen (vgl. Kapitel 5)- - z. B. an Modellen kommunikativer Kompetenz, an den Erfordernissen bestimmter kommunikativer Kontexte (z. B. beruflicher Art), an Standards und Lehrplänen, an empirischen Befunden zu diskurs- 40 Kriteriale Bewertungsskalen / Bewertungsraster werden insbesondere im amerikanischen Englisch zumeist als rubrics bezeichnet. Vor allem im britischen Englisch bezeichnet rubric dagegen auch die Arbeitsanweisung einer Testaufgabe (vgl. Kapitel-7 im vorliegenden Band). Eine allerdings nicht fremdsprachenspezifische Diskussion der Vor- und Nachteile unterschiedlicher Typen von Bewertungsrastern und -skalen im Kontext des formativen Testens findet sich in Brookhart (2013). Dabei trennt die Autorin <?page no="128"?> 127 6.5 Bewertungsskalen und Bewertungsraster analytischen Merkmalen bestimmter Textsorten, an den Ergebnissen empirischer Analysen der Schreibprodukte von Lernenden oder auch an bereits existierenden Skalen explizit oder implizit orientieren. Auch die Meinungsbildung in Expertengremien kann ein wichtiger Einflussfaktor sein (vgl. z. B. Berger, 2015, Kap. 3; Knoch, 2009, 2011b; Knoch & Macqueen, 2016; Plakans, 2014; Tankó, 2005; Turner, 2013; Wisniewski, 2014, Kap. 1.1). 41 Weiterhin können bei der Entwicklung der Skalen und Raster folgende Aspekte und Fragen eine Rolle spielen: ▶ Verfolgt man einen Uni-Level-, Bi-Level- und Multi-Level-Ansatz? ▶ Soll die Bewertung aufgabenspezifisch oder aufgabenübergreifend erfolgen? ▶ Ist eine holistische, analytische oder globale Bewertung geplant? ▶ Soll kompensatorisch oder nicht-kompensatorisch bewertet werden? In den folgenden Kapiteln werden wir mit unterschiedlicher Gewichtung auf die genannten Aspekte eingehen. Daran anschließend werden wir in Kapitel 6.6 den Einsatz von Bewertungsskalen und -rastern im schulischen Kontext anhand einer Reihe von Beispielen illustrieren. 6.5.1 Uni-Level-, Bi-Level- und Multi-Level-Ansatz Die Konstruktion von Bewertungsskalen kann u. a. im Rahmen eines Uni-Level-, Bi-Level oder Multi-Level-Ansatzes erfolgen. Im Fall eines Uni-Level-Ansatzes fokussiert man ein einzelnes Kompetenzniveau (z. B. das GER -Niveau A2), im Fall eines Bi-Level-Ansatzes zwei nebeneinander liegende Niveaus (z. B. die GER -Niveaus A2 und B1) und im Fall eines Multi- Level-Ansatzes mehr als zwei nebeneinander liegende Niveaus (vgl. Kapitel 5.4.7 sowie auch Kapitel 7). Das in Porsch (2010a) empirisch untersuchte Kodierschema zur standardbasierten Bewertung von Schreibkompetenz im Fach Französisch oder auch das in Kapitel 6.6.1 vorgestellte Bewertungsverfahren für den DELF Scolaire orientieren sich z. B. an einem Uni-Level Ansatz (vgl. auch Porsch & Tesch, 2010, S. 159-170). Bei der Entwicklung des in Kapitel 8 beschriebenen Bewertungsrasters wurde dagegen explizit von einem Bi-Level-Ansatz ausgegangen. Auch die Bewertung der Schreibleistung im Rahmen von VERA -6 Englisch 2016 scheint eher einem Bi-Level-Ansatz zu folgen (vgl. Kapitel 6.6.2). Ein Beispiel für eine Bewertungsskala zwischen rubrics im Sinne von kriterialen Beurteilungsrastern mit deskriptiver Funktion und Rating- Skalen mit primärer Bewertungsfunktion (z. B. zur Benotung). 41 Die Entwicklung von Skalen und Rastern kann zudem mit unterschiedlichen Zielsetzungen erfolgen (für eine gängige, auf Alderson, 1991 zurückgehende Dreiteilung vgl. Europarat, 2001, Kap. 3.8; Knoch, 2009, S. 41 f.). Im vorliegenden Kapitel beziehen wir uns ausschließlich auf Skalen und Raster, die der Beurteilung von Schreibprodukten dienen sollen. Ein Beispiel für eine Skala zur Rückmeldung der Testergebnisse an die betroffenen Schülerinnen und Schüler oder auch Eltern ist in Kapitel 9.2.1 aufgeführt. Hinweise zur Verwendung von Skalen im Rahmen der Definition des Testkonstrukts und der Aufgabenentwicklung finden sich u. a. in den Kapiteln 5.1, 5.7 und 7. <?page no="129"?> 128 6 Kriteriale Evaluation von Schreibkompetenzen auf der Basis eines Multi-Level-Ansatzes findet sich in Form der Independent Writing Rubrics des TOEFL i BT im Kapitel 6.5.3 (siehe Abbildung 2). 6.5.2 Aufgabenspezifische versus aufgabenübergreifende Bewertung Bewertungsskalen und -raster können weiterhin aufgabenspezifisch oder aufgabenübergreifend konzipiert werden. Aufgabenspezifische Skalen haben u. a. den Vorteil, dass mit ihrer Hilfe auch aufgabenspezifische Kompetenzen z. B. in einer bestimmten beruflichen Domäne potenziell hoch valide und hoch reliabel gemessen werden können (vgl. Kapitel 5.4.1). Sie haben allerdings den Nachteil, dass für jede Aufgabe oder zumindest jeden Aufgabentyp eigene Bewertungsskalen entwickelt werden müssen und dass eine Generalisierung über die fokussierten Merkmale hinaus nur sehr eingeschränkt möglich ist. 42 Formuliert man-- wie im schulischen Kontext üblich-- für die Bewertung schriftlicher Leistungen einen Erwartungshorizont, so ist dieser stets aufgabenspezifisch (vgl. Kapitel 6.8). Will man generalisierte aufgaben- und textsortenübergreifende Aussagen zu Schreibleistungen im Rahmen eines kompetenzorientierten Ansatzes machen, dann bietet es sich deshalb an, auf eher aufgabenunspezifische Skalen mit relativ breiten sprachlichen Kriterien wie „Spektrum sprachlicher Mittel“, „sprachliche Korrektheit“ und „Kohärenz/ Kohäsion“ zurückzugreifen (vgl. z. B. Knoch, 2009, Kapitel 3 sowie Kapitel 5.4.2 im vorliegenden Band). Zudem ist ein entsprechender Ansatz aufgrund seiner größeren Ökonomie auch deutlich besser im schulischen Alltag umsetzbar. In der Regel ist selbst in Bewertungsrastern mit aufgabenübergreifenden sprachlichen Kriterien die Bewertung der Erfüllung der jeweiligen Aufgabenstellung gefordert. So sind etwa in den Assessment Grids zu VERA -6 Englisch 2016 unter der Kategorie Task Fulfilment im Fall der Aufgabe Weekend Activities jeweils aufgabenspezifische Aspekte wie favourite activities und reasons for liking them, im Fall der Aufgabe Cat Aspekte wie age, colour und food aufgeführt (vgl. Kapitel 6.6.2). Ähnlich finden sich auch in den vom Bundesinstitut für Bildungsforschung, Innovation & Entwicklung des österreichischen Schulwesens ( BIFIE ) für die „Standardisierte kompetenzorientierte Reife- und Diplomprüfung“ entwickelten Beurteilungsrastern für die Bewertung der Schreibkompetenz in Englisch (B2) und in der zweiten lebenden Fremdsprache (B1) unter dem Kriterium „Erfüllung der Aufgabenstellung“ eine Reihe von „Aufgabenspezifischen Deskriptoren“ (siehe z. B. BIFIE , 2014, S. 5 sowie auch Kapitel 6.5.4 im vorliegenden Band). Auch in dem in Kapitel 8.1 beschriebenen Bewertungsraster ist eine Beurteilung der „Umsetzung der Aufgabenstellung“ vorgesehen. Allerdings sind dort die Unterkriterien im Gegensatz zu VERA -6 Englisch 2016 nicht aufgabenspezifisch, sondern aufgabenübergreifend 42 Als Beispiel für eine aufgabenspezifische Bewertung wird häufig das sogenannte „primary trait scoring“ im Rahmen des National Assessment of Educational Progress ( NAEP ) in den USA genannt (vgl. Weigle, 2002, S. 110-112). Weigle weist in diesem Zusammenhang u. a. darauf hin, dass die Entwicklung entsprechender Skalen extrem aufwändig ist, mit ihrer Hilfe allerdings z. B. Eltern gut vermittelt werden könne, welche konkreten Schreibhandlungen ihre Kinder ausführen können. Hinweise auf weitere Typen aufgabenspezifischer Skalen findet man z. B. bei Wisniewski (2014, S. 29 f.). <?page no="130"?> 129 6.5 Bewertungsskalen und Bewertungsraster formuliert. Die Aufgabenspezifik resultiert erst daraus, dass die in der jeweiligen Aufgabenstellung geforderten Aspekte bei der Bewertung zu berücksichtigen sind. So ist etwa beim Unterkriterium „Inhalt“ auf einer vierstufigen Skala zu bewerten, in welchem Umfang die „in der Aufgabenstellung geforderten Punkte“ bearbeitet sind. 6.5.3 Holistische Bewertung Wichtig ist auch die Unterscheidung zwischen holistischen und analytischen Bewertungsskalen sowie zwischen holistischer und analytischer Bewertung (vgl. zum Folgenden auch Bachman & Palmer, 2010, Kap. 16.; Europarat, 2001, S. 46-50; Grotjahn & Kleppin; 2008, Kap. 8.3; Harsch & Martin, 2013; Schipolowski & Böhme, 2016; Weigle, 2002, Kap. 6; Zhang, Xiao & Luo, 2015). Weiterhin kann in Abgrenzung zur holistischen Bewertung noch eine globale Bewertung auf der Basis analytischer Kriterien unterschieden werden (vgl. Kapitel 6.5.5). Bei einer holistischen Bewertungsskala und einer holistischen Bewertung wird die zu messende Kompetenz als eindimensional betrachtet und auf eine explizite Bewertung von feineren Teildimensionen verzichtet. Allerdings werden bei der Beschreibung der einzelnen Abschnitte einer holistischen Skala bestimmte Teilkompetenzen häufig mit Hilfe spezifischer Deskriptoren charakterisiert. Die Bewertung kann dann zwar auf mehreren Einzelkriterien beruhen; diese werden allerdings nicht getrennt numerisch beurteilt. 43 Die Bewerterinnen und Bewerter werden dann in der Regel dazu angehalten, das Schreibprodukt relativ schnell zu lesen und dieses dann auf der Basis des gewonnenen allgemeinen Eindrucks zu bewerten (vgl. Knoch, 2009, S. 39). Aktuelle Beispiele für holistische Skalen sind die Bewertungsraster für die unabhängigen und integrierten Schreibaufgaben im TOEFL i BT (siehe Abbildung 2 sowie auch die in Tankó, 2005, S. 125 und Weigle, 2002, S. 113 abgedruckten Skalen für den TOEFL Test of Written English). Ein anderes aktuelles Beispiel ist die in Abbildung 3 wiedergegebene Skala „Overall“ im Written Assessment Criteria Grid des Europarats (Council of Europe, 2009). Weitere holistische Skalen werden z. B. in ALTE (2006, S. 10-13) besprochen. Die Abbildung 2 zeigt die Beschreibung der Stufen 0 (unterste Stufe), 2 (mittlerer Bereich) und 5 (oberste Stufe) aus der 6-stufigen Skala zur Bewertung der unabhängigen Schreibaufgabe im TOEFL i BT . Bei dieser Aufgabe wird den Testteilnehmenden eine aus zwei gegensätzlichen Meinungen bestehende Aussage präsentiert, zu der dann in Form eines Essays Stellung zu nehmen ist (30 Minuten Bearbeitungszeit). 43 Anstelle von „holistisch“ wird in diesem Zusammenhang in der Literatur mit gleicher Bedeutung auch der Terminus „global“ verwendet. Aus Gründen der terminologischen Klarheit trennen wir im Folgenden jedoch zwischen den beiden Begriffen und verwenden „global“ lediglich im Sinne eines (zusätzlichen) aggregierten Urteils im Fall einer analytischen Bewertung (vgl. die entsprechenden Hinweise weiter unten). <?page no="131"?> 130 6 Kriteriale Evaluation von Schreibkompetenzen Independent WRITING Rubrics SCORE TASK DESCRIPTION 5 An essay at this level largely accomplishes all of the following: ▶ Effectively addresses the topic and task ▶ Is well organized and well developed, using clearly appropriate explanations, exemplifications and / or details ▶ Displays unity, progression and coherence ▶ Displays consistent facility in the use of language, demonstrating syntactic variety, appropriate word choice and idiomaticity, though it may have minor lexical or grammatical errors 2 An essay at this level may reveal one or more of the following weaknesses: ▶ Limited development in response to the topic and task ▶ Inadequate organization or connection of ideas ▶ Inappropriate or insufficient exemplifications, explanations or details to support or illustrate generalizations in response to the task ▶ A noticeably inappropriate choice of words or word forms ▶ An accumulation of errors in sentence structure and / or usage 0 An essay at this level merely copies words from the topic, rejects the topic, or is otherwise not connected to the topic, is written in a foreign language, consists of keystroke characters, or is blank. Abbildung 2: Auszug aus TOEFL i BT ® - Independent Writing Rubrics ( ETS , 2014); Copyright © 2014 Educational Testing Service. Used with permission.) 6.5.4 Analytische Bewertung Bei einer analytischen Bewertungsskala werden explizit bestimmte Teildimensionen des zu messenden Konstrukts unterschieden, für die dann jeweils getrennte Urteile abzugeben sind. So kann bei der Bewertung eines Schreibprodukts im Hinblick auf die sprachliche Realisierung z. B. zwischen Verständlichkeit, Angemessenheit, Kohärenz/ Kohäsion und Richtigkeit unterschieden und das jeweils in den Teildimensionen erreichte Kompetenzniveau in Form eines Profils dokumentiert werden. Ausführlich dokumentierte Beispiele für eine entsprechende analytische Bewertung finden sich in Kapitel-8.2. Die in Abbildung 3 abgedruckte Tabelle C4 Written Assessment Criteria Grid aus der Publikation „Relating Language Examinations to the CEFR “ (Council of Europe, 2009, S. 188) illustriert das Konzept einer analytischen Bewertung von Schreibleistungen. Weitere Beispiele für analytische Skalen sind in den Abbildungen 4, 6 und 8 im Kapitel 6.6 aufgeführt. Für die in Abbildung 3 wiedergegebene Bewertungsskala ist u. a. kennzeichnend, dass sie neben einer analytischen Bewertung anhand von insgesamt fünf Einzelkriterien auch eine von der analytischen Bewertung prinzipiell unabhängige holistische Bewertung (Spalte „Overall“) ermöglicht. Bei „Range“, „Coherence“ und „Accuracy“ handelt es sich um gängige Kriterien zur Skalierung der sprachlichen Qualität von Schreibleistungen. Dabei findet unter „Range“ (Spektrum) auch die soziolinguistische Angemessenheit Berücksichtigung. Bei „Accuracy“ geht es speziell um Korrektheit im Bereich Grammatik. In den letzten beiden Spalten der Tabelle sind skalierte Beschreibungen von funktionalen Schreibkompetenzen in den Bereichen Deskription und Argumentation aufgeführt, wobei auch der anvisierte Lesende berücksichtigt wird. <?page no="132"?> 131 6.5 Bewertungsskalen und Bewertungsraster Auf das in Abbildung 3 abgedruckte Written Assessment Criteria Grid des Europarats wird in einer Reihe von Bewertungsrastern explizit Bezug genommen. Ein Beispiel sind die vom BIFIE für die „Standardisierte kompetenzorientierte Reife- und Diplomprüfung“ entwickelten Beurteilungsraster für die Bewertung der Schreibkompetenz in Englisch (B2) und in der zweiten lebenden Fremdsprache (B1). So heißt es etwa in den Erläuterungen zum Beurteilungsraster für B1: Der Beurteilungsraster beinhaltet drei Kriterien aus Table C4: Written Assessment Criteria Grid ( CEFR Manual, Version 2009): ▶ Range findet sich im Kriterium Spektrum sprachlicher Mittel wieder. Hier geht es um Beschreibungen sprachlicher und soziolinguistischer Kompetenz. ▶ Accuracy ist im Kriterium Sprachrichtigkeit abgebildet. Hier werden sprachliche und semantische Kompetenzen beschrieben. ▶ Coherence ist im Kriterium Aufbau und Layout enthalten. Hier werden Diskurskompetenzen beschrieben. ( BIFIE , 2014, S. 2) Die beiden genannten BIFIE -Beurteilungsraster sind für schulübergreifende High-Stakes- Prüfungen entwickelt worden. Sie sind sehr komplex (jeweils vier elfstufige Skalen) und verlangen eine gründliche Schulung der Bewertenden. Zudem ist der Einsatz sehr arbeitsaufwändig, da die Schreibprodukte für jede der vier Bewertungsdimensionen zumindest einmal gelesen werden müssen. Für den unmittelbaren Unterrichtskontext lassen sich die Raster deshalb nicht direkt nutzen. Suchen Lehrkräfte allerdings nach Hinweisen im Hinblick auf eine stärker standardisierte Bewertung von Schreibkompetenzen auf den Niveaustufen B1 und B2 lohnt sich der Blick sowohl auf die Raster als auch die zur Verfügung gestellten kommentierten Leistungsbeispiele (vgl. Kapitel 6.7). 44 6.5.5 Globale Bewertung Häufig wird zusätzlich zu einer analytischen Bewertung einzelner Teildimensionen ein Gesamturteil vergeben-- z. B. in Form einer (gewichteten) Summe von Punkten oder auch auf der Basis einer eher „freien“ Aggregation der Teildimensionen durch die Beurteilenden. Zur Abgrenzung von der oben beschriebenen holistischen Bewertung verwenden wir im vorliegenden Band für diesen Fall den Terminus globale Bewertung. So können z. B. zur Bewertung der Sprachrichtigkeit zunächst getrennt Punkte für Orthografie, Grammatik und Wortschatz ausgewiesen werden. Diese können dann zusätzlich zu einem Gesamturteil aggregiert werden, wobei auch noch Gewichtungen möglich sind (zur Gewichtung vgl. Van Moere, 2014, S. 1370 f.). 44 Vgl. auch die Hinweise zur Bewertung der sprachlichen Leistung in den Aufgaben für die Fächer Englisch und Französisch in den Gemeinsamen Abituraufgabenpools für die Länder unter https: / / www.iqb. hu-berlin.de/ abitur/ dokumente/ englisch/ Aufgabensammlung_2.pdf. Die Bewertung (Benotung) erfolgt hier anhand eines Globalurteils (Summenscore) auf der Basis einer analytischen Punkteskala. <?page no="133"?> 132 6 Kriteriale Evaluation von Schreibkompetenzen Overall Range Coherence C2 Can write clear, highly accurate and smoothly flowing complex texts in an appropriate and effective personal style conveying finer shades of meaning. Can use a logical structure which helps the reader to find significant points. Shows great flexibility in formulating ideas in differing linguistic forms to convey finer shades of meaning precisely, to give emphasis and to eliminate ambiguity. Also has a good command of idiomatic expressions and colloquialisms. Can create coherent and cohesive texts making full and appropriate use of a variety of organisational patterns and a wide range of connectors and other cohesive devices. C1 Can write clear, well-structured and mostly accurate texts of complex subjects. Can underline the relevant salient issues, expand and support points of view at some length with subsidiary points, reasons and relevant examples, and round off with an appropriate conclusion. Has a good command of a broad range of language allowing him/ her to select a formulation to express him/ herself clearly in an appropriate style on a wide range of general, academic, professional or leisure topics without having to restrict what he/ she wants to say. The flexibility in style and tone is somewhat limited. Can produce clear, smoothly flowing, well-structured text, showing controlled use of organisational patterns, connectors and cohesive devices. B2 Can write clear, detailed official and semi-official texts on a variety of subjects related to his field of interest, synthesising and evaluating information and arguments from a number of sources. Can make a distinction between formal and informal language with occasional less appropriate expressions. Has a sufficient range of language to be able to give clear descriptions, express viewpoints on most general topics, using some complex sentence forms to do so. Language lacks, however, expressiveness and idiomaticity and use of more complex forms is still stereotypic. Can use a number of cohesive devices to link his/ her sentences into clear, coherent text, though there may be some “jumpiness” in a longer text. B1 Can write straightforward connected texts on a range of familiar subjects within his field of interest, by linking a series of shorter discrete elements into a linear sequence. The texts are understandable but occasional unclear expressions and/ or inconsistencies may cause a break-up in reading. Has enough language to get by, with sufficient vocabulary to express him/ herself with some circumlocutions on topics such as family, hobbies and interests, work, travel, and current events. Can link a series of shorter discrete elements into a connected, linear text. A2 Can write a series of simple phrases and sentences linked with simple connectors like “and”, “but” and “because”. Longer texts may contain expressions and show coherence problems which makes the text hard to understand. Uses basic sentence patterns with memorized phrases, groups of a few words and formulae in order to communicate limited information mainly in everyday situations. Can link groups of words with simple connectors like “and”, “but” and “because”. A1 Can write simple isolated phrases and sentences. Longer texts contain expressions and show coherence problems which make the text very hard or impossible to understand. Has a very basic repertoire of words and simple phrases related to personal details and particular concrete situations. Can link words or groups of words with very basic linear connectors like “and” and “then”. <?page no="134"?> 133 6.5 Bewertungsskalen und Bewertungsraster Accuracy Description Argument Maintains consistent and highly accurate grammatical control of even the most complex language forms. Errors are rare and concern rarely used forms. Can write clear, smoothly flowing and fully engrossing stories and descriptions of experience in a style appropriate to the genre adopted. Can produce clear, smoothly flowing, complex reports, articles and essays which present a case or give critical appreciation of proposals or literary works. Can provide an appropriate and effective logical structure which helps the reader to find significant points. Consistently maintains a high degree of grammatical accuracy; occasional errors in grammar, collocations and idioms. Can write clear, detailed, well-structured and developed descriptions and imaginative texts in a mostly assured, personal, natural style appropriate to the reader in mind. Can write clear, well-structured expositions of complex subjects, underlining the relevant salient issues. Can expand and support point of view with some subsidiary points, reasons and examples. Shows a relatively high degree of grammatical control. Does not make errors which cause misunderstandings. Can write clear, detailed descriptions of real or imaginary events and experiences marking the relationship between ideas in clear connected text, and following established conventions of the genre concerned. Can write clear, detailed descriptions on a variety of subjects related to his/ her field of interest. Can write a review of a film, book or play. Can write an essay or report that develops an argument systematically with appropriate highlighting of some significant points and relevant supporting detail. Can evaluate different ideas or solutions to a problem. Can write an essay or report which develops an argument, giving some reasons in support of or against a particular point of view and explaining the advantages and disadvantages of various options. Can synthesise information and arguments from a number of sources. Uses reasonably accurately a repertoire of frequently used “routines” and patterns associated with more common situations. Occasionally makes errors that the reader usually can interpret correctly on the basis of the context. Can write accounts of experiences, describing feelings and reactions in simple connected text. Can write a description of an event, a recent trip - real or imagined. Can narrate a story. Can write straightforward, detailed descriptions on a range of familiar subjects within his field of interest. Can write short, simple essays on topics of interest. Can summarise, report and give his/ her opinion about accumulated factual information on a familiar routine and non-routine matters, within his field with some confidence. Can write very brief reports to a standard conventionalised format, which pass on routine factual information and state reasons for actions. Uses simple structures correctly, but still systematically makes basic mistakes. Errors may sometimes cause misunderstandings. Can write very short, basic descriptions of events, past activities and personal experiences Can write short simple imaginary biographies and simple poems about people. Shows only limited control of a few simple grammatical structures and sentence patterns in a memorized repertoire. Errors may cause misunderstandings. Can write simple phrases and sentences about themselves and imaginary people, where they live and what they do, etc. Abbildung 3: Written Assessment Criteria Grid (Council of Europe, 2009, S. 187) <?page no="135"?> 134 6 Kriteriale Evaluation von Schreibkompetenzen So sollen z. B. bei dem in Kapitel 8 vorgestellten Raster die Bewertenden zunächst einmal unter der Kategorie „Erster Gesamteindruck“ eine holistische Bewertung und vorläufige Zuordnung der Leistung zu den Niveaustufen A2 oder B1 bzw. < A2 oder > B1 des GER vornehmen. Es folgt dann eine relativ differenzierte analytische Bewertung. Anschließend ist über eine Aggregation der bewerteten Teildimensionen eine zusätzliche globale Bewertung in Form einer endgültigen Zuordnung zu den vorgegebenen Niveaustufen abzugeben. 45 Eine Voraussetzung für eine Aggregation der Einzelurteile aus einer analytischen Bewertung ist, dass die zu aggregierenden Urteile vergleichbare Eigenschaften erfassen wie z. B. Komponenten (Teildimensionen) von Sprachrichtigkeit. Ein Beleg hierfür kann eine substanzielle Korrelation (z. B. größer als 0.5) zwischen den Merkmalen sein. 46 Die Merkmale sollten allerdings auch nicht zu hoch miteinander korrelieren (z. B. größer als 0.9), da in diesem Fall-- zumindest psychometrisch gesehen-- auf eines der beiden Merkmale verzichtet werden kann (vgl. auch Van Moere, 2014, S. 1370). 6.5.6 Kompensatorische versus nicht-kompensatorische Bewertung Wichtig ist im Hinblick auf die Urteilsbildung auch die Unterscheidung zwischen einer kompensatorischen und einer nicht kompensatorischen Form der Bewertung. Bei einer kompensatorischen Bewertung können sich Stärken und Schwächen in einzelnen Teilbereichen ausgleichen. Dies kann z. B. bedeuten, dass Stärken im grammatikalisch-lexikalischen Bereich Schwächen in der Textorganisation ausgleichen können (vgl. Porsch, 2010b, S. 114 f., 135-137). Zumeist werden schriftliche Leistungen vorwiegend kompensatorisch bewertet, und auch nur im Fall einer kompensatorischen Bewertung ist die Berechnung eines Globalurteils in Form eines Summenscores sinnvoll. Inwieweit eine kompensatorische Bewertung gerechtfertigt ist, hängt vom jeweiligen Testkonstrukt und den Zielsetzungen der Testung ab. Wird z. B. das Erreichen bestimmter Ausprägungen von Merkmalen als unabdingbar angesehen, z. B. im Hinblick auf die Zuordnung zu einem Kompetenzniveau oder auch in Bezug auf eine zu treffende Entscheidung, dann sollte dieser spezifische Sachverhalt bei der Bewertung auf jeden Fall berücksichtigt werden. Dabei ist darauf zu achten, dass die als unverzichtbar angesehenen Eigenschaften auch hinreichend reliabel gemessen werden (vgl. Van Moere, 2014, S. 1371). Insbesondere die ausreichende Erfüllung der Aufgabenstellung wird häufig als unabdingbar im Hinblick auf die Bewertung weiterer Dimensionen der Schreibleistung angesehen. So findet sich z. B. im österreichischen Raster zur Beurteilung der Schreibkompetenz im Rahmen der standardisierten schriftlichen Reife- und Diplomprüfung in den lebenden Fremdsprachen 45 Zum Zusammenhang zwischen holistischer und nachfolgender globaler Bewertung von Schreibkompetenz im Fach Französisch vgl. Porsch (2010a, S. 270-274, 281). 46 Da die Höhe einer Korrelation von einer Vielzahl von Faktoren abhängen kann, bedeutet eine substanzielle Korrelation nicht notwendigerweise, dass die korrelierenden Variablen auch die gleiche Eigenschaft in einem substanziellen Ausmaß messen. Weitere Hinweise zur theoretischen und psychometrischen Unterscheidbarkeit von Dimensionen von Schreibkompetenz finden sich in Kapitel 5.4.6 des vorliegenden Bandes. <?page no="136"?> 135 6.5 Bewertungsskalen und Bewertungsraster ( GER -Niveau B1) folgender Hinweis: „Bei Verfehlung der Aufgabenstellung wird die Stufe 0 vergeben, alle anderen Kriterien werden nicht bewertet“ ( BIFIE , 2014, S. 8). Im Kapitel 8 des vorliegenden Bandes haben sich die Autorinnen und Autoren allerdings gegen eine rigorose Verwendung der Dimension „Umsetzung der Aufgabenstellung“ als Ausschlusskriterium ausgesprochen, da ihrer Erfahrung nach Texte auch dann bewertbar sein können, wenn z. B. nicht alle Inhaltspunkte vollständig bearbeitet wurden. Sie weisen jedoch zugleich darauf hin, dass die Schülerinnen und Schüler Vermeidungsstrategien verwendet haben können und dass dieser Sachverhalt die Interpretation der gezeigten Leistungen im Hinblick auf das Testkonstrukt deutlich erschweren kann. 6.5.7 Analytische versus holistische Bewertung im Vergleich Sowohl für analytische und holistische Skalen als auch für eine analytische und holistische Bewertung lassen sich Argumente und Gegenargumente finden, wobei insgesamt deutlich mehr Argumente für eine differenziertere analytische Bewertung sprechen (vgl. z. B. Knoch, 2009, Kap. 3). In der Praxis ist eine Differenzierung zwischen lediglich drei bis vier Dimensionen für viele Zecke optimal. Stark ausdifferenzierte analytische Bewertungsraster mit mehr als 20 Kriterien existieren zwar, der Beurteilungsaufwand steigt aber mit einer zunehmenden Anzahl von Kriterien stark an. Zudem lässt sich weder empirisch noch kognitiv zwischen einer sehr hohen Zahl von Kriterien differenzieren. Die Bewertung auf der Basis einer holistischen Skala ist in der Regel weit ökonomischer als eine differenzierte analytische Beurteilung und kann deshalb zur potenziellen Erhöhung der Beurteilungsgüte auch leichter für eine Mehrfachbewertung durch unterschiedliche Personen eingesetzt werden. Sie erfordert jedoch sehr erfahrene Beurteilende und in der Regel auch ein aufwändiges Training anhand von Leistungsbeispielen (Benchmarktexten; vgl. Kapitel 6.7 und Kapitel 8.2). Bei der analytischen Bewertung ist eher als bei einer holistischen Bewertung gewährleistet, dass alle Beurteilenden die gleichen Leistungsmerkmale bewerten und auch in vergleichbarer Weise gewichten. Eine analytische Bewertung eignet sich auch besser zur Schulung diagnostischer Kompetenzen, z. B. in einem Lehrergremium. Sie hat außerdem einen höheren Informationswert z. B. im Hinblick auf eine Rückmeldung an die Schülerin oder den Schüler. Entsprechende Überlegungen liegen auch der Entscheidung für eine analytische Bewertung in Kapitel 8 zugrunde. Im Folgenden geben wir weitere Beispiele für die Verwendung von Bewertungsrastern im schulischen Kontext. Der Fokus liegt dabei wie auch im Kapitel 8 des vorliegenden Bandes auf den Niveaustufen A2 und B1. 47 47 Weitere Kriterienraster finden sich u. a. auf den Bildungsservern der Länder-- wie etwa in Berlin und Brandenburg zur Bewertung von „Klausuren und Zentralabitur in den Fächern Englisch und Französisch für Kurse, die zum Abitur 2017 führen“ (http: / / bildungsserver.berlin-brandenburg.de/ unterricht/ pruefungen/ deutsch000/ ? L=0). Analytische Skalen zur Bewertung von Schreibkompetenzen im Hinblick auf die Bildungsstandards für Englisch als erste Fremdsprache sind in Rupp, Vock, Harsch & Köller (2008, S. 157-164) jeweils für die Niveaus A1 bis C1 abgedruckt. <?page no="137"?> 136 6 Kriteriale Evaluation von Schreibkompetenzen 6.6 Einsatz von Bewertungsrastern im schulischen Kontext: Beispiele 6.6.1 Formeller Französischtest Zur Illustration haben wir zunächst ein Beispiel für ein analytisches Bewertungsraster im Zusammenhang mit einem formellen Französischtest, nämlich dem DELF B1, Version scolaire et junior angeführt- - ein Test, der auch im deutschen Schulkontext zunehmend zur Zertifizierung eingesetzt wird. Die Verwendung des Rasters wird in einer vom Staatsinstitut für Schulqualität und Bildungsforschung ( ISB ) München herausgegebenen Publikation zu Aufgaben und Korrektur der Aufgaben des DELF B1, Version scolaire et junior an bayerischen Realschulen relativ detailliert kommentiert. Dabei geben die Autoren u. a. folgenden allgemeinen Korrekturhinweis: „Das Hauptaugenmerk liegt auf der Kommunikationsfähigkeit des Schülers und nicht auf den einzelnen Fehlern und Defiziten! “ ( ISB , 2010, S. 25; Hervorhebung im Original). Gefordert ist eine Textproduktion von 160-180 Wörtern innerhalb von 45 Minuten z. B. in Form eines persönlichen Briefes oder auch eines Artikels für eine Schülerzeitung. In der Regel wird hierzu ein kurzes Textdokument vorgegeben. Die Anwendung des Rasters wird anhand von zwei exemplarischen Schülerarbeiten illustriert, wobei auch auf spezifische sprachliche Mittel zur Realisierung der Aufgaben eingegangen wird (vgl. ISB , 2010, S. 21-30). In Bezug auf das Bewertungsraster ist u. a. kritisch anzumerken, dass es sich um Punktwertskalen mit bis zu 9 Ausprägungen handelt, die inhaltlich nicht spezifiziert sind. Angesichts dieser Tatsache dürfte eine ausreichende Kriterien- und Beurteilerreliabilität ohne gründliche Schulung kaum erreichbar sein. Weiterhin kann das Skalenformat mit 5, 7 oder 9 Ausprägungen dazu führen, dass Bewertende bevorzugt Punktwerte aus den mittleren Kategorien der Skalen vergeben und die Skala als Folge nicht mehr hinreichend zwischen den Testteilnehmenden differenziert (vgl. hierzu Kapitel 6.2). Das Bewertungsraster sowie die in der genannten Publikation aufgeführten tabellarischen Hinweise zur Anwendung des Rasters sind in Abbildung-4 und-5 abgedruckt. <?page no="138"?> 137 6.6 Einsatz von Bewertungsrastern im schulischen Kontext: Beispiele Abbildung 4: Analytisches Raster für die Bewertung der Schreibleistungen im DELF B1 ( CIEP , 2005, S. 16); © Centre international d‘études pédagogiques ( CIEP ) <?page no="139"?> 138 6 Kriteriale Evaluation von Schreibkompetenzen Grille d’évaluation Hinweise Respect de la consigne ■ Wurde die Aufgabe global erfasst (Textsorte, Adressat, Aufgabenstellung/ Thematik)? ■ Ist die Länge des Textes angemessen? Capacité à présenter des faits ■ Wurden die (angegebenen) inhaltlichen Elemente/ Vorgaben aufgegriffen? ■ Ist der Schüler in der Lage, Erfahrungen, Ereignisse und Sachverhalte angemessen zu beschreiben? Capacité à exprimer sa pensée ■ Ist der Schüler in der Lage seine Ideen und Gefühle auszudrücken und seine Meinung zu äußern? Bei der Korrektur ist in diesem Zusammenhang unter anderem auf Folgendes zu achten: ■ Verwendet der Schüler wertende Adjektive wie z. B. beau, intéressant, incroyable, utile, nul/ bon, drôle, sympa, rigolo, suffisant, malheureux, unique, typique, libre, terrible, magnifique, méchant, .... ? ■ Verwendet der Schüler Ausdrücke wie z. B. J’adore / aime, je déteste / préfère / regrette…, Je pense que…, A mon avis…, Je trouve que…, Je crois que..., J’espère que …, je suis sûr que…, je suppose que…, j’estime que…, Je n’ai pas compris pourquoi … , Je me demande si…, Je suis de même avis que..., Je suis d’accord avec l’opinion de…, Ça me plaît beaucoup parce que.., - D’un côté, il/ elle a raison, mais…, D’un côté...de l’autre...., Je suis pour ... parce que…, En conclusion, on peut dire que... ? Cohérence et cohésion ■ Ergibt der Text eine sinnvolle Einheit? ■ Kann der Schüler Inhalte strukturiert darstellen (logische Anordnung der Inhalte, Satzübergänge, Übergang zwischen den einzelnen Abschnitten)? ■ Verwendet er Ausdrücke wie z. B. Premièrement ... deuxièmement... troisièmement, (Tout) d’abord... ensuite/ puis ... enfin/ finalement, Pour commencer...Contrairement à/ au contraire à ...En comparaison avec, A l’exception de , D’un côté... de l’autre, Bref, ...En conclusion, (on peut dire...) ? Etendue du vocabulaire ■ Reicht das Vokabular des Schülers aus, um die Thematik angemessen zu behandeln? Ist der Schüler in der Lage unbekannte Wörter zu umschreiben? Maîtrise du vocabulaire ■ Wird das Vokabular inhaltlich im richtigen Kontext angewandt ? ( Beispiel: Unterscheidung entendre - écouter) ■ Wird das Vokabular sprachlich im richtigen Kontext angewandt? (Beispiel: Artikelfehler, falsche Präpositionen, Verbanschlüsse, ...) Eine sichere Beherrschung des Grundwortschatzes wird auf diesem Niveau vorausgesetzt. Fehler bei der Darstellung komplexerer Sachverhalte werden nicht mit Punktabzug bestraft. Maîtrise de l’orthographe lexicale ■ Ist das Textverständnis gewährleistet durch korrekte Rechtschreibung, Groß- und Kleinschreibung, richtige Zeichensetzung und eine angemessene äußere Form (Paragraphen) oder wird es durch Defizite in den genannten Faktoren erschwert? Degré d’élaboration des phrases ■ Ist der Schüler in der Lage, einfache Satzstrukturen fehlerfrei zu bilden? Verwendet der Schüler Konjunktionen wie parce que, quand, mais, ...? ■ Beherrscht der Schüler gängige, komplexere Satzkonstruktionen wie Relativsätze, indirekte Rede (il dit que, il demande si ...)? Choix des temps et des modes ■ Werden folgende Zeiten im richtigen Kontext angewandt? présent, passé composé, imparfait, futur, conditionnel ■ Interferenzfehler mit der Muttersprache werden toleriert: Quand je suis arrivé ma mère *m’a attendu sur le quai. (anstelle von m’attendait) Morphosyntaxe - orthographe grammaticale ■ Werden die grundlegenden grammatikalischen Strukturen richtig angewendet? (Angleichung, Stellung und Form von Pronomen und Adjektiven, Verbindungen, Zeitenbildung, ...) Abbildung 5: Hinweise zur Bewertung der Schreibleistungen im DELF B1 - Version scolaire et junior ( ISB , 2010, S. 26) <?page no="140"?> 139 6.6 Einsatz von Bewertungsrastern im schulischen Kontext: Beispiele 6.6.2 VERA -6 Englisch 2016 In den Vergleichsarbeiten/ Lernstandserhebungen VERA -6 Englisch 48 2016 wird zusätzlich zu den Bereichen Hörverstehen und Leseverstehen auch der Lernstand im Kompetenzbereich Schreiben erhoben. Für die Bewertung der Schreibleistungen wurden dazu ausführliche aufgabenbezogene Korrekturanweisungen bzw. Korrekturhilfen vorgelegt-- mit dem Ziel, „eine einheitliche, standardisierte und möglichst objektive Bewertung der Aufgaben zu gewährleisten“ ( IQ M-V, 2015, S. 5). Da die Korrekturhilfen nicht nur im Hinblick auf standardisierte Prüfungen, sondern auch in Bezug auf die unterrichtliche Alltagspraxis von Interesse sind, gehen wir etwas ausführlicher auf diese ein. Am Anfang der Korrekturanweisungen findet sich zunächst eine Reihe von nützlichen allgemeinen Hinweisen für die Bewertung der Schreibaufgaben. Diese enthalten u. a. folgenden wichtigen Kommentar zur Behandlung von Fehlern im Rahmen eines handlungs- und kompetenzorientierten Ansatzes der Bewertung von Schreibleistungen (vgl. auch die Hinweise zur Bewertung von „einzelnen Fehlern und Defiziten“ beim DELF B1 im vorangehenden Kapitel): Es muss betont werden, dass Fehler weder unterstrichen, noch korrigiert, noch gezählt werden müssen. Man liest den Text des Schülers und bewertet ihn anhand der Deskriptoren in den Rating Scales. Hierbei muss man aber auf das Niveau der Aufgabe (A1 oder A2) achten und die für die Aufgabe und das Kompetenzniveau relevanten Deskriptoren benutzen.-… Bitte auf keinen Fall die Fehler zählen! In der Bewertung geht es hier um Kriterien und Kompetenzen, nicht um Fehlerquotienten! ( IQ M-V, 2015, S. 7; Hervorhebung im Original) Es folgen dann Hinweise, wann die A1- oder die A2-Deskriptoren zu verwenden sind. …-wenn die Schreibaufgabe als A1 bezeichnet ist, sind nur die A1 Deskriptoren zu verwenden. Wenn die Aufgabe als A1+ bezeichnet ist, kann man bei „Language“ die Schülerleistung nach A1 (Codierung 1) oder nach A2 (Codierung 2) bewerten, d. h. man benutzt die A1 und A2 Deskriptoren. Bei „task fulfilment“ dagegen gelten bei A1+ Aufgaben nur die A1 task fulfilment Deskriptoren. Bei einer A2 Aufgabe sind im Bereich „Task fulfilment“ nur die A2 Deskriptoren zu verwenden, aber im Bereich „Language“ kann man (mit Ausnahme von structure and thematic development) die A1 Deskriptoren (Codierung 1) oder die A2 Deskriptoren (Codierung 2) benutzen. ( IQ M-V, 2015, S. 7) Der Hinweis deutet darauf hin, dass der Ansatz von VERA -6 Englisch 2016 insgesamt gesehen eher einem Bi-Level-Ansatz zuzurechnen ist. Das Material in den Abbildungen 6 bis 8 illustriert im Detail das Vorgehen bei der kriterialen Beurteilung der Schreibleistungen in VERA -6 Englisch 2016. Es ist jeweils den Korrekturanweisungen zum Testheft B entnommen ( IQ M-V, 2015). 48 VERA -6 ist ein Verbundprojekt der Länder Mecklenburg-Vorpommern, Sachsen, Schleswig-Holstein und Thüringen sowie der Autonomen Provinz Bozen- - Südtirol (vgl. https: / / www.iqb.hu-berlin.de/ vera). Die Projektleitung für VERA -6 Englisch liegt beim Institut für Qualitätsentwicklung Mecklenburg-Vorpommern ( IQ M-V). <?page no="141"?> 140 6 Kriteriale Evaluation von Schreibkompetenzen Level Task fulfilment Organisation A2 1. Most of the expected content points (2/ 2, 2/ 3, 3/ 4, 4/ 5, 5/ 6, 5/ 7, 6/ 8, 7/ 9, 7/ 10) are mentioned. 2. The majority of the ideas are relevant to the task. 3. Register and tone are appropriate for the target audience; simple everyday polite forms are shown, if applicable. 4. Meets text type requirements (i.e. following a standard format) if applicable. 5. Communicative effect mainly achieved i.e. the message is mainly conveyed although some difficulty may be experienced by the reader. Structure / Thematic development Text shows logical order but there might be “jumpiness” in the thematic development or the thematic development might be illogical in some part e.g. the end might be missing. Tells a story or describes something in a simple list of points (uses task bullets to structure text). Text is not usually organised in paragraphs. Language / Cohesion Links a series of simple phrases / sentences / groups of words using simple cohesive devices, such as articles, pronouns and connectors (the most frequent ones like ‘and’, ‘but’, ‘because’, ‘so’, ‘then’, ‘after’). Cohesive devices are not yet found throughout the text; their limited control may sometimes impede communication. Level Task fulfilment Organisation A1 1. Most of the expected content points (2/ 2, 2/ 3, 3/ 4, 4/ 5, 5/ 6, 5/ 7, 6/ 8, 7/ 9, 7/ 10) are mentioned. 2. The majority of the ideas are relevant to the task. 3. Register and tone are appropriate for the target audience; the simplest everyday polite forms are shown (if applicable). 4. Meets text type requirements (i.e. following standard format such as completing a form, writing a list of points, etc.) if applicable. 5. Communicative effect mainly achieved i.e. the message is mainly conveyed although some difficulty is likely to be experienced by the reader. Language / Cohesion Links words or groups of words with very basic linear connectors like ‘and’ or ‘then’. Other cohesive devices are not expected at this level. <?page no="142"?> 141 6.6 Einsatz von Bewertungsrastern im schulischen Kontext: Beispiele Vocabulary Grammar Range Is able to express basic communicative / simple survival needs 2 . ____________________________________ Accuracy Shows control of elementary vocabulary 1 including correct word choice. Non-impeding 5 errors may occur frequently. Some impeding 6 errors may occur. Performance may show noticeable mother tongue influence. Range Uses some simple structures (such as present/ past/ future; simple modals, e.g. ‘can/ may/ must’; auxiliaries, e.g. ‘to be’/ ’have’) and some simple sentence patterns (e.g. questions/ answers, negatives/ positives, commands, suggestions). ____________________________________ Accuracy Shows control of a few simple grammatical structures and sentence patterns. Local errors 3 may occur frequently (i.e. in nearly every sentence). Some global errors 4 are likely to occur. Performance may show noticeable mother tongue influence. Vocabulary Grammar Range Shows a range of isolated words and phrases restricted to personal details and concrete situations 1 . _____________________________________ Accuracy Shows control of a few elementary words. Words beyond the targeted level are likely to be used inaccurately / inappropriately (incorrect word choice). Most frequently used words may be correctly spelled, but words beyond that are exposed to spelling errors. Performance may show serious mother tongue influences. Range Shows only a few simple grammatical structures (such as simple present tense and/ or simple modals) and phrase / sentence patterns (such as simple noun + verb phrases, simple sentences / SPO) - all within a learnt repertoire. _____________________________________ Accuracy Shows only limited control of a few simple grammatical structures and sentence patterns in a learnt repertoire. Local errors 3 are likely to occur frequently. Global errors 4 occur. Performance may show serious mother tongue influences. Documents consulted: Manual for linking examination to the CEFR; Into Europe Rating Scale; CEFR; DESI Rating Scales; IQB Rating Scales Abbildung 6: VERA -6 Englisch 2016; Bewertungsskalen für A2 und A1 ( IQ M-V, 2015, S. 22) <?page no="143"?> 142 6 Kriteriale Evaluation von Schreibkompetenzen Die Abbildung 6 zeigt die Bewertungsskalen (Rating Scales) für die GER -Stufen A2 und A1 aus dem Anhang der Korrekturanweisungen zum Testheft B (S. 22). Den Skalen ist ein erläuternder Text u. a. zu einigen verwendeten Begriffen vorangestellt 49 : Descriptors state the expectations for different criteria, targeting levels A1 and A2. Remarks in italics / blue are rating guidelines and state additional features which are characteristic of that level. Glossary: 1 Vocabulary related to personal details and concrete situations e. g. names, dates, nationality, surroundings, everyday polite forms of greetings and farewells, introductions, using ‘please’, ‘thank you’ ‘sorry’; food, housing, transport, etc. 2 Vocabulary relating to the expression of basic communicative / simple survival needs e. g. daily routines, wants and needs, requests for information, what they do (activities), places, possessions; very short social exchanges e. g. making and responding to invitations, suggestions and apologies 3 Local errors are grammatical errors within one sentence which do not hinder understanding (e. g. mixing up of tenses, forgetting to mark subject-verb agreement, problems with subordinate clauses, errors in word order). It is usually clear what the writer wants to express. 4 Global errors are those grammatical errors which hinder understanding at the sentence level. 5 Non-impeding errors are those lexical / spelling errors which can be resolved spontaneously. 6 Impeding errors are those lexical / spelling errors which are irresolvable or take a great deal of effort to resolve. ( IQ - MV , 2015, S. 21) Die Abbildung 7 zeigt ein Leistungsbeispiel (Pupil 1) für die A2-Aufgabe Weekend activities. In Abbildung 8 wird dann illustriert, wie dieses anhand eines Kriterienrasters (Assessment grid) auf der Basis der Deskriptoren aus Abbildung 6 zu bewerten ist. Mit abgedruckt ist auch der relativ ausführliche begründende Kommentar. In den Korrekturanweisungen zum Testheft B finden sich für dieselbe Aufgabe noch zwei weitere ausführlich kommentierte Leistungsbeispiele. Die drei kommentierten Leistungsbeispiele illustrieren unterschiedliche Stärken und Schwächen und verdeutlichen, wie eine Schülerleistung bei der Aufgabe Weekend activities mit Hilfe des vorgegebenen Bewertungsrasters zu beurteilen ist. 49 Die Nummerierung im Glossary bezieht sich auf Fußnotennummern im Text der Rating Scales. <?page no="144"?> 143 6.6 Einsatz von Bewertungsrastern im schulischen Kontext: Beispiele Abbildung 7: VERA -6 Englisch 2016; Leistungsbeispiel Pupil 1 für die Aufgabe Weekend activities ( IQ M-V, 2015, S. 9) <?page no="145"?> 144 6 Kriteriale Evaluation von Schreibkompetenzen Assessment grid for writing task WR 07 15 Level A2 Weekend Activities Checklist for guidance only TASK FULFILMENT no yes ▲- relevant content points (recipient) ✓ (salutation) ✓ (introduction) ✓ favourite activities ✓ reasons for liking them ✓ where done ✓ with whom ✓ (additional information) ✓ (valediction) ✓ ▲- Text type sentences (prose text) ✓ ▲- Target audience same peer group ✓ ................................................................................................................................................................ ASSESSMENT 0 2 Task Fulfilment / communicative effect achieved ✓ 0-= the criteria 1, 2, 3, 4 and 5 on the assessment scale for A2 are NOT fulfilled 2-= the criteria 1, 2, 3, 4 and 5 on the assessment scale for A2 are fulfilled LANGUAGE 9 0 1 2 ▲- Organisation --structure and thematic development ✓ --cohesion ✓ <?page no="146"?> 145 6.6 Einsatz von Bewertungsrastern im schulischen Kontext: Beispiele ▲- Vocabulary --range ✓ --accuracy ✓ ▲- Grammar --range ✓ - accuracy ✓ 9-= not enough language produced 0-= below the level A1 1-= at the level A1 (N.B code 1 is not to be used for “structure and thematic development”) 2-= at the level A2 Commentary After the slightly negative initial impression of the first sentence with its missing definitive article and the germanism of “sleep long”, we quickly realise that this pupil is competent and confident in his / her use of English and is clearly able to communicate his / her ideas. In assessing Task Fulfilment our checklist demonstrates that this pupil has provided none of the points in brackets, but obviously fulfilled the four content points which are required and met all the criteria (2-5) in the A2 Rating Scale descriptors. We can, therefore, give a coding of 2 for Task Fulfilment. We need have no hesitation in placing the script at A2 in terms of Structure / Thematic Development-- the script meets or surpasses the A2 descriptors. Cohesion similarly matches or surpasses the A2 descriptors- - the use of conjunctions, pronouns and adverbs as linking devices helps the text flow well. In terms of Vocabulary Range a brief look at the A2 descriptors and the supporting note 2 in the glossary leaves us in o doubt that we can award an A2 coding. Similarly we find that this script surpasses the A2 descriptors for Vocabulary Accuracy but the best we can give is code 2 for A2. An assessment of Grammar Range is, however, not so clear-cut. We may be surprised to realise that this script does not meet the A2 criteria but is a better match with the A1 descriptor-- perhaps with the exception of “within a learnt repertoire”; neither descriptor offers a perfect match to this script so we must decide using a “best match” approach. Grammar Accuracy is much easier to assess as this script meets or surpasses the A2 criteria-- indeed the only error here is the repeated omission of “the” before the noun “weekend”. Abbildung 8: VERA -6 Englisch 2016; kriteriale Bewertung und begleitender Kommentar für das Leistungsbeispiel „Weekend activities“ (Pupil 1) ( IQ M-V, 2015, S. 10 f.) <?page no="147"?> 146 6 Kriteriale Evaluation von Schreibkompetenzen 6.6.3 KMK -Projekt FOR . MAT Als weiteres Beispiel für die Verwendung von Bewertungsrastern im schulischen Kontext möchten wir das KMK -Projekt FOR . MAT zumindest erwähnen. Im Rahmen dieses Projekts sind eine Reihe von Fortbildungsmaterialien zur kompetenzbzw. standardbasierten Unterrichtsentwicklung vorgelegt worden (siehe http: / / www.kmk-format.de/ ). Diese umfassen auch praxisorientierte Hinweise für die Bewertung von schriftlichen Textproduktionen im Englischen (http: / / www.kmk-format.de/ FS -Schreiben.html) und Französischen (http: / / www.kmk-format.de/ FS -AufgabenF.html) für die Niveaustufen A1 bis B1 (Englisch, 12 Aufgabenbeispiele) und A2 bis B1 (Französisch, 5 Aufgabenbeispiele). Auch eine Selbstevaluation der Schülerinnen und Schüler ist vorgesehen. 6.6.4 Standardisierte Schularbeiten für die Sekundarstufe II in Österreich Als letztes wollen wir auf eine Internetseite des Österreichischen Bundesministeriums für Bildung hinweisen (siehe https: / / www.bmb.gv.at/ schulen/ unterricht/ ba/ reifepruefung_ahs_ mslf_sa.html). 50 Dort findet sich u. a. ein in Zusammenarbeit mit dem Österreichischen Sprachen-Kompetenz-Zentrum ( ÖSZ ) und dem BIFIE entwickelter Leitfaden für die Erstellung von standardisierten Schularbeiten für die Sekundarstufe II Allgemeinbildender höherer Schulen ( AHS ) für die Sprachen Englisch, Französisch, Italienisch, Spanisch und Russisch ( BMBF , 2013). Der nützliche Leitfaden enthält neben allgemeinen Hinweisen eine Reihe von unterstützenden Arbeitsmaterialien-- darunter zwei verschiedene Versionen eines Bewertungsrasters für die schriftliche Textproduktion auf dem GER -Niveau A2. Weiterhin finden sich auf der Seite eine Vielzahl von kommentierten Modellschularbeiten (Leistungsbeispiele) für die Klassen 5-8 der österreichischen Oberstufe 51 und insgesamt sieben Sprachen, in denen unter der Rubrik „Anmerkungen“ die kriteriale Bewertung anhand von Schülerleistungen (Schreibperformanzen) illustriert und begründet wird. Außerdem enthalten die Modellschularbeiten Beispiele für (motivierende) Rückmeldungen an die Schülerin oder den Schüler. 6.7 Leistungsbeispiele und Benchmarktexte Wir haben bereits im Zusammenhang mit dem DELF B1 und VERA -6 Englisch (siehe Kapitel 6.6.1 und 6.6.2) die Bedeutung kommentierter Leistungsbeispiele im Hinblick auf eine valide und reliable Bewertung von Schreibleistungen herausgestellt. Außerdem haben wir im vorangehenden Kapitel auf die österreichischen Modellschularbeiten hingewiesen, deren Bewertung ebenfalls durch kommentierte Leistungsbeispiele verdeutlicht wird. Weitere ausführlich kommentierte Beispiele für jeweils vier unterschiedliche Schreibperformanzen bei ein und 50 Siehe auch https: / / www.srdp.at/ schriftliche-pruefungen/ lebende-fremdsprachen/ allgemeine-informa tionen/ . 51 Die Klassen 5-8 der österreichischen Oberstufe Allgemeinbildender höherer Schulen entsprechen den Schulstufen 9-12 der Sekundarstufe II . <?page no="148"?> 147 6.8 Erwartungshorizont derselben Aufgabe für das Niveau B1 (Französisch) und das Niveau B2 (Englisch) der österreichischen standardisierten kompetenzorientierten Reife- und Diplomprüfung finden sich unter https: / / www.srdp.at/ downloads/ dl/ kommentierte-schreibperformanz-in-franzoesischl-article/ bzw. https: / / www.srdp.at/ downloads/ dl/ kommentierte-schreibperformanz-inenglisch-I-article/ . Kommentierte Beispiele von bewerteten Schreibleistungen mit Modellcharakter werden häufig auch als Benchmarktexte bezeichnet und von Porsch (2010b) folgendermaßen charakterisiert: Benchmarktexte stellen ausgewählte Schülertexte zu jeder Beurteilungskategorie dar, die durch einen Kommentar versehen sind, warum dieser Text in dieser Weise kodiert wurde und welche Kriterien dieser Text erfüllt bzw. nicht erfüllt. Benchmarktexte sollen den Ratern während ihrer Beurteilung als Referenz dienen und sind ein Instrument- - neben den Deskriptoren in der Ratingskala- - zur Erhöhung der Interraterübereinstimmung. (S. 54) Die Kommentierung und Bewertung der Leistungsbeispiele erfolgt in der Regel durch besonders erfahrene Bewertende und ist nicht selten das Resultat ausgiebiger Diskussionen. Häufig werden die illustrierenden Beispiele so ausgewählt, dass sie unterschiedliche Grade der Erfüllung der Kriterien im Hinblick auf eine bestimmte Kompetenzstufe illustrieren (z. B. prototypische vs. grenzwertige A2-Leistungen). Insgesamt gilt, dass geeignete Benchmarktexte nicht nur ein wichtiges Instrument der Leistungsbewertung selbst sind, sondern auch einen unverzichtbaren Bestandteil einer qualitativ hochwertigen Beurteilerschulung darstellen. In Kapitel 8.2 dieses Bandes finden sich ausführlich kommentierte Leistungsbeispiele in Form authentischer Schülerlösungen zu drei englischen und vier französischen Schreibaufgaben (Bi-Level-Ansatz; Niveau A2 / B1). Sie illustrieren die Anwendung des in Kapitel 8.1 vorgestellten Bewertungsrasters und enthalten auch Hinweise auf Möglichkeiten einer flexiblen, situationsspezifischen Verwendung der Kriterien (vgl. hierzu auch Kapitel 6.10). 6.8 Erwartungshorizont Auf der Basis der Bewertungskriterien wird häufig ein sogenannter Erwartungshorizont für die Beurteilung einer Schreibleistung formuliert (vgl. Kapitel 7. 2. 11). Es handelt sich dabei um eine genauere Charakterisierung der Leistungen, die von den Lernenden vor dem Hintergrund von Bildungsstandards, Curricula oder auch Niveaustufenbeschreibungen bei einer Aufgabe erwartet werden. Diese kann eine aufgabenspezifische Konkretisierung bestimmter Bewertungskriterien beinhalten, indem etwa für die Adäquatheit der Wortwahl erwartete sprachliche Mittel genannt werden. Im Gegensatz zu Bewertungsrastern, die auch aufgabenübergreifend formuliert sein können, ist ein Erwartungshorizont somit stets aufgabenspezifisch (vgl. Kapitel 6.5.2). Die Ausprägung der Kriterien wird in einem Erwartungshorizont in der Regel in Form von skalierten Punktwerten quantifiziert- - z. B. durch Angabe der bei jedem aufgelisteten Leistungsaspekt maximal erreichbaren Punktzahl. Hierbei ist u. a. festzulegen, was als eine <?page no="149"?> 148 6 Kriteriale Evaluation von Schreibkompetenzen ausreichende und was als eine gute Leistung einzuschätzen ist und wie die einzelnen Bewertungsdimensionen (z. B. Inhalt, sprachliche Realisierung) zu gewichten sind. Für die Zuordnung von Notenstufen zu den erreichten Punktzahlen wird im deutschen Schulkontext in der Regel auf (länderspezifische) Vorgaben Bezug genommen. Entsprechend charakterisieren Fröhlich, Rattay & Schneider (2010) die grundlegenden Merkmale eines Erwartungshorizonts in ihren Fortbildungsmaterialien folgendermaßen: Ein Erwartungshorizont ist nichts anderes als ein Formular, in dem die Ihrer Korrektur zugrunde liegenden Bewertungskriterien kurz und prägnant aufgelistet werden. In einigen daneben stehenden Spalten können Sie Punkte oder Noten notieren und dem Schüler auf diese Weise mitteilen, in welchen Bereichen er wie abgeschnitten hat-… (S. 23) Im schulischen Kontext ist die Erstellung eines Erwartungshorizontes z. B. im Fall von Klassenarbeiten gängige Praxis. 52 Auch bei standardisierten Tests wie den Cambridge English Examinations oder dem TestDaF (Test Deutsch als Fremdsprache) ist die Formulierung von aufgabenspezifischen Erwartungshorizonten üblich (vgl. für den TestDaF Arras & Pop, 2015, S. 37 f.). Im Zentralabitur ist die Erstellung von Erwartungshorizonten sogar verpflichtend. So heißt es z. B. in den Bildungsstandards für die fortgeführte Fremdsprache (Englisch / Französisch): Jeder Prüfungsaufgabe wird eine Beschreibung der erwarteten Leistungen beigegeben einschließlich der Angabe von Bewertungskriterien, die auf die Anforderungsbereiche bezogen sind (Erwartungshorizont). Der Erwartungshorizont enthält auch Hinweise auf die curricularen und-- bei dezentraler Aufgabenstellung-- die unterrichtlichen Voraussetzungen und weist aus, mit welchem Gewicht die Teilaufgaben in die Bewertung der Gesamtleistung eingehen. ( KMK , 2014, S. 24). In der Regel werden Lehrkräfte, die z. B. eine Klassenarbeit für eine ihnen bekannte Lerngruppe erstellen, den Erwartungshorizont so definieren, dass der Leistungsstand der Klasse Berücksichtigung findet (vgl. auch die Ausführungen zur Bezugsgruppenorientierung in Kapitel 6.3). Der Leistungsstand der jeweiligen Testpopulation spielt aber auch beim Einsatz standardisierter Tests eine Rolle, indem z. B. im Hinblick auf die Aufgabenschwierigkeit und die zu erreichenden Punktwerte (Kompetenzstufen) zwischen verschiedenen Bildungsgängen differenziert wird. Trotzdem werden im Fall standardisierter Tests, die über ein breites Kompetenzspektrum differenzieren sollen, Schülerinnen und Schüler nicht selten auch mit Aufgaben konfrontiert, die für sie viel zu schwer oder viel zu leicht sind. Ein Problem bei der Erstellung von Erwartungshorizonten ist die Festlegung von Bestehensgrenzen oder Trennwerten (Cut-Scores) in der Punktwertverteilung im Hinblick auf eine Benotung. 53 Sind mit der Bewertung der Schreibleistung weitreichende Konsequenzen ver- 52 Beispiele für textsortenspezifische Raster für die Erstellung von Klausur-Erwartungshorizonten für Schreibaufgaben im Fach Deutsch finden sich auf dem Bildungsserver Berlin-Brandenburg unter http: / / bildungsserver.berlin-brandenburg.de/ index.php? id=deutsch 00 . 53 Vgl. die Festlegung von Trennwerten in Kompetenzstufenmodellen und standardisierten Tests im Zuge eines formalisierten Standard-Settings. Einen kurzen aktuellen Überblick zum Standard-Setting im Hinblick auf die Kompetenzstufen des GER gibt Kecker (2016, S. 26-33). <?page no="150"?> 149 6.9 Bewertung von Schreibleistungen im schulischen Kontext: Qualitätsanforderungen bunden, sollte die Festlegung von kritischen Punktwerten möglichst valide und fair erfolgen. Um dies zu erreichen, können diese z. B. in einem diskursiven Aushandlungsprozess durch mehrere Lehrkräfte konsensuell festgelegt werden. 6.9 Bewertung von Schreibleistungen im schulischen Kontext: Qualitätsanforderungen In den vorangehenden Kapiteln und an anderen Stellen dieses Bandes sind eine Reihe von Qualitätsmerkmalen genannt, die bei der Bewertung von Schreibleistungen im schulischen Kontext Berücksichtigung finden sollten. Einige vor dem Hintergrund des vorliegenden Bandes wichtige Qualitätsanforderungen sind im Folgenden aufgelistet (vgl. auch Grotjahn & Kleppin, 2008, S. 200): ▶ Die Bewertung sollte anhand von expliziten Kriterien erfolgen. ▶ Die Kriterien sollten die im Testkonstrukt fokussierten Aspekte und die relevanten Merkmale der Aufgaben möglichst valide repräsentieren (vgl. Kapitel 4 und 5). ▶ Die Kriterien sollten eine möglichst reliable Bewertung im Sinne intra- und interindividueller Konsistenz ermöglichen. Dies gilt vor allem dann, wenn mit der Bewertung schwerwiegende Konsequenzen für die Betroffenen verbunden sind-- wie etwa eine Nichtversetzung in die nächste Klasse (vgl. Kapitel-3 und 4). ▶ Die Bewertung sollte-- zusätzlich zu eventuellen Punktwerten oder Ziffernnoten-- auch in verbaler Form z. B. in Form von Kann-Beschreibungen erfolgen. ▶ Vor allem bei nicht sehr weit fortgeschrittenen Lernenden sollte die Bewertung in erster Linie den kommunikativen Erfolg fokussieren und nicht die bei der Realisierung der kommunikativen Absicht auftretenden sprachlichen Fehler (vgl. auch die Hinweise in den Kapiteln 6.6.1 und 6.6.2). ▶ Ist ein formatives Feedback intendiert, sollten die Kann-Beschreibungen sowohl auf Stärken als auch auf Schwächen verweisen (vgl. Kapitel 9). ▶ Vor allem wenn Aussagen zum Lernfortschritt gemacht werden sollen, sollten die Bewertungskriterien sowohl horizontal (inhaltlich) als auch vertikal (niveaustufenspezifisch) möglichst fein ausdifferenziert werden; denn nur dann ist auch das Erfassen und Sichtbarmachen von kleineren Fortschritten möglich. Dies gilt insbesondere für die höheren GER -Niveaus. Erfahrungsgemäß brauchen die meisten Lernenden z. B. für den Weg von A2 bis B1 deutlich länger als für den Weg von A1 zu A2 und nochmals länger für den Weg von B1 zu B2 (vgl. Europarat, 2001, S. 29 sowie Grotjahn & Kleppin, 2015, S. 23). ▶ Die Kriterien und die Form der Bewertung sollten grundsätzlich transparent sein. Denn nur wenn die Schülerinnen und Schüler wissen, welche Maßstäbe angelegt werden und wie die Bewertungen letztendlich zu Stande kommen, sind sie in der Lage, sich adäquat auf eine Prüfung vorzubereiten und in der Prüfung die für die Bewertung ihrer Leistung relevanten Aspekte zu fokussieren. Bei einer Vorrangstellung des Kriteriums Korrektheit z. B. werden sie sich möglicherweise in ihrer Äußerungsabsicht, der Breite des eingesetzten Wortschatzes sowie der syntaktischen Komplexität reduzieren. Wird hingegen z. B. das <?page no="151"?> 150 6 Kriteriale Evaluation von Schreibkompetenzen Kriterium Kreativität miteinbezogen, dann werden die Schülerinnen und Schüler eher versuchen, auch originelle Ideen einzubringen. Im Unterricht muss also über Bewertungskriterien gesprochen und reflektiert werden. Damit wird zugleich auch ein Beitrag zur Validität und Fairness der thematisierten Prüfung geleistet (vgl. auch Kapitel-4). 6.10 Situationsabhängige Flexibilisierung kriterialer Bewertung Bevor wir unseren Beitrag mit einigen Anregungen zur Reflexion der eigenen Bewertungspraxis abschließen, wollen wir auf die Möglichkeit einer Flexibilisierung kriterialer Bewertung hinweisen. Bei eher informellen Verfahren der unterrichtlichen Leistungsüberprüfung können die Bewertungskriterien nämlich durchaus auch flexibel und in Abhängigkeit von der jeweiligen Unterrichtssituation, der jeweiligen Zielsetzung und sogar dem jeweiligen Individuum eingesetzt werden. Möglich ist z. B. Folgendes (vgl. Grotjahn & Kleppin, 2008, S. 201 f.): ▶ Es werden variabel spezifische Aspekte fokussiert. Entsprechende Hinweise für die Schülerinnen und Schüler könnten z. B. lauten: „Dieses Mal soll beim Schreiben vor allem auf den Inhalt geachtet werden; die sprachliche Richtigkeit ist eher nebensächlich.“ „Dieses Mal wird das Gewicht auf Korrektheit gelegt.“ usw. Kriterienkataloge können dabei mit den Schülerinnen und Schülern abgesprochen werden. ▶ Es werden im Rahmen einer sachorientierten ipsativen Bewertung (vgl. Kapitel 6.3) Extrapunkte für den individuellen Lernfortschritt vergeben. Der Lernerfolg und die Belohnung können dabei an die jeweilige Schülerin oder den jeweiligen Schüler z. B. folgendermaßen rückgemeldet werden: „Dieses Mal hat die Verwendung der Vergangenheitsformen schon besser geklappt als beim letzten Mal! Dafür bekommst du einen Extrapunkt.“ Ein ähnliches Vorgehen ist auch dann möglich, wenn Schülerinnen und Schüler von sich aus nach Fertigstellung des Schreibprodukts ein Phänomen angeben, auf das sie besonders geachtet haben (z. B. „Ich habe dieses Mal darauf geachtet, die Vergangenheitsformen möglichst korrekt einzusetzen“). Wenn erkennbar ist, dass dies den Lernenden weitgehend gelungen ist, können die Lehrkräfte auch hier einen Extrapunkt vergeben. Das Ziel ist jeweils, dass die Schülerinnen und Schüler kriteriengelenkt ihre Aufmerksamkeit auf bestimmte Aspekte fokussieren. Dadurch dass der Erfolg für die Schülerinnen und Schüler unmittelbar erfahrbar wird, kann die beschriebene Form der individualisierten lernorientierten Rückmeldung zudem motivierend wirken. Insgesamt gesehen kann eine Flexibilisierung der Bewertungskriterien und der Form der Bewertung einen wichtigen Beitrag zu einem stärker lernerorientierten fremdsprachlichen Schreibunterricht leisten. Außerdem kann eine entsprechende Flexibilisierung dazu beitragen, dass die Lernenden eigenständig mit den Bewertungskriterien umgehen und damit die wichtige Fähigkeit zur Selbstevaluation weiter entwickeln. <?page no="152"?> 151 6.11 Anregungen zur Reflexion der eigenen Bewertungspraxis 6.11 Anregungen zur Reflexion der eigenen Bewertungspraxis In der Einleitung zum vorliegenden Beitrag haben wir die Notwendigkeit herausgestellt, dass sich Lehrkräfte und Prüfende mit dem Beurteilungsprozess auch theoretisch auseinandersetzen und vor diesem Hintergrund ihre eigene Praxis reflektieren. Dabei sind drei Fälle zu unterscheiden, wobei der Übergang zwischen b) und c) eher fließend ist: a) Lehrkräfte nutzen ein vorgegebenes Bewertungsraster ohne eigene Adaptionen (z. B. zur Vorbereitung auf standardisierte Sprachtests wie DELF oder Cambridge English); b) Lehrkräfte adaptieren ein vorgegebenes Raster an ihren jeweiligen Bewertungskontext (vgl. hierzu die Anregungen in Kapitel 8); c) Lehrkräfte erstellen ein eigenes Raster (z. B. zur Bewertung der Fähigkeit, ein Anliegen in einem formellen Brief höflich zu formulieren); Im Fall a) sollten sich die Beurteilenden nicht nur gründlich mit dem Bewertungsraster und den zugehörigen Materialien vertraut machen, sondern darüber hinaus- - möglichst auch zusammen mit anderen Lehrkräften-- den Umgang mit dem Raster trainieren und kritisch reflektieren. Für die Fälle b) und c) geben wir im Folgenden eine unsystematische Liste von Fragen, deren Beantwortung Prüfenden dabei helfen soll, Bewertungsraster zu erstellen und die eigene Bewertungspraxis theoriegeleitet zu reflektieren. Es handelt sich um eine offene Liste, die in Abhängigkeit vom jeweiligen lokalen Bewertungskontext verändert und ergänzt werden sollte: ▶ Nutze ich Kriterien aus standardisierten Tests oder anderen externen Quellen und wenn ja, warum? ▶ Passen meine Kriterien zu meinem Testkonstrukt und Testziel? ▶ Berücksichtige ich bei der Erstellung meiner Kriterien auch die Sicht und die Bedürfnisse der Schülerinnen und Schüler bzw. der Prüfungsteilnehmenden? ▶ Gehe ich bei der Bewertung eher holistisch oder eher analytisch vor? Was ist die Grundlage für meine Entscheidung und wie komme ich zu einem abschließenden Gesamturteil? ▶ Kann ich zwischen einzelnen Kriterien hinreichend differenzieren? ▶ Erlauben mir die Kriterien eine angemessene und faire Bewertung (z. B. Notengebung)? ▶ Möchte ich mit Hilfe meiner Kriterien auch kleine individuelle Fortschritte sichtbar machen und falls ja, ist dies mit diesen Kriterien möglich? ▶ Verwende ich auch Kriterien, die sich nur auf eine besondere Aufgabe oder Situation beziehen? ▶ Gehe ich mit den Kriterien flexibel um? Passe ich sie z. B. an besondere Lernziele an? Lege ich von Zeit zu Zeit einen Fokus auf bestimmte Kriterien (z. B. besondere Aufmerksamkeit auf inhaltliche oder spezifische sprachliche Aspekte)? ▶ Verwende ich einen der Lerngruppe angemessenen Erwartungshorizont? ▶ Sind die Leistungsbeschreibungen (Deskriptoren) in der Bewertungsskala im Hinblick auf meine Lerngruppe hinreichend ausdifferenziert? ▶ Sind meine Kriterien-- z. B. mit Blick auf die Lernziele-- adäquat gewichtet? <?page no="153"?> 152 6 Kriteriale Evaluation von Schreibkompetenzen ▶ Stehen Orientierung an sprachlicher Richtigkeit und kommunikativem Erfolg in einem angemessenen Verhältnis? ▶ Ermöglichen meine Kriterien eine individualisierte Rückmeldung? ▶ Mache ich meine Kriterien für die Lernenden transparent? ▶ Können die Schülerinnen und Schüler die Kriterien verstehen? ▶ Können die Lernenden auch eigenständig mit den Kriterien umgehen? ▶ Trainiere ich mit meinen Lernenden den Umgang mit Bewertungskriterien? Gebe ich ihnen z. B. (fiktive) Leistungsbeispiele zur Bewertung und sensibilisiere sie so für die kriteriale Bewertung? ▶ Leite ich meine Schülerinnen und Schüler dazu an, auch von sich aus Kriterien zu formulieren? ▶ Wie gebe ich auf der Basis meiner Kriterien und verwendeten Skalen Feedback? Hinweise zum Weiterlesen Die klassische, gut strukturierte Monografie von Weigle (2002) zur Bewertung von L2- Schreibfähigkeit ist immer noch sehr lesenswert. Kurze orientierende Überblicke zur Thematik geben u. a. Crusan (2014) und Weigle (2013). Shaw & Weir (2007, Kap. 5) beschreiben vor dem Hintergrund der Cambridge English Prüfungen unter der Überschrift Scoring validity relativ ausführlich u. a. unterschiedliche Typen von Bewertungsskalen sowie potenzielle Einflussfaktoren bei der beurteilergestützten Messung von Schreibleistung. Einen aktuellen Überblick über zentrale Aspekte der beurteilergestützten Bewertung fremdsprachlicher Schreibleistungen aus der Perspektive standardisierten Testens geben Eckes, Müller-Karabil & Zimmermann (2016). Wichtige Aspekte der Thematik werden auch in einem aktuellen Themenheft der Zeitschrift Assessing Writing diskutiert (Crusan, 2015). Das kostenlos im Internet erhältliche Buch von Tankó (2005) enthält in den Kapiteln 7-11 detaillierte praxisorientierte Hinweise zur kriterialen Bewertung englischer Schreibprodukte im ungarischen Schulkontext- - mit einem Fokus auf den Kriterien Aufgabenerfüllung, Kohärenz/ Kohäsion, Grammatik und Lexik. Empirisch fundierte Hinweise, welche grammatikalischen und lexikalischen Aspekte des Englischen bei einer an den Niveaustufen des GER orientierten Aufgabenentwicklung und kriterialen Bewertung möglicherweise zu berücksichtigen sind, liefert das English Profile Projekt (vgl. http: / / www.englishprofile.org/ sowie Harrison & Barker, 2015; Hawkins & Filipović, 2012). Auf die entsprechenden Werkzeuge kann bisher kostenlos online zugegriffen werden. Knoch (2011b) gibt einen kurzen Überblick über die Bewertung von Schreibleistung mit dem speziellen Ziel einer Diagnose und Rückmeldung von Stärken und Schwächen. Ausführlich wird das Thema in Knoch (2009) behandelt. In Grotjahn & Kleppin (2015, Kap. 4) finden sich einführende Hinweise und eine Reihe von Übungs- und Reflexionsaufgaben zur kriterialen Bewertung und Rückmeldung von Schreibleistungen. <?page no="154"?> 153 Literatur Turner (2013) und Van Moere (2014) geben jeweils kurze, sich teilweise ergänzende allgemeine Überblicke über den Einsatz von Skalen und Beurteilern zur Messung von L2- Sprachleistungen. Ein kurzer forschungsmethodologischer Überblick über Urteilsfehler beim Einsatz von Ratingskalen aus einer sozial- und humanwissenschaftlichen Perspektive findet sich bei Döring & Bortz (2016, S. 252-255). Ein allgemeiner Leitfaden zur sinnvollen Gestaltung und Verwendung von Erwartungshorizonten wird in Fröhlich, Rattay & Schneider (2010, Kap. 4) beschrieben. Literatur Alderson, J. Charles. (1991). Bands and scores. In J. Charles Alderson & Brian North (Hrsg.), Language testing in the 1990s: The communicative legacy (S. 71-86). London: Macmillan. ALTE [Association of Language Testers in Europe]. (2006). ALTE -Handreichungen für Testautoren. Modul 4: Aspekte der Bewertung und Auswertung. [abrufbar unter https: / / www.testdaf.de/ aktuel les/ archiv-2007/ ] Arras, Ulrike. (2007). Wie beurteilen wir Leistung in der Fremdsprache? Strategien und Prozesse bei der Beurteilung schriftlicher Leistungen in der Fremdsprache am Beispiel der Prüfung Test Deutsch als Fremdsprache (TestDaF). Tübingen: Narr. Arras, Ulrike & Pop, Claudia. (2015). Beurteilungshandbuch. Hinweise für Beurteilerinnen und Beurteiler zur Bewertung der produktiven Prüfungsteile beim TestDaF. Bochum: TestDaF-Institut. Bachman, Lyle F. & Palmer, Adrian S. (2010). Language assessment in practice: Developing language assessments and justifying their use in the real world. Oxford: Oxford University Press. Bärenfänger, Olaf. (2016). Die Skalen des Gemeinsamen europäischen Referenzrahmens für Sprachen im Praxistest: Eine empirische Studie zur Validität des Referenzrahmens. Zeitschrift für Fremdsprachenforschung, 27(1), 59-76. Berger, Armin. (2015). Validating analytic rating scales: A multi-method approach to scaling descriptors for assessing academic speaking. Frankfurt am Main: Lang. BIFIE [Bundesinstitut für Bildungsforschung, Innovation & Entwicklung des österreichischen Schulwesens]. (2014). Bewertungsraster B1 und Begleittext. Wien: BIFIE . [abrufbar unter https: / / www. srdp.at/ downloads/ beurteilungsraster-b1-und-begleittext/ ] BMBF [Bundesministerium für Bildung und Frauen]. (Hrsg.). (2013). Der Weg zur kompetenzorientierten Reifeprüfung. Leitfaden zur Erstellung von Schularbeiten in der Sekundarstufe 2-- AHS . Lebende Fremdsprachen Englisch, Französisch, Italienisch, Spanisch, Russisch. Wien: BMBF . [abrufbar unter https: / / www.bmb.gv.at/ schulen/ unterricht/ ba/ reifepr_ahs_mslf_lf.pdf ? 5te96f] Brookhart, Susan M. (2013). How to create and use rubrics for formative assessment and grading. Alexandria, VA : Association for Supervision & Curriculum Development. Canz, Thomas. (2015). Validitätsaspekte bei der Messung von Schreibkompetenzen. Dissertation zur Erlangung des akademischen Grades Dr. rer. nat. im Fach Psychologie, Lebenswissenschaftlichen Fakultät der Humboldt-Universität zu Berlin. [abrufbar unter http: / / edoc.hu-berlin.de/ dissertatio nen/ canz-thomas-2015-10-19/ PDF/ canz.pdf] CIEP [Centre international d‘études pédagogiques]. (2005). Diplôme d‘études en langue française - DELF B1. Sèvres: CIEP . <?page no="155"?> 154 6 Kriteriale Evaluation von Schreibkompetenzen Council of Europe. (2009). Relating language examinations to the Common European Framework of Reference for Languages: Learning, Teaching, Assessment ( CEFR ): A manual. Strasbourg: Council of Europe, Language Policy Division. [abrufbar unter https: / / rm.coe.int/ 1680667a2d] Crusan, Deborah. (2014). Assessing writing. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 201-215). Chichester: Wiley-Blackwell. Crusan, Deborah. (Hrsg.). (2015). The use of rubrics to assess writing: Issues and challenges [Special Issue]. Assessing Writing, 26, 1-82. Döring, Nicola & Bortz, Jürgen. (2016). Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften (5., vollst. überarb., aktualisierte und erw. Aufl.). Berlin: Springer-Verlag. Eckes, Thomas. (2005). Evaluation von Beurteilungen: Psychometrische Qualitätssicherung mit dem Multifacetten-Rasch-Modell. Zeitschrift für Psychologie, 213(2), 77-96. doi: 10.1026/ 0044-3409.213.2.77 Eckes, Thomas. (2010). Die Beurteilung sprachlicher Kompetenz auf dem Prüfstand: Fairness in der beurteilergestützten Leistungsmessung. In Karin Aguado, Karen Schramm & Helmut J. Vollmer (Hrsg.), Fremdsprachliches Handeln beobachten, messen, evaluieren: Neue methodische Ansätze der Kompetenzforschung und der Videographie (S. 65-97). Frankfurt am Main: Lang. Eckes, Thomas. (2011). Facetten der Genauigkeit. Zur Reliabilität der Beurteilung fremdsprachlicher Leistungen. Deutsch als Fremdsprache, 48(4), 195-204. Eckes, Thomas. (2012). Operational rater types in writing assessment: Linking rater cognition to rater behavior. Language Assessment Quarterly, 9(1), 270-292. doi: 10.1080/ 15434303.2011.649381 Eckes, Thomas. (2015). Introduction to many-facet Rasch measurement: Analyzing and evaluating rater-mediated assessments (2., rev. und erw. Aufl.). Frankfurt am Main: Lang. Eckes, Thomas, Müller-Karabil, Anika & Zimmermann, Sonja. (2016). Assessing writing. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 147-164). Boston: De Gruyter. Engelhard, George Jr. (2013). Invariant measurement: Using Rasch models in the social, behavioral, and health sciences. New York: Routledge. ETS [Educational Testing Service]. (2014). TOEFL i BT ®-- Independent Writing Rubrics. Princeton, NJ : ETS . [abrufbar unter https: / / www.ets.org/ s/ toefl/ pdf/ toefl_writing_rubrics.pdf] Europarat. (2001). Gemeinsamer europäischer Referenzrahmen für Sprachen: Lernen, lehren, beurteilen. Langenscheidt Verlag: Berlin. [abrufbar unter: http: / / www.coe.int/ lang und http: / / student. unifr.ch/ pluriling/ assets/ files/ Referenzrahmen2001.pdf] Fröhlich, Melanie, Rattay, Cathrin & Schneider, Jost. (2010). Effizienter korrigieren-- das Praxisbuch: Profi-Tipps und Materialien aus der Lehrerfortbildung. Donauwörth: Auer. Goldhammer, Frank & Hartig, Johannes. (2012). Interpretation von Testresultaten und Testeichung. In Helfried Moosbrugger & Augustin Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (2., aktual. und überarb. Aufl., S. 173-201). Heidelberg: Springer. doi: 10.1007/ 978-3-642-20072-4_8 Grotjahn, Rüdiger. (2008). Tests und Testaufgaben: Merkmale und Gütekriterien. In Bernd Tesch, Eynar Leupold & Olaf Köller (Hrsg.), Bildungsstandards Französisch: konkret. Sekundarstufe I: Grundlagen, Aufgabenbeispiele und Unterrichtsanregungen (S. 149-186). Berlin: Cornelsen Scriptor. Grotjahn, Rüdiger & Kleppin, Karin. (2008). Bewertung produktiver sprachlicher Leistungen. In Bernd Tesch, Eynar Leupold & Olaf Köller (Hrsg.), Bildungsstandards Französisch: konkret. Sekundarstufe I: Grundlagen, Aufgabenbeispiele und Unterrichtsanregungen (S. 187-204). Berlin: Cornelsen Scriptor. Grotjahn, Rüdiger & Kleppin, Karin. (2015). Prüfen, Testen, Evaluieren. München: Klett-Langenscheidt. <?page no="156"?> 155 Literatur Harrison, Julia & Barker, Fiona. (Hrsg.). (2015). English Profile in practice. Cambridge: Cambridge University Press. Harsch, Claudia & Martin, Guido. (2013). Comparing holistic and analytic scoring methods: issues of validity and reliability. Assessment in Education: Principles, Policy & Practice, 20(3), 281-307. doi: 10.1080/ 0969594X.2012.742422 Harsch, Claudia & Rupp, André A. (2011). Designing and scaling level-specific writing tasks in alignment with the CEFR : A test-centered approach. Language Assessment Quarterly, 8(1), 1-33. doi: 10.1080/ 15434303.2010.535575 Hawkins, John A. & Filipović, Luna. (2012). Criterial features in L2 English: Specifying the reference levels of the Common European Framework. Cambridge: Cambridge University Press. Hudson, Thom. (2014). Criterion-referenced approach to language assessment. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 561-577). Chichester: Wiley-Blackwell. IQ M-V [Institut für Qualitätsentwicklung Mecklenburg-Vorpommern], im Auftrag der Steuerungsgruppe VERA -6. (2015). Korrekturanweisungen VerA-6 Englisch 2016 (Testheft B). Schwerin: IQ M-V. ISB [Staatsinstitut für Schulqualität und Bildungsforschung München]. (2010). DELF B1 an der bayerischen Realschule: Hinweise zu Aufbau und Korrektur der Aufgaben. München: ISB . [abrufbar unter http: / / www.isb.bayern.de/ download/ 12932/ delf_onlineveroeffentlichung.pdf] Jang, Eunice E. & Wagner, Maryam. (2014). Diagnostic feedback in the classroom. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 693-711). Chichester: Wiley-Blackwell. Kecker, Gabriele. (2016). Der GeR als Referenzsystem für kompetenzorientiertes Testen: Was bedeutet der Bezug zum GeR für eine Sprachprüfung? Zeitschrift für Fremdsprachenforschung, 27(1), 13-37. KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2014). Bildungsstandards für die fortgeführte Fremdsprache (Englisch / Französisch) für die Allgemeine Hochschulreife (Beschluss der Kultusministerkonferenz vom 18. 10. 2012). Köln: Wolters Kluwer-- Carl Link. [abrufbar unter: https: / / www.kmk.org/ themen/ qualitaetssiche rung-in-schulen/ bildungsstandards.html Knoch, Ute. (2009). Diagnostic writing assessment: The development and validation of a rating scale. Frankfurt am Main: Lang. Knoch, Ute. (2011a). Investigating the effectiveness of individualized feedback to rating behavior-- a longitudinal study. Language Testing, 28(2), 179-200. doi: 10.1177/ 0265532210384252 Knoch, Ute. (2011b). Rating scales for diagnostic assessment of writing: What should they look like and where should the criteria come from? Assessing Writing, 16, 81-96. doi: 10.1016/ j. asw.2011.02.003 Knoch, Ute & Macqueen, Susy. (2016). Language assessment for the workplace. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 291-307). Boston: De Gruyter. Kuiken, Folkert & Vedder, Ineke. (2014). Rating written performance: What do raters do and why? Language Testing, 31(3), 329-348. doi: 10.1177/ 0265532214526174 Lee, Yong-Won. (2015). Diagnosing diagnostic language assessment. Language Testing, 32(3), 299-316. doi: 10.1177/ 0265532214565387 MSW [Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen]. (2011). Lernstandserhebungen als Impuls für die Unterrichtsentwicklung. Hinweise, Beispiele und Arbeitshilfen <?page no="157"?> 156 6 Kriteriale Evaluation von Schreibkompetenzen für die Praxis. Düsseldorf: MSW . [abrufbar unter https: / / www.schulentwicklung.nrw.de/ e/ upload/ download/ mat_11-12/ NRW-Broschuere-Lernstand_VERA-2012.pdf] Plakans, Lia. (2014). Written discourse. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. III : Evaluation, methodology, and interdisciplinary themes (S. 1390-1402). Chichester: Wiley-Blackwell. Porsch, Raphaela. (2010a). Die Erprobung eines Kodierschemas zur Messung der Schreibkompetenz im Fach Französisch. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 267-285). Münster: Waxmann. Porsch, Raphaela. (2010b). Schreibkompetenzvermittlung im Englischunterricht in der Sekundarstufe-I: Empirische Analysen zu Leistungen, Einstellungen, Unterrichtsmethoden und Zusammenhängen von Leistungen in der Mutter- und Fremdsprache. Münster: Waxmann. Porsch, Raphaela & Tesch, Bernd. (2010). Messung der Schreibkompetenz im Fach Französisch. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 151-176). Münster: Waxmann. Rossa, Henning. (2016). Testen und Prüfen. In Eva Burwitz-Melzer, Grit Mehlhorn, Claudia Riemer, Karl-Richard Bausch & Hans-Jürgen Krumm (Hrsg.), Handbuch Fremdsprachenunterricht (6., völlig überarb. und erweiterte Aufl., S. 399-403). Tübingen: Francke. Rupp, André A., Vock, Miriam, Harsch, Claudia & Köller, Olaf. (2008). Developing standards-based assessment tasks for English as a first foreign language: Context, processes, and outcomes in Germany. Münster: Waxmann [In collaboration with: Rita Green, Michael Leucht, Daniela Neumann, Raphaela Oehler, Hans-Anand Pant, Henning Rossa & Konrad Schröder]. Schipolowski, Stefan & Böhme, Katrin. (2016). Assessment of writing ability in secondary education: Comparison of analytic and holistic scoring systems for use in large scale assessments. L1-Educational Studies in Language and Literature, 16, 1-22. doi: 10.17239/ L1ESLL-2016.16.01.03 Shaw, Stuart. (2007). Modelling facets of the assessment of Writing within an ESM environment. Research Notes, 27, 14-19. [abrufbar unter http: / / www.cambridgeenglish.org/ images/ 23146-researchnotes-27.pdf] Shaw, Stuart D. & Weir, Cyril J. (2007). Examining writing: Research and practice in assessing second language writing. Cambridge: Cambridge ESOL / Cambridge University Press. Tankó, Gyula. (2005). Into Europe-- Prepare for modern English exams: The writing handbook. Budapest: Teleki László Foundation / British Council Hungary. [abrufbar unter http: / / www.lancs. ac.uk/ fass/ projects/ examreform/ Pages/ Exams.html] Tesch, Bernd & Grotjahn, Rüdiger. (2010). Messung der fremdsprachlichen Sprechkompetenz im Fach Französisch. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 177-205). Münster: Waxmann. Turner, Carolyn E. (2013). Rating scales for language tests. In Carol A. Chapelle (Hrsg.), The encyclopedia of applied linguistics (S. 1-7). Chichester, UK : Wiley-Blackwell. doi: 10.1002/ 9781405198431. wbeal1045 Van Moere, Alistair. (2014). Raters and ratings. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. III : Evaluation, methodology, and interdisciplinary themes (S. 1358-1374). Chichester: Wiley-Blackwell. Weigle, Sarah C. (2002). Assessing writing. Cambridge University Press: Cambridge. Weigle, Sarah C. (2013). Assessment of writing. In Carol A. Chapelle (Hrsg.), The encyclopedia of applied linguistics (S. 1-7). Chichester, UK : Wiley-Blackwell. doi: 10.1002/ 9781405198431.wbeal0056 <?page no="158"?> 157 Literatur Wisniewski, Katrin. (2014). Die Validität der Skalen des Gemeinsamen europäischen Referenzrahmes für Sprachen: Eine empirische Untersuchung der Flüssigkeits- und Wortschatzskalen des Ge RS am Beispiel des Italienischen und des Deutschen. Frankfurt am Main: Lang. Zhang, Bo, Xiao, Yunnan & Luo, Juan. (2015). Rater reliability and score discrepancy under holistic and analytic scoring of second language writing. Language Testing in Asia, 5(1), 1-9. doi: 10.1186/ s40468-015-0014-4 <?page no="160"?> 7 Entwicklung von Testaufgaben zum Schreiben Rüdiger Grotjahn & Karin Kleppin Aufgaben zum Schreiben können als Testaufgaben oder als Lernaufgaben konzipiert werden. Testaufgaben zielen vorrangig auf die Evaluation von Kompetenzen, Lernaufgaben dagegen vorrangig auf die Entwicklung von Kompetenzen. Allerdings sind auch hybride Formen denkbar und sinnvoll-- z. B. im Fall eines assessment as learning (vgl. Kapitel-3.2.2 sowie die Hinweise zur interaktionistischen dynamischen Evaluation in Kapitel-9.5). Zudem muss die jeweils intendierte Funktion nicht mit der vom Lernenden wahrgenommenen Funktion übereinstimmen. Wenn also eine Lehrkraft eine Schreibaufgabe konzipiert, um mit Lernenden in Feedback-Gesprächen den Einsatz kohärenzstiftender Mittel zu reflektieren (zu Verfahren siehe Kapitel-9.2.5), kann dies von den Lernenden als Prüfung wahrgenommen werden, auch wenn keinerlei Bewertung oder gar Benotung vorgenommen wird. Lehrkräfte sollten daher stets deutlich machen, ob eine Aufgabe (eher) als Testaufgabe oder (eher) als Lernaufgabe intendiert ist (vgl. Caspari, Grotjahn & Kleppin, 2010 sowie Bechtel, 2015). Im vorliegenden Kapitel beschreiben wir den Prozess der Erstellung von ‚guten‘ Testaufgaben zum Schreiben. Dabei ist zu berücksichtigen, dass eine Beurteilung der Qualität der Aufgaben anhand der in Kapitel-4 beschriebenen Gütekriterien stets von den Funktionen und Zielen einer Evaluation abhängt (siehe auch Kapitel-7.2.2). Wir beschränken uns im Folgenden auf einige für die Praxis wichtige Aspekte. Zur besseren Lesbarkeit verzichten wir auf eine detaillierte Dokumentation der relevanten Forschungsliteratur und verweisen in erster Linie auf relevante Kapitel im vorliegenden Buch. 7.1 Schreibkompetenzen und Testaufgaben Im unterrichtlichen Kontext wird eine Vielzahl von Aufgabenformaten eingesetzt, deren Bearbeitung Schreibkompetenzen erfordert. Allerdings ist dabei in vielen Fällen die Überprüfung von Schreibkompetenzen nicht das eigentliche Ziel. Wir präsentieren im Folgenden eine Liste mit Beispielen von Aufgabenformaten, bei denen in unterschiedlichem Umfang und in unterschiedlicher Weise fremdsprachliches Schreiben verlangt wird, wobei es sich allerdings keineswegs in allen Fällen um ‚gute‘ oder auch curricular vorgesehene Schreibaufgaben handelt: 1. Lückentexte, bei denen einzelne fehlende Wörter, wie etwa kohäsionsstiftende Elemente, semantisch, grammatisch und orthografisch korrekt rekonstruiert werden sollen; 2. Lückentexte, bei denen die Lücken auf der Basis eines Hördokuments semantisch, grammatisch und orthografisch korrekt zu rekonstruieren sind; 3. zielsprachliche Kurzantworten zu Lese- oder Hörverstehenstexten; 4. ausführliche schriftliche Antworten auf inhaltliche Fragen zu einem Text; 5. Übersetzen von kurzen Sätzen aus dem Deutschen in die Zielsprache; <?page no="161"?> 160 7 Entwicklung von Testaufgaben zum Schreiben 6. Sprachmittlung eines deutschen Textes in die Zielsprache; 7. Ausfüllen eines Formulars; 8. Verfassen von Bildunterschriften, Legenden zu Bildern; 9. Verfassen einer Erzählung anhand von vorgegebenen Bildern; 10. schriftliche Zusammenfassung eines Ton- und / oder Bilddokuments; 11. Beschreibung und Erklärung einer Grafik; 12. Verfassen eines kürzeren adressatengerechten Textes an Hand von Vorgaben als Brief, Karte, E-Mail, SMS oder eines anderen Messengers; 13. Verfassen eines längeren Textes (z. B. Deskription, Argumentation, Narration) anhand von vorgegebenen Inhaltspunkten. Auch wenn bei allen 13- Aufgabenformaten Schreiben erforderlich ist, unterscheiden sich die einzelnen Beispiele doch grundlegend: Zum einen liegt der eigentliche Fokus in vielen Fällen nicht auf der Schreibkompetenz, sondern auf anderen Kompetenzen, wie etwa grammatikalischen und lexikalischen Kompetenzen (Beispiel- 1 in der obigen Liste), Lese- und Hörverstehenskompetenzen (Beispiele-2 und-3) oder der im schulischen Kontext nicht unproblematischen Übersetzungskompetenz (Beispiel-5). Verlangt das Ausfüllen eines Formulars (Beispiel-7) nur das Schreiben isolierter Wörter, wie möglicherweise die Buchung einer Unterkunft auf einem Online-Portal, dann zielt dieses Format zumeist primär auf die Überprüfung des Leseverstehens. Verlangt das Ausfüllen hingegen eine komplexe Beantwortung von Fragen, dann liegt der Fokus eher auf Schreibkompetenzen. Zum anderen sind sehr unterschiedliche Facetten von Schreibkompetenz zur Lösung der entsprechenden Aufgaben nötig. So handelt es sich bei den für die Rekonstruktion der Lückentexte (Beispiele-1 und-2) notwendigen Schreibfähigkeiten eher um Mikrokompetenzen. Dagegen verlangt z. B. eine schriftliche Argumentation an Hand von vorgegebenen themenbezogenen Inhaltspunkten (Beispiel-13) komplexe Makrokompetenzen (Anordnen der Inhalte im Text, Realisierung von Textsortenmerkmalen usw.). Weiterhin erfordert ein „ausführliches schriftliches Antworten auf inhaltliche Fragen zu einem Text“ (Beispiel-4) zwar eindeutig Schreibkompetenzen auf der Makroebene, daneben aber in der Regel auch ein beträchtliches Ausmaß an Lesebzw. Hörverstehenskompetenz sowie thematisch relevantes Wissen. Es handelt sich damit eher um ein Beispiel für einen sogenannten integrierten Aufgabentyp (vgl. hierzu die Hinweise zum Weiterlesen in Kapitel-5). Ähnliches gilt für das Beispiel-6: Auch hier sind Schreibkompetenzen auf der Makroebene nötig, aber darüber hinaus auch Sprachmittlungskompetenzen. Je nach Beurteilungskriterien kann dabei der Fokus auf dem kombinierten Einsatz beider Kompetenzen liegen oder eher auf einer der Einzelkompetenzen. Schließlich ist bei allen Beispielen mit zu berücksichtigen, dass im Fall von fremdsprachigen Arbeitsanweisungen und Situierungen stets auch in mehr oder minder starkem Maße rezeptive sprachliche Kompetenzen erforderlich sind. Die vorangehenden Ausführungen zeigen, dass man sich stets klar machen muss, mit welcher Zielsetzung evaluiert werden soll und welche Kompetenzen der Lernenden genau überprüft werden sollen. Bevor man mit der Konstruktion von Testaufgaben beginnt, sollten <?page no="162"?> 161 7.2 Entwicklung von Schreibaufgaben: Zentrale Prinzipien und prototypischer Verlauf deshalb stets die jeweilige Lerngruppe, die mit der Evaluation verfolgten Ziele sowie das Testkonstrukt hinreichend spezifiziert werden. Im Folgenden beschreiben wir die Erstellung von Aufgaben, die vorrangig auf die Überprüfung von Schreibkompetenzen zielen, im Hinblick auf zentrale Konstruktionsprinzipien. Der skizzierte prototypische Verlauf ist allerdings nicht als streng linear anzusehen. So findet man manchmal, ohne dass man-- wie vorgeschlagen-- von einem expliziten Testkonstrukt ausgeht, interessante Materialien, die man gerne im Rahmen einer Schreibaufgabe verwenden möchte (z. B. ein Angebot für einen Praktikumsplatz). Auch Aspekte der Bewertung sollten nicht erst nach der Aufgabenerstellung, sondern während des gesamten Aufgabenerstellungsprozesses berücksichtigt werden. 7.2 Entwicklung von Schreibaufgaben: Zentrale Prinzipien und prototypischer Verlauf In den nächsten Kapiteln beschreiben wir 12-verschiedene Schritte bei der Konstruktion von Schreibaufgaben. Abschließend präsentieren wir eine Checkliste, anhand derer man überprüfen kann, inwieweit man die Schritte bei der Aufgabenerstellung beachtet hat. Wir orientieren uns dabei an den Ausführungen zu Test- und Aufgabenspezifikationen in Kapitel- 5.9. Der Fokus liegt auf im Unterrichtskontext relevanten Aspekten. 7.2.1 Spezifizierung der Prüfungsteilnehmenden Als erstes ist festzulegen, wer die Adressaten der Evaluation sind und welche Merkmale sie aufweisen, die für die Erstellung von Schreibaufgaben relevant sein könnten. So sind die thematischen Interessen der Lernenden ein wichtiger Faktor-- sowohl im Hinblick auf die Auswahl von möglichen Input-Texten als auch in Bezug auf die von den Lernenden zu produzierenden Texte. Auch der vermutete Leistungsstand der Prüfungsteilnehmenden spielt eine wichtige Rolle. Weiß man, dass die Lernenden maximal Kompetenzen auf dem GER -Niveau A2 aufweisen, wird man komplexe argumentative Kompetenzen erst gar nicht in die Definition des Testkonstrukts aufnehmen (vgl.-Kapitel-5). Auch komplexere Themen können die Lernenden kognitiv und / oder sprachlich überfordern. Im Schulkontext kennt die Lehrkraft die jeweilige Lerngruppe meist relativ gut und kann diese Kenntnisse bei der Erstellung von Aufgaben nutzbringend einsetzen. 7.2.2 Festlegung der Ziele und Funktionen der Evaluation Wie die zu erstellenden Schreibaufgaben zu gestalten sind, hängt auch von den Zielen und Funktionen der Evaluation ab. In diesem Zusammenhang kann man sich u. a. folgende Fragen stellen (siehe auch Kapitel-3 sowie die Ausführungen zur konsequentiellen Validität und zur Rückwirkung in den Kapiteln-4.2.3.7 und 4.2.4.1): <?page no="163"?> 162 7 Entwicklung von Testaufgaben zum Schreiben ▶ Soll eine Diagnose spezifischer Stärken und Schwächen als Basis für ein formatives Feedback vorgenommen werden? ▶ Will sich die Lehrkraft ein grobes Bild über den Stand der Schreibkompetenzen in der jeweiligen Gruppe machen? ▶ Sollen während des Schuljahrs Lernfortschritte evaluiert werden? ▶ Will die Lehrkraft anhand der Ergebnisse der Evaluation am Ende eines Schuljahrs eine Gesamtnote für die schriftlichen Leistungen ermitteln? ▶ Welche potenziellen positiven Rückwirkungen sollen erzielt und welche potenziellen negativen Rückwirkungen vermieden werden? Adressaten und Ziele der Evaluation bestimmen damit alle weiteren Schritte. 7.2.3 Spezifizierung des Testkonstrukts In den Kapiteln- 5 und 6 wurde ausführlich dargelegt, dass Schreibkompetenz meist als ein breit gefasstes Konstrukt gesehen wird, das sowohl für den Unterricht als auch für das Testen weiter spezifiziert werden muss. Denn nur wenn wir hinreichend genau spezifizieren, was wir genau überprüfen wollen und auf welche zugrunde liegenden Kompetenzen wir schließen wollen, lassen sich adäquate Prüfungsaufgaben erstellen. Die Festlegung des Testkonstrukts ist damit ein zentraler Aspekt der Entwicklung von Prüfungsaufgaben. 54 Am Anfang der Spezifizierung des Testkonstrukts stehen Überlegungen zu den anvisierten zielsprachlichen Verwendungskontexten und den im jeweiligen zielsprachlichen Kontext zu bewältigenden Aufgaben. Es ist zu fragen, in welchen Handlungskontexten sich die Lernenden aktuell schriftlich äußern und welche Kontexte für sie in Zukunft relevant werden könnten (vgl. die Hinweise zu den Prinzipien der Handlungs- und Aufgabenorientierung in Kapitel-2.2 und 5.4.1). Auch wenn sich Schülerinnen und Schüler heutzutage selbst in ihrer Muttersprache außerhalb des schulischen Kontextes schriftlich meist nur in elektronischer Kurzform äußern, so sind doch zukünftig z. B. im Beruf und Studium komplexe schriftliche Situationen zu bewältigen (z. B. Bewerbungen, Zusammenfassungen von Inhalten, Argumentationen), auf die der Fremdsprachenunterricht vorbereiten muss. Hinweise und Vorgaben zu lebensweltlich relevanten zielsprachlichen Handlungskontexten finden sich in Curricula, Bildungsstandards und in Lehrwerken (vgl. Kapitel-2). Bei der genaueren Festlegung des Testkonstrukts muss eine Vielzahl weiterer Aspekte in Betracht gezogen werden. Der Fokus der Evaluation und Aufgabenentwicklung kann auf einer isolierten Überprüfung der Schreibkompetenz liegen, bei der die Schreibfähigkeit (weitgehend) unabhängig von Leseverstehens- oder Hörverstehenskompetenzen überprüft wird. Der Fokus kann aber auch auf einer integrierten Überprüfung von Schreibkompetenzen 54 Entsprechend dieser Sicht kann ein Testkonstrukt aus mehreren (psychometrisch) unterscheidbaren Komponenten bestehen. Außerdem können einer Menge von Prüfungsaufgaben oder auch einer einzelnen Prüfungsaufgabe mehrere (psychometrisch) unterscheidbare Testkonstrukte zu Grunde liegen (siehe Kapitel 5.3 und 6). Dies ist zu beachten, wenn wir im Folgenden vereinfachend von dem Testkonstrukt sprechen. <?page no="164"?> 163 7.2 Entwicklung von Schreibaufgaben: Zentrale Prinzipien und prototypischer Verlauf liegen, bei der das Verstehen von schriftlichen oder auch mündlichen Input-Texten eine wichtige Rolle spielt. Liegt der Fokus auf einer isolierten Überprüfung, dann kann man sich fragen, inwieweit der Schüler / die Schülerin in der Lage ist, ▶ orthografisch korrekt zu schreiben; ▶ einfach zu verstehende lebensweltlich relevante Formulare (z. B. Anmeldeformulare) auszufüllen; ▶ eine einfache Äußerungsabsicht z. B. unter Nutzung eines Messengers zu formulieren (z. B. eine Verabredung); ▶ eine adressatengerechte Anfrage zu verfassen (z. B. an ein Informationszentrum); ▶ einen Bericht zu verfassen (z. B. für eine Schülerzeitschrift); ▶ komplexere Inhalte in Übereinstimmung mit einer Kommunikationsabsicht adressatenspezifisch zu formulieren (z. B. eine Bewerbung für einen Praktikumsplatz); ▶ einen zusammenhängenden, inhaltlich kohärenten, situativ adäquaten Text zu verfassen (z. B. einen argumentativen oder narrativen Text). Überprüft man die genannten Aspekte anhand von Testaufgaben, dann können diese-- wie bereits im vorangehenden Abschnitt angedeutet-- in Abhängigkeit von den zur Lösung der Aufgaben notwendigen Fähigkeiten und Wissensbeständen unterschiedlichen GER -Niveaustufen zugeordnet werden. So setzt z. B. das Verfassen eines kohärenten argumentativen Textes wesentlich höhere Kompetenzen voraus als die Realisierung einer kurzen, einfachen Äußerungsabsicht mit Hilfe eines Messengers. Im Schulkontext, aber auch in neueren internationalen Sprachtests wie dem TOEFL i BT , wird Schreibkompetenz häufig nicht nur in isolierter Form, sondern auch anhand von integrierten Aufgaben überprüft (vgl. auch Kapitel- 5). 55 Mit Hilfe einer integrierten Aufgabe und der Aufgabe angepassten Bewertungskriterien kann man z. B. eine Antwort auf die Frage suchen, inwieweit der Schüler / die Schülerin in der Lage ist, ▶ unter Berücksichtigung der Inhalte schriftlicher oder mündlicher Aussagen zu einem bestimmten Thema ein eigenes kohärentes schriftliches Statement zu verfassen; ▶ einen deutschen Text als Vorlage für eine schriftliche Sprachmittlung zu nutzen (z. B. aus einem Artikel aus einer Jugendzeitschrift oder dem Internet für einen englischen bzw. französischen Schüler entsprechend dem Informationsbedürfnis des Adressaten relevante Informationen auswählen und in die Zielsprache übertragen). Im ersten Fall sind die Schreibleistungen nicht unabhängig von den zielsprachlichen Lesebzw. Hörverstehenskompetenzen sowie von der Fähigkeit, Informationen aus vorgegebenen Quellen adäquat zu nutzen. Dieser Sachverhalt muss bei der Interpretation der Prüfungsergebnisse mitbedacht werden. Will man ohne eine „Vermischung von Kompetenzen“ (Kon- 55 Siehe für den Einsatz von integrierten Aufgaben im schulischen Kontext z. B. die Konstruktionshinweise für neue Aufgabenformate für das Abitur in Nordrhein-Westfalen ( MSW , 2015). <?page no="165"?> 164 7 Entwicklung von Testaufgaben zum Schreiben fundierung) zu einer möglichst „reinen“ Einschätzung der Schreibkompetenz gelangen, sollten die Inputmaterialien im Vergleich zur Schreibaufgabe sehr einfach gestaltet werden. Im zweiten Fall ist zusätzlich zur Schreibkompetenz die Sprachmittlungskompetenz Teil des Testkonstrukts. Es ist u. a. zu entscheiden, ob beide Komponenten gleich gewichtet werden sollen. Außerdem ist zu berücksichtigen, dass insbesondere Schülerinnen und Schüler mit Deutsch als Zweitsprache bei einem deutschen Lesetext durchaus Verstehensschwierigkeiten haben können. Nach der Entscheidung, welche Makro- oder auch Mikrokompetenzen man als Teil des Konstrukts „Schreibkompetenz“ überprüfen möchte, kann man das Testkonstrukt im Hinblick auf argumentative und persuasive Kompetenzen z. B. folgendermaßen konkretisieren: Die Schülerinnen und Schüler sind in der Lage, eine eigene Entscheidung schriftlich zu begründen und einen sprachlich und situativ angemessenen Vorschlag für die Umsetzung der Entscheidung zu formulieren. Nach einer hinreichenden Spezifizierung muss das Testkonstrukt in Form konkreter Schreibaufgaben operationalisiert werden. Dabei gilt es, die zu bewältigenden Inhalte, Textsorten und Handlungskontexte zu berücksichtigen und passende Aufgabenformate auszuwählen. Außerdem müssen wie oben angedeutet bereits im Zuge der Aufgabenentwicklung Überlegungen zu geeigneten Bewertungskriterien angestellt werden. Das skizzierte Testkonstrukt könnten Lehrkräfte z. B. folgendermaßen operationalisieren: Die Schülerinnen und Schüler sind sprachlich in der Lage, anhand von Filmanzeigen eine eigene Entscheidung für einen Film zu begründen, den Film einem Freund / einer Freundin in einer E-Mail vorzustellen, Ort und Zeit für ein Treffen vorzuschlagen sowie den entsprechenden Text textsortenspezifisch, situativ angemessen, sprachlich verständlich und hinreichend korrekt zu formulieren. Die Operationalisierung des Testkonstrukts in Form von Aufgaben sowie die Bewertungskriterien entscheiden letztendlich darüber, was eine Prüfung tatsächlich erfasst (vgl. Kapitel-5, 6 und 8). Wegen der (partiellen) Abhängigkeit der Bewertungskriterien von den jeweiligen Aufgaben kann die letztendliche Entscheidung über die Bewertungskriterien allerdings erst nach der Aufgabenerstellung erfolgen (vgl.-Kapitel-7. 2. 10). Im Folgenden gehen wir genauer auf den Prozess der Aufgabenerstellung ein. Im Zuge der Operationalisierung des Testkonstrukts in Form von Aufgaben ist neben den bereits genannten Aspekten u. a. zu überlegen, <?page no="166"?> 165 7.2 Entwicklung von Schreibaufgaben: Zentrale Prinzipien und prototypischer Verlauf ▶ welche Bewertungskriterien zugrunde gelegt werden sollen; ▶ welche Aufgabenformate sich für die Messung der jeweiligen Aspekte des Konstrukts eignen; ▶ wie viele Aufgaben zur Konstruktabdeckung und für eine hinreichende Messgenauigkeit notwendig sind; ▶ ob Wahlmöglichkeiten bei den Aufgaben gegeben werden sollen; ▶ welche Inputmaterialien vorgegeben werden sollen; ▶ ob Hilfen, wie etwa Worterklärungen, gegeben werden sollen; ▶ wie die Arbeitsanweisung lauten soll; ▶ ob und wie die Aufgaben situiert werden können; ▶ wie ökonomisch und praktikabel das gewählte Vorgehen angesichts der vorhandenen Ressourcen ist. 7.2.4 Entscheidung über das Aufgabenformat Die Wahl des Aufgabenformats hängt von spezifischen Merkmalen der Lernenden, den Zielen und Funktionen der Evaluation, vom Testkonstrukt, von den Bewertungskriterien sowie von den jeweils als wichtig angesehenen Gütekriterien ab. Ist der Ausgangpunkt eine authentische, lebensweltliche Aufgabe, stellt sich zudem die Frage, ob und wie diese gegebenenfalls für den Einsatz als Testaufgabe zu modifizieren ist. Im Hinblick auf das Format ist u. a. zu entscheiden, ob dieses eher offen oder eher geschlossen sein soll. Bei geschlossenen Formaten, wie dem Ausfüllen eines Formulars, steuert man die Reaktionen der Lernenden in mehr oder weniger deutlichem Maße. Denn ohne eine hinreichende Steuerung wissen die Lernenden nicht, was von ihnen erwartet wird. Sie könnten deshalb bei einer offenen Aufgabenstellung wie „Beschreibe, wie du das letzte Wochenende verbracht hast“ z. B. eine stichwortartige Aufzählung, einen zusammenhängenden Bericht oder eine Erlebniserzählung verfassen. Die entsprechenden Schreibprodukte sind dann nicht hinreichend miteinander vergleichbar. Daher werden in der Regel Angaben gemacht zur geforderten Textsorte sowie zu Inhaltspunkten, die von allen Lernenden abgehandelt werden müssen. Die Beachtung der Textsorte sowie die Vollständigkeit der Abhandlung der Inhaltspunkte gehen dann in die Bewertungskriterien ein (vgl. Kapitel-6 und 8). Bei der Wahl des Aufgabenformats ist auch zu berücksichtigen, ob die jeweilige Gruppe in Bezug auf die zu überprüfenden Kompetenzen eher heterogen oder homogen ist. Will die Lehrkraft innerhalb einer heterogenen Gruppe über mehrere GER -Stufen differenzieren, dann ist die Aufgabe so zu gestalten, dass sie von den Lernenden entsprechend ihren Fähigkeiten und den Anforderungen der angezielten GER -Stufen bearbeitet werden kann. Dies ist insbesondere bei offenen Aufgabenstellungen häufig der Fall. So kann z. B. ein Antwortschreiben auf eine Einladung zum Geburtstag sprachlich und argumentativ einfach (z. B. A2) oder sprachlich und argumentativ komplexer (z. B. B1) realisiert werden. Dagegen ist das Ausfüllen eines einfachen Formulars, bei dem keine zusammenhängende Textproduktion nötig ist, für eine Differenzierung über mehrere breit definierte GER -Niveaus ungeeignet. Bei <?page no="167"?> 166 7 Entwicklung von Testaufgaben zum Schreiben einer entsprechenden Aufgabe handelt es sich eher um eine sogenannte Uni-Level-Aufgabe (vgl. Kapitel-5.4.7 und 6.5.1). Das Beispiel zeigt, dass stets auch zu überlegen ist, inwieweit ein bestimmtes Aufgabenformat bestimmte Aspekte des Testkonstrukts überhaupt zu erfassen erlaubt. So ermöglicht z. B. das Ausfüllen eines Formulars in der Regel keine validen Rückschlüsse auf komplexe Diskurskompetenzen. 7.2.5 Festlegung der Zahl der Aufgaben Bei einer Entscheidung über die Zahl der einzusetzenden Aufgaben ist zu berücksichtigen, wie breit das Konstrukt gefasst werden soll und wie genau man die jeweiligen Aspekte des Konstrukts messen will. Im Fall eines breiten Konstrukts ist es für eine adäquate Konstruktabdeckung und ausreichende Messgenauigkeit notwendig, eine relativ hohe Zahl von Aufgaben einzusetzen (vgl. Kapitel-4, 5 und 6). Auf der Basis von nur ein oder zwei Aufgaben ist eine generalisierende Aussage wie „Schüler X verfügt über Schreibkompetenzen auf dem Niveau A2“ nicht gerechtfertigt. Die Interpretation der Testresultate ist dann auf die Aspekte einzuschränken, die von der jeweiligen Aufgabe und den verwendeten Beurteilungskriterien fokussiert werden. Aus Gründen der Praktikabilität ist ein gleichzeitiger Einsatz einer größeren Zahl von Aufgaben im Schulkontext häufig nicht möglich. Will man trotzdem Aussagen zu einem breiten Testkonstrukt machen, könnte man im Sinne eines kumulativen Testens zu unterschiedlichen Zeitpunkten jeweils andere Aspekte des Konstrukts fokussieren. Bei einer generalisierenden Aussage anhand der Ergebnisse aus den einzelnen Testungen ist allerdings zu berücksichtigen, dass sich bestimmte Teilkompetenzen seit der letzten Testung verändert haben können. Die Testungen sollten deshalb in diesem Fall in möglichst kurzen Zeitabständen erfolgen. Dem steht allerdings in der Praxis entgegen, dass bei der Leistungsüberprüfung häufig in erster Linie die Notenfindung und weniger die Evaluation von Kompetenzen im Vordergrund steht. 7.2.6 Entscheidung über Wahlmöglichkeiten Zuweilen wird Lernenden bei einer Überprüfung ihrer Schreibkompetenzen die Wahl zwischen mehreren Aufgaben z. B. mit unterschiedlichen Themenstellungen ermöglicht. Auf diese Weise will man u. a. erreichen, dass die Lernenden möglichst ein Thema bearbeiten, bei dem sie ihre Kompetenzen optimal zeigen können. Dies soll zu mehr Fairness führen. Allerdings gibt es Hinweise darauf, dass dieses Vorgehen zu zusätzlichem Prüfungsstress führen kann, dass zusätzliche Zeit für die Auswahl durch die Lernenden anzusetzen ist und dass darüber hinaus die Lernenden nicht immer das für sie optimale Thema wählen. Außerdem kann die Wahlmöglichkeit zu einer unzureichenden Vergleichbarkeit der Leistungen führen, wenn z. B. die Themen in ihren kognitiven Anforderungen deutlich differieren. <?page no="168"?> 167 7.2 Entwicklung von Schreibaufgaben: Zentrale Prinzipien und prototypischer Verlauf 7.2.7 Entscheidung über Themen, Textsorten und intendierte Leserinnen / Leser Wie bereits in Kapitel 7.2.1 angedeutet, ist bei der Entscheidung über die zu bearbeitenden Themen und geforderten Textsorten u. a. auf das Alter, Geschlecht, die soziale Herkunft, die vermuteten Interessen, die Vertrautheit mit den entsprechenden Situationen, die lebensweltliche Relevanz bestimmter Themen und Textsorten, das aktuelle Kompetenzniveau oder auch auf spezifische Stärken und Schwächen der Lernenden zu achten. So ist z. B. zu berücksichtigen, ob Themen bestimmte Teilgruppen begünstigen oder auch benachteiligen, indem sie z. B. Tabus verletzen. Letzteres kann bei Themen wie Religion, Krankheit oder Tod der Fall sein und die Prüfungsergebnisse aufgrund emotionaler Reaktionen verfälschen (vgl. die Ausführungen zur konstruktirrelevanten Varianz und Fairness in Kapitel- 4.2.3 und 4.2.4). Darüber hinaus muss entschieden werden, an welchen fiktiven Adressaten (Leser) sich die Textproduktion richten soll: Soll z. B. eine Mail an einen Freund / eine Freundin oder an eine offizielle Institution gerichtet werden? 7.2.8 Auswahl der Inputmaterialien Eine Schreibaufgabe besteht in der Regel aus zwei zuweilen nicht immer klar voneinander trennbaren Komponenten: a) Inputmaterial und b) Arbeitsanweisung. Das Inputmaterial (Stimulusmaterial) 56 kann z. B. aus einer einzelnen Aussage, einer Lesepassage oder einem kurzen Hörtext bestehen. Während Lernende im Fall eines Lesetextes bei der Bearbeitung der Aufgabe in der Regel auf diesen zurückgreifen können, ist dies bei einem Hörtext nicht der Fall. Dies kann die Bearbeitung der Aufgabe erschweren. Bei den Inputmaterialien kann es sich auch um Bildstimuli, Grafiken oder kurze Filmsequenzen handeln oder etwa um eine Kombination von Texten und Bildern. Dabei sollten sich Text und Bild nicht widersprechen. Die Arbeitsanweisung legt dann fest, was genau der Lernende mit den Inputmaterialien tun soll. Input in Form von Texten wird meist in der Zielsprache gegeben. Es ist aber auch muttersprachlicher Input möglich, z. B. wenn man vermeiden will, dass Formulierungen direkt aus den Inputtexten in die Schreibprodukte übernommen werden oder wenn die Textproduktion mit einer Sprachmittlung verbunden ist. Dabei ist allerdings zu berücksichtigen, ob Kompetenzen der Lernenden im Deutschen ausreichend sind. Auch Hörtexte als Inputmaterialien erschweren die Übernahme von Formulierungen aus dem Input. Inputmaterialien haben unterschiedliche Funktionen: Eine wichtige Funktion ist, den Lernenden Ideen für die inhaltliche Gestaltung von Texten zu liefern und zum Schreiben zu ermutigen. Liegt der Fokus der Evaluation eher auf den sprachlichen Kompetenzen, lassen sich auf diese Weise möglicherweise Unterschiede in der Kreativität der Lernenden ausgleichen. Außerdem kann der Input für die Textproduktion notwendige Informationen enthalten (z. B. über das Zielland). Durch die Vorgabe entsprechender Informationen soll erreicht wer- 56 Anstelle von Inputmaterial werden häufig auch die Termini Vorgabe oder Prompt verwendet, wobei sich beide Termini allerdings auch auf eine Kombination aus Inputmaterial und Arbeitsanweisung beziehen können. <?page no="169"?> 168 7 Entwicklung von Testaufgaben zum Schreiben den, dass die Lernerproduktionen untereinander besser vergleichbar werden und mögliche Informationsdefizite bei bestimmten Lernenden ausgeglichen werden. Außerdem erleichtern konkrete Vorgaben wesentlich die Ausarbeitung und Anwendung eines Bewertungsrasters. 7.2.9 Erstellen der Arbeitsanweisung und Situierung Die Arbeitsanweisung (Instruktion) 57 steuert die Bearbeitung der Schreibaufgabe durch die Lernenden. Dazu sind zumeist Angaben z. B. zur geforderten Textsorte, zur Textlänge, zur Bearbeitungszeit, zum Testzweck oder zu den Bewertungskriterien notwendig. Die Arbeitsanweisung kann einen erheblichen Einfluss darauf haben, wie die jeweilige Schreibaufgabe bearbeitet wird und was sie letztendlich misst. So hängt z. B. die Qualität und Quantität eventueller Planungs- und Revisionsprozesse von der zur Verfügung stehenden Bearbeitungszeit ab (vgl. die Ausführungen zum Testkonstrukt in Kapitel-5). Sollen mit einer Aufgabe primär oder ausschließlich Schreibkompetenzen erfasst werden, müssen sowohl die Inputmaterialien als auch die Arbeitsanweisung für die Lernenden ohne Probleme zu verstehen sein, da sonst die Schreibleistung massiv von der zielsprachlichen Leseverstehenskompetenz abhängen kann. Damit eine komplexere Arbeitsanweisung verstanden wird, kann diese falls nötig in der Muttersprache oder gleichzeitig in der Muttersprache und der Zielsprache der Lernenden formuliert werden. Außerdem können-- falls als notwendig erachtet-- unterschiedliche Hilfestellungen gegeben werden wie etwa die Vorgabe eines kleinen Textes oder eines Schreibgerüstes. In einer handlungsorientierten Prüfung bettet man häufig die Arbeitsanweisung und z. T. auch die Inputmaterialien in einen für die Lernenden authentischen Handlungskontext ein. Die Kontextualisierung kann sich auf aktuelle (potentiell) realistische Situationen beziehen oder auch solche antizipieren. Es folgt dann die konkrete Anweisung unter Angabe der zu verfassenden Textsorte, der kommunikativen Absicht und der bei der Produktion zu berücksichtigenden Inhaltspunkte. Eine entsprechend kontextualisierte Arbeitsanweisung- - ohne Angabe der geforderten Inhaltspunkte und Textlänge sowie der zur Verfügung stehenden Zeit-- könnte z. B. folgendermaßen lauten: Du bist bei Gasteltern in Frankreich und planst eine Abschiedsfeier. Du bittest deine französischen Freunde und Freundinnen dir bei der Vorbereitung zu helfen. Schreibe ihnen eine E-Mail und berücksichtige dabei die folgenden Punkte: … 57 Die Arbeitsanweisung wird im Englischen auch als rubric bezeichnet (vgl. z. B. Tankó, 2005, S. 41). Insbesondere im amerikanischen Englisch bezeichnet rubric dagegen zumeist das jeweilige kriteriale Bewertungsraster (vgl. Kapitel- 6 im vorliegenden Band). Dieser unterschiedliche Gebrauch führt zuweilen zu Missverständnissen. Ein sehr breites Verständnis von rubric, das u. a. die Durchführungsanweisungen, Zeit- und Umfangsvorgaben sowie Angaben zur Leistungsbewertung umfasst, findet sich bei Bachman & Palmer (2010, S. 69-73). <?page no="170"?> 169 7.2 Entwicklung von Schreibaufgaben: Zentrale Prinzipien und prototypischer Verlauf Sind die Bewertungskriterien den Lernenden nicht bekannt, sollte in der Arbeitsanweisung auch ein Hinweis auf die für die Beurteilung relevanten Aspekte der Schreibleistung gegeben werden. Insbesondere in der Oberstufe und im Rahmen von Abituraufgaben ist es üblich, sogenannte Operatoren in der Arbeitsanweisung zu verwenden. Es handelt sich dabei um Aufforderungsverben wie darstellen, beschreiben oder begründen. Die Bedeutung der Operatoren wird u. a. in Lehrplänen oder speziellen Listen der Kultusministerien anhand von Definitionen und Beispielen spezifiziert und ist Gegenstand des Unterrichts. Der Gebrauch von normierten Operatoren in Prüfungen soll dazu beitragen, dass sowohl die Lernenden als auch die Bewertenden den Arbeitsauftrag in gleicher Weise interpretieren. In der folgenden Liste nennen wir noch einmal zusammenfassend einige für die unterrichtliche Prüfungspraxis wichtige Merkmale „guter“ Arbeitsanweisungen (vgl. Grotjahn & Kleppin, 2015, S. 70 f.): Die Arbeitsanweisung sollte ▶ eindeutig sein; ▶ einfach zu verstehen sein; ▶ so kurz wie möglich sein; ▶ genaue Vorgaben im Hinblick auf Adressaten, Thema, Textsorte etc. machen; ▶ Angaben zur ungefähren Zahl der geforderten Wörter enthalten; ▶ die vorgesehene Bearbeitungszeit nennen; ▶ möglichst ein für die Lernenden vertrautes Format haben; ▶ so formuliert werden, dass Wörter und Strukturen möglichst nicht direkt übernommen werden können (z. B. aus Inhaltspunkten); ▶ so weit möglich mit einer kurzen, möglichst authentischen Situierung verbunden sein. 7. 2. 10 Entscheidung über die Bewertungskriterien und die Form der Bewertung Wie wir bereits oben im Zusammenhang mit dem Testkonstrukt angedeutet haben, sind im Hinblick auf die Frage, was eine Schreibaufgabe letztendlich messen soll bzw. tatsächlich misst, die zugrunde gelegten Bewertungskriterien von entscheidender Bedeutung (vgl. auch Kapitel 5 und 6). Denn wenn man z. B. eine textsortenspezifische, situativ angemessene, sprachlich verständliche und hinreichend korrekt formulierte E-Mail fordert, dann müssen Kriterien wie Testsortenspezifik, situative Angemessenheit und sprachliche Korrektheit bei der Bewertung eine Rolle spielen. Bewertungskriterien sind also an die jeweiligen Schreibaufgaben anzupassen. Dies wird vor allem deutlich, wenn für das Verfassen eines Textes Inhaltspunkte vorgegeben werden. Ist ein Bewertungsraster nicht zwingend wie etwa beim Abitur vorgegeben, dann kann man in der jeweiligen Fachschaft entscheiden, welche Kriterien man jeweils zugrunde legen will. Außerdem können in diesem Zusammenhang Festlegungen hinsichtlich der Form der Bewertung (z. B. Blindkorrektur) und der Zahl der Bewertenden getroffen werden. Eine besondere Funktion können mit einer Lernergruppe abgesprochene, flexible Kriterien haben. So kann man mit einer Lernergruppe verabreden, worauf bei einer Schreibaufgabe <?page no="171"?> 170 7 Entwicklung von Testaufgaben zum Schreiben besonders geachtet werden soll, ob eine inhaltlich komplexe Produktion gefordert ist, ob besonders auf Textsortenspezifik geachtet werden soll oder ob besondere sprachliche Mittel (z. B. Vergangenheitsformen, Konditionalsätze) von erhöhter Bedeutung für die Bewertung sein sollen. Darüber hinaus spielt die Wahl der Bewertungskriterien im Zusammenhang mit schüleradäquatem Feedback eine wichtige Rolle (siehe Kapitel-9). Angesichts der zentralen Bedeutung der Bewertungskriterien für den gesamten Prozess der Entwicklung und des Einsatzes von Schreibaufgaben sind in diesem Band dem Thema Bewertung und Bewertungskriterien zwei umfangreiche Kapitel gewidmet (Kapitel 6 und 8). 7. 2. 11 Formulierung eines Erwartungshorizonts Auf der Basis der Bewertungskriterien formulieren Lehrkräfte im schulischen Kontext häufig einen aufgabenspezifischen Erwartungshorizont für die Beurteilung der fremdsprachlichen Schreibkompetenzen. Es handelt sich dabei um eine genauere Beschreibung der Leistungen, die von den Lernenden vor dem Hintergrund von Bildungsstandards und Curricula (z. B. in Form von Kernlehrplänen) bei der jeweiligen Aufgabe auf einem bestimmten Kompetenzniveau erwartet werden. Die Beschreibung orientiert sich an beobachtbaren Merkmalen (Indikatoren) wie z. B. das Ausmaß der Berücksichtigung der inhaltlichen Vorgaben oder die Breite und Adäquatheit der eingesetzten Lexik. Die Ausprägung der Indikatoren wird in der Regel in Form von Punkteskalen quantifiziert. Dabei ist u. a. festzulegen, was als eine ausreichende und was als eine gute Leistung einzuschätzen ist und wie die einzelnen Bewertungsdimensionen (z. B. Inhalt, sprachliche Realisierung) zu gewichten sind. Im Zentralabitur ist die Erstellung von Erwartungshorizonten verpflichtend; auch bei standardisierten Tests wie den Cambridge English Examinations oder dem TestDaF (Test Deutsch als Fremdsprache) ist die Formulierung von aufgabenspezifischen Erwartungshorizonten üblich. Weitere Hinweise zur Gestaltung von Erwartungshorizonten finden Sie in Kapitel-6.8. 7. 2. 12 Überprüfung und Erprobung der Aufgaben Bei der Entwicklung professioneller standardisierter Tests werden Aufgaben grundsätzlich in vielfältiger Form überprüft und empirisch vorerprobt. Hierdurch soll sichergestellt werden, dass man mit den Aufgaben auch das erreicht, was erreicht werden soll. Entsprechende Maßnahmen sind damit ein entscheidendes Instrument der Qualitätssicherung (vgl. Kapitel-4). So werden z. B. im Rahmen von VERA -8 die neu zu entwickelnden Aufgaben zum Lese- und Hörverstehen im Englischen und Französischen durch unabhängige Expertinnen und Experten mehrfach begutachtet und falls notwendig durch die Aufgabenerstellerinnen und Aufgabenersteller jeweils revidiert. Anschließend werden die entsprechenden Aufgaben bei einer kleineren Gruppe von Schülerinnen und Schülern vorerprobt. Auf der Basis der erhaltenen Daten (u. a. Itemschwierigkeiten und Trennschärfen) sowie auch Kommentierungen von Lehrkräften werden die Aufgaben dann gegebenenfalls erneut revidiert. Nach Rücksprache mit fachdidaktischen und psychometrischen Expertinnen und Experten aus den Bundesländern werden die Aufgaben abschließend bei einer größeren Gruppe von Schülerinnen und <?page no="172"?> 171 7.3 Checkliste zur Erstellung von Schreibaufgaben Schülern getestet, um final zu prüfen, ob alle Qualitätsmerkmale erfüllt werden. Aufgaben, die den Standards nicht genügen, werden für die VERA -8-Testung nicht berücksichtigt. Auch wenn ein solches aufwendiges Vorgehen bei der Erstellung informellerer Prüfungsverfahren im Schulalltag nicht möglich ist, können dennoch in informelleren Prüfungskontexten Maßnahmen ebenfalls zur Qualitätssicherung ergriffen werden. So können Lehrkräfte z. B. Kolleginnen oder Kollegen bitten, die Schreibaufgaben, Bewertungskriterien und Erwartungshorizonte zu kommentieren. Auch eine informelle Erprobung von Schreibaufgaben in vergleichbaren Kursen von Kolleginnen und Kollegen ist zuweilen realisierbar. Auf diese Weise können wichtige Hinweise u. a. zur Angemessenheit der Inputmaterialien (Vorgaben), der Aufgabenstellung, der vorgesehenen Bearbeitungszeit oder auch der Schwierigkeit der Aufgabe für eine spezifische Gruppe von Lernenden gewonnen werden. 7.3 Checkliste zur Erstellung von Schreibaufgaben Bevor wir nun exemplarisch einige Schreibaufgaben kommentieren, stellen wir eine Checkliste vor, anhand derer man überprüfen kann, inwieweit man notwendige oder auch optionale Schritte bei der Erstellung von Schreibaufgaben beachtet hat. □ Spezifizierung der Prüfungsteilnehmenden □ Entscheidung über Ziele und Funktionen der Evaluation □ Spezifizierung des Testkonstrukts □ Entscheidung über das Aufgabenformat □ Entscheidung über die Zahl der Aufgaben □ Entscheidung über Wahlmöglichkeiten □ Entscheidung über Themen, Textsorten und Leser □ Auswahl der Inputmaterialien □ Vorgabe der Arbeitsanweisung und Situierung □ Angabe der Textlänge und Bearbeitungszeit □ Entscheidung über die Bewertungskriterien und die Form der Bewertung □ Formulierung eines Erwartungshorizonts □ Überprüfung und Erprobung der Aufgaben 7.4 Kommentierte Aufgabenbeispiele Im Folgenden werden wir zwei englische und zwei französische Schreibaufgaben kurz kommentieren. Ziel ist, einige im vorliegenden Kapitel herausgestellte Aspekte anhand konkreter Aufgaben zu illustrieren. Die kommentierten Aufgaben stammen aus einem Pool von Schreibaufgaben, die für das IQB im Rahmen der Testerstellung zur Überprüfung der Bildungsstandards für die erste Fremdsprache Englisch bzw. Französisch für den Mittleren <?page no="173"?> 172 7 Entwicklung von Testaufgaben zum Schreiben Schulabschluss und den Hauptschulabschluss erprobt wurden. Die entwickelten Aufgaben decken mehrere Kompetenzstufen ab- - mit einem Schwerpunkt auf A2 bis B1. Sie zeigen, dass Schreiben für Schülerinnen und Schüler schon sehr früh an konkrete lebensweltliche Handlungskontexte gebunden werden kann. Beispiel 1: Englisch Mobile You are the only student in your class who doesn’t have a mobile. Your great-aunt in America has asked you what you want for your birthday. You ask her to send you money so that you can buy yourself a mobile. However, you know that she • is very old-fashioned and doubtful about new technologies • fears a mobile might be harmful to your health • is convinced that you will not be able to pay for the monthly expenses Write a letter trying to convince her that in spite of her worries, a mobile is the perfect present for you. Write 200 to 250 words. Das Thema, der Wunsch nach einem neuen Handy, nimmt vermutete Bedürfnisse der Schülerinnen und Schüler auf. Es wird versucht, einen plausiblen quasi-authentischen Kontext für das Schreiben eines englischsprachigen Briefes durch deutschsprachige Lernende zu konstruieren. Als Schreibleistung ist ein deskriptiver und argumentativer Text gefordert, in dem die Schülerinnen und Schüler etwas beschreiben und erklären, ihre Meinung ausdrücken, Argumente (für und wider) geben und jemanden überzeugen sollen. Die Aufgabe wird von den Aufgabenerstellern auf dem Niveau B2 angesiedelt, da es in der geforderten Leistung darum geht, einen in sich stimmigen kohärenten emotional ausgerichteten Brief zu schreiben. Es geht also darum, komplexere Inhalte in Übereinstimmung mit einer Kommunikationsabsicht adressatenspezifisch zu formulieren. Die Großtante, die als dem Wunsch skeptisch gegenüberstehend vorgestellt wird, soll überzeugt werden. Auch wenn hier eine für das Niveau B2 charakteristische komplexe Argumentation gefordert wird, kann die Aufgabe durchaus auch von Lernenden auf dem Niveau B1 sinnvoll bearbeitet werden. Es wären dann insbesondere weniger kohäsionsstiftende Mittel und weniger komplexe Satzstrukturen zu erwarten. Folgt man dieser Argumentation, dann könnte die vorliegende Aufgabe als Bi-Level-Aufgabe klassifiziert werden. Im Hinblick auf das Testkonstrukt geht es darum zu überprüfen, ob die Lernenden einen informellen Brief mit einer Bitte an eine bekannte Person so angemessen, überzeugend, <?page no="174"?> 173 7.4 Kommentierte Aufgabenbeispiele sprachlich verständlich und korrekt formulieren können, dass die angesprochene Person sich mit der Bitte auseinandersetzen kann. Der Brief wird durch Vorgaben zur Person der Großtante inhaltlich und sprachlich gesteuert. Die Bewertung muss sich deshalb an den geforderten Inhaltspunkten orientieren: Die Schülerinnen und Schüler sollten in ihrer Argumentation die Sorgen und Gegenargumente der Großtante thematisieren und sowohl auf die gesundheitlichen als auch auf die finanziellen Bedenken eingehen. Der in der Aufgabe geforderte Brief muss eine vorgegebene Länge (200 bis 250 Wörter) aufweisen und eine persuasive Funktion erfüllen. Die Beurteilung der sprachlichen Realisierung kann sich an den im Bewertungsraster genannten Kriterien orientieren (siehe Kapitel- 6 und 8). Es können dabei spezifische Aspekte fokussiert oder auch weitere Aspekte berücksichtigt werden. Da es sich beim Adressaten des Briefes um eine ‚altmodische‘ Großtante handelt, für die das Bemühen des Neffen um einen orthografisch weitgehend korrekten Brief vermutlich wichtig ist, könnte im vorliegenden Fall die Orthografie bei der Bewertung der sprachlichen Richtigkeit stärker gewichtet werden. Dies muss dann in der Aufgabenstellung für die Lernenden deutlich werden. Die Kontextualisierung der Arbeitsanweisung ist zwar nicht sehr realistisch: Wie viele Schülerinnen und Schüler haben wohl eine Großtante in Amerika? Die Kontextualisierung ist aber insofern plausibel, als die Schülerinnen und Schüler sich wahrscheinlich in die Situation hineinversetzen können. Zumindest kennen sie Situationen, in denen sie Verwandte oder andere Personen um etwas bitten und sie davon überzeugen müssen, dieser Bitte nachzukommen. Ähnliche Aufgaben mit anderen Adressaten, Wünschen usw. können leicht konstruiert werden. Beispiel 2: Englisch Message in a bottle You are on holiday on a little island with your parents and you find an empty bottle at the beach. You want to send a message in this bottle. Write about • who you are • where you are from • what you are doing on the island Write a minimum of 10 words. Die Aufgabe- - das durch Fragen gesteuerte Schreiben einer (kurzen) Nachricht- - ist als A1 / A2, also als Bi-Level-Aufgabe konzipiert. Schreibaufgaben, die schon auf dem Niveau A1 gelöst werden können, erfordern meist nur einfache Angaben zur eigenen Person. Die vorliegende Aufgabe ist dagegen als fiktive Abenteuersituation konzipiert, die für die Lernenden <?page no="175"?> 174 7 Entwicklung von Testaufgaben zum Schreiben vermutlich motivierend wirkt und sich von den üblichen Kennenlernsituationen abhebt. Die Aufgabenstellung erlaubt zudem insbesondere bei dem dritten Inhaltspunkt weitergehende phantasievollere Realisierungen. Im Hinblick auf das Testkonstrukt geht es darum zu überprüfen, ob die Lernenden sich einer nicht bekannten Person kurz vorstellen können bzw. ob sie auf dem Niveau A2 (interessante) Informationen zu ihrer Person geben und ihre momentanen Tätigkeiten beschreiben können. Die Nachricht ist an einen fiktiven Absender gerichtet. Der Text muss nicht notwendigerweise völlig korrekt, sondern in erster Linie sprachlich verständlich sein. Es werden als Minimum 10-Wörter gefordert, was allein schon durch eine in die Ich-Form transformierte Wiederaufnahme von Elementen aus den drei Fragen realisierbar ist. Uns erscheint auch für das Niveau A1 im vorliegenden Fall eine höhere Wörteranzahl angemessen. Prinzipiell wäre die Aufgabe sogar auf B1 lösbar, z. B. wenn die momentanen Tätigkeiten in einem kohärenten Text mit Zeit- und Ortsangaben versehen werden und damit eher komplexe Satzstrukturen erforderlich sind. Die Bewertungskriterien sollten sich weitgehend an der Vollständigkeit der Bearbeitung der Inhaltspunkte sowie an situativer und sprachlicher Angemessenheit orientieren. Die Arbeitsanweisung ist sprachlich einfach formuliert. Das Bild (die Flasche) ist, auch wenn es sich um das Niveau A1 handelt, weniger als Verstehenshilfe gedacht, sondern eher als motivierende Illustration der gefundenen Flasche. Auch wenn die Situierung wenig realistisch ist, werden die Schülerinnen und Schüler sich wahrscheinlich in die Situation versetzen können. Aufgabenstellungen auf A1 sind in der Fremdsprache zum Teil problematisch, da Wörter und Strukturen häufig einfach übernommen werden können. In dem vorliegenden Fall sind zumindest Umformungen notwendig. <?page no="176"?> 175 7.4 Kommentierte Aufgabenbeispiele Beispiel 3: Französisch Pauvre Juliette Pauvre Juliette ! Son allemand est vraiment … problématique ! Tu réponds à Juliette (en français ! ). Tu acceptes d‘être son / sa correspondant(e) et tu te présentes (âge, adresse, activités préférées …). (Minimum 30 mots.) Deutsch-Französisches Jugendwerk Office franco-allemand pour la Jeunesse FORUM 02-04-2016 03: 28 PM Auteur / Autor: Cassy hallo! ! ! Ich Franzosisch und ich bin Juliette, Ich suche ein/ e correspondant fur schrieben, ich bin 15 jahren, und ich lieben deutch! ! Aber mein deutch ist … 1/ 20 …. ^^ ob du learn franzosisch, schrieben mich! ! ! salut! ! ! juliette.flo@voila.fr Die Aufgabe ist als A1-Aufgabe konzipiert und stellt u. a. durch den Einsatz einer Mail, auf die der Schüler / die Schülerin reagieren soll, eine realistische Handlungssituation dar. Die auf die eigene Situation transferierbare Einbettung der Kennenlernsituation in den Kontext ‚Brieffreundschaft‘ dürfte sich motivierend auswirken. Im Hinblick auf das Testkonstrukt geht es darum zu überprüfen, ob die Lernenden auf eine für sie verständliche Anfrage zur Kontaktaufnahme reagieren und über sich sprachlich verständlich Auskunft geben können. Es werden als Minimum 30 Wörter gefordert, was u. E. eine angemessene Wörteranzahl für das Niveau darstellt. Prinzipiell wäre die Aufgabe durchaus auch für höhere Niveaus geeignet, da die in der Aufgabenstellung und im Input-Text (E-Mail) geforderten inhaltlichen Aspekte komplexe schriftliche Äußerungen ermöglichen. Dafür müsste allerdings eine höhere Wortzahl gefordert werden. Die Bewertungskriterien sollten sich weitgehend an der Vollständigkeit der Bearbeitung der Inhaltspunkte sowie an situativer und sprachlicher Angemessenheit orientieren. Die in der Aufgabenstellung geforderten Inhalte sind als offene Liste formuliert, was bei der Bewertung zu Problemen führen könnte. Die Angabe einer Adresse als geforderter Inhaltspunkt erscheint im gegebenen Kontext wenig zielführend, zumal nicht klar ist, ob die exakte Adresse oder <?page no="177"?> 176 7 Entwicklung von Testaufgaben zum Schreiben nur der Wohnort bzw. eine Region anzugeben ist. Als Alternative zum vorliegenden Format böte es sich an, die in der Aufgabenstellung geforderten Inhaltspunkte in den Inputtext zu integrieren (z. B. „Wo wohnst du? “ „Wieviel Jahren hast du? “). In der Arbeitsanweisung ist dann allerdings darauf hinzuweisen (möglicherweise auf Deutsch), dass alle in der E-Mail gestellten Fragen zu beantworten sind. Interessant ist bei dieser Aufgabe der in fehlerhaftem Deutsch verfasste Inputtext. Dadurch wird suggeriert, dass von den Lernenden kein sprachlich perfekter Text erwartet wird, worauf eine Lehrkraft dann auch hinweisen sollte. Entsprechende Inputtexte bieten sich sicherlich für weitere Schreibaufgaben an. Beispiel 4: Französisch Tu t’es fâché(e) Tu t’es fâché(e) avec l’un(e) de tes amie(e)s. Tu écris une lettre à ton correspondant français pour lui raconter ce qui s’est passé. Tu lui dis comment vous avez fait la paix ensuite. (Minimum 60 mots.) Die Aufgabe ist als B1-Aufgabe konzipiert und nimmt eine für Jugendliche wohl häufig vorkommende emotional besetzte Situation auf. Allerdings kann das Thema Emotionen wachrufen, die in einer Testsituation nicht erwünscht sind, da sie die Prüfungsergebnisse verfälschen können (vgl. die Ausführungen zu konstruktirrelevanter Varianz in Kapitel-4.2.3.3). Problematisch kann weiterhin sein, dass die verbale und die bildliche Kontextualisierung unterschiedliche Foki haben. Während es in der verbalen Kontextualisierung darum geht, dass man beleidigt / gekränkt war, der Grund dafür aber wohl ausgeräumt ist, weil man ‚Frieden geschlossen‘ hat, macht zumindest der Jugendliche rechts im Bild einen eindeutig traurigen Eindruck. Solche Widersprüche sollten vermieden werden. Die Aufgabe ist in der Tat erst ab dem Niveau B1 adäquat lösbar, da die Lernenden nicht nur über etwas in der Vergangenheit Geschehenes, das sie persönlich berührt, berichten und <?page no="178"?> 177 Hinweise zum Weiterlesen den entsprechenden Vorgang beschreiben müssen, sondern auch darstellen müssen, welcher Konflikt vorlag und wie sie ihn gelöst haben. Dafür müssen sie sich in die Person ihres Freundes / ihrer Freundin versetzen und seine / ihre Sichtweise auf den Konflikt einbeziehen. Das Aufgabenformat ist sehr offen, wenige Inhaltspunkte sind vorgegeben und die Aufgabe ist prinzipiell auch auf höheren Niveaus lösbar. Aufgrund der Offenheit des Formats ist es schwierig, das von den Testerstellern intendierte Testkonstrukt genauer zu rekonstruieren und konstruktbezogene Vorgaben für die einzusetzenden aufgabenspezifischen Bewertungskriterien zu machen. In Bezug auf den Inhalt des erwarteten Textes kann man nur bewerten, ob der Vorfall, die Lösung des Konfliktes sowie die Stimmung adäquat beschrieben sind. Weiterhin kann bewertet werden, ob es sich um eine kohärente Beschreibung handelt und ob die Beschreibung unter Nutzung der (korrekten) Vergangenheitsformen vorgenommen wurde. Es wird deutlich, dass es sich hier zwar um eine für Jugendliche sehr wirklichkeitsnahe Aufgabe handelt, die angesichts ihrer Offenheit auch gut als Lernaufgabe einzusetzen ist. Für die Zwecke des Testens könnte die Aufgabe durch weitere Vorgaben stärker gesteuert werden. Hinweise zum Weiterlesen Einen allgemeinen Überblick über die verschiedenen Phasen der Testentwicklung (von der intendierten Verwendung bis zu den statistischen Analysen) geben Grabowski & Dakin (2014). Eine ausführliche Darstellung der Test- und Aufgabenentwicklung für unterschiedliche Zielsetzungen und Adressaten findet man in Bachman & Palmer (2010, insb. Kap. 14 und 15). Dabei gehen die Autoren auch auf die Frage ein, unter welchen Bedingungen lebensweltliche Aufgaben für den Evaluationskontext zu modifizieren sind. Der Prozess der Entwicklung und Durchführung von standardisierten Sprachtests wird in den aus vier Modulen bestehenden Handreichungen der Association of Language Testers in Europe ( ALTE ) beschrieben (siehe ALTE , 2006). Hinweise zum Schreiben finden sich insb. im Modul-3, Kapitel-3 „Nicht-itembasierte Aufgabentypen“ und Modul-4, Kapitel-4 „Einige Aspekte der subjektiven Leistungsbewertung“. Die Testentwicklung speziell auf der Basis des GER ist Thema von Europarat & ALTE (2012). Eine Vielzahl praxisorientierter Hinweise zur Erstellung und Beurteilung von Schreibaufgaben findet man z. B. in Crusan (2010), Shaw & Weir (2007), Tankó (2005) und Weigle (2002) sowie bezogen auf Englisch als Erstsprache in Ruth & Murphy (1988). Dabei diskutieren Shaw & Weir (2007) auch die Bedeutung von Lexik- und Grammatikinventaren für die Entwicklung von Schreibaufgaben und die Bewertung von Schreibleistungen auf den GER -Stufen A2 bis C2. Checklisten von potenziell relevanten Merkmalen (wie etwa erwartete rhetorische Funktionen) enthält das CEFR Grid for Writing Tasks (Council of Europe, 2009). Beispiele für die Entwicklung von Schreibaufgaben im Rahmen der Implementation der Bildungsstandards für Französisch und Englisch als erste-Fremdsprache sind z. B. in Harsch & Rupp (2011, S. 10-13), Porsch & Tesch (2010) und Rupp, Vock, Harsch & Köller (2008, S. 71-78, 92-98, 109-111) aufgeführt. <?page no="179"?> 178 7 Entwicklung von Testaufgaben zum Schreiben Hinweise zur Verwendung von Operatoren findet man z. B. unter folgenden Internetadressen: Englisch: https: / / kultusministerium.hessen.de/ sites/ default/ files/ media/ hkm/ la18-operatoren-englisch.pdf http: / / www.kmk.org/ fileadmin/ Dateien/ pdf/ Bildung/ Auslandsschulwesen/ Kerncurriculum/ Opera toren_fuer_das_Fach_Englisch_Stand_Oktober_2012_ueberarbeitet.pdf Französisch: https: / / kultusministerium.hessen.de/ sites/ default/ files/ media/ hkm/ la18-operatoren-franzoesisch.pdf https: / / www.standardsicherung.schulministerium.nrw.de/ cms/ zentralabitur-wbk/ faecher/ getfile. php? file=2211 Literatur ALTE [Association of Language Testers in Europe]. (2006). ALTE -Handreichungen für Testautoren. [abrufbar unter https: / / www.testdaf.de/ aktuelles/ archiv-2007/ ] Bachman, Lyle F. & Palmer, Adrian S. (2010). Language assessment in practice: Developing language assessments and justifying their use in the real world. Oxford: Oxford University Press. Bechtel, Mark. (2015). Das Konzept der Lernaufgabe im Fremdsprachenunterricht. In Mark Bechtel (Hrsg.), Fördern durch Aufgabenorientierung. Bremer Schulbegleitforschung zu Lernaufgaben im Französisch- und Spanischunterricht der Sekundarstufe I (S. 43-82). Frankfurt am Main: Lang. Caspari, Daniela, Grotjahn, Rüdiger & Kleppin, Karin. (2010). Testaufgaben und Lernaufgaben. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 46-68). Münster: Waxmann. Council of Europe. (2009). The CEFR Grid for Writing Tasks v. 3.1 (analysis). [abrufbar unter http: / / www.coe.int/ t/ dg4/ linguistic/ Source/ CEFRWritingGridv3_1_analysis.doc] Crusan, Deborah. (2010). Assessment in the second language writing classroom. Ann Arbor, MI : University of Michigan Press. Europarat & ALTE . (2012). Handbuch zur Entwicklung und Durchführung von Sprachtests. Zur Verwendung mit dem GER . Erstellt von ALTE im Auftrag des Europarats / Abteilung für Sprachenpolitik. Frankfurt am Main: telc GmbH. [abrufbar unter http: / / www.coe.int/ t/ dg4/ linguistic/ ManualAl te_Allemand.pdf] Grabowski, Kirby C. & Dakin, Jee W. (2014). Test development literacy. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 751-768). Chichester: Wiley-Blackwell. Grotjahn, Rüdiger & Kleppin, Karin. (2015). Prüfen, Testen, Evaluieren. München: Klett-Langenscheidt. Harsch, Claudia & Rupp, André A. (2011). Designing and scaling level-specific writing tasks in alignment with the CEFR : A test-centered approach. Language Assessment Quarterly, 8(1), 1-33. doi: 10.1080/ 15434303.2010.535575 MSW [Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen]. (2015). Konstruktionshinweise: Neue Aufgabenformate in den modernen Fremdsprachen Englisch, Französisch, Spanisch, Italienisch, Russisch, Niederländisch, Türkisch, Portugiesisch, Neugriechisch. Aufgabenart 1.1: Schreiben mit Leseverstehen (integriert) und einer weiteren Teilkompetenz (Sprachmittlung / Hör-/ Hörsehverstehen) in isolierter Überprüfung (Stand: 27. 3. 2015). [abrufbar unter https: / / <?page no="180"?> 179 Literatur www.standardsicherung.schulministerium.nrw.de/ cms/ zentralabitur-wbk/ faecher/ getfile. php? file=2573] Porsch, Raphaela & Tesch, Bernd. (2010). Messung der Schreibkompetenz im Fach Französisch. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 151-176). Münster: Waxmann. Rupp, André A., Vock, Miriam, Harsch, Claudia & Köller, Olaf. (2008). Developing standards-based assessment tasks for English as a first foreign language: Context, processes, and outcomes in Germany. Münster: Waxmann. Ruth, Leo & Murphy, Sandra. (1988). Designing writing tasks for the assessment of writing. Norwood, NJ : Ablex. Shaw, Stuart D. & Weir, Cyril J. (2007). Examining writing: Research and practice in assessing second language writing. Cambridge: Cambridge ESOL / Cambridge University Press. Tankó, Gyula (2005). Into Europe-- Prepare for modern English exams: The writing handbook. Budapest: Teleki László Foundation / British Council Hungary. [abrufbar unter http: / / www.lancs. ac.uk/ fass/ projects/ examreform/ Pages/ Exams.html] Weigle, Sarah C. (2002). Assessing writing. Cambridge: Cambridge University Press. <?page no="182"?> 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Bettina Akukwe, Elke Philipp & Günther Sommerschuh In den vorhergehenden Kapiteln wurden die Grundlagen für die Bewertung von Schreibleistungen ausführlich erörtert. Das Kapitel 8 baut auf diesen theoretischen Grundlagen auf und zeigt Beispiele aus der Praxis. In Kapitel 6 wurden Möglichkeiten zur Bewertung von Schreibleistungen vorgestellt und anhand von Beispielen illustriert. Im Rahmen unserer Arbeit zur Messung der Schreibkompetenz hat eine Gruppe von Expertinnen und Experten unter Koordination des Instituts zur Qualitätsentwicklung im Bildungswesen ( IQB ) ein Bewertungsraster entwickelt, das in Kapitel 8.1 vorstellt wird. In Kapitel 8.2 zeigen Elke Philipp für Französisch und Günther Sommerschuh für Englisch Beispieltexte von Schülerinnen und Schülern aus Testungen von Acht- und Neuntklässlern. Zum Einsatz kamen dabei am IQB entwickelte Aufgaben. Die Schülerlösungen werden von beiden Autoren mithilfe des in Kapitel 8.1 vorgestellten Bewertungsrasters beurteilt. In Vorgriff auf die theoretischen Hinweise in Kapitel 9 zum Feedback schließt Kapitel 8.3 an die Bewertungen aus Kapitel 8.2 an und zeigt Möglichkeiten der Weiterarbeit im Unterricht, wenn Schülerinnen und Schüler bestimmte Aufgaben schon sehr gut bearbeitet haben oder mit diesen noch Schwierigkeiten hatten. 8.1 Die Entwicklung eines Bewertungsrasters am IQB Bettina Akukwe Das vorliegende Bewertungsraster wurde von Expertinnen und Experten aus der Fachdidaktik und dem schulischen Kontext sowie unter Mitarbeit von wissenschaftlichen Mitarbeiterinnen am IQB entwickelt. Es ist das Produkt einer umfangreichen Diskussion und knüpft explizit an Beispiele aus den Bundesländern und dem IQB äquivalenten Instituten im Ausland an. Für das Bewertungsraster wurden u. a. die Deskriptoren gemäß dem Gemeinsamen europäischen Referenzrahmen für Sprachen (Europarat, 2001) zur Bewertung herangezogen ( GER -Stufen). Für Ihre Bewertung der Schülerleistungen können Sie den Anhang zu Kapitel 5 sowie die relevanten Skalen in Kapitel 6.5 und 6.6. nutzen, die Niveaustufen in Form von Kann-Aussagen beschreiben. Mithilfe dieser Kann-Beschreibungen können Sie die Kompetenzen Ihrer Schülerinnen und Schüler einordnen. Beispielsweise kann eine Schülerin oder ein Schüler auf dem Niveau B1 „unkomplizierte, zusammenhängende Texte zu mehreren vertrauten Themen aus seinem / ihrem Interessengebiet verfassen, wobei einzelne kürzere Teile in linearer Abfolge verbunden werden“ (Europarat, 2001, S. 67). <?page no="183"?> 182 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Das im Folgenden dargestellte Bewertungsraster fokussiert beispielhaft eine Aufgabe, die für die Niveaustufen A2 und B1 entwickelt wurde (zur Einstufung von Aufgaben auf Niveaustufen siehe Kapitel 7, für Beispiele siehe 8.2). Es handelt sich hierbei um eine Prototypikalität, die Leistungen unterhalb A2 und oberhalb B1 jedoch nicht ausschließt. Für Ihre Arbeit sollten Sie berücksichtigen, dass das Beispielbewertungsraster nicht auf alle Aufgaben gleichermaßen zutrifft. So ist es möglich, dass Sie eine Aufgabe wählen, die für die Niveaustufen A1 und A2 konzipiert wurde. Entsprechend empfiehlt es sich, das Bewertungsraster an Ihre Bedürfnisse anzupassen. Des Weiteren können Sie-- abhängig von Ihrem Bewertungsfokus-- das Bewertungsraster um einzelne Aspekte kürzen oder ergänzen. Dies kann insbesondere für Teilbereiche wie Kohärenz und Kohäsion sinnvoll sein, die auf einer niedrigen Niveaustufe kaum beurteilt werden können. Im Gegenzug steht es Ihnen offen, weitere Aspekte einzufügen, die für Ihre Bewertung relevant sind. So ist beispielsweise denkbar, dass Sie das Verfassen eines formalen Briefs im Unterricht behandelt haben. Aspekte wie die äußere Form, Konditionalsätze oder eine Höflichkeitssprache könnten dann für eine solche Schreibaufgabe in Ihr Bewertungsraster aufgenommen werden. Für die Anpassung des Bewertungsrasters an Ihre eigenen Bedürfnisse kommt Ihrem Erwartungshorizont somit eine wichtige Bedeutung zu. Reflektieren Sie, was Ihre Schülerinnen und Schüler bereits können und worauf Sie selbst Wert legen und verändern Sie das Bewertungsraster entsprechend. Mit dem vorliegenden Raster machen wir, die Expertengruppe, einen Minimalvorschlag, der aus unserer Sicht zentrale Facetten der Schreibkompetenz abbildet. Da es sich hierbei um ein Bewertungsraster und kein Kodierschema für die standardisierte Bewertung von Schülerlösungen im Rahmen von Large Scale Assessments handelt (vgl. Porsch & Tesch, 2010), sollte der Zweck der leistungsangemessenen Überprüfung der Schreibkompetenz in Ihrer Lerngruppe im Vordergrund stehen. Im vorliegenden Bewertungsraster gehen wir davon aus, dass das Erreichen des kommunikativen Ziels der Aufgabe und die sprachliche Realisierung des kommunikativen Ziels zwei separat zu betrachtende Dimensionen darstellen. Die erste Dimension wird in Kriterium-2 Umsetzung der Aufgabenstellung beurteilt, die Sprachliche Realisierung demgegenüber in Kriterium-3. Vor der Bewertung dieser beiden Kategorien soll jedoch zunächst eine ganzheitliche, grobe Einschätzung der Niveaustufe des Lernertextes (holistische Bewertung, Kriterium- 1 Erster Gesamteindruck) erfolgen. Das Abschließende Urteil (globale Bewertung) in Kriterium-4 lädt dann wiederum zu einem reflektierenden Abgleich mit dem anfänglichen Gesamteindruck (Kriterium-1) ein. Die holistische Beurteilung am Anfang und die globale Bewertung am Ende der Textdurchsicht, die auf die Zuordnung zu einer Niveaustufe des GER zielt, sowie die eher analytische Bewertung der Variablen, die die Leistungsaspekte im Einzelnen operationalisieren, tragen der Multikomponentialität (vgl. Kapitel-5 und-6) der Schreibkompetenz Rechnung. Die Kombination einer holistischen Bewertung mit einer analytischen Bewertung kann Beziehungen zwischen den Variablen aufzeigen und ggf. Einschätzungen darüber ermöglichen, welche Variablen gute Indikatoren für Unterschiede zwischen Niveaustufen bzw. Lernständen darstellen. <?page no="184"?> 183 8.1 Die Entwicklung eines Bewertungsrasters am IQB 1. Erster Gesamteindruck ○ keine Beurteilung möglich ○ < A2 ○ A2 ○ B1 ○ > B1 2. Umsetzung der Aufgabenstellung trifft nicht zu trifft teilweise zu trifft überwiegend zu trifft voll zu 2.1 Inhalt □ □ □ □ Die in der Aufgabenstellung geforderten Punkte sind bearbeitet; siehe Auswertungsbogen der Aufgabe. 2.2 Textsorte □ □ □ □ Die Anforderungen der Textsorte sind erfüllt; adäquate inhaltliche und formelle Textgestaltung. 2.3 Situations- und Adressatenbezug □ □ □ □ Der Kontext wird in die Aufgabenbearbeitung mit einbezogen. Der intendierte Leser ist berücksichtigt. 3. Sprachliche Realisierung trifft nicht zu trifft teilweise zu trifft überwiegend zu trifft voll zu 3.1 Verständlichkeit □ □ □ □ Der Text ist trotz möglicher Abweichungen von der jeweiligen zielsprachlichen Norm verständlich. 3.2 Angemessenheit 3.2.1 Situations- und Adressatenbezug □ □ □ □ Die Sprache ist kontext- und themenspezifisch (formelles / informelles Register; kulturelle Konventionen). 3.2.2 Bandbreite □ □ □ □ Die Bandbreite der sprachlichen Mittel (Synonyme, Antonyme, Kollokationen, Konjunktionen, Metaphorik, Überbegriffe / Unterbegriffe, Paraphrasen, Numerus) ist gegeben. 3.3 Kohärenz/ Kohäsion □ □ □ □ Inhaltliche und sprachliche Verknüpfungen werden innerhalb der Sätze und zwischen den Sätzen verwendet. 3.4 Richtigkeit □ □ □ □ Lexik, Grammatik und Orthografie werden entsprechend der jeweiligen zielsprachlichen Norm verwendet. 4. Abschliessendes Urteil ○ < A2 ○ A2 ○ B1 ○ > B1 <?page no="185"?> 184 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters 8.1.1 Holistische Bewertung: Erster Gesamteindruck Die Kategorie Erster Gesamteindruck verlangt eine holistische, intuitive Einschätzung des GER -Niveaus (Schriftliche Produktion allgemein, siehe Kapitel-5) des jeweiligen Lernertextes (unterhalb von A2, auf A2, auf B1, oberhalb von B1). Unsere Erfahrungen der letzten Jahre zeigen, dass sich die holistische Einschätzung nach einer analytischen Beurteilung eines Textes durchaus noch einmal ändern kann. Beim ersten Lesen eines Texts kann beispielsweise das schlecht lesbare Schriftbild der Schülerlösung Auswirkungen auf die Bewertung des Inhalts haben (sogenannter Halo-Effekt, siehe Kapitel 6.2). Wir empfehlen deshalb, die Schülertexte nach einem ersten Lesen zunächst als Ganzes zu beurteilen und nach der eingehenden Betrachtung der Schülertexte nach spezifischen Kriterien wie Kohärenz und Kohäsion erneut zu beurteilen. Sollte die Schülerin oder der Schüler mit Blick auf die Aufgabenstellung eine unzureichende Anzahl an Wörtern produziert haben, so wird es Ihnen in der Regel schwerfallen, den Text nach spezifischen Kriterien zu beurteilen. Deshalb ist für eine solche Schülerarbeit unseres Erachtens keine Beurteilung möglich. Für Sie bestünde dann lediglich die Möglichkeit, die Schülerarbeit unabhängig vom Bewertungsraster zu bewerten und in die Klassenwertung eingehen zu lassen, wobei eine unterschiedliche Handhabung in der Bewertung von Schülertexten aus Fairnessgründen nicht zu empfehlen ist. Sinnvoller könnte an dieser Stelle ein individuelles Feedbackgespräch mit den betroffenen Schülerinnen und Schülern sein, in dem Sie Stärken und Schwächen der Schreibkompetenz individuell erfragen und gezielt Aufgaben zur Weiterarbeit vergeben (siehe Kapitel 8.3 sowie Kapitel-9). Eine Beurteilung auf den Niveaustufen des GER ist lediglich für den ersten Gesamteindruck und das abschließende Urteil vorgesehen. Die Kategorien 2 (Umsetzung der Aufgabenstellung) und 3 (Sprachliche Realisierung) mit ihren Einzelkriterien werden mithilfe einer vierstufigen Skala mit den Ausprägungen „trifft nicht zu“, „trifft teilweise zu“, „trifft überwiegend zu“ und „trifft voll zu“ eingeschätzt. Die Entscheidung für eine vierstufige Skala ist in erster Linie aus Inhalts- und Praktikabilitätsgründen gefallen: Eine dichotome Ausprägung (z. B. „trifft zu“ und „trifft nicht zu“) ist zu undifferenziert, in Skalen mit einer ungeraden Zahl an Ausprägungen zeigt sich häufig eine Tendenz zur Mitte (z. B. „trifft teilweise zu“) und ab einer sechsstufigen Skala wird die Bewertung unnötig erschwert und unübersichtlich. Sie werden sehen, dass die einzelnen Kriterien Überschneidungen aufweisen, z. B. der Situations- und Adressatenbezug in 2.3 und 3.2.1. Für eine mögliche Trennung beachten Sie bitte die Beschreibungen, die der Darstellung des Bewertungsrasters folgen, insbesondere die praktischen Hinweise und Beispiele in den Kästchen. Das Bewerten der einzelnen Kriterien des Bewertungsrasters ist unabhängig von einer Benotung zu sehen. Sollten Sie eine Benotung vornehmen wollen, dann beachten Sie bitte die Hinweise in Kapitel 8.1.5. <?page no="186"?> 185 8.1 Die Entwicklung eines Bewertungsrasters am IQB 8.1.2 Umsetzung der Aufgabenstellung In Kategorie-2 Umsetzung der Aufgabenstellung geht es darum, die Lösung der Aufgabe hinsichtlich thematischer, formaler und kontextueller Aspekte zu bewerten, bevor in Kategorie-3 die sprachliche Umsetzung beurteilt wird. Dass beide Faktoren, wie bereits oben erwähnt, zwei separat zu betrachtende Dimensionen darstellen, mag folgendes Beispiel aus dem Kontext einer mündlichen Aufgabe verdeutlichen: Ein Schüler wird gebeten, über das Kaufverhalten seiner Eltern zu berichten. Ein Satz wie My parents no go shopping because no like ist weder sprachlich korrekt noch sonderlich angemessen. Allerdings erreicht die Aussage die kommunikative Absicht und erfüllt die inhaltlichen Vorgaben der Aufgabenstellung. Die Einzelaspekte der Umsetzung der Aufgabenstellung werden nicht nach GER -Niveau, sondern nach dem Grad ihrer Erfüllung beurteilt. Inhaltliche Vorgaben können entweder erfüllt werden oder nicht. Die Beurteilung der verwendeten Sprache wäre hingegen auf GER - Niveaustufen möglich. Im Folgenden finden Sie praktische Hinweise zur Arbeit mit dem Bewertungsraster, jeweils als gerahmter Text präsentiert. Inhalt Schreibaufgaben erfordern in der Regel u. a. das Bearbeiten von inhaltlichen Vorgaben (z. B. die Angabe von Größe, Alter und Farbe eines entlaufenen Hundes, siehe Aufgabe Chien perdu, Kapitel 8.2). Die geforderten Inhaltspunkte sollten in der Aufgabenstellung möglichst genannt sein, um für alle Schülerinnen und Schüler die bestmöglichen Ausgangsvoraussetzungen zu gewährleisten. Werden alle inhaltlichen Vorgaben durch die Schülerin oder den Schüler erfüllt, so kreuzen Sie bitte „trifft voll zu“ an. Sofern keine der Vorgaben erfüllt werden, kreuzen Sie bitte „trifft nicht zu“ an. Ein teilweises Zutreffen oder Nichtzutreffen beurteilen Sie bitte nach der Anzahl der erfüllten inhaltlichen Vorgaben: Sofern mehr als die Hälfte der Vorgaben erfüllt werden, gilt „trifft überwiegend zu“. In der vorliegenden Publikation finden Sie im Kapitel 8.2 Beispielaufgaben, in denen die geforderten Inhaltspunkte bereits aufgeführt sind. Vorliegende Beispiellösungen von Schülerinnen und Schülern werden mithilfe des vorgestellten Bewertungsrasters beurteilt. Sollten Sie eigene Aufgaben entwickeln und einsetzen wollen, so kann das Bewertungsraster entsprechend angepasst werden. Bitte achten Sie darauf, dass Sie Ihren Erwartungshorizont bezüglich des Inhalts vor der Bewertung der Schülerlösungen anfertigen (siehe Kapitel 7.2.11). In manchen Fremdsprachentests wird der Inhalt als Ausschlusskriterium geführt: Sobald die geforderten Inhaltspunkte nicht oder nicht in ausreichendem Maße bearbeitet wurden, wird der Schülertext nicht bewertet. Wir haben uns gegen dieses Vorgehen entschieden, da wir aus unserer Erfahrung wissen, dass Schülerinnen und Schüler auch bewertbare Texte verfassen können, ohne alle Inhaltspunkte vollständig zu bearbeiten. Allerdings ist dann <?page no="187"?> 186 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters nicht auszuschließen, dass die Schülerinnen und Schüler Vermeidungsstrategien benutzt haben. Dies kann die Interpretation der gezeigten Leistungen im Hinblick auf das jeweilige Testkonstrukt massiv erschweren. Textsorte In Testsowie in Lernaufgaben sollte der großen Bandbreite an Textsorten Rechnung getragen werden, die im Alltag und im Unterricht zum Einsatz kommen: erzählende Texte wie Geschichten, beschreibende Texte wie Broschüren, instruktive Texte wie Hinweisschilder, erklärende Texte wie Definitionen, phatische Texte wie Messenger-Nachrichten. Die Fähigkeit, spezifische inhaltliche und formelle Anforderungen unterschiedlicher Textsorten beim Schreiben zu berücksichtigen, hängt allerdings stark davon ab, welche Bedeutung Texte-- auch im außerschulischen Bereich-- für die Lernenden haben und wie häufig sie mit diversen Textsorten in Berührung kommen. Textsortenspezifität in Relation zum (textuellen) Vorwissen der Lernenden, zum sprachlichen Niveau, zur (kognitiven) Komplexität der Aufgabenstellung und zu den für die Aufgabenbearbeitung zugehörigen Rahmenbedingungen (Zeit für die Planung der Aufgaben, Überarbeitungsmöglichkeit, etc.) können die Schwierigkeit der jeweiligen Aufgabe erheblich erhöhen (siehe Kapitel 5 und 7). Es folgt ein praktischer Hinweis zur Arbeit mit dem Bewertungsraster. Der Schülertext sollte der in der Aufgabenstellung geforderten Textsorte entsprechen. Wird die Schülerin oder der Schüler beispielsweise aufgefordert, ein Bewerbungsanschreiben zu verfassen, verlangt dieses u. a. eine Anrede als konstituierendes Merkmal der Textsorte (siehe Beispiel Keeper for a day, Kapitel 8.2). Situations- und Adressatenbezug Auch der Situations- und Adressatenbezug ist ein Aufgabenmerkmal, das sich-- je nach den oben beschriebenen theoretischen Annahmen-- erleichternd oder erschwerend auf die Bearbeitung der Aufgabe auswirken kann (siehe Kapitel 7). Es folgt ein praktischer Hinweis zur Arbeit mit dem Bewertungsraster. <?page no="188"?> 187 8.1 Die Entwicklung eines Bewertungsrasters am IQB Wird die Schülerin oder der Schüler in die Situation versetzt, eine Urlaubskarte aus Florida an die Klasse zu schreiben, dann wäre die Erwähnung eines nahen Gebirges falsch. (Um die Problematik des fehlenden Weltwissens zu umgehen, sollte in diesem Beispiel die geografische Lage Floridas in der Aufgabenstellung verdeutlicht werden, z. B. durch ein Bild von einem Strand.) Für die Bewertung des Situations- und Adressatenbezugs ist lediglich die inhaltliche, jedoch nicht die sprachliche Realisierung zu berücksichtigen. Verwechslungen von formeller und informeller Anrede sind für die Umsetzung der Aufgabenstellung nicht von Belang, werden jedoch im Sinne der sprachlichen Realisierung berücksichtigt. Ist beispielsweise das französische informelle gros bisous als Schlussformel eines Bewerbungsanschreibens gewählt, so wird die Adäquatheit an dieser Stelle nicht berücksichtigt: Der Adressatenbezug ist durch das Verwenden einer Schlussformel gegeben, die Auswahl der angemessenen Schlussformel fällt in den Bereich der sprachlichen Realisierung. 8.1.3 Sprachliche Realisierung Unter Kategorie 3 wird beurteilt, ob es nicht, teilweise, überwiegend oder voll zutrifft, dass die zur Lösung der Aufgabe verwendete Sprache trotz möglicher Abweichungen von der zielsprachlichen Norm verständlich und angemessen ist. Diese Bewertung erfolgt auf der Ebene der Verständlichkeit (3.1), der Angemessenheit (3.2) mit den Kriterien Situations- und Adressatenbezug (3.2.1) sowie der Bandbreite (3.2.2) und der Kohärenz/ Kohäsion (3.3). Die orthografische, lexikalische und grammatische Sprachrichtigkeit wird in 3.4 beurteilt. Die deutliche Abtrennung der Variablen Richtigkeit ergibt sich aus dem Umstand, dass Sprachrichtigkeit nicht die Voraussetzung für verständliche und angemessene Texte darstellt. So ist ein einhundert Wörter langer Text mit 10-Fehlern, die jedoch die Kommunikation nicht behindern, nicht akkurater, sondern verständlicher als ein gleich langer Text mit 10 Fehlern, die die Kommunikation erschweren. Um zu verdeutlichen, dass es sich bei Verständlichkeit und Richtigkeit um zwei verschiedene Konstrukte handelt (siehe auch Kapitel-5), werden diese als separate Kategorien gefasst. Verständlichkeit Es folgt ein Hinweis zur praktischen Arbeit mit dem Bewertungsraster. <?page no="189"?> 188 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Im Sinne eines kompetenzorientierten Unterrichts wird die Korrektheit in ihrer Funktionalität gesehen. Wichtig ist, inwieweit die kommunikative Absicht gewahrt werden kann. Ausgangspunkt sollte dabei das Verständnis einer Person sein, die nicht Deutsch spricht. Insbesondere sogenannte False friends führen häufig zu Verwirrungen zwischen Muttersprachlern und Fremdsprachenlernern (z. B. une *glace de bierre, I *become a new toy). Kleinere Abweichungen von der zielsprachlichen Norm sind hingegen trotzdem verständlich, beispielsweise die falsche Verwendung lautsprachlich ähnlicher oder gleicher Wörter (z. B. they invited me to be *there guest; home is *were your heart is; j’ai nagé dans la *mère avec mes amis) 58 . Angemessenheit In der Kategorie Angemessenheit wird die Funktionalität der verwendeten Sprache im Hinblick auf das mit dem Text verfolgte kommunikative Ziel beurteilt. Situations- und Adressatenbezug Es folgt ein Hinweis zur praktischen Arbeit mit dem Bewertungsraster. Die in der Schülerlösung gezeigte Sprache sollte in den Kontext und Themenbereich eingebettet sein. So sollte eine private Mitteilung, in der man zum Geburtstag gratuliert, durch einen informelleren Schreibstil (z. B. tu im Französischen) gekennzeichnet sein. Ebenso sollten kulturelle Konventionen berücksichtigt werden, beispielsweise das Senden von Zuneigungsbekundungen im Französischen (z. B. je t’embrasse très fort, gros bisous). Die inhaltliche Einbettung in die Situation wird an diesem Punkt nicht mehr berücksichtigt, da sie bereits im Block Umsetzung der Aufgabenstellung bewertet wird. Ist beispielsweise das informelle gros bisous oder cheers im Englischen als Schlussformel eines Bewerbungsanschreibens gewählt, dann ist der unangemessene Gebrauch dieser Schlussformel im Rahmen des hier beschriebenen sprachlichen Situations- und Adressatenbezugs zu berücksichtigen. 58 In den Beispielen wird unterschieden zwischen Germanismen und dem Ersatz zielsprachlicher Wörter durch lautlich ähnliche, semantisch jedoch nicht passende Lexeme. Une *glace de bierre soll bedeuten: ein Glas Bier. Glace, das französische Wort für Eis, ist damit direkt dem deutschen Wort Glas entlehnt. Ähnlich verhält es sich mit I *become a new toy, was übersetzt bedeuten soll: ich bekomme ein neues Spielzeug. Das deutsche Wort bekommen wird hierbei direkt übersetzt, obwohl das englische Wort become für werden steht. In den weiteren Beispielen handelt es sich um Wörter, deren Unterschied in der Aussprache kaum hörbar ist und deren Nutzung somit trotz der falschen schriftlichen Verwendung noch die kommunikative Absicht erfüllt. Home is *were your heart is zeigt eine Verwechslung mit dem lautsprachlich ähnlichen Wort where. Das französische Beispiel verdeutlicht dies noch besser: J’ai nagé dans la *mère bedeutet ich bin in der Mutter geschwommen. Korrekt wäre das Wort mer für das Meer. <?page no="190"?> 189 8.1 Die Entwicklung eines Bewertungsrasters am IQB Bandbreite Die Bandbreite der verwendeten sprachlichen Mittel (Synonyme, Antonyme, Kollokationen, Metaphorik, Überbegriffe / Unterbegriffe, Paraphrasen, Tempus, Numerus) wird berücksichtigt. Die Bandbreite ist in Hinblick auf ihre Angemessenheit für die Aufgabenstellung zu beurteilen. Es folgt ein Hinweis zur praktischen Arbeit mit dem Bewertungsraster. Besonders leistungsstarke Schülerinnen und Schüler verfügen bereits über eine gewisse Bandbreite an thematischem Wortschatz, der beispielsweise synonym angewendet wird. Zum Aspekt der Bandbreite zählt ebenso der angemessene Gebrauch von Tempus und Numerus. Die Bandbreite sollte dabei in Abgrenzung zur Komplexität gesehen werden. Die Nutzung von inhaltlich oder linguistisch komplexen Wörtern ist nicht unbedingt ein Hinweis auf einen allgemein breiten Wortschatz. Vielmehr geht es hierbei um sprachliche Variationen. Die Bandbreite wäre erwartungsgemäß sehr gering, wenn die Schülerin oder der Schüler lediglich Wörter aus der Aufgabenstellung übernimmt. Auf den unteren Leistungsniveaus und bei Aufgaben für den Bereich A1 sollte nach eigenem Ermessen auf diesen Beurteilungspunkt verzichtet werden. Sollten Sie eine Aufgabe gewählt haben, die keine große Bandbreite zulässt, z. B. das Schreiben einer SMS , dann sollte dieses Bewertungskriterium entfallen. Kohärenz und Kohäsion Inhaltliche und sprachliche Verknüpfungen sind innerhalb der Sätze und zwischen den Sätzen gegeben. Es folgt ein Hinweis zur praktischen Arbeit mit dem Bewertungsraster. Gut verständliche Texte zeichnen sich meist durch ein (hohes) Maß an inhaltlicher Kohärenz und sprachlicher Kohäsion aus. Kohärenz kann sich bereits auf der Inhaltsebene ohne die Verwendung spezifischer kohäsionsstiftender Mittel zeigen. Schreibt eine Schülerin oder ein Schüler beispielsweise My grandmother lives in London. I cannot visit my grandmother every week, so kann man einen inhaltlichen Zusammenhang herstellen, ohne diesen explizit genannt zu bekommen. Werden beide Sätze nun durch sprachliche Mittel verknüpft (z. B. I cannot visit my grandmother every week because she lives in London), so wird zusätzlich Kohäsion erzeugt. Kohäsion kann durch Verweise (z. B. Wiederaufnahme von Wörtern oder Namen, Nutzung von Pronomina, Paraphrasen oder Synonymen), Verknüpfungen (z. B. Konjunktionen, Adverbien) und textstrukturierende Mittel wie Nummerierungen oder Spiegelstriche hergestellt werden. Auch Texte von Schülerinnen und Schülern auf den unteren Leistungsniveaus können bereits insbesondere Kohärenz, aber auch Kohäsion aufweisen. Meist wird es Ihnen jedoch nicht möglich sein, diese Aspekte auf den unteren Niveaustufen zu beurteilen. In Übereinstimmung mit dem GER werden beide Aspekte nicht getrennt, sondern gemeinsam betrachtet. <?page no="191"?> 190 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Richtigkeit Mit dem Kriterium Richtigkeit wird bewertet, ob bzw. inwieweit bestimmte Aspekte der Lernersprache mit der jeweiligen zielsprachlichen Norm übereinstimmen. Es folgt ein Hinweis zur praktischen Arbeit mit dem Bewertungsraster. In die Bewertung der Richtigkeit werden Orthografie, Grammatik und Lexik einbezogen. Im Sinne der Kompetenzorientierung verwenden wir für die Bewertung die Möglichkeiten „trifft nicht zu“ bis „trifft voll zu“. Der lange Zeit übliche Fehlerindex lässt hingegen keine alltagstauglichen Aussagen über die Sprachverwendung zu. Die Lexik ist im Sinne einer falschen referentiellen Nutzung zu verstehen. Hier besteht ein enger Zusammenhang zu dem Aspekt der Verständlichkeit. In allen unter Verständlichkeit bereits genannten Beispielen ist die Lexik nicht korrekt verwendet, jedoch kann manchmal die kommunikative Absicht erkannt werden (z. B. they invited me to be *there guest, home is *were your heart is, j’ai nagé dans la *mère avec mes amis) und manchmal nicht (z. B. une *glace de bierre, I *become a new toy). Ebenso zu nennen wäre hier der unter 8.1.2 bereits angeführte Beispielsatz My parents no go shopping because no like, der trotz grammatischer Fehler die kommunikative Absicht erfüllt. 8.1.4 Globale Bewertung: Abschließendes Urteil Ziehen Sie nach Ihrer kriterienbasierten Bewertung ein Fazit und geben Sie eine globale Beurteilung (abschließendes Urteil) ab. Sie können dafür erneut die GER -Deskriptoren aus Kapitel 5 und 6 nutzen. Die analytischen Bewertungskriterien geben Ihnen Hinweise, welche Niveaustufe von der Schülerin / dem Schüler erreicht wird. Es ist nicht vorgesehen, dass Sie die numerischen Bewertungen zu den einzelnen Kriterien zusammenzählen und auf diese Weise zu einem Ergebnis kommen. Selbstverständlich steht es Ihnen jedoch offen, für Ihre Bewertung je nach unterrichtlichem Schwerpunkt und Zielsetzung einzelne Kriterien stärker zu gewichten (siehe Ausführungen in Kapitel-8.1). Die Beurteilung mithilfe der analytischen Kriterien ist deutlich aufgabenbezogener als die globale Beurteilung im abschließenden Urteil, das eher die gesamte Schreibleistung der Schülerin oder des Schülers in den Blick nimmt. Es ist möglich, dass Sie bei Ihrem abschließenden Urteil Diskrepanzen zu den Einzelbewertungen vorfinden: So müssen Schülerinnen und Schüler, die in vielen Unterbereichen ein „trifft völlig zu“ erreicht haben, nicht unbedingt auf der höchsten Kompetenzstufe verortbar sein. Beispielsweise können sämtliche Inhaltspunkte berücksichtigt worden sein (somit „trifft völlig zu“), ohne dass eine Leistung auf der GER -Stufe B1 (oder je nach Aufgabe höher) vorliegt. Eine tendenziell niedrige Bewertung auf der vierstufigen Skala führt in den meisten Fällen jedoch dazu, dass eine niedrigere GER -Stufe vergeben wird. Weicht Ihr abschließendes Urteil vom ersten Gesamteindruck ab, dann stellen Sie sich folgende Fragen: <?page no="192"?> 191 8.1 Die Entwicklung eines Bewertungsrasters am IQB ▶ In welchem Bereich hat die Schülerin / der Schüler besser oder schlechter abgeschnitten als von mir nach dem ersten Lesen erwartet? ▶ Habe ich mich beim ersten Lesen von Einzelfaktoren wie dem Schriftbild beeinflussen lassen? ▶ Welche besonderen Stärken und Schwächen zeigen sich im Schülertext? Reflektieren Sie Ihr abschließendes Urteil hinsichtlich der Gewichtung. Überlegen Sie, was die ursprüngliche Intention der Bewertung mit dem Bewertungsraster war. Für manche Fragestellungen genügt ein grober Verweis auf die GER -Skala Schriftliche Produktion allgemein (siehe Kapitel 5); z. B. sollte eine Schülerin oder ein Schüler auf der GER -Stufe A2 in der Lage sein, eine Entschuldigung in einem einfachen persönlichen Brief zu formulieren. Für ein spezifisches Feedback können auch stärker die GER -Subskalen (siehe Kapitel 5) genutzt werden, z. B. zum Bereich Wortschatzbeherrschung. Unter Umständen lohnt es sich auch, weitere Bewertungsraster heranzuziehen, die Ihnen aus Ihrer Lehrtätigkeit bekannt sind. Allgemeine Hinweise zum Bewerten von Schreibleistungen und Anregungen für Ihre Arbeit finden Sie auch im Kapitel 6. Bitte berücksichtigen Sie in der Interpretation der Ergebnisse, dass Schülerinnen und Schüler, die lediglich Aufgaben auf unterem Niveau vorgelegt bekommen, eventuell nicht ihre tatsächlichen Kompetenzen zeigen können. Die tatsächliche Leistungsfähigkeit wird dann durch die Unterforderung unterschätzt. So können beispielsweise leistungsstarke Schülerinnen und Schüler nur bedingt ihre Wortschatzkenntnisse zeigen, wenn sie gebeten werden, eine Postkarte mit 30 Wörtern zu schreiben. 8.1.5 Benotung Das Bewertungsraster ist in erster Linie zur Ermittlung und Rückmeldung des Grades der Kompetenzerfüllung gedacht. Sollten Sie dennoch eine Benotung vornehmen wollen, dann sollten Sie grundsätzlich auf Aufgaben zurückgreifen, die tendenziell von der gesamten Klasse bearbeitet werden können, jedoch sowohl leistungsstarke als auch leistungsschwache Schülerinnen und Schüler fordern. Dies bedeutet für Sie eine besondere Sorgfalt bei der Auswahl geeigneter Aufgaben, die ein breites Leistungsspektrum abbilden können. Setzen Sie sich für die Benotung eigene Schwerpunkte, z. B. konzentrieren Sie sich auf die Verständlichkeit. Vergeben Sie die Note nach dem Zutreffen der einzelnen Punkte. Eine Schülerleistung, bei der Sie überwiegend „trifft voll zu“ angekreuzt haben, sollte dementsprechend gewürdigt werden. Welche Punkte Sie benoten wollen, sollten Sie im lokalen Kontext entscheiden, z. B. allein oder in Absprache mit Kolleginnen und Kollegen der Fachschaft. Die Entscheidung sollte dabei abhängig von der Gewichtung der einzelnen Kriterien in Hinblick auf den vorausgehenden Unterricht fallen. Sollten Sie beispielsweise Konnektoren in den letzten Unterrichtsstunden behandelt haben, so kann es sinnvoll sein, die Kriterien Kohärenz und Kohäsion zu fokussieren. Manche Aufgaben eignen sich auch besser für die inhaltliche Arbeit als andere. Eventuell haben Sie in den letzten Wochen das Verfassen eines Bewerbungsschreibens geübt <?page no="193"?> 192 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters und entscheiden sich nun für eine stärkere Gewichtung des Situations- und Adressatenbezugs. Im Folgenden finden Sie eine mögliche Benotungsvariante, die lediglich als Vorschlag gesehen werden sollte. Je nach Ihrem Unterrichtsfokus sollte die Benotung variiert werden. Bei der Benotung sollten Sie auch beachten, ob für Sie weitere Regularien wie lokale Umrechnungsschlüssel gelten. Bitte bedenken Sie auch, dass eine Einzelnote im Fall einer Schülerin oder eines Schülers mit schwankenden Leistungen wenig aussagekräftig sein kann und möglicherweise durch Hinweise zu einzelnen Stärken und Schwächen der Schülerin oder des Schülers ergänzt werden sollte. Für eine Benotung aller Aspekte sei empfohlen, die einzelnen Kriterien unter Kategorie 2 und 3 mit den Werten 1 für „trifft nicht zu“ bis 4 für „trifft voll zu“ zu bewerten. trifft nicht zu trifft teilweise zu trifft überwiegend zu trifft voll zu 2.1 Inhalt □ 1 □ 2 □ 3 □ 4 Bei einer Gleichgewichtung aller Kriterien zählen Sie dann die Punkte des Schülers oder der Schülerin für die acht Kriterien (Inhalt bis Richtigkeit) zusammen. Sollten Sie einzelne Aspekte stärker gewichten wollen, dann passen Sie die Gewichtung entsprechend an, z. B. vergeben Sie die doppelte Punktzahl für Inhalt und die halbe Punktzahl für Bandbreite: trifft nicht zu trifft teilweise zu trifft überwiegend zu trifft voll zu 2.1 Inhalt □ 2 □ 4 □ 6 □ 8 3.2.2 Bandbreite □ 0,5 □ 1 □ 1,5 □ 2 Für die Notenfindung könnten Sie beispielsweise die folgende Tabelle nutzen, die auf gängigen prozentualen Notenzuordnungen basiert. Erreichte Punktzahl in Prozent (Anteil Gesamtpunktzahl) Note > 95 % 1 > 80 % 2 > 60 % 3 > 40 % 4 > 20 % 5 < 20 % 6 Tabelle 1: Prozentuale Zuordnung zu Noten <?page no="194"?> 193 8.2 Kommentierung von Schülerlösungen Sofern Sie diese Prozentangaben für Ihre Notenvergabe nutzen möchten und das von uns zur Verfügung gestellte Bewertungsraster mit 32 möglichen Gesamtpunkten (einfache Gewichtung aller Kriterien) ausgewählt haben, so wäre die folgende Notentabelle denkbar: Erreichte Punktzahl Note 30-32 1 26-29 2 19-25 3 14-18 4 8-12 5 unter 8 oder keine Beurteilung möglich 6 Tabelle 2: Notentabelle Die Arbeit mit dem Bewertungsraster unterstützt ein Feedback, das zur Weiterentwicklung der Schreibkompetenz anregen soll. Hinweise zum Feedback finden Sie in Kapitel 9. Im weiteren Verlauf dieses Kapitels stellen wir Ihnen Beispielaufgaben und dazugehörige Schülerlösungen vor. Sie finden im Folgenden sowohl Beispiele für das Fach Englisch als auch für das Fach Französisch. Alle Aufgaben wurden aufwendig erprobt. Aus bis zu 2.000 Schülerlösungen pro Aufgabe haben wir eine Auswahl an Beispieltexten getroffen, die das Bewerten mithilfe des vorgestellten Bewertungsrasters illustrieren. 8.2 Kommentierung von Schülerlösungen Elke Philipp & Günther Sommerschuh Nachdem im Kapitel 8.1 das von uns erarbeitete Bewertungsraster vorgestellt wurde, möchten wir Ihnen nun anhand von authentischen Schülerlösungen Hinweise zur Bewertung mit dem Raster geben. Sie finden in diesem Kapitel Kommentierungen zu drei Aufgaben aus dem Bereich Englisch und vier Aufgaben aus dem Bereich Französisch. Nach der Kommentierung der Schülerbeiträge erfolgt eine Bewertung mithilfe des vorgestellten Rasters. In den Kommentierungen werden jeweils die intendierten Aufgabenniveaus genannt, d. h. die GER -Niveaus, die bei der Überprüfung der Schreibkompetenzen der Schülerinnen und Schüler im Fokus stehen. Die gezeigten Aufgaben wurden nach einem Bi-Level-Ansatz entwickelt (zur Unterscheidung der unterschiedlichen Ansätze siehe Kapitel 5.4.7), d. h. die Aufgaben fokussieren zwei aufeinanderfolgende Niveaustufen-- und zwar im vorliegenden Fall A2 und B1. Das vorgestellte Raster erlaubt, die Schülerlösungen auf den fokussierten Niveaus A2 und B1 zu verorten und dabei sowohl zwischen als auch innerhalb von A2 und B1 zu differenzieren. Liegt die Leistung nicht im fokussierten Bereich A2 / B1, ist allerdings nur die globale Aussage möglich, dass die beobachtete Leistung unter A2 oder über B1 liegt. Eine exakte Zuordung z. B. zum Niveau C1 ist nicht möglich. <?page no="195"?> 194 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Die unterschiedlichen Kriterien des Bewertungsrasters (im Folgenden mit K bezeichnet) haben nicht in jeder der besprochenen Aufgabe das gleiche Gewicht. Häufig sind der Situations- und Adressatenbezug bedeutsamer als die sprachliche Richtigkeit. In manchen Textsorten (offizielle Briefe, Artikel für Schülerzeitschriften-…) spielt hingegen die sprachliche Richtigkeit eine wichtige Rolle. Das bedeutet, dass die Gesamtbewertung nicht aus der Zahl der angekreuzten Angaben („trifft voll zu“ usw.) arithmetisch errechnet werden sollte, sondern je nach eigenem Schwerpunkt bei der Berechnung zu gewichten ist. Darüber hinaus kann die Vorbereitung auf eine Schreibaufgabe im Unterricht einer Klasse bestimmte Schwerpunkte (z. B. Adressatenbezug) setzen, die dann einzelnen Kriterien ein größeres Gewicht geben als in einer Parallelklasse, die ohne die unterrichtliche Vorarbeit dieselbe Schreibaufgabe bearbeitet. Sollten Sie eine der Aufgaben für eine Ihrer Klassen 7-10 auswählen, dann können Sie die Ergebnisse Ihrer Schülerinnen und Schüler sehr gut mit den hier kompilierten Bearbeitungen vergleichen. Darüber hinaus können Sie natürlich auch Ihrer Lerngruppe einzelne Beispiele von den Schülertexten vorlegen und sie bitten, mit Hilfe des Bewertungsrasters eine Einordnung vorzunehmen. Auf diese Weise kann der Blick geschärft werden, um schon in der Aufgabenstellung die entsprechenden Signale zu erkennen, die bei der Bearbeitung aufgegriffen werden sollten. Bei der Aufgabe Keeper for a day (siehe Kapitel-8.2.1.3) kann z. B. aufgrund der Formulierung des zweiten Unterpunkts (…-tell him, why you like this animal best) der Einsatz von Adjektiven bzw. Adverbien in der Komparativ- und Superlativform angeregt werden. Ferner sollte der implizierte Konditionalsatz im letzten Unterpunkt derselben Aufgabe (…-tell him, what you would like to do-…) erkannt und benutzt werden. Bei der Parallelaufgabe für das Fach Französisch Soigneur d’animaux (siehe Kapitel 8.2.2.4) ist in der Aufgabenstellung mit der Formulierung …-des exemples de ce que tu pourras faire-… das futur simple vorgegeben und sollte daher bei der Umsetzung verwendet werden. Ebenso ist es für Sie wichtig bei übernommenen Aufgaben aufgrund der Aufgabenformulierungen zu antizipieren, welche sprachlichen Mittel gefordert sind und inwieweit diese dem Lernstand Ihrer Klasse entsprechen. Sollte Letzteres nicht der Fall sein, können Sie die Aufgabenstellung so umformulieren, dass die Aufgabe z. B. auch mit geringerer Wortschatzbreite oder weniger komplexen grammatischen Strukturen bewältigt werden kann. Sie werden auch bei Ihren Schülerinnen und Schülern beobachten, dass die Angabe von Gründen für eine bestimmte Entscheidung, z. B. das Geburtstagsgeschenk für die Großmutter, deutlich anspruchsvoller und damit auch risikoreicher ist als lediglich die Entscheidung zu benennen oder bestimmte Sachverhalte aufzulisten. Die Aufgabe Birthday present (s. Kapitel 8.2.1.1) ist als sogenannte Bi-Level-Aufgabe auf dem intendierten Aufgabenniveau ein gutes Beispiel dafür, wie bei marginaler Berücksichtigung der geforderten Begründungen eher auf A2-Niveau, sonst auf B1-Niveau gearbeitet werden kann. Als Beispiel für Französisch soll nochmals die Aufgabe Soigneur d’animaux dienen, die für das Niveau B1 konzipiert wurde. Die vorliegenden Schülertexte haben gezeigt, dass diese Aufgabe durchaus schon auf Niveau A2 lösbar ist, wenn einfache Modalverben zum Ausdruck von Wünschen und Plänen genutzt werden und auf Konditionalsätze und Steigerungen verzichtet wird. Genauso ist diese Aufgabe auf höheren Niveaus als B1 lösbar, wie Beispieltext 1 zeigt. <?page no="196"?> 195 8.2 Kommentierung von Schülerlösungen Sie werden bemerken, dass sich die Akzentuierung in den Kommentaren für Englisch und Französisch teilweise unterscheidet. Unabhängig von der unterschiedlichen Autorenschaft der Kapitel spiegeln sich darin auch die besonderen Schwierigkeiten wider, die die Lernenden in der jeweiligen Sprache haben. Eine Schreibaufgabe liegt mit identischen Anforderungen und Inhalten auf Englisch und Französisch vor (Keeper for a day / Soigneur d’animaux). Es ist sicherlich reizvoll, Schülerinnen und Schülern, die sowohl Englisch als auch Französisch lernen, beide Fassungen zu geben. Auf diese Weise können die Lernenden vergleichen, welche sprachlichen Bereiche bei der Aufgabenbewältigung benötigt werden und welche sprachlichen Phänomene in der einen oder anderen Sprache leichter bzw. schwerer zu realisieren sind. Mit diesem Vorgehen wird auch ein Beitrag zur Entwicklung der in den Bildungsstandards für die fortgeführte Fremdsprache für die allgemeine Hochschulreife geforderten Bereiche Sprachbewusstheit und Sprachlernkompetenz geleistet. Beide Aufgaben werden in Kapitel 8.3 noch genauer betrachtet. <?page no="197"?> 196 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters 8.2.1 Kommentierung von Schülerlösungen für das Fach Englisch Günther Sommerschuh 8.2.1.1 Aufgabe „Birthday Present” (intendiertes Aufgabenniveau: A2 / B1) Birthday Present You are going to visit your granny in England for her 60th birthday. You and your English cousin Andrew want to buy a present for her. He has sent you an email with some ideas: Send your cousin an email and · say which present you like best and why · explain why you would not choose the other ones · talk about other ideas you have for your granny’s birthday Write a minimum of 40 words. Beispiel 1 <?page no="198"?> 197 8.2 Kommentierung von Schülerlösungen Erster Gesamteindruck: A2 K 1 Umsetzung der Aufgabenstellung K 1.1 Inhalt Die in der Aufgabenstellung geforderten Punkte sind vollständig bearbeitet, wobei die eigene Idee für ein Geschenk aufgrund des falschen Tempus missverständlich sein kann (Granni likes a bottle of Irish Whiskey). K 1.2 Textsorte Die Anforderungen der Textsorte (informelle Email) sind überwiegend erfüllt: • Die Anrede entspricht den Konventionen (Hey Andrew). • Es fehlt ein Einleitungssatz, der den Adressaten anspricht. • Die Grußformel entspricht nur z. T. den Konventionen, da der eigene Name fehlt. K 1.3 Situations- und Adressatenbezug Der in der Aufgabenstellung genannte Kontext wird einbezogen, der Adressatenbezug ist erkennbar. K 2 Sprachliche Realisierung K 2.1 Verständlichkeit Der Text ist aufgrund mehrerer Interferenzen mit der Muttersprache und Abweichungen von der zielsprachlichen Norm z. T. nicht verständlich: then = denn? wheres = wäre? what for = was für I thing = ich denke K 2.2 Angemessenheit K 2.2.1 Situations- und Adressatenbezug Das informelle Register ist der Textsorte angemessen (hey Andrew, see you lader). Die kulturelle Konvention würde nach der Anrede noch einen Satz fordern, der sich an den Adressaten wendet. K 2.2.2 Bandbreite Die Bandbreite der sprachlichen Mittel Wortschatz und Satzbau ist begrenzt (wiederholte Verwendung von I thing). <?page no="199"?> 198 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters K 2.3 Kohärenz/ Kohäsion Die inhaltlichen und sprachlichen Verknüpfungen sind z. T. gegeben, auch wenn sie für einen englischsprachigen Leser ohne Deutschkenntnisse aufgrund der o. g. Germanismen u. U. nicht verständlich wären. K 2.4 Richtigkeit Lexik, Grammatik und Orthografie werden häufig nicht entsprechend der zielsprachlichen Norm verwendet. Besonders auffällig ist dies bei der Groß-/ Kleinschreibung (I Thing the Best Pressent for granny is a Book-…). K 4 Abschließendes Urteil: A2 Beispiel 2 Erster Gesamteindruck: A2 K 1 Umsetzung der Aufgabenstellung K 1.1 Inhalt Die in der Aufgabenstellung geforderten Punkte sind vollständig bearbeitet. <?page no="200"?> 199 8.2 Kommentierung von Schülerlösungen K 1.2 Textsorte Die Anforderungen der Textsorte (informelle Email) sind erfüllt (Anrede, Grußformel am Schluss). Die Konvention würde noch einen Einleitungssatz verlangen, z. B. How are you? K 1.3 Situations- und Adressatenbezug Der in der Aufgabenstellung genannte Kontext wird einbezogen, wobei der erste Satz nicht berücksichtigt, dass diese Mail die Antwort auf die Mail von Andrew ist. Der Adressatenbezug ist erkennbar. K 2 Sprachliche Realisierung K 2.1 Verständlichkeit Der Text ist trotz der Abweichungen von der zielsprachlichen Norm (z. B. opern für operas) noch verständlich. Eine Ausnahme bildet What think about you? , das im Kontext aber auch für Leser ohne Deutschkenntnisse erschließbar ist. K 2.2 Angemessenheit K 2.2.1 Situations- und Adressatenbezug Das informelle Register ist der Textsorte angemessen (hi). Die Schlussformel wirkt altmodisch (your cousin Lisa). Der Adressat wird mit der Frage What think about you? direkt angesprochen. K 2.2.2 Bandbreite Die Bandbreite in Wortschatz und Satzbau ist dem intendierten Niveau angemessen (wiederholte Verwendung von I think, can, because). K 2.3 Kohärenz/ Kohäsion Die inhaltlichen und sprachlichen Verknüpfungen (z. B. eingestreute Fragen: What can we-…/ What think-…/ Or we can-…) sind gegeben. K 2.4 Richtigkeit Anders als bei der Lexik und der Orthografie wird die Grammatik häufig nicht entsprechend der zielsprachlichen Norm verwendet und ist stark fehlerhaft, z. T. durch das Bemühen um inhaltliche Klärung: Verwendung des Komparativs (a birthday cake are bett) und Formulierung eines Vorschlags (Or we can make a card and write she has an day with us), für dessen gelungene Realisierung die nötigen Strukturen fehlen. Schwierigkeiten im Gebrauch von Singular / Plural (an book are, a birthday cake are, a opern vist are) und des unbestimmten Artikels (an book, an day, a opern). K 4 Abschließendes Urteil: A2 <?page no="201"?> 200 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Beispiel 3 Erster Gesamteindruck: B1 K 1 Umsetzung der Aufgabenstellung K 1.1 Inhalt Die in der Aufgabenstellung geforderten Punkte sind bearbeitet. K 1.2 Textsorte Die Anforderungen der Textsorte (informelle Email) sind erfüllt: Anrede, Einleitungssatz, der auf die Ideen des Cousins eingeht und das Bemühen um eine Grußformel am Schluss. K 1.3 Situations- und Adressatenbezug Der in der Aufgabenstellung genannte Kontext wird ebenso wie der Adressatenbezug durchgängig berücksichtigt. K 2 Sprachliche Realisierung K 2.1 Verständlichkeit Der Text ist trotz der Abweichungen von der zielsprachlichen Norm (z. B. I will find’s it great when) fast durchgängig verständlich. Eine Ausnahme bildet das vom Deutschen beeinflusste the cake is not so good then Granny don‘t like cake. Die Formulierung the flowers are too small ist im Kontext auch für nicht Deutsch-Muttersprachler erschließbar. <?page no="202"?> 201 8.2 Kommentierung von Schülerlösungen K 2.2 Angemessenheit K 2.2.1 Situations- und Adressatenbezug Das informelle Register ist der Textsorte angemessen (hello). Die Schlussformel (your Jasmin) ist ein Germanismus. Der Adressat wird mit Fragen (Have you some other ideas? , You? ) und der Bitte um eine Antwort (…-send me a E-mail back) direkt angesprochen. K 2.2.2 Bandbreite Die Bandbreite der sprachlichen Mittel ist besonders im Satzbau gegeben: Verwendung u. a. von Konditional (I would say / I would not choose) und Passiv (was crashed). K 2.3 Kohärenz/ Kohäsion Die inhaltlichen (Verweis auf die defekte Lampe) und sprachlichen Verknüpfungen (and, or, because, when und das falsch benutzte then) sind verwendet. K 2.4 Richtigkeit Lexik, Grammatik und Orthografie werden nicht durchgängig entsprechend der zielsprachlichen Norm verwendet. Alterstypisch ist der fehlerhafte Gebrauch der 3. Person Präsens (she read / don’t like) sowie Übergeneralisierungen (lot’s / I will find’s) K 4 Abschließendes Urteil: B1 Zusammenfassung Kriterium Beispiel 1 Beispiel 2 Beispiel 3 1 Erster Gesamteindruck A2 A2 B1 2 Umsetzung der Aufgabenstellung 2.1 Inhalt trifft voll zu trifft voll zu trifft voll zu 2.2 Textsorte trifft überwiegend zu trifft voll zu trifft voll zu 2.3 Situations-und Adressatenbezug trifft überwiegend zu trifft überwiegend zu trifft voll zu 3 Sprachliche Realisierung 3.1 Verständlichkeit trifft teilweise zu trifft teilweise zu trifft voll zu 3.2 Angemessenheit 3.2.1 Situations-und Adressatenbezug trifft teilweise zu trifft überwiegend zu trifft voll zu 3.2.2 Bandbreite trifft nicht zu trifft überwiegend zu trifft voll zu 3.3 Kohärenz/ Kohäsion trifft teilweise zu trifft voll zu trifft voll zu 3.4 Richtigkeit trifft nicht zu trifft teilweise zu trifft überwiegend zu 4 Abschließendes Urteil A2.1 A2.2 B1.1 <?page no="203"?> 202 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Kommentar zur Aufgabenstellung: ▶ Authentischer Kontext ist gegeben; ▶ Die geforderte Begründung der abgelehnten Geschenkideen und die Aufforderung zusätzliche Ideen zu nennen ist in der vorgegebenen Mindestwortzahl (40 Wörter) nicht zu schaffen; ▶ Chat wäre geeigneteres Format; ▶ Möglichkeit zur Differenzierung: Leistungsschwächere Schülerinnen und Schüler bearbeiten nur die erste Teilaufgabe ohne den Begründungsteil und die dritte Teilaufgabe. 8.2.1.2 Aufgabe „Exchange Visit“ (intendiertes Aufgabenniveau: A2 / B1) Exchange Visit It is the last day of your exchange visit to Britain. You get up and go into the kitchen where you find a note on the table from your exchange partner’s mum. Write a reply to her note. Answer all her questions. Write 40 - 60 words. Hello Toni, I had to go to work early today but will be home before you get back from school. What do you want to take with you for the journey back to Germany? What do you want to eat and drink? Can I get you any little presents for you to take back for your family or friends, or have you got everything? Please write me a list of the things you still need and who they are for. See you later, Sue <?page no="204"?> 203 8.2 Kommentierung von Schülerlösungen Beispiel 1 Erster Gesamteindruck: B1 K 1 Umsetzung der Aufgabenstellung K 1.1 Inhalt Die in der Aufgabenstellung geforderten Punkte sind bearbeitet. K 1.2 Textsorte Die Anforderungen der Textsorte (informelle note) sind teilweise erfüllt: • die Anrede ist vielleicht eine Textübernahme (your partner’s mum) • es fehlt eine Grußformel bzw. der Name am Ende K 1.3 Situations- und Adressatenbezug Der in der Aufgabenstellung genannte Kontext wird klar einbezogen. Der Adressatenbezug ist deutlich erkennbar. K 2 Sprachliche Realisierung K 2.1 Verständlichkeit Der Text ist mit Ausnahme des letzten Satzes mühelos verständlich, wobei die falsche Präposition on anstelle von for durch den Kontext (the journey) erschließbar ist, ebenso das if anstelle von when in der Passage if I wake up. <?page no="205"?> 204 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters K 2.2 Angemessenheit K 2.2.1 Situations- und Adressatenbezug Das informelle Register ist der Textsorte angemessen (hey mum). Der Gebrauch der Konditionalsätze (It is no problem if you not at home / If you go to) belegt die genaue Erfassung der Situation. Die Formulierung I hope it is ok for you unterstreicht die Sensibilität des Gastes. Man würde wohl eher das höflichere could anstelle von can verwenden. K 2.2.2 Bandbreite Die Bandbreite zeigt sich besonders bei der Variation des Satzbaus (Abwechslung einfacher und komplexer Aussagesätze). K 2.3 Kohärenz/ Kohäsion Die inhaltlichen und sprachlichen Verknüpfungen sind u. a. durch Konditionalsätze (If you go to the supermart) und die (vermutlich) indirekte Frage gegeben (On the journey can you make-…) sowie durch die Sequenzmarker (after school / at home at 8 pm). K 2.4 Richtigkeit Lexik, Grammatik und Orthografie werden häufig entsprechend der zielsprachlichen Norm verwendet. Abschließendes Urteil: B1 Beispiel 2 <?page no="206"?> 205 8.2 Kommentierung von Schülerlösungen Erster Gesamteindruck: A2 K 1 Umsetzung der Aufgabenstellung K 1.1 Inhalt Trotz der Kürze sind alle in der Aufgabenstellung geforderten Punkte bearbeitet. K 1.2 Textsorte Die Anforderungen der Textsorte (informelle note) sind erfüllt. Die Anrede ist u. U. eine Textübernahme der Vorlage. K 1.3 Situations- und Adressatenbezug Der in der Aufgabenstellung genannte Kontext wird klar einbezogen. K 2 Sprachliche Realisierung K 2.1 Verständlichkeit Der Text ist trotz der Abweichungen von der Norm (u. a. fehlendes Subjekt-… I have everything that need.) mühelos verständlich. Der Germanismus breads erklärt sich aus dem Kontext. K 2.2 Angemessenheit K 2.2.1 Situations-und Adressatenbezug Die Sprache übernimmt das informelle Register (hello, see you later) der Vorlage. Der zweifache Dank (Thanks Sue but I have / and thanks for everything again) belegt die Beherrschung der relevanten Konventionen. K 2.2.2 Bandbreite Die Bandbreite ist aufgrund der Kürze nicht beurteilbar. K 2.3 Kohärenz/ Kohäsion Die vorliegende Kohärenz ergibt sich aus der direkten Anbindung (Thanks Sue but I have everything that need) an die Fragen der Vorlage (…-or have you got everything? ) K 2.4 Richtigkeit Lexik, Grammatik und Orthografie werden weitgehend entsprechend der zielsprachlichen Norm verwendet. Abschließendes Urteil: A2 <?page no="207"?> 206 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Beispiel 3 Erster Gesamteindruck: A2 K 1 Umsetzung der Aufgabenstellung K 1.1 Inhalt Trotz der Kürze sind die in der Aufgabenstellung geforderten Punkte bearbeitet. K 1.2 Textsorte Die Anforderungen der Textsorte (informelle note) sind teilweise erfüllt, es fehlt die Schlussformel. K 1.3 Situations- und Adressatenbezug Der in der Aufgabenstellung genannte Kontext ist sichtbar. K 2 Sprachliche Realisierung K 2.1 Verständlichkeit Der Text ist mit Ausnahme der Passage You don’t buy present trotz der anderen Abweichungen von der Norm verständlich. Der Text zeigt Versuche etwas auszudrücken, wofür die Redemittel (z. B. present perfect und das Modalverb needn’t) noch nicht vorliegen (and the gift you give at / you don’t buy). K 2.2 Angemessenheit K 2.2.1 Situations- und Adressatenbezug Die Schülerin bzw. der Schüler übernimmt das informelle Register (hello) der Vorlage. Sehr stimmig wird der gesteckte Rahmen mit Inhalt gefüllt (and the gift you give at my first day). K 2.2.2 Bandbreite Die Bandbreite ist aufgrund der Kürze nicht beurteilbar. <?page no="208"?> 207 8.2 Kommentierung von Schülerlösungen K 2.3 Kohärenz/ Kohäsion Die Kohärenz ist durch den Verweis auf das Geschenk vom ersten Tag und die Verwendung von already grundsätzlich gegeben. K 2.4 Richtigkeit Die Lexik und die Orthografie werden weitgehend entsprechend der zielsprachlichen Norm verwendet; die Grammatik weist viele Fehler auf. Höflichkeitswendungen wie z. B. I’d like anstelle von I want werden noch nicht beherrscht. Ebenso scheint der Gebrauch von den hier idiomatisch angemesseneren contracted forms (I’ll anstelle von I will; I’ve got anstelle von I have) noch nicht geläufig zu sein. Abschließendes Urteil: A2 Beispiel 4 <?page no="209"?> 208 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Erster Gesamteindruck: A2 K 1 Umsetzung der Aufgabenstellung K 1.1 Inhalt Dieser Text geht durch die Zusatzideen inhaltlich über das Geforderte hinaus. K 1.2 Textsorte Die Anforderungen der Textsorte (informelle note) sind erfüllt: die Schülerin oder der Schüler verwendet eine angemessene Anrede und Schlussformel. K 1.3 Situations- und Adressatenbezug Der in der Aufgabenstellung genannte Kontext wird durchgängig sichtbar. Es ist bemerkenswert, wie stark die Rollenübernahme sowie die Identifikation mit der Situation (z. B. Bitte an die Gastmutter, die Wäsche zu waschen) sichtbar sind. K 2 Sprachliche Realisierung K 2.1 Verständlichkeit Der Text enthält relativ wenige Abweichungen von der Norm und ist durchgängig gut verständlich. K 2.2 Angemessenheit K 2.2.1 Situations- und Adressatenbezug Die Schülerin bzw. der Schüler übernimmt das informelle Register (hey) der Vorlage. Der Adressatenbezug wird intensiv hergestellt (Welcome back from work). Auffällig ist auch die dialogische Struktur, die unmittelbar auf die note der Gastmutter eingeht: No, it’s nice of you but-…/ Oh, yes sure, before I forget it-… Die Wendung best wishes erscheint zwar etwas formell, vermeidet aber die Textübernahme der Vorlage. K 2.2.2 Bandbreite Die Bandbreite der sprachlichen Mittel entspricht dem Niveau A2 des ersten Gesamteindrucks: Es erfolgt eine häufige Wiederholung von need. Höflichkeitswendungen (could anstelle von can you write sowie die Ergänzung von please) sind noch nicht geläufig. K 2.3 Kohärenz/ Kohäsion Die Kohäsion und Kohärenz sind u. a. durch den dialogischen Charakter, das unmittelbare Reagieren auf die note der Gastmutter durch den Gebrauch von Interjektionen (No, Oh) und den Einsatz der Konjunktionen so (it would be nice if-…) und before (I forget it-…) gegeben. <?page no="210"?> 209 8.2 Kommentierung von Schülerlösungen K 2.4 Richtigkeit Die Lexik, Grammatik und Orthografie werden weitgehend entsprechend der zielsprachlichen Norm verwendet. Die Verwendung des Konditional II zeigt eine teilweise Beherrschung dieser Konstruktion (Konditionalform im Hauptsatz und Präsensform im Nebensatz). Abschließendes Urteil: A2.2 A2.2 Zusammenfassung Kriterium Beispiel 1 Beispiel 2 Beispiel 3 Beispiel 4 1 Erster Gesamteindruck B1 A2 A2 A2 2 Umsetzung der Aufgabenstellung 2.1 Inhalt trifft voll zu trifft voll zu trifft voll zu trifft voll zu 2.2 Textsorte trifft überwiegend zu trifft voll zu trifft überwiegend zu trifft voll zu 2.3 Situations- und Adressatenbezug trifft voll zu trifft voll zu trifft voll zu trifft voll zu 3 Sprachliche Realisierung 3.1 Verständlichkeit trifft voll zu trifft voll zu trifft überwiegend zu trifft voll zu 3.2 Angemessenheit 3.2.1 Situations- und Adressatenbezug trifft voll zu trifft voll zu trifft voll zu trifft voll zu 3.2.2 Bandbreite trifft voll zu wegen Kürze nicht bewertbar wegen Kürze nicht bewertbar trifft teilweise zu 3.3 Kohärenz/ Kohäsion trifft voll zu trifft teilweise zu trifft überwiegend zu trifft voll zu 3.4 Richtigkeit trifft voll zu trifft überwiegend zu trifft überwiegend zu trifft voll zu 4 Abschließendes Urteil B1.1 A2.1 A2.1 A2.2 Kommentar zur Aufgabenstellung ▶ Authentischer Kontext ist gegeben; ▶ Adressat, Schreibanlass und Textsorte sind altersangemessen; ▶ Reply ist keine definierte Textsorte; ▶ Die note von Susan kann als Modell für Textsorte dienen; ▶ Die geforderten Unterpunkte (food, drink und presents) wiederholen sich in den Absätzen von Sues note; <?page no="211"?> 210 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters ▶ Wenn der Gastschüler / die Gastschülerin schon alles hat, erübrigt sich die geforderte Liste am Ende; ▶ Unklare bzw. doppelte Aufgabenstellung: Die Aufgabenstellung erfordert die Beantwortung aller Fragen; in der Notiz der Gastmutter fordert sie den Gast dagegen auf, eine Liste zu schreiben; ▶ Möglichkeit der Textübernahme aus der Vorlage (z. B. hello, see you later); ▶ Möglichkeit zur Differenzierung: Leistungsstärkere Schülerinnen und Schüler schreiben einen Fließtext, leistungsschwächere verfassen eine Liste mit Einwort-Antworten zu den gestellten Fragen bzw. können in den Lücken der Vorlage jeweils mit Stichworten die Fragen beantworten. 8.2.1.3 Aufgabe „Keeper for a day“ (intendiertes Aufgabenniveau: A2 / B1) Bisher wurden in Kapitel 8.2.1 vollständige Schülertexte dokumentiert und gemäß der Kategorien des Bewertungsrasters kommentiert. Aus der Vielzahl der konkreten Schülerprodukte werden im vorliegenden Kapitel mit Blick auf die Kriterien Textsorte, Situations- und Adressatenbezug sowie Bandbreite der sprachlichen Mittel jeweils mehrere relevante Ausschnitte im Vergleich vorgestellt und kommentiert. Ohne Anspruch auf Vollständigkeit illustrieren sie die vielfältigen sprachlichen Möglichkeiten, auf die Aufgabenstellung zu reagieren. Die Begrüßungsformulierungen in der geforderten Textsorte (Bewerbungsbrief) an den Adressaten (den verantwortlichen Tierpfleger) reichen von der angemessenen Wendung Dear Mr Lindsay, unüblichen Verwendungen des Vornamens in der Anrede Good morning, Mr. George Lindsay, dem hier zu informellen Hi Mr. George Lindsay bis zum nicht akzeptablen Hello London Zoo bzw. Hello you Keeper. Die Formulierung in der Aufgabenstellung Write a letter to Mr George Lindsey lädt u. U. dazu ein, die Anrede entsprechend zu gestalten. Gelungene Situationsbezüge beinhalten einen Einleitungssatz, der im present perfect (ggf. auch im simple past) auf das Poster verweist (I have seen your ad in the newspaper and I thought / I have read your poster / I saw your Poster), ehe die individuelle Eignung erwähnt wird (I thaught this is totally for me / I like animals / I really want to become a keeper). Bei der sehr vom Deutschen beeinflussten Wendung I want to become anstelle von I’d like to bleibt offen, inwieweit dieser Unterschied schon Lerngegenstand war. Nicht zuletzt unter interkulturellen Gesichtspunkten ist es ungünstig mit der Tür ins Haus zu fallen, indem nach der Anrede sofort My favorite animal at the zoo is-… folgt. Falscher Situationsbezug drückt sich in der-- gut gemeinten-- Formulierung I think you are fabulous how you teach the animals aus. Die Schlussfolgerungen am Ende des Briefs belegen, wie ernsthaft und intensiv die Schülerinnen und Schüler auf die Situation reagieren. I really hope you’ll chose my as a “keeper for a day“ ist idiomatisch sicher den recht kindlich-direkten Appellen (So, I think I would be the perfect keeper for one day. Please pick me. Thank you./ Belive me, thew animals would like me, so pick me! ) vorzuziehen. Allerdings wird man sich dem an den Adressaten gerichteten Fazit des nächsten Satzes durch die Wendung I won’t dissapoint you surely leicht anschließen können. <?page no="212"?> 211 8.2 Kommentierung von Schülerlösungen Die vorliegenden Beispiele an Grußformeln am Ende des Briefs überzeugen nicht: Es fehlt durchgängig der Name des Verfassers, see you ist zu informell thank you ist ebenso unangemessen wie das vom Deutschen übertragene your ohne den Namen. Vermutlich sind die Schüler und Schülerinnen der Sekundarstufe I auch in der Muttersprache mit den Merkmalen der Textsorte nicht durchgängig vertraut. Keeper for a day Read the poster below about a writing competition at LONDON ZOO. Do you want to be a KEEPER FOR A DAY? Do you want to be really close to our most popular animals? Would you like to find out about our keepers‘ day-to-day work? Then tell us which animal at our Zoo you like best and why we should choose you. The ten nicest letters will win a day behind the scenes at our Zoo. Write a letter to Mr George Lindsey, the head keeper, telling him: … • ...about your favourite animal at the zoo. • ...why you like this animal best. • ...what you would like to do as a keeper for a day. Write 110 to 140 words. <?page no="213"?> 212 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Hinsichtlich der Bandbreite der sprachlichen Mittel zeigt der folgende Textausschnitt viel Abwechslung im Satzbau, speziell bei den Satzanfängen: Positiv ist auch die durchgängige Verwendung der Konditionalformen. Im Vergleich dazu weist der Text der nächsten Schülerin bzw. des nächsten Schülers Unsicherheiten im Gebrauch des Konditional II auf. Es ist zu vermuten, dass die Aufgabenformulierung what you would like to do übernommen wird, jedoch die geforderte Situation nicht konsequent erfasst wird. Andererseits wird die Abfolge einzelner Tätigkeiten sprachlich gelungen dargestellt. Interessant auch der Versuch, die sprachliche Lücke (das Verb to caress) unter Einbindung der Muttersprache zu füllen: If they like it, I cosy them. Selbst wenn man das deutsche Wort ‚kosen‘ nicht kennt, wird evtl. mit dem englischen Adjektiv cosy sogar annähernd die Mitteilungsabsicht verstanden. Aus dem Bereich der Kohärenz/ Kohäsion dokumentiert die nächste Passage eine gelungene Leserführung durch den Einschub von But not only that-… <?page no="214"?> 213 8.2 Kommentierung von Schülerlösungen Ebenso bemerkenswert ist, wie dem angenommenen Einwand im nächsten Text mit dem einleitenden I know wild tigers can be dangerous begegnet wird: Ähnlich kohärent, sachkompetent und auf die vermutete Einlassung des Lesers dialogisch reagiert der nächste Schüler bzw. die nächste Schülerin: Auch das folgende Beispiel belegt durch den Einschub But not only that die Kohärenz der Argumentation: <?page no="215"?> 214 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Kommentar zur Aufgabenstellung ▶ Authentische und durch den ‚Wettbewerb‘ motivierende Aufgabe; ▶ Die Fragen in dem Poster für den Wettbewerb sind nicht identisch mit den in der eigentlichen Aufgabenstellung geforderten Punkten; im Poster soll das Lieblingstier genannt werden, in dem Brief der Aufgabenstellung ist dafür noch eine Begründung zu liefern; ▶ Möglichkeit zur Differenzierung: Leistungsschwächere Schülerinnen und Schüler beantworten für den im Poster genannten Brief lediglich die gestellten Fragen. 8.2.2 Kommentierung von Schülerlösungen für das Fach Französisch Elke Philipp 8.2.2.1 Aufgabe „Chien perdu” (intendiertes Aufgabenniveau: A1 / A2) Chien perdu Tu es en vacances en France et tu as pris ton chien avec toi. Mais tu l’as perdu. Tu n’as pas de photo de ton chien, donc tu dois le décrire. Pour le retrouver, tu farbriques un petit poster avec : • son nom • son âge (2 ans, 3 ans, …) • sa couleur • 30 cm, 40 cm, … • il a quelque chose de spécial • tu l’as vu pour la dernière fois : où ? quand ? Tu écris un texte (min. 40 mots). <?page no="216"?> 215 8.2 Kommentierung von Schülerlösungen K 1 Erster Gesamteindruck Beispiele 1 und 2 Die Aufgabenstellung erfordert vom Lernenden, eine Beschreibung seines Hundes, der im Urlaubsort in Frankreich verloren gegangen ist, anzufertigen, sodass dieser wiedergefunden werden kann. Diese Aufgabe liegt auf Niveau A2. Die Beispiele 1 und 2 erfüllen diese Anforderungen. <?page no="217"?> 216 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters K 2 Umsetzung der Aufgabenstellung K 2.1 Inhalt Neben der Beschreibung des Hundes (Name, Alter, Farbe, Größe, besondere Merkmale) wird eine Information erwartet, wann und wo der Besitzer den Hund zum letzten Mal gesehen hat. Die getesteten Schülerinnen und Schüler haben diese Aufgabenstellung unterschiedlich umfangreich umgesetzt. Die Beispiele 1 und 2, die zwar nicht der erwarteten Textsorte „Poster / Plakat“ entsprechen, erfüllen voll die inhaltlichen Anforderungen. Nur der Ort mon jardin in Beispiel 1 ist nicht sehr präzise. Vielen Schülerinnen und Schülern fehlen jedoch die lexikalischen Mittel, um die erwartete Beschreibung vollständig zu realisieren. Teilweise werden englische oder deutsche Begriffe verwendet oder einzelne Aspekte weggelassen. In Beispiel 3 fehlt der Zeitpunkt, sodass der Inhalt nur mit überwiegend zutreffend gewertet werden kann. Der Beispieltext 4 enthält deutsche bzw. englische Farbadjektive, die nicht akzeptiert werden können. Darüber hinaus fehlen Angaben zur Größe sowie die Information, wann und wo der Besitzer den Hund zum letzten Mal gesehen hat. Hier kann nur mit trifft teilweise zu bewertet werden. Beispiel 3 <?page no="218"?> 217 8.2 Kommentierung von Schülerlösungen Beispiel 4 K 2.2 Textsorte In der Aufgabenstellung wird als Textsorte ein Poster erwartet. In der Funktion der Suchanzeige könnte dies auch als Plakat oder Aushang interpretiert werden. Die Funktion eines solchen Posters ist es, die Aufmerksamkeit der Passanten auf den verlorenen Hund zu lenken. Auf einem Poster geschieht diese Lenkung meist durch Bilder, Zeichnungen oder markante Schriftelemente. Da den Schülerinnen und Schülern kein Foto des Hundes vorliegt, hätten sie z. B. eine beschriftete Zeichnung oder eine Aufzählung der Eigenschaften des Hundes anfertigen können. Auf dem Aufgabenblatt sind bereits ein grafisches Element und Platz für eine Aufzählung vorgegeben. Die vorliegenden Schülertexte sind jedoch ausschließlich Fließtexte, die den Textsorten Bericht oder Mitteilung (Message) entsprechen. Somit muss das Kriterium Textsorte mit trifft nicht zu gewertet werden. Der Beispieltext 4 enthält Ansätze einer Aufzählung und kann als trifft teilweise zu eingestuft werden. K 2.3 Situations- und Adressatenbezug Der Adressatenbezug ist bereits durch Elemente auf dem Aufgabenblatt vorgegeben (S’il vous plaît, aidez-moi! -… Avez-vous vu mon chien? Alors téléphonez-moi! Tél.: 01 10 23 45 67). Die in der Aufgabenstellung vorgegebene Situation des Aufenthalts in Frankreich ist durch die Wahl eines französischen Ortes oder Straßennamens zu berücksichtigen. Um dieses Kriterium voll zu erfüllen, reichen daher die Beschreibung des Hundes und eine Information zum Ort (in Frankreich) und Zeitpunkt, wann der Hund das letzte Mal gesehen wurde. Die Aussagen in Beispiel 1 (mon jardin) und Beispiel 3 (dans la cuisine du restaurant <?page no="219"?> 218 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters de mon père) sind recht vage und das Kriterium daher nur teilweise zutreffend. In Beispiel 2 ist das Kriterium voll zutreffend. Am Ende wird der Leser des Textes sogar noch einmal persönlich angesprochen. Auch in Beispiel 5 ist das Kriterium überwiegend zutreffend. Der Verfasser spricht den Leser direkt an, bittet um Hilfe und gibt einen genauen Ort des letzten Sehens des Hundes an. Die einzige kleine Einschränkung ist, dass der Zeitpunkt fehlt. Beispiel 5 K 3 Sprachliche Realisierung K 3.1 Verständlichkeit Hier ist es wichtig zu unterscheiden, wann ein Text noch überwiegend bzw. nur noch teilweise verständlich ist. Trotz gelegentlicher Abweichungen von der zielsprachlichen Norm, können Beispieltext 1 noch als voll verständlich und Beispieltext 6 noch als überwiegend verständlich gelten. <?page no="220"?> 219 8.2 Kommentierung von Schülerlösungen Beispiel 6 Die Texte 4 und 5 sind jedoch auf Grund der deutschen bzw. englischen Begriffe sowie weiterer Fehler in den Bereichen Wortschatz und sprachliche Strukturen nur teilweise verständlich. K 3.2 Angemessenheit K 3.2.1 Situations- und Adressatenbezug Der Situations- und Adressatenbezug ist erfüllt durch: ▶ eine sachliche Beschreibung mit themenspezifischem Wortschatz; ▶ die Angabe eines Ortes in Frankreich sowie eines Zeitpunkts; ▶ eine übersichtliche Darstellung (Einzelinformationen als Stichpunkte, Zeichnungen-…); ▶ den Ausdruck der Verzweiflung über das Verschwinden des Hundes (J’espère que vous pourrait m’aider parce que je le besoin. / Maintenant, je suis trop triste et je pleure tout le temps.); ▶ die direkte Ansprache der Passanten mit einer höflichen Bitte um Hilfe (z. B. J’aime Omarine beaucoup, alors aidez-moi de chercher, s’il vous plaît-! / J’espère que vous pouvez m’aider de le trouver. / J’étais très heureuse, si quelqu’un trouverait Sally et il y a un cadeau de 50 Euros. / Si vous avez des informations, écrivez ou téléphonez-moi.) Ein Großteil der vorliegenden Schülerleistungen zeigt, dass sich die Lernenden gut in die Situation des Verlustes hineinversetzen können und aus der Muttersprache über Kenntnisse verfügen, wie man diese sprachlich umsetzen kann. Die Merkmale der Textsorte Poster schei- <?page no="221"?> 220 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters nen allerdings unbekannt. Darüber hinaus fehlt oft der themenspezifische Wortschatz zur Beschreibung eines Hundes (z. B. Körperteile). Das häufige Fehlen bzw. ungenaue Beschreiben des Ortes, an dem der Hund das letzte Mal gesehen wurde, ist sicher weniger auf sprachliche Probleme als auf ein nicht vollständiges Lesen der Aufgabenstellung zurückzuführen. K 3.2.2 Bandbreite Die Bandbreite sprachlicher Mittel ist stark vom Umfang des Textes abhängig und ist bei dieser Aufgabe nicht gefordert. Die Informationen sollen eher kurz und knapp gegeben werden, damit der Leser sich schnell orientieren kann. Zur Angabe des Ortes und des Zeitpunkts, wo bzw. wann der Hund zum letzten Mal gesehen wurde, ist das passé composé erforderlich. Es ist allerdings möglich, die Struktur aus der Aufgabenstellung zu übernehmen und in die 1. Person Singular umzuwandeln (tu as perdu > J’ai perdu, tu l’as vu pour la dernière fois > je l‘ai vu-…). Deshalb empfehle ich, das Kriterium Bandbreite in dieser Aufgabe nicht zu bewerten. K 3.2.3 Kohärenz/ Kohäsion Bei einem Poster geht es nicht um die Produktion eines kohärenten Textes, sondern eher um eine sinnvolle Anordnung der Informationen. Es muss ersichtlich bleiben, worauf sich die einzelnen Angaben beziehen. Das verlangt z. B. eindeutige Bezüge bei den Pronomen. Die vorliegenden Texte erfüllen alle dieses Kriterium. K 3.4 Richtigkeit Mit diesem Kriterium wird eingeschätzt, inwieweit die produzierten Texte der zielsprachigen Norm entsprechen. Dies betrifft die Bereiche Lexik, Grammatik und Orthografie. Als Beispiel für eine vollständige Erfüllung kann Beispieltext 3 dienen. Wichtige Strukturen des Französischen wie Adjektive, Zeitformen, Objektpronomen und die Verneinung werden normgerecht verwendet. Die Lexik ist korrekt und die deutsche Interferenz bei caracteristique ist auf dieser Lernstufe zu vernachlässigen. Beispieltext 1 erfüllt das Kriterium trotz einiger lexikalischer und grammatischer Unsicherheiten überwiegend. Bei Beispieltext 4 ist jedoch bedingt durch die Verwendung der englischen Adjektive der Lesefluss erheblich behindert. Der sehr einfache Satzbau ist teilweise durch fehlerhafte Strukturen (z. B. bei der Altersangabe und dem Objektpronomen) gekennzeichnet. Somit ist das Kriterium Richtigkeit nur teilweise erfüllt. Das Gleiche gilt für Beispieltext 5. <?page no="222"?> 221 8.2 Kommentierung von Schülerlösungen K 4 Abschließendes Urteil-- Zusammenfassung Kriterium Beispiel 1 Beispiel 2 Beispiel 3 Beispiel 4 Beispiel 5 Beispiel 6 1 Erster Gesamteindruck A2 A2 A2 A1 A1 A1 2 Umsetzung der Aufgabenstellung 2.1 Inhalt voll voll überwiegend teilweise überwiegend überwiegend 2.2 Textsorte nicht nicht nicht teilweise nicht nicht 2.3 Situations- und Adressatenbezug teilweise voll teilweise teilweise überwiegend voll 3 Sprachliche Realisierung 3.1 Verständlichkeit voll voll voll teilweise teilweise überwiegend 3.2 Angemessenheit 3.2.1 Situations- und Adressatenbezug überwiegend überwiegend teilweise teilweise überwiegend überwiegend 3.2.2 Bandbreite Wird in dieser Aufgabe nicht bewertet. 3.3 Kohäsion/ Kohärenz voll voll voll überwiegend voll voll 3.4 Richtigkeit überwiegend überwiegend voll teilweise teilweise teilweise Abschließendes Urteil A2.2 A2.2 A2.1 A1.2 A1.2 A2.1 Die Übersicht zeigt, dass der Inhalt sowie ein adäquater richtiger Situationsbezug entscheidend für die Lösung der Aufgabe sind. Mängel bei der Realisierung der Textsorte und sprachlichen Umsetzung fallen weniger ins Gewicht, so lange sie die Verständlichkeit des Textes nicht erschweren bzw. verhindern. Die sehr umfangreichen Lösungen in den Beispielen 1 und 2, die auf den ersten Blick über Niveau A2 lagen, wiesen jedoch auch Mängel bei der Textsorte und dem Situations- und Adressatenbezug auf, sodass als abschließendes Urteil A2 vorgeschlagen wird. <?page no="223"?> 222 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters 8.2.2.2 Aufgabe „Cadeau” (intendiertes Aufgabenniveau: A1 / A2) Cadeau Tu as oublié de souhaiter son anniversaire à ton amie Cécile. Une semaine plus tard, tu lui envoies un cadeau. Tu écris un message : tu t’excuses et tu expliques pourquoi tu as choisi ce cadeau. (Minimum 40 mots) Du hast vergessen, deiner Freundin Cécile zum Geburtstag zu gratulieren. Eine Woche darauf schickst du ihr ein Geschenk. Du schreibst ihr, dass du dich entschuldigst und du erklärst, warum du dieses Geschenk ausgesucht hast. (Minimum 40 Wörter) K 1 Erster Gesamteindruck Die Aufgabenstellung erfordert, sich bei seiner Freundin Cécile für den vergessenen Geburtstag zu entschuldigen und die Auswahl des beiliegenden Geschenkes zu erklären. Die Aufgabe liegt auf Niveau A2. Der Beispieltext 1 erfüllt diese Anforderungen. K 2 Umsetzung der Aufgabenstellung K 2.1 Inhalt Die getesteten Schülerinnen und Schüler haben die Texte hinsichtlich der Aufgabenstellung unterschiedlich umfangreich gestaltet. Beispiel 1 (46 Wörter) zeigt, dass der Inhalt bereits mit wenigen Sätzen umsetzbar ist. <?page no="224"?> 223 8.2 Kommentierung von Schülerlösungen Beispiel 1 Beispiel 2 <?page no="225"?> 224 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Hier einige weitere Beispiele für die Erläuterungen zur Auswahl des Geschenkes: ▶ J’ai acheté un livre qui s’appelle «- Comment je pardonne à ma copine quelle a oublié mon anniversaire-», j’espère quand tu auras lu se livre tu sera plus fâché parce que j’ai oublié ton anniversaire. ▶ J’ai trouvé un très bon cadeau pour toi, il va te plaire, c’est sûr. C’est un set de cartes postales avec des timbres et un pair de Flip-Flops. J’espère que j’ai pris une couleur qui te plaît. ▶ C’est une jupe rouge comme tu l’as déjà toujours désirée-! J’ai la trouvée-… ▶ …-je trouve le photo magnifique, c‘était en vacances et nous nous sommes baignées dans la mer. Tu es une très bonne amie de moi et maintenant tu peux voir toujours sur le photo et tu peux te souvenir. Die folgenden Texte erfüllen die Anforderungen dagegen nur teilweise, da die Auswahl des Geschenkes nicht begründet wird. Beispiel 3 <?page no="226"?> 225 8.2 Kommentierung von Schülerlösungen Beispiel 4 K 2.2 Textsorte Die Textsorte Message, die keinen strengen Textsortenmerkmalen unterliegt, stellt kein Problem für die getesteten Schülerinnen und Schüler dar. K 2.3 Situations- und Adressatenbezug Der Situations- und Adressatenbezug wird in der vorliegenden Aufgabe durch eine persönliche Ansprache von Cécile und das Erwähnen des Geburtstages und des damit verbundenen Geschenks hergestellt. Die Textsorte Message erfordert dabei nicht zwingend die Anrede Chère Cécile. <?page no="227"?> 226 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Beispiel 5 Die Erwähnung des Namens im Text entspricht durchaus der Textsorte Message. Der Situationsbezug wird durch die Wendungen je suis plus tard und j’ai choisi cette cadeau hergestellt. Die Adressatin (Freundin Cécile) wird geduzt. Da der Absender bekannt ist, kann auch dieser Schluss ohne Nennen des Namens akzeptiert werden. Das Kriterium ist vollständig erfüllt. Beispiel 6 Der Adressatenbezug wird durch die direkte Anrede tu / toi hergestellt. Anrede und Schlussformel sind nicht vorhanden. Der Situationsbezug wird durch j’ai oublié und ce cadeau hergestellt. Das Kriterium ist damit überwiegend erfüllt. <?page no="228"?> 227 8.2 Kommentierung von Schülerlösungen K 3 Sprachliche Realisierung K 3.1 Verständlichkeit Hier ist es wichtig zu unterscheiden, wann ein Text noch überwiegend bzw. nur noch teilweise verständlich ist. Trotz gelegentlicher Abweichungen von der zielsprachlichen Norm, kann Beispieltext 1 noch als voll verständlich und Beispieltext 6 noch als überwiegend verständlich gelten. K 3.2 Angemessenheit K 3.2.1 Situations- und Adressatenbezug Alle Beispiele erfüllen die sprachlichen Kriterien für den Situations- und Adressatenbezug: ▶ direkte Anrede mit tu; ▶ Alltagssprache; ▶ themenspezifischer Wortschatz (Geburtstag und Geschenke); ▶ höfliche Formulierung einer Entschuldigung (z. B. avec mon cadeau je veux m’excuser, Je suis très désolé-…, Je dois te dire „pardon“, J’espère que tu n’es pas trop triste-…) mit häufig umfangreicher Begründung des Versäumnisses. Die Realisierung durch die Lernenden weist darauf hin, dass sie sich gut in die Situation hineinversetzen können und aus der Muttersprache über Kenntnisse verfügen, wie man mit einem solchen „Versäumnis“ umgeht. Die sprachlichen Mittel zur Umsetzung im Französischen stehen ihnen bereits nach wenigen Lernjahren zur Verfügung. K 3.2.2 Bandbreite Die Bandbreite sprachlicher Mittel ist stark vom Umfang des Textes abhängig. Zur Minimalanforderung gehören Wortschatz und Wendungen, um sich bei einem Freund bzw. einer Freundin zu entschuldigen und die Auswahl des Geschenkes zu begründen. Dies erfordert im Bereich der Tempora das présent und das passé composé. Ein Text, der wie Beispieltext 1 die inhaltlichen Anforderungen kurz und knapp erfüllt und darüber hinaus Wendungen aus der Aufgabenstellung (oublié de souhaiter ton anniversaire) nutzt, kann im Hinblick auf das Kriterium Bandbreite nur mit trifft nicht zu eingestuft werden. In Beispieltext 6 werden Mittel zur Strukturierung des Textes verwendet (mais, en plus, enfin) und die Begründung der Auswahl erfolgt durch umfangreichere sprachliche Mittel (bon, l’aimer, beaucoup de temps). Daher trifft das Kriterium Bandbreite teilweise zu. K 3.2.3 Kohärenz/ Kohäsion Auch ein kurzer Text wie in Beispiel 1 kann bereits das Kriterium Kohäsion/ Kohärenz voll erfüllen. Es ist durchgängig ein deutlicher Adressatenbezug gegeben (te, ton, pour toi, tu as, ton MP 3, ton ami). Das Thema „Geschenk“ zieht sich durch den gesamten Text und wird durch ce cadeau, c’est wieder aufgegriffen. Wendungen wie Je pense que und parce que stellen Verknüpfungen innerhalb der Sätze her. <?page no="229"?> 228 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Beispieltext 7 erfüllt das Kriterium Kohärenz/ Kohäsion jedoch nur teilweise. Trotz eines durchgängigen Adressatenbezugs ist der Bezug des problème nicht klar. Man erwartet, dass das vergessene Geschenk das Problem ist. Nun wird zusätzlich angedeutet, dass Cécile ein Problem hat. Man erfährt aber nichts zu diesem Problem, auch nicht im Zusammenhang mit dem Geschenk. Ebenso ist der Bezug der Wendung Après les vacances en Italie-… nicht ganz klar. Kommen Karl und Cédric im November aus Italien wieder oder sind sie jetzt in Italien und schreiben Cécile von dort? Beispiel 7 K 3.4 Richtigkeit Die Beispieltexte weisen sowohl im Bereich der Lexik als auch der Orthografie kaum Fehler auf. Das Thema scheint vertraut, sodass ausreichend Wortschatz zur Realisierung der Aufgabe verfügbar ist. Die Fehler liegen oft im Grenzbereich zwischen Lexik und Grammatik (le temps pour, quelque chose statt rien bei der Verneinung, falsche Präpositionen). Die Texte 1, 2, 5 und 7 stellen Beispiele für eine überwiegende Erfüllung des Kriteriums Richtigkeit dar. Dabei enthält Beispieltext 1 falsche Adjektivformen, eine falsche Wortstellung sowie die Verwechslung: oublié-- perdu. In Beispieltext 2 finden sich nouveau ami, le temps pour aller au ce concert. Beispieltext 5 enthält den Genusfehler bei cadeau, surprise und Beispieltext 7 Fehler bei je dit, un cadeau qu’il-… und der Zeitform bei oublier. Die anderen Beispieltexte weisen vor allem grammatische Fehler in einem Umfang auf, der teilweise das Verständnis bzw. den Lesefluss behindert. Dies sind überwiegend falsche Verbformen bzw. Partizipien. Daher kann das Kriterium Richtigkeit trotz weniger Lexik- und Orthografiefehler nur noch als teilweise zutreffend gewertet werden <?page no="230"?> 229 8.2 Kommentierung von Schülerlösungen K 4 Abschließendes Urteil-- Zusammenfassung Kriterium Beispiel 1 Beispiel 2 Beispiel 3 Beispiel 4 Beispiel 5 Beispiel 6 Beispiel 7 1. Erster Gesamteindruck A2 A2 A2 A2 A2 A2 A2 2. Umsetzung der Aufgabenstellung 2.1 Inhalt voll voll teilweise teilweise überwiegend überwiegend teilweise 2.2 Textsorte voll voll voll voll voll voll voll 2.3 Situations- und Adressatenbezug voll voll überwiegend überwiegend überwiegend überwiegend überwiegend 3. Sprachliche Realisierung 3.1 Verständlichkeit voll voll teilweise teilweise überwiegend überwiegend überwiegend 3.2 Angemessenheit 3.2.1 Situations- und Adressatenbezug voll voll voll voll voll voll voll 3.2.2 Bandbreite nicht voll teilweise nicht nicht teilweise nicht 3.3 Kohäsion voll voll voll teilweise voll voll teilweise 3.4 Richtigkeit überwiegend überwiegend teilweise teilweise überwiegend teilweise überwiegend 4 Abschließendes Urteil A2.1 A2.2 A1.2 A1.2 A2.2 A2.1 A1.2 Bei dieser Aufgabe wird deutlich, dass nicht die Textlänge das entscheidende Kriterium für das erreichte Kompetenzniveau ist. Vor allem ein richtiger und vollständiger Inhalt und ein korrekter Situationsbezug tragen entscheidend zur erfolgreichen Lösung bei, solange die Verständlichkeit gewährleistet ist. Für Lernende, die sich im Übergangsbereich von A1 zu A2 befinden, ist es jedoch bereits möglich, diese Aufgabe mit einem starken Bezug zur persönlichen Lebenswelt zu lösen. <?page no="231"?> 230 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters 8.2.2.3 Aufgabe „La mode des ados“ (intendiertes Aufgabenniveau: A2 / B1) La mode des ados Tu écris à un magazine pour donner ton opinion sur le sujet : « Le look passe-t-il forcément par les marques ? Comment font celles-ci pour te séduire ? Pourrais-tu t’en passer ? » (Minimum 60 mots) ENQUÊTE Le look passe-t-il forcément par les marques ? Comment font celles-ci pour te seduire ? Pourrais-tu t’en passer ? Les Jeunes mène l’enquête sur tes étiquettes. A vos marques ! Prêt(e)s ? Partez ! K 1 Erster Gesamteindruck Die Aufgabenstellung fordert dazu auf, im Rahmen einer Zeitschriftenumfrage seine Meinung zur Rolle von Marken in der Mode für junge Leute mitzuteilen. Sowohl das Leseverstehen der Situierung als auch die geforderte Meinungsäußerung verorten diese Aufgabe auf Niveau B1. Alle Schülerinnen und Schüler der Erprobung drücken ihre Meinung aus, antworten jedoch nie auf alle Leitfragen, sodass der erste Gesamteindruck für die Mehrzahl der Texte zwischen A2 und B1 liegt. K 2 Umsetzung der Aufgabenstellung K 2.1 Inhalt In der von den Schülerinnen und Schülern erwarteten Leserzuschrift sollen sie laut Aufgabenstellung darauf eingehen, 1. ob sich bestimmte „Looks“ unbedingt immer über Marken definieren; 2. was Marken tun, um junge Leute in ihren Bann zu ziehen; 3. ob man selbst den Marken widerstehen kann. Diese Aufgabe ist inhaltlich sehr anspruchsvoll, denn sie erfordert neben einem themenspezifischen Wortschatz mehrere Begründungen. Bereits der Originaltext ist in der Situierung und Aufgabenstellung sprachlich komplex (séduire, passer par, en passer; Inversion, Conditionnel) und möglicherweise nicht für alle Lernenden ohne Hilfe verständlich. Es wird ein Text von mindestens 60 Wörtern erwartet. Die folgenden Beispiele erfüllen mit ca. 70 Wörtern alle den Mindestumfang; jedoch gibt es keinen Text, der die inhaltlichen Erwartungen vollständig erfüllt. Alle Schülerinnen und <?page no="232"?> 231 8.2 Kommentierung von Schülerlösungen Schüler drücken ihre distanzierte Meinung zu den Marken aus und diskutieren, warum junge Leute Marken tragen bzw. warum das ihrer Meinung nach nicht nötig ist. Damit wird Leitfrage 2 der Aufgabenstellung gar nicht und Leitfrage 1 nur teilweise beantwortet. Dies kann einerseits auf ein unzureichendes Textverständnis und fehlende sprachliche Mittel für die eigene Textproduktion zurückzuführen sein. Anderseits könnte es auch sein, dass diese Fragen als irrelevant für die Meinungsäußerung betrachtet wurden. Damit trifft das Kriterium der inhaltlichen Umsetzung der Aufgabenstellung bei allen Texten teilweise zu. Beispiel 1 Beispiel 2 <?page no="233"?> 232 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Beispiel 3 Beispiel 4 K 2.2 Textsorte Die erwartete Leserzuschrift erfordert keine speziellen Textsortenmerkmale. Es kann sachlich aber auch auf der Grundlage persönlicher Erfahrungen und Erlebnisse geschrieben werden. Die Nutzung des Präsens und von Wendungen zum Ausdruck der eigenen Meinung dominieren. <?page no="234"?> 233 8.2 Kommentierung von Schülerlösungen Der Text sollte jedoch trotzdem einen Bezug zum Verfasser erkennen lassen: einleitender Satz mit kurzer Vorstellung bzw. Nennen des Namens (ggf. Alters / Ortes) unter dem Text. Bei einigen Schülerinnen und Schülern findet sich darüber hinaus auch eine Anrede wie Bonjour, Salut, Salut tout le monde. Beispieltext 5 erfüllt diese Merkmale voll, sein Problem liegt auf der inhaltlichen Ebene, die nur teilweise erfüllt wird. Die Beispieltexte 1-4 enthalten die erwarteten Meinungsäußerungen, bringen jedoch keinerlei Texteinstieg bzw. Informationen zum Verfasser. Damit wird das Kriterium Textsorte nur überwiegend erfüllt. Beispiel 5 K 2.3 Situations- und Adressatenbezug Lesermeinungen werden im Allgemeinen auf den Webseiten oder in speziellen Rubriken der jeweiligen Zeitschriften veröffentlicht. Adressaten sind also die Leserinnen und Leser, die etwas über die Meinung anderer zu einem Thema wissen möchten. Interessant ist dabei auch, etwas zu den Personen zu erfahren, die die jeweilige Meinung vertreten: Sind es Gleichaltrige oder Erwachsene? Welchen Beruf haben sie eventuell? Warum war das Thema für sie interessant, sodass sie sich an der Umfrage beteiligt haben? Diese durch die Aufgabenstellung nicht explizit geforderten Informationen sind in keinem der vorliegenden Texte enthalten, sodass das Kriterium immer nur teilweise erfüllt wird. K 3 Sprachliche Realisierung K 3.1 Verständlichkeit Hier ist es wichtig zu unterscheiden, wann ein Text überwiegend bzw. nur noch teilweise verständlich ist. Nicht nur der fast fehlerfreie Beispieltext 2, sondern auch die Beispieltexte 1 und 3 sind trotz gelegentlicher Abweichungen von der zielsprachlichen Norm voll verständlich. Bei Beispieltext 4 gibt es durch die Verwendung deutscher bzw. englischer Wörter jedoch Einschränkungen bei einem frankofonen Adressaten. Das Kriterium Verständlichkeit trifft dann nur noch überwiegend zu. <?page no="235"?> 234 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters K 3.2 Angemessenheit K 3.2.1 Situations- und Adressatenbezug Der Situations- und Adressatenbezug ist erfüllt durch: ▶ die Bezugnahme auf das Thema / die Fragestellung; ▶ die Diskussion der aufgeworfenen Fragen mit Ausdruck der eigenen Meinung; ▶ die Nutzung themenspezifischen Wortschatzes; ▶ einen sachlichen Stil (ggf. unter Schilderung persönlicher Erfahrungen und Erlebnisse). Die meisten Texte setzen sich sachlich mit dem Thema auseinander, enthalten persönliche Meinungen und nutzen themenspezifischen Wortschatz. Somit wird dieses Kriterium voll erfüllt. Inhaltliche Defizite werden hier nicht berücksichtigt. Lediglich Beispieltext 7 geht von einer Situation (Bericht über eine selbst durchgeführte Umfrage) aus, die nicht im Fokus steht, und erfüllt damit das Kriterium nicht. K 3.2.2 Bandbreite Die vollständige Umsetzung der Aufgabenstellung erfordert einen umfangreichen themenspezifischen Wortschatz. Zur Beschreibung von bestimmten Looks und der Aktivitäten der Markenfirmen, um Kunden zu gewinnen, genügt im Hinblick auf die Grammatik die Verwendung des Präsens. Somit definiert sich die Bandbreite in dieser Aufgabe über den genutzten Wortschatz. Die Beispieltexte 1 und 3 können (unter Berücksichtigung des Niveaus B1) mit einer Vielfalt an Adjektiven und verschiedenen komplexen Satzstrukturen als Beispiele für eine vollständige Erfüllung dienen. Beispieltext 4 erfüllt dieses Kriterium jedoch nur überwiegend. Es werden einfache Strukturen benutzt und toujours wird ständig wiederholt, dennoch ist eine gewisse Bandbreite gegeben. Das Beispiel 6 steht für eine teilweise Erfüllung des Kriteriums. Der Text ist stark redundant. Das Adjektiv cool wird ständig wiederholt. Das Thema Mode wird zugunsten der Musik fallen gelassen, da der Autorin bzw. dem Autor offensichtlich der Wortschatz zu seiner Bearbeitung fehlt. In Beispiel 7 wird das Kriterium Bandbreite nicht erfüllt. Es gibt kaum eine eigene sprachliche Leistung. Zunächst wird lediglich die Aufgabenstellung wiederholt, danach wird in drei Sätzen ein unwesentlicher Teilaspekt in sprachlich sehr einfacher Form bearbeitet. <?page no="236"?> 235 8.2 Kommentierung von Schülerlösungen Beispiel 6 Beispiel 7 K 3.2.3 Kohärenz/ Kohäsion Die Beispieltexte 1 bis 5 erfüllen die Merkmale eines kohärenten Textes. Es gibt einen logischen Textaufbau und Bezüge werden z. B. durch Pronomen, wörtliche Wiederaufnahmen und Konjunktionen hergestellt. Auch Text 6 ist noch überwiegend kohärent. Es gibt lediglich den logischen Bruch, dass der Autor Marken zwar cool findet, aber nicht möchte, dass man dafür Geld ausgibt. Text 7 gibt eher einen Bericht über eine Umfrage. Trotz des falschen Situationsbezuges ist er überwiegend kohärent (Verwendung der Pronomen, Wiederaufnahmen). K 3.4 Richtigkeit Als Beispiel für eine vollständige Erfüllung dieses Kriteriums kann der Text 2 dienen. Die grundlegenden Strukturen des Französischen werden sicher verwendet, wobei die wenigen <?page no="237"?> 236 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters nicht hörbaren Fehler bei den Endungen von porte/ s, égal/ e hier unberücksichtigt bleiben können. Beispiele für eine überwiegende Erfüllung sind die Beispieltexte 1, 4 und 6. Beispieltext 1 ist lexikalisch und orthografisch vollständig korrekt, aber im Bereich der Strukturen treten Unsicherheiten auf (mehrere falsche Adjektivendungen, des statt de nach trop, falsche Konjugationsendungen bei dois/ t, utilises/ ent- …). In Beispieltext 4 stören die deutschen und englischen Einschübe, und die Verwendung von mont statt montre kann die Verständlichkeit beeinflussen. Darüber hinaus ist der Text aber lexikalisch und orthografisch weitgehend korrekt. In diese Kategorie fällt auch noch Beispieltext 6 mit seiner Unsicherheit bei der Verwendung der Wörter vêtements / fringues, dem falschen Genus von texte, einigen falschen, meist nicht hörbaren Endungen u. a. Alle diese sprachlichen Fehler sind jedoch nicht so gravierend, dass sie die Verständlichkeit wesentlich einschränken. Beispieltext 7 weist eine größere Anzahl von Fehlern in allen Bereichen auf. Durch die Verwendung von „Versatzstücken“ aus der Aufgabenstellung, die nicht adäquat in eigene Sätze eingebaut werden, ist die Verständlichkeit erschwert. Der Text erfüllt damit das Kriterium nur teilweise. Lediglich in Beispieltext 2 erfolgt eine wirklich begründete Auseinandersetzung mit dem Thema, auch wenn nicht vollständig auf die Leitfragen eingegangen wird. Der Text ist logisch aufgebaut, kohärent, in seiner sprachlichen Komplexität dem Niveau B1 entsprechend und fast fehlerfrei. Alle anderen Texte weisen sprachliche und / oder inhaltliche Mängel (Textumfang, Vollständigkeit) auf, sodass sie noch auf Niveau A2 oder knapp darunter liegen. Diese Aufgabe zeigt, wie wichtig es ist, dass die Lernenden die Formulierungen im Ausgangstext und der Situierung verstehen und über ausreichend lexikalische Mittel zum Thema verfügen. Ein sprachlich komplexer Leseanteil in der Aufgabenstellung kann dazu führen, dass die Schülerinnen und Schüler eine Aufgabe nicht im erwarteten Maße lösen können. Daher sollten Aufgabenstellungen immer möglichst kurz und präzise und im sprachlichen Niveau unter dem der erwarteten Schreibleistung formuliert werden. <?page no="238"?> 237 8.2 Kommentierung von Schülerlösungen K 4 Abschließendes Urteil-- Zusammenfassung Kriterium Beispiel 1 Beispiel 2 Beispiel 3 Beispiel 4 Beispiel 5 Beispiel 6 Beispiel 7 1 Erster Gesamteindruck A2 B1 A2 B1 A2 A2 A2 2 Umsetzung der Aufgabenstellung 2.1 Inhalt teilweise teilweise teilweise teilweise teilweise teilweise nicht 2.2 Textsorte überwiegend überwiegend überwiegend überwiegend voll überwiegend teilweise 2.3 Situations- und Adresssatenbezug teilweise teilweise teilweise teilweise teilweise teilweise nicht 3 Sprachliche Realisierung 3.1 Verständlichkeit voll voll voll überwiegend voll voll teilweise 3.2 Angemessenheit 3.2.1 Situations- und Adresssatenbezug voll voll voll voll teilweise überwiegend nicht 3.2.2 Bandbreite voll voll voll überwiegend teilweise teilweise nicht 3.3 Kohärenz/ Kohäsion voll voll voll voll voll überwiegend überwiegend 3.4 Richtigkeit überwiegend voll überwiegend überwiegend voll überwiegend teilweise 4 Abschließendes Urteil A2.2 B1.1 A2.2 A2.2 <A2 A2.2 < A2 <?page no="239"?> 238 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters 8.2.2.4 Aufgabe „Soigneur d’animaux (intendiertes Aufgabenniveau: A2 / B1) Diese Aufgabe entspricht sowohl inhaltlich als auch bezüglich der Gestaltung vollständig der Aufgabe 8.2.1.3 Keeper for a day. Soigneur d‘animaux Tu lis cette affiche concernant un concours organisé par le zoo de Vincennes : Voudrais-tu t’occuper d’animaux pendant une journée ? Tu aimerais connaître de tout près nos animaux les plus populaires ? Tu aimerais observer de tout près de travail de tous les jours de nos soigneurs d’animaux ? Alors, tu nous écris et tu nous dis quel est l’animal de notre zoo que tu préfères ! Les 10 lettres les plus belles vont gagner une journée avec les soigneurs de notre zoo. Tu écris une lettre à M. Plantard, le soigneur en chef (min. 80 mots) : • Tu présentes ton animal préféré du zoo. • Tu expliques la ou les raison(s) de ta préférence. • Tu donnes des exemples de ce que tu pourras faire pendant ta journée de travail au zoo. • Tu respectes les formalités d’une lettre officielle. <?page no="240"?> 239 8.2 Kommentierung von Schülerlösungen K 1 Erster Gesamteindruck Die Aufgabenstellung erfordert das Schreiben eines offiziellen Briefes an den Cheftierpfleger eines Zoos. Ziel ist es, von ihm für einen Tag als Tierpfleger im Zoo ausgewählt zu werden. Sowohl bedingt durch die Textsorte als auch die Notwendigkeit, sich in eine hypothetische Situation hineinzuversetzen und seine Aussagen zu begründen, liegt diese Aufgabe auf Niveau B1. Alle getesteten Schülerinnen und Schüler waren in der Lage, diese Aufgabenstellung inhaltlich vollständig umzusetzen- - wenn auch unterschiedlich umfangreich. Neben dem sehr ausführlichen Beispiel 1 erfüllt Beispiel 2 ebenfalls die inhaltlichen Anforderungen. K 2 Umsetzung der Aufgabenstellung K 2.1 Inhalt Bei der Umsetzung der Aufgabenstellung werden folgende Inhalte erwartet: ▶ Die Beschreibung des persönlichen Lieblingstiers im Zoo sowie die Begründung der Auswahl; ▶ Vorschläge für Tätigkeiten, die man während des Tages im Zoo übernehmen könnte. Beispiel 1 <?page no="241"?> 240 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Beispiel 2 Fast alle Schülerinnen und Schüler sind sehr kreativ bei der Begründung ihrer Lieblingstiere, z. B.: ▶ Les crocodiles-- sont dangereux et j’adore le danger-; ▶ Le lion-- il est grand et il a beaucoup de force / il est joli avec sa couleur et son «-face-»-; ▶ La panthère noire-- elle est très belle et royale-- pour moi „il“ est vraiment roi des animaux-; ▶ L’éléphant-- il est gentil et malgré sa taille immense il est paisible-… Sie haben kaum Schwierigkeiten, sich mögliche Arbeiten im Zoo vorzustellen, z. B. aider faire manger les animaux, donner „des lions“ son repas, faire connaissance avec tout le travail d’une personne du zoo, faire quelque chose (un petit programme) avec les éléphants. K 2.2 Textsorte In der Aufgabenstellung wird als Textsorte ein lettre officielle genannt, und es wird an seine formalen Eigenschaften erinnert, ohne diese explizit aufzuführen. Hier sind Lerngruppen im Vorteil, bei denen im Unterricht bereits offizielle Briefe geschrieben und deren Merkmale bewusst gemacht wurden (Adresse, Betreff, Datum, Anrede, Bezugnahme auf Plakat, Bewerbungstext, Abschlussformel, Unterschrift). Darüber hinaus ist der Adressat zu siezen und ein respektvoller, höflicher Stil wird erwartet. Diese Textsortenmerkmale, die über den unmittelbaren Alltagsbereich hinausgehen, entsprechen mindestens dem Niveau B1. Da nur der Adressat (M. Plantard) bekannt ist und das Aufgabenblatt keine Vorgaben zur Adresse oder Betreffzeile macht, beginnen die getesteten Schülerinnen und Schüler immer <?page no="242"?> 241 8.2 Kommentierung von Schülerlösungen direkt mit der Anrede. Auch das Datum wird nur selten geschrieben. Diese Bestandteile sollten daher bei der Bewertung unberücksichtigt bleiben. Als Anrede dominiert wie in Beispiel 1 Mesdames, Messieurs. Richtige Anredemöglichkeiten wären aufgrund des bekannten Adressaten (Cher) Monsieur oder Cher Monsieur Plantard (ggf. auch Bonjour Monsieur). Die Schülerin Sophie benutzt darüber hinaus eine offizielle Schlussformel, sodass in diesem Fall das Kriterium Textsorte als trifft überwiegend zu gewertet werden kann. In Beispiel 2 gibt es neben der falschen Anrede gar keinen Briefschluss. Hier trifft das Kriterium noch teilweise zu (eine Anrede, adäquater Inhalt, äußere Form). Auch Beispiele wie Merci et au revoir / Amicalement führen zu Einschränkungen bei der Bewertung, da sie stilistisch eher persönlichem Briefbzw. Mailwechsel zuzuordnen sind. K 2.3 Situations- und Adressatenbezug Der Adressatenbezug wird durch den Namen des Cheftierpflegers (M. Plantard) in der Aufgabe vorgegeben. Der Brief muss daher eindeutig an M. Plantard gerichtet sein. Das wird deutlich durch die Anrede und die vous-Form. Der Situationsbezug wird erkennbar durch das Nennen des Schreibanlasses (Bezugnahme auf Poster bzw. Wettbewerb) sowie den Ausdruck des persönlichen Interesses. Für Beispiel 1 trifft auch dieses Kriterium nur überwiegend zu. Der Brief richtet sich nicht eindeutig an M. Plantard. Darüber hinaus erscheint ein Plakat nicht in einer Zeitung. Die Bewertung trifft voll zu wird von keinem der vorliegenden Texte erreicht. Neben der Nicht-Berücksichtigung des Adressaten fehlt sehr häufig die Erwähnung des Schreibanlasses. Es wird meist sofort mit der Beschreibung des Lieblingstiers begonnen. K 3 Sprachliche Realisierung K 3.1 Verständlichkeit Hier ist es wichtig zu unterscheiden, wann ein Text noch überwiegend bzw. nur noch teilweise verständlich ist. Beispiel 1 ist genauso wie Beispiel 3 (trotz gelegentlicher Abweichungen von der zielsprachlichen Norm) voll verständlich. Beispieltext 2 kann als überwiegend verständlich gelten (geringe Unsicherheiten in der Wortwahl-- cage, faire-- und bei den Strukturen). Dagegen enthält der Beispieltext 4 nicht nur Fehler in Orthografie, Genus und Strukturen, sondern ist in einigen Teilen (…-moment très fort, donner le cordon) nicht mehr verständlich. Daher ist das Kriterium Verständlichkeit nur teilweise erfüllt. <?page no="243"?> 242 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Beispiel 3 <?page no="244"?> 243 8.2 Kommentierung von Schülerlösungen Beispiel 4 K 3.2 Angemessenheit K 3.2.1 Situations- und Adressatenbezug Der Situations- und Adressatenbezug ist erfüllt durch: ▶ eine korrekte Anrede und einen angemessenen Briefschluss (siehe K2.3); ▶ den Bezug auf den Wettbewerb bzw. das Plakat; ▶ den Ausdruck von persönlichem Interesse; ▶ die Beschreibung des Lieblingstiers und möglicher Tätigkeiten im Zoo mit themenspezifischem Wortschatz; ▶ das Nennen einer Begründung für das Lieblingstier; ▶ die äußere Form eines offiziellen Briefes; <?page no="245"?> 244 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters ▶ einen höflichen Schreibstil. Die Texte der Schülerinnen und Schüler zeigen, dass dieser Wettbewerb auf ihr Interesse stößt und sie sich deshalb ideenreich mit der Aufgabenstellung auseinander setzen. Da die Umsetzung eine gewisse inhaltliche Freiheit lässt, haben sie kaum Probleme mit fehlendem Wortschatz. Lediglich die Merkmale der Textsorte lettre officielle bereiten auf diesem Lernniveau Schwierigkeiten. K 3.2.2 Bandbreite Die Bandbreite sprachlicher Mittel ist bereits durch die Aufgabenstellung gesteuert, die die Bearbeitung mehrerer inhaltlicher Aspekte erfordert. Da die Aufgabe für die Schülerinnen und Schüler offensichtlich interessant ist, schreiben sie häufig Texte, die die erwartete Länge (80 Wörter) weit überschreiten und viele unterschiedliche Aspekte der Tiere und der Arbeit im Zoo aufgreifen. Dabei verwenden sie oft bereits komplexe Strukturen (si-Sätze, Conditionnel u. ä.). So trifft bei allen Beispieltexten (1-4) dieses Kriterium voll zu. K 3.2.3 Kohärenz/ Kohäsion Alle vorliegenden Schülertexte erfüllen die Merkmale eines kohärenten Textes. Das Thema wird über den gesamten Text logisch entwickelt. Dabei sind die Bezüge eindeutig. Der Aufgabenstellung gemäß dominieren Aussagen im Präsens und der Ausdruck von Möglichkeiten bzw. Wünschen. K 3.4 Richtigkeit Als Beispiel für eine vollständige Erfüllung kann Beispieltext 1 dienen. Die sehr wenigen Fehler (z. B. nicht hörbarer fehlender accord bei intéressée, falsches Genus bei monde) beeinträchtigen den Lesefluss in keiner Weise. Beispiele 2 und 3 erfüllen das Kriterium der Richtigkeit überwiegend. In Beispieltext 2 liegen zwei Fehler im Grenzbereich zwischen Lexik und Grammatik (de la pays, vient anstatt vivent). Dazu kommen u. a. einige Orthografiefehler (abres, giraffes, interessant). Beispieltext 3 enthält noch einige typische Fehler für das Niveau A2 (falscher Plural von animal, Probleme beim Satz mit zwei Objekten donner des lions son repas und bei der Zeitenfolge im si-Satz). Mit überwiegend erfüllt wird das Risiko der Schülerin honoriert, bereits komplexere Strukturen zu verwenden. Nur Beispieltext 4 weist eine etwas größere Zahl an Fehlern in allen Bereichen auf, sodass er in Teilen nicht mehr verständlich ist (vgl. K 3.1). Das Kriterium ist teilweise erfüllt. <?page no="246"?> 245 8.3 Möglichkeiten der Weiterarbeit K 4 Abschließendes Urteil-- Zusammenfassung Kriterium Beispiel 1 Beispiel 2 Beispiel 3 Beispiel 4 1 Erster Gesamteindruck B1 A2 A2 A2 2 Umsetzung der Aufgabenstellung 2.1 Inhalt voll voll voll voll 2.2 Textsorte überwiegend teilweise teilweise teilweise 2.3 Situations- und Adressatenbezug überwiegend überwiegend überwiegend überwiegend 3. Sprachliche Realisierung 3.1 Verständlichkeit voll überwiegend voll teilweise 3.2.1 Situations- und Adressatenbezug überwiegend überwiegend überwiegend überwiegend 3.2.2 Bandbreite voll voll voll voll 3.3 Kohärenz/ Kohäsion voll voll voll voll 3.4 Richtigkeit voll überwiegend überwiegend teilweise 4 Abschließendes Urteil B1.2 A2.1 A2.2 A2.1 Bei dieser Aufgabe wird deutlich, dass sie bedingt durch das Thema und die Situation, in die sich die Schülerinnen und Schüler gut hineinversetzen können, bereits auf Niveau A2 lösbar ist. Auf dieser Lernstufe verfügen sie schon über den notwendigen Wortschatz zur inhaltlichen Umsetzung der geforderten Aussagen. Komplexe Strukturen wie Konditionalsätze können umgangen werden. Bei den Textsortenmerkmalen wird auf Bekanntes zurückgegriffen. Diese Beobachtung spricht für den Bi-Level-Ansatz bei der Aufgabenerstellung und -bewertung (siehe Kapitel 5.4.7 sowie auch Kapitel 6 und 7). 8.3 Möglichkeiten der Weiterarbeit Elke Philipp & Günther Sommerschuh Die Produkte von Schreibaufgaben aus Lern- oder Testsituationen können in vielfältiger Weise unterrichtlich aufgegriffen werden. Sie sind eine wichtige Quelle für diagnostische Rückmeldungen der Lehrkraft an die Schülerinnen und Schüler. Im Folgenden werden für jeweils drei der oben vorgestellten Aufgaben (zunächst für Englisch und anschließend für Französisch) Hinweise für die Weiterarbeit in den Bereichen gegeben, die den Lernenden in der Erprobung Probleme bereiteten. Im Anschluss daran werden aufgabenunabhängig Rückmelde- und Korrekturverfahren zu Schreibprodukten vor- <?page no="247"?> 246 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters gestellt und ausgehend von den in den Schreibprodukten ermittelten aktuellen Lernständen Berichtigungs- und Überarbeitungsmöglichkeiten zur Entwicklung der Schreibkompetenz aufgezeigt. Für das Fach Englisch werden die Aufgaben Keeper for a day, Exchange visit und Birthday present und für das Fach Französisch Chien perdu, Soigneur d’animaux und La mode des ados näher betrachtet. 8.3.1 Aufgabenspezifische Hinweise für die Weiterarbeit Keeper for a day Auffällig ist die große Streubreite der Anrede- und Grußformeln, die nur teilweise idiomatisch stimmig sind. Die Lehrkraft kann daher adressatenadäquate Varianten der Anrede und Schlussformeln für einen formalen Brief sammeln und in einer analogen Schreibaufgabe anwenden lassen. Auch sollte der Unterschied von I want im Vergleich zu I’d like situativ herausgearbeitet und geübt werden. Die Aufgabenstellung verlangt von den Schülerinnen und Schülern im Bereich Grammatik, dass sie sich in die vorgegebene Situation (Keeper for a day) hineinversetzen, ohne wirklich davon auszugehen, dass sie tatsächlich für einen Tag als Zoowärter arbeiten werden. Da die Möglichkeit der Realisierung in der Gegenwart bzw. in der Zukunft sehr gering oder gar unmöglich ist, ist unter grammatikalischen Gesichtspunkten das Konditonal II erforderlich. Die Schülerinnen und Schüler kennen das Konditional II häufig als Chunk in Wendungen wie I’d like to-…, I’d love to-…, I’d rather-… Die korrekte Verwendung der Zeiten in selbst zu bildenden Haupt- und Nebensätzen bereitet aber bekanntlich auch im Deutschen Schwierigkeiten. Anhand der hier angenommenen Tätigkeit als Zoowärter sollen die Schülerinnen und Schüler verschiedene Tätigkeiten nennen und in entsprechende Sätze einbinden: If I were a keeper for a day I’d clean their cages. Da in den Schülertexten Unsicherheiten im Gebrauch zu sehen waren (If I would win-…a day would look like this: First I go-…), kann eine sprachliche Hilfestellung (Scaffolding) gegeben werden. Denkbar sind sog. split sentences, die zunächst die wesentlichen Hürden, in diesem Fall die Verbformen im Haupt- und Nebensatz, beseitigen, und die Schülerinnen und Schüler lediglich die grammatisch unproblematischen Leerstellen füllen müssen: If I were a keeper for a day, I’d-… Als Differenzierungsangebot oder als sukzessive Arbeit in der Klasse können dann die sprachlich relevanten Hilfen (Verbformen für das Konditional II in Haupt-und Nebensätzen) schrittweise verrringert werden, indem im Hauptsatz zwar das would als Signal für das Konditional II gegeben wird, im Nebensatz aber die Verbform als Leerstelle erscheint: If I-……a keeper for a day, I’d-…. Umgekehrt könnte die Konditionalform im Hauptsatz fehlen (If I were a keeper for a day, I-…..prepare the food for the animals) und die Schülerinnen und Schüler müssten dann aufgrund der Verbform im Nebensatz schließen, dass die Chance auf Realisierung kaum oder gar nicht gegeben ist und would bzw. die Kurzform ‘d ergänzen. Nach entsprechenden Beispielsätzen dürften die Lücken im folgenden Beispiel leichter zu füllen sein: If I-……..a keeper for a day, I-…….clean their cages. Die größte sprachliche und inhaltliche Anforderung ist im letzten Beispiel gezeigt: If I-…. a <?page no="248"?> 247 8.3 Möglichkeiten der Weiterarbeit keeper for a day, I-……. Hier sind die Zeitformen und die passenden Verben zu ergänzen. Die hier exemplarisch vorgestellten sprachlichen Hilfen für die Verwendung des Konditional II in den split sentences machen allerdings nur Sinn, wenn die mitgelieferte Aufgabenbeschreibung genügend Hinweise gibt, dass die Situation wenig real bzw. völlig irreal ist. Exchange visit In dieser Aufgabe gab es einige Probleme beim Gebrauch des informellen Registers in der geforderten note (besonders: angemessene Anrede, typische Abschlusswendungen), die im Unterricht aufgegriffen werden können. Die Behandlung englischer Höflichkeitswendungen (Could you make me some sandwiches, please? anstelle von Can you make some sandwiches for the journey? ) können einen Beitrag zur Entwicklung von Sprachbewusstheit für kulturspezifische Konventionen leisten. Birthday present Auch in Schülerprodukten zu dieser Aufgabe sind Unsicherheiten hinsichtlich der textsortenspezifischen Merkmale (Anrede usw.) zu sehen und ermöglichen eine entsprechende Fokussierung in ähnlichen Schreibaufgaben. Darüber hinaus kann ergänzend überlegt werden, wie eine zu direkte Benennung des Anliegens am Anfang der Mail, das recht deutsche ‚Mit der Tür ins Haus fallen‘, durch sprachliche softeners und ein ritualisiertes Eingehen auf den Adressaten (z. B. durch Einfügen von How are you? What’s up? Good to hear from you) vermieden werden kann. Diese Aufgabe eignet sich ebenfalls gut für die Zusammenstellung von Synonymen für think, um so die sprachliche Bandbreite gezielt zu erweitern. Gleiches kann für die Konnektoren geschehen. Ferner können mit den Schülerinnen und Schülern der für diese Aufgabe zentrale Aspekt der language of comparisons herausgearbeitet und die relevanten Redemittel gesammelt werden. Fehlerhäufungen bei der Groß-Kleinschreibung wie bei I Thing the Best Pressent for granny is a Book-… (Beispiel 1) können Anlass sein, diesen Bereich gesondert zu üben, im Klassenverband oder nur von besonders betroffenen Schülerinnen und Schülern. Die Lehrkraft kann Schülerprodukte als Anlass nehmen, Schülerinnen und Schülern zu helfen, die jeweils erforderlichen sprachlichen Mittel in einer Aufgabenstellung speziell an den gewählten Operatoren zu erkennen und ihre Produkte mit dazu passenden Filtern zu überprüfen. So lernen sie allmählich, die Redemittel in einer ganz bestimmten Kommunikationszwecken dienenden Funktion zu erfassen und einzusetzen. Um den Lernstand der Schülerinnen und Schüler, genauer ihren vermutlich nächsten Entwicklungsschritt, produktiv zu begleiten, benötigt die Lehrkraft den Blick für die Zone der nächsten Entwicklung (siehe Kapitel 9). In Sätzen wie and the gift that you give at my first day (Beispiel 3, Exchange visit) möchte der Schüler oder die Schülerin über die Vergangenheit schreiben, es fehlen aber die englischen Formen dafür. Im gleichen Text kennt er oder sie das Modalverb needn’t nicht (You don’t buy present I have already got everything). Wenn die Lehrkraft erkennt, wo der Schüler oder die Schülerin sich ‚zur Decke streckt‘ und dann die <?page no="249"?> 248 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters passende sprachliche Trittleiter hinstellt, wird ein Lernprozess möglich, den letztendlich der Schüler bzw. die Schülerin selbst durch das ‚fehlerhafte Angebot‘ initiiert hat. Chien perdu Die Hauptschwierigkeit bestand für die Lernenden in der Produktion der Textsorte Poster. Sie waren offensichtlich nicht in der Lage, vorhandene Textsortenkenntnisse aus dem Deutsch- und Englischunterricht in dieser Situation anzuwenden oder hatten Angst, durch unvollständige Sätze eine schlechtere Bewertung zu bekommen. Dieses Ergebnis zeigt, dass Merkmale bekannter Textsorten vor der Realisierung von Schreibaufgaben im Französischunterricht nochmals bewusst gemacht werden müssen. Bestimmte Themen sind häufig an bestimmte Textsorten gebunden. Diese sollten dann auch vorrangig Unterrichtsgegenstand in der entsprechenden Lektion sein (z. B. Steckbrief, Einladung, Bewerbung, Meinungsäußerung in einem Blog). Gemeinsam können Checklisten (vgl. Caspari, 2004; Deharde & Lück-Hildebrandt, 2006) für das Schreiben von Texten der entsprechenden Textsorte zusammengestellt werden. Ein Beispiel findet sich in Abbildung-1. Neben typischen Inhalten und Hinweisen zum Situations- und Adressatenbezug enthalten diese Checklisten auch Hinweise zu äußeren Merkmalen der Textsorte und können ggf. durch typische Wendungen bzw. Beispieltexte ergänzt werden. So erfüllen sie die Funktion einer Checkliste bei der Produktion eigener Texte als auch bei der Peer-Evaluation z. B. im Rahmen von Schreibkonferenzen. Über die Lernjahre kann eine Sammlung von Checklisten und Mustertexten entstehen, die nicht nur im Französischunterricht hilfreich ist. Fiche d’écriture : affiche - exemple : objet perdu 1. äußere Merkmale der Textsorte □ markante Überschrift, die die Aufmerksamkeit der Passanten auf sich zieht □ stichpunktartige Informationen, möglichst kurz 2. Inhalte Antwort auf die Fragen: □ Was wurde verloren? □ Wo wurde es verloren? □ Wann wurde es verloren? □ genaue Beschreibung □ Kontaktmöglichkeit zum Besitzer □ Dank - ggf. Finderlohn <?page no="250"?> 249 8.3 Möglichkeiten der Weiterarbeit 3. Situations- und Adressatenbezug □ sachliche Beschreibung mit themenspezifischem Wortschatz □ ggf. Ausdruck der Verzweiflung über das Verschwinden des Gegenstandes □ ggf. höfliche Ansprache der Passanten mit einer höflichen Bitte um Hilfe 4. Form □ mindestens A 4 □ große (ggf. farbige) Überschrift □ wenn möglich Foto oder Zeichnung □ übersichtliche, gut leserliche Gestaltung (neue Informationen auf neue Zeile ) Hast du alle Punkte beachtet? ☒ Kreuze an. Abbildung 1: Fiche d’écriture Soigneur d’animaux Die Aufgabenstellung erforderte einen an M. Plantard gerichteten offiziellen Brief. Analog zum Einsatz der Aufgabe in Englisch ist eine große Bandbreite der Anredevarianten feststellbar, die oft nicht den Normen der Textsorte „offzieller Brief / Bewerbungsschreiben“ entspricht (Salut M Plantard / Mesdames et Messieurs, bonjour / Salut au team du zoo). Darüber hinaus fehlte das Nennen eines Schreibanlasses oft völlig. Hier bietet es sich an, neben dem Herausarbeiten von allgemeinen Merkmalen der Textsorte mit den Schülerinnen und Schülern gemeinsam die Aufgabenstellung bezüglich des Situations- und Adressatenbezugs genauer unter die Lupe zu nehmen: ▶ An wen schreibe ich? Wie spreche ich diese Person an? (Cher Monsieur-…/ vous-Form) ▶ Warum schreibe ich? Wie beginne ich meinen Brief ? Worauf nehme ich Bezug? (Vorgaben aus der Aufgabenstellung und die dort geforderte Textsorte affiche) ▶ Wie beende ich meinen Brief ? (Hoffnung auf positive Antwort, geeignete Schlussformel) Das Ausdrücken der möglichen Tätigkeiten war für die getesteten Schülerinnen und Schüler kein Problem. Sie bildeten selten vollständige Konditionalsätze mit Möglichkeit und Folge, sondern verwendeten häufig nur Formulierungen von Wünschen im Futur (je vais-…), mit Formen von vouloir und aimer (je veux / je voudrais / j‘aimerais) oder mit dem Conditionnel (je donnerais, je m’occuperais-…). Da diese Formulierungen situationsangemessen sind, kann hier auf die Wiederholung der si-Sätze verzichtet werden. <?page no="251"?> 250 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters La mode des ados Diese Aufgabe zur Meinungsäußerung in einer Leserzuschrift zeigte deutlich, welche Schwierigkeiten durch einen sprachlich schwierigen Grundlagentext für eine Schreibaufgabe entstehen können. Hier beeinflusste das Leseverstehen eindeutig den Schreiberfolg. Keiner der getesteten Lernenden bearbeitete die Aufgabenstellung vollständig, indem er oder sie auf alle drei Leitfragen des Textes antwortete. Es liegt die Vermutung nahe, dass diese auf Grund der komplexen Strukturen (Inversion, Conditionnnel) und schwierigen Lexik (séduire, passer par, en passer) nicht vollständig erfasst wurde. Um keine Abhängigkeit zwischen den beiden Kompetenzen Leseverstehen und Schreiben entstehen zu lassen, sollte der zu Grunde liegende Text auf jeden Fall auf dem gleichen oder einem niedrigeren Niveau als der erwartete Schreibtext liegen bzw. lexikalisch vorentlastet werden (vgl. Kapitel 7). Darüber hinaus ist es hilfreich, mit den Schülerinnen und Schülern gemeinsam Aufgabenstellungen zum Schreiben zu analysieren, dabei Wichtiges zu markieren und aufzudecken, zu welchen Textstellen Reaktionen erwartet werden (indirekte neben direkten Fragen, Inversionsfragen, Unsicherheiten des Autors usw.). Eine Aufzählung der erwarteten Inhalte (Parle de-…) unter dem Schreibimpuls lenkt den Schreibprozess zusätzlich. Es ist jedoch zu beachten, dass sehr ausführlich formulierte Aufgabenstellungen und situative Einbettungen nicht nur zusätzlich Lesekompetenz erfordern, sondern oft schon wichtigen Wortschatz und Strukturen für den eigenen Text zur Verfügung stellen. Das gilt z. B. bei der Antwort auf Mails, wo auf konkrete Fragen des Schreibenden (2. Person Singular) durch eine simple Umformung in die 1. Person Singular reagiert werden kann. Deshalb empfiehlt es sich, bei der Formulierung der Aufgabenstellung offenere Fragen und Formulierungen (z. B. Parle de-…/ Écris-moi sur-….) sowie Oberbegriffe zu verwenden. 8.3.2 Aufgabenunabhängige Formen der Rückmeldung - Überarbeitung / Korrektur In Kapitel- 9 werden unterschiedliche Rückmeldeverfahren diskutiert.Besonders wenn eine formative Bewertungssituation vorliegt, kann die Lehrkraft je nach Lernstand der Klasse bzw. je nach dem Lernstand Einzelner unterschiedlich komplexe Überarbeitungs- und Korrekturangebote machen. Diese erfolgen meist direkt im Schreibprodukt in der Randspalte und lenken den Korrektur- und Überarbeitungsprozess unterschiedlich stark. Für sehr schwache Schülerinnen und Schüler ist häufig die sog. Positivkorrektur, d. h. die vollständige Bereitstellung der angemessenen / richtigen Wendungen durch die Lehrkraft, Ausgangspunkt der Korrektur in Form einer Abschrift der Lehrerversion. Daran kann sich u. U. das Aufschreiben eigener Sätze oder Wörter auf der Grundlage der modellhaften Lehrervorgaben anschließen. Für leistungsstärkere bzw. mit einer bestimmten Rückmeldeform vertrautere Schülerinnen und Schüler kann die Lehrkraft gelungene / weniger gelungene / fehlerhafte Aspekte bei der Umsetzung der Aufgabenstellung und der sprachlichen Realisierung auch lediglich mit far- <?page no="252"?> 251 8.3 Möglichkeiten der Weiterarbeit bigen Rückmeldesymbolen am Rand kenntlich machen. Die Schülerin oder der Schüler überarbeitet selbständig. Wichtig erscheint, dass Grammatik- und Wortfehler nur kontextbezogen, d. h. im Satz oder Absatz berichtigt werden. Als ‚Motivation‘ für diese Form der Umsetzung kann der Hinweis stehen, dass die Schülerinnen und Schüler vor der nachfolgenden Arbeit als Hausaufgabe für sie typische Fehler / Defizite aufschreiben, Analogbeispielsätze finden und für sich formulieren, worauf sie in der Arbeit besonders achten wollen. Dies alles dürfen sie in der nächsten Arbeit benutzen. Alternativ können speziell für den Bereich Sprachliche Realisierung am Rand verabredete Korrekturzeichen für die jeweilige Fehlerart verwendet werden, ohne dass in der Zeile die Fehler markiert sind. Die Schülerin oder der Schüler ermittelt die konkreten Fehler eigenständig und überarbeitet den Satz bzw. die Passage. Dies kann auch in Form des Peer-Editing geschehen, wobei in einem ersten Schritt einzelne Teilaufgaben oder spezifische Bereiche der Umsetzung der Aufgabenstellung bzw. der Sprachlichen Realisierung von verschiedenen Schülerinnen oder Schülern bearbeitet werden. Anschließend erfolgt zu zweit eine Einigung auf die vermeintlich beste Fassung. Sich ergebende Fragen werden im Plenum oder mit der Lehrkraft geklärt. Das gleiche Vorgehen, aber mit jeweiliger Fehlermarkierung im Text ohne eine Positivkorrektur eignet sich besonders für die Hervorhebung wiederholt auftretender Fehler (Englisch: Focus on tenses, word order, spelling etc; Französisch: accord des adjectifs, article partitif, conjugaisons des verbes irréguliers etc.). Eine derartige Schwerpunktsetzung hilft dem Schüler oder der Schülerin, gezielter Bereiche zu bearbeiten, ohne an einer Komplettverbesserung zu verzweifeln. Die von der Lehrkraft überprüften Überarbeitungen können allen in der Klasse als Modell zur Verfügung gestellt werden, sodass sich auch leistungsschwächere Schülerinnen und Schüler einbringen können. Eine weitere Möglichkeit im Rahmen einer formativen Rückmeldung besteht darin, auf eine schriftliche Rückmeldung / Korrektur zunächst zu verzichten, was eine enorme Arbeitserleichterung für die Lehrkraft darstellt. Die Besprechung erfolgt vor der Rückgabe der Hefte im Unterricht mit Schwerpunktsetzung und modellhaften Realisierungen in den Bereichen, die während der Lektüre der Schülerarbeiten aufgefallen sind. Im Unterricht berichtigen bzw. überarbeiten die Schülerinnen und Schüler dann ihre eigenen Produkte. Die jetzt zu korrigierenden Schülerarbeiten weisen vermutlich weniger Schwachpunkte auf, sodass die Korrektur und Bewertung schneller als sonst erfolgen kann. Um die Auseinandersetzung mit dem eigenen Produkt zu intensivieren, kann die Arbeit mit entsprechenden, eher allgemein gehaltenen Anmerkungen der Lehrkraft in der Randspalte zu Stärken und Schwächen zurückgegeben werden. Die Besprechung erfolgt erst in der folgenden Stunde, zu der die Schülerinnen und Schüler eine vorbereitende Hausaufgabe erhalten: Ermittle für die Bereiche Umsetzung der Aufgabenstellung und Sprachliche Realisierung die Teilbereiche, in denen du 1. die meisten Fehler / Verstöße / Lücken hast und 2. dich gegenüber der letzten Arbeit verbessert hast. <?page no="253"?> 252 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters In der Besprechungsstunde stellen die Schülerinnen und Schüler exemplarisch ihre Ergebnisse zu 1) und 2) mittels eines Lernposters, des Overhead-Projektors bzw. am Interactive Board mit einer Dokumentenkamera vor. Mitschülerinnen und Mitschüler sowie die Lehrkraft ergänzen bzw. korrigieren. Weitere Überarbeitungsschritte folgen wie oben beschrieben. Nach deren Abschluss kompilieren die Schülerinnen und Schüler zu einzelnen Bereichen aus verschiedenen Arbeiten examples of best practise. Diese Sammlung dient zur Vorbereitung der nächsten Klassenarbeit. Im Laufe der Zeit entsteht ein Kompendium zu verschiedenen Schreibanlässen, Textsorten usw. Eine weitere Variante der Lehrerrückmeldung an die Schülerin oder den Schüler kann ein individuell abgestimmtes Scaffolding zur Selbstkorrektur sein. Einen Fehler nur positiv zu korrigieren oder ihn nur optisch zu markieren, reicht für manche Schülerinnen und Schüler nicht für die selbständige Überarbeitung; es kommt eher zu Verschlimmbesserungen. Im Beispiel-2 zu Birthday present könnte die Lehrkraft am Rand des Schülertextes im Fall von a birthday cake are fragen: Meinst du einen oder mehrere Kuchen? Oder bei an book vermerken: book hat einen Konsonanten am Anfang. Je nach Schülerpersönlichkeit kann das Scaffolding abstrakter, theoretischer oder vergleichend-anschaulich sein (siehe Kapitel-9). Viele der genannten Methoden erfordern eine Kommunikation zwischen der Lehrkraft und den Schülerinnen und Schülern in Feedbackgesprächen. Nur so lassen sich mögliche Fehlerursachen (z. B. Übergeneralisierungen von Regeln, Interferenzen anderer Sprachen oder Strukturen, nichtverstandene Regeln usw.) ermitteln. Begleitet werden können diese Gespräche durch eine Befragung der Schülerinnen und Schüler zu besonderen Schwierigkeiten beim Schreiben. Ein Abgleich mit dem Lehrereindruck ergänzt die Schülersicht, gibt Hinweise auf die zukünftige schulische und häusliche Vorbereitung, schärft den Blick für individuelle trouble spots und hilft der Lehrkraft, erforderliche Unterstützungen zur Verfügung zu stellen. Zum Festhalten dieser Diagnoseergebnisse eignet sich aus Schülersicht ein individueller Lernplan oder ein Logbuch. Darin formulieren die Schülerinnen und Schüler für sich möglichst konkret zwei bis drei Schwerpunkte für die Weiterarbeit wie z. B.: ▶ Ich stelle mir Wendungen zusammen, wie ich eine Meinung ausdrücke und präge mir diese ein. ▶ Ich beginne meine Texte mit einer Einleitung (Schreibanlass usw.). ▶ Ich prüfe meine Texte auf die Wortstellung S-- P-- O. ▶ Ich achte auf Groß-/ Kleinschreibung. ▶ Ich prüfe, ob ich die Zeitformen richtig verwendet habe und schlage ggf. unregelmäßige Verbformen nach. Je nach Lernniveau und Sprache können hier auch thematische Wortfelder oder bestimmte sprachliche Strukturen aufgenommen werden, die sich in den zuvor produzierten Texten als noch nicht ausreichend gefestigt erwiesen haben. Nach einer folgenden Schreibaufgabe sollte dann bilanziert werden, inwieweit die Umsetzung der Schwerpunkte gelungen ist, ob sie weiter bestehen bleiben oder verändert werden sollten. Dies kann zu Beginn im Unterricht <?page no="254"?> 253 Hinweise zum Weiterlesen mit Nachfragemöglichkeit bei der Lehrkraft geschehen und später zunehmend in individuelle Arbeitsphasen verlagert werden. Viele Lehrkräfte haben allerdings die Tendenz, Berichtigungen und die Arbeit an individuellen Fehlerschwerpunkten ausschließlich in die Eigenverantwortung der Schülerinnen und Schüler zu geben, indem sie diese in die Hausaufgabe verlagern. Darüber hinaus erachten wir es aber als wichtig, dass auch im Unterricht Gelegenheit zur Arbeit an diesen trouble spots gegeben wird. So lassen sich neben Phasen der Freiarbeit mit einem Aufgabenangebot zur Arbeit an individuellen Fehlerschwerpunkten auch kooperative Lernformen zum Überarbeiten von Schreibprodukten planen. Diese Unterrichtsabschnitte haben für die Lernenden den Vorteil, dass die Lehrkraft und Mitschülerinnen und Mitschüler bei Unsicherheiten als Helferinnen und Helfer zur Seite stehen und dass dadurch annähernd fehlerfreie Texte entstehen, sodass folgende Schreibprodukte bereits eine höhere Qualität aufweisen-- es sich also um intensiv genutzte Unterrichtszeit handelt. Gerade in sehr heterogenen Klassen gibt es einen Anteil von Schülerinnen und Schülern, für die das Schreiben eines eigenständigen und möglichst fehlerfreien Textes eine große Herausforderung darstellt und für die auch eine sehr gelenkte Überarbeitung eines Schreibproduktes noch lange nicht ausreichend für die erfolgreiche Bewältigung einer folgenden Schreibaufgabe ist. Um auch diese Lernenden zu Erfolgserlebnissen im Bereich des Schreibens zu führen, hat es sich bewährt, mit ihnen entsprechend ihrer Hauptschwierigkeiten Hilfen zu erarbeiten, die sie dann auch während des Schreibprozesses nutzen können. Dies könnten sein: 1. die Aufgabenstellung in beiden Sprachen; 2. ein Blatt mit Schreibideen und ggf. auch Formulierungshilfen; 3. die Nutzung von fiches d’écritures oder writing frames (siehe Abbildung 1); 4. Zusammenstellungen von themen- und / oder textsortenspezifischem Wortschatz; 5. die Nutzung von Wörterbüchern und weiteren Nachschlagewerken. Solche Hilfen geben eine gewisse Sicherheit und ermöglichen eine-- wenn auch stark gelenkte-- Lösung der Schreibaufgabe. Dieses Vorgehen entspricht durchaus der Lebenswirklichkeit, bei der man sich beim Schreiben wichtiger Texte (z. B. Bewerbungsschreiben) ebenfalls Hilfen durch Modelle, Nachschlagewerke oder Korrekturleserinnen und Korrekturleser sucht. Da die eigenständige Leistung in diesem Fall geringer ist, sollte in Überprüfungssituationen festgelegt werden, ob und in welchem Umfang die individuelle Nutzung von Hilfen zu Punktabzug führt, sodass eine „gerechte“ Bewertung innerhalb der Lerngruppe gewährleistet ist. Hinweise zum Weiterlesen Hinweise zum Testkonstrukt sowie zum Umgang mit den GER -Skalen finden Sie in Kapitel 5. Ausführliche Informationen zur Bewertung von Schreibleistungen nach unterschiedlichen Kriterien sowie Beispiele anderer Bewertungsraster und Kodierschemata finden sich in Kapitel 6. <?page no="255"?> 254 8 Evaluation von Schreibkompetenzen mithilfe eines Bewertungsrasters Literatur Caspari, Daniela. (2004). Schreiben-- umschreiben-- weiterschreiben. Briefe individuell verfassen und gemeinsam überarbeiten. Der fremdsprachliche Unterricht Französisch, 72, 8-12. Deharde, Kristine & Lück-Hildebrandt, Simone. (2006). Fiches d’écriture und fiches de correction. Praxis Fremdsprachenunterricht, 1, 38-42. Europarat. (2001). Gemeinsamer europäischer Referenzrahmen für Sprachen: Lernen, lehren, beurteilen. Berlin: Langenscheidt. [abrufbar unter: www.coe.int/ lang und http: / / student.unifr.ch/ pluriling/ assets/ files/ Referenzrahmen2001.pdf] Porsch, Raphaela & Tesch, Bernd. (2010). Messung der Schreibkompetenz im Fach Französisch. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung. Französisch in der Sekundarstufe I (S. 151-176). Münster: Waxmann. <?page no="256"?> 255 Literatur 9 Feedback zu schriftlichen Lernerproduktionen Rüdiger Grotjahn & Karin Kleppin In der internationalen Bildungsforschung gilt ein adäquates Feedback-- im Sinne einer Rückmeldung an einen oder mehrere Lerner-- als ein entscheidender Faktor für ein erfolgreiches Lehren und Lernen. Auch in curricularen Dokumenten zum Fremdsprachenunterricht wird die Bedeutung eines adäquaten Feedbacks betont (vgl.-z. B.- MSW , 2014, S. 46). Nach der viel zitierten Metastudie von Hattie (2009), auf die zunehmend auch in praxisorientierten Beiträgen zum Lehren und Lernen von Fremdsprachen Bezug genommen wird (vgl. z. B. Hohwiller, 2016; Siebold, 2014), soll Feedback den Lernenden ermöglichen, die Lücke zwischen der momentan gezeigten Leistung und der angezielten Kompetenz zu überwinden (vgl. auch Hattie & Timperley, 2007; Hattie & Yates, 2014; Jang & Wagner, 2014, S. 705). Folgende Fragen sind dabei von besonderer Bedeutung: Was ist das Ziel? Was ist der aktuelle Leistungsstand? Welche Fortschritte wurden gemacht? Was ist der nächste Schritt? Ein wichtiger Meilenstein ist in diesem Zusammenhang die insbesondere auf Paul Black und Dylan Wiliam zurückgehende Assessment for Learning (AfL) Bewegung (siehe Black, Harrison, Lee, Marshall & Wiliam, 2003; Black & Wiliam, 1998 sowie Assessment Reform Group, 2002). Hamp-Lyons (2016) stellt hierzu fest: The fundamental principles of AfL are that teachers work with learners to ensure each learner perceives a gap between their current and desired knowledge or ability; that then the learner must actively work to close that gap and reach the desired goal; and importantly, that learners receive appropriate and timely feedback on their active efforts. (Hamp-Lyons, 2016, S. 22) Eine ähnliche Sicht findet sich auch in aktuellen Darstellungen von Konzeptionen eines learning-oriented assessment (vgl. Jones & Saville, 2016; Turner & Purpura, 2016). Eine weitere Perspektive auf Feedback eröffnet die (interaktionistische) dynamische Evaluation. Autoren, die sich vor diesem Hintergrund mit Feedback beschäftigen, nehmen das beim Lernenden vorhandene Potential mit in den Blick. Es geht dann nicht nur um die Überwindung der Lücke zwischen dem augenblicklichen und dem angezielten Stand der Kompetenzen, sondern auch darum, gemeinsam mit Lernenden in mündlicher und / oder schriftlicher Interaktion das Potential zur Weiterentwicklung der Kompetenzen auszuloten und die entsprechenden Informationen für die nächsten Lehr-Lern-Schritte nutzbar zu machen (vgl. Kapitel 9.5). Im vorliegenden Beitrag werden wir als erstes auf die allgemeine und die fremdsprachenspezifische Fachdiskussion zu Konzepten und Verfahren von Feedback eingehen und dabei insbesondere die L2-Fehlerkorrektur thematisieren. Anschließend beschäftigen wir uns mit Funktionen und Typen von Lehrer-Feedback zu schriftlichen Produktionen in der Fremdsprache. In den beiden folgenden Kapiteln geht es um Feedback bei Selbst- und Peer- Evaluation sowie um Feedbackgespräche und Anregungen zur Überarbeitung schriftlicher Lernerproduktionen. Es folgt ein umfangreiches Kapitel zum Feedback auf der Basis der inter- <?page no="257"?> 256 9 Feedback zu schriftlichen Lernerproduktionen aktionistischen dynamischen Evaluation. Der Beitrag schließt mit einem kurzen Ausblick auf automatisierte Diagnose- und Feedbacksysteme im fremdsprachlichen Bereich. 9.1 Feedback in der Fachdiskussion Die dem Lernenden in Form von Feedback gegebenen Hinweise können sich auf bestimmte Merkmale des Schreibprodukts oder auch auf sprachliche Wissensbestände, metakognitives Wissen, Strategien und Einstellungen beziehen. Voraussetzung für positive Effekte ist allerdings ein sinnvoller und professionell durchdachter Einsatz. Denn Lehrkräfte machen in der Praxis häufig die Erfahrung, dass ihr Feedback von Lernenden keinesfalls immer so aufgenommen wird, wie sie es beabsichtigt haben. Hattie & Yates (2014, S. 46) vermuten im Hinblick auf dieses Phänomen eine „Empathie-Lücke“. Damit ist gemeint, dass Lehrkräfte im Unterricht nicht hinreichend antizipieren, welche Auswirkungen ihr Verhalten auf die Lernenden hat. Dies kann dazu führen, dass Lernende das Feedbackverhalten nicht im Sinne der Intention der Lehrkräfte interpretieren und weiter verarbeiten. Insbesondere schwächere Lernende haben zudem häufig Probleme bei der Verarbeitung von komplexeren Formen von Feedback. Auch dies muss die Lehrkräfte in adäquater Weise berücksichtigen. 9.1.1 Ziele und Ebenen von Feedback Effektives Feedback (durch Lehrkräfte, Peers oder andere Aktanten) an Lernende wirkt laut Hattie & Timperley (2007) auf vier Ebenen: auf der Ebene der Aufgabe und des Produkts der Aufgabenbearbeitung, auf der Ebene des Prozesses (z. B. des Bearbeitungsprozesses bei einer Aufgabe), auf der Ebene der Selbstregulation (z. B. im Hinblick auf die gefühlte Selbstwirksamkeit) und auf der Ebene der Person bzw. Persönlichkeit. Dabei gilt, dass alleiniges Feedback zur Person- - vor allem in Form von unspezifischem Lob- - weniger wirksam ist, da es keine lernrelevanten Informationen enthält. Die aus Hattie & Timperley (2007) entnommene Abbildung- 1 verdeutlicht den Zusammenhang zwischen Zielen, Typen und Ebenen von Feedback. 9.1.2 Spezifische Merkmale von Feedback zu schriftlichen Produktionen Feedback zu schriftlichen Produktionen kann in mündlicher oder auch schriftlicher Form erfolgen, d. h. einerseits können Lernerproduktionen mit schriftlichen Anmerkungen versehen werden, und anderseits können Lehrkräfte oder auch Peers mündlich auf schriftliche Lernerproduktionen reagieren. Dabei besteht die Möglichkeit, dass Lehrkräfte oder auch Peers auf Initiative von Lernenden Feedback geben (vgl. hierzu auch Campbell & Schumm Fauster, 2013, S. 62 ff.). <?page no="258"?> 257 9.1 Feedback in der Fachdiskussion Abbildung 1: “A model of feedback to enhance learning” (Hattie & Timperley, 2007, S. 87, Figure 1) Wie bereits erwähnt, wird Feedback häufig von Lernenden entweder gar nicht oder nicht im intendierten Sinne rezipiert. Dies ist u. a. dann der Fall, wenn Lehrkräfte versuchen, bewertete Arbeiten als Grundlage für eine Besprechung von sprachlichen Fehlern heranzuziehen-- mit der Absicht, dass Schülerinnen und Schüler sich mit ihren Fehlern auseinandersetzen und dann für eine nächste schriftliche Arbeit möglicherweise besser vorbereitet sind. In der Unterrichtsrealität beobachtet man häufig, dass Lernende mit einer solchen Situation deutlich anders umgehen. Bei einer guten Note legen sie ihr Schreibprodukt erleichtert aus der Hand. Bei einer schlechten Note fehlt die Motivation, sich mit dem „schlechten“ Produkt noch einmal auseinander zu setzen. Wenn Lernenden hingegen die Möglichkeit gegeben wird, ihre Note durch eine Überarbeitung anhand der Rückmeldung zu verbessern, dann erhöht sich zumeist auch ihre Motivation im Hinblick auf die Beschäftigung mit dem Feedback und der Verbesserung ihres Schreibproduktes. Ein entsprechendes, auf Kompetenzentwicklung zielendes unterrichtsintegriertes Feedback wird in Analogie zur formativen Evaluation auch als formatives Feedback bezeichnet. Entsprechend zielt ein summatives Feedback auf eine abschließende Einschätzung oder Bewertung der Schreibleistung z. B. in Form einer Endnote. In diesem Zusammenhang wird häufig betont, dass formatives Feedback in der Regel lern- und motivationsförderlicher als ein eindeutig summativ konzipiertes Feedback ist. Dies hebt z. B. auch Busse (2015, 2016) in ihrem Überblick über Studien zum schriftlichen Feedback zu längeren Schreibprodukten im <?page no="259"?> 258 9 Feedback zu schriftlichen Lernerproduktionen Kontext des Erlernens von Fremd- und Zweitsprachen hervor. Sie stellt dabei heraus, dass bei der Aufnahme des Lehrerfeedbacks individuelle kognitive und affektive Lernervariablen, wie z. B. Lernstile, Einstellungen zur Sprache, zum Sprachenlernen, zur Lehrkraft, Selbstwirksamkeitswahrnehmung und Sprechangst, eine entscheidende Rolle spielen können. Zwar lassen sich kaum verallgemeinerbare Ergebnisse aus den von Busse gesichteten Studien ableiten, deutlich wird aber-- wie auch bei Hattie (2009, S. 175-177)--, dass effektives Feedback den Lernenden Hinweise darauf geben muss, inwieweit sie sich dem gesetzten Ziel genähert haben. Es sollen also eigene Fortschritte oder auch Rückschritte im Hinblick auf das Lehrbzw. Lernziel benannt und erkannt werden. Die Abbildung- 2 verdeutlicht noch einmal die beschriebenen Typen von Feedback zu schriftlichen Lernerproduktionen. Lerner- und lehrerinitiiertes Feedback Schriftliches Feedback Mündliches Feedback Formatives Feedback (Anmerkungen zum Text) Summatives Feedback (zusammenfassende Beurteiltung) Formatives Feedback (Anmerkungen während des Schreibens) Summatives Feedback (zusammenfassende Beurteilung) Feedbackgespräche Abbildung 2: Typen von Feedback zu schriftlichen Lernerproduktionen 9.1.3 Feedback in Form von Fehlerkorrektur Die meisten Autoren, die sich mit Feedback im Bereich des Fremdsprachenlernens und -lehrens beschäftigen, sehen Feedback in enger Verbindung zur Fehlerkorrektur (vgl. zum schriftlichen Feedback Bohnensteffen, 2010; Busse, 2015; Kang & Han, 2015 und zum mündlichen Feedback Schoormann & Schlak, 2012). Die Autoren betonen dabei die Bedeutung der <?page no="260"?> 259 9.1 Feedback in der Fachdiskussion in Korrekturen enthaltenen mehr oder minder expliziten Informationen, die Lernende dann bei künftigen Textproduktionen nutzen können. Viele Feedback-Studien im anglophonen Bereich-- darunter auch einige Metastudien-- beschäftigen sich mit der Nachhaltigkeit und Effektivität von schriftlichen Korrekturverfahren (vgl. z. B. Ferris & Hedgcock, 2013, Kap. 7-9; Kang & Han, 2015; Lee, 2014; Mawlawi Diab, 2015; Porsch, 2010, S. 94 f.). Unterschiedliche Korrekturverfahren z. B. in Form einfacher Fehlermarkierungen, zusätzlicher Fehlerbenennungen oder Berichtigungen durch Lehrkräfte scheinen sich nicht wesentlich in ihrer Effektivität voneinander zu unterscheiden. Obgleich auch Kang & Han (2015) zugeben, dass sich keine klaren Ergebnisse abzeichnen, betonen sie in ihrem Fazit, dass ein schriftliches Feedback zu Schreibprodukten zumindest bei der Weiterentwicklung grammatischer Korrektheit eine wichtige Rolle spielen kann. Dabei könnte-- so Dobrić & Sigott (2014)-- eine einheitliche Fehlertaxonomie die Formulierung von Feedback an Lernende erleichtern. Wie allerdings Bohnensteffen (2010, S. 134) kritisch feststellt, gibt es in Deutschland bei der Fehlerbezeichnung, Fehlergewichtung, Anwendung der Sprachnorm sowie Gewichtung der Bewertungsbereiche eine relativ große Spannbreite. Inwieweit man sich grundsätzlich an einer einheitlichen Taxonomie orientieren sollte, hängt sicherlich vom Ziel des Feedbacks ab: Soll Lernenden ein schneller, verständlicher und transparenter Überblick über ihre Fehlertypen geboten werden, dann ist eine einheitliche Taxonomie sinnvoll. Will man hingegen z. B. Fehler fokussieren, weil sie gerade in einer Gruppe oder bei bestimmten Schülerinnen und Schülern gehäuft auftreten, sind u. E. auch Verfahren anzuwenden, die sich von einer ansonsten üblichen Rückmeldung unterscheiden (siehe Tabelle-3 in Kapitel 9.2.5). Die zum Teil widersprüchlichen Ergebnisse empirischer Studien sowie die widersprüchlichen didaktischen Empfehlungen hängen sicherlich auch damit zusammen, dass Lernende und Lehrkräfte auf Grund des Einflusses individueller Faktoren bestimmte Vorlieben im Hinblick auf Fehlerkorrektur und Feedback haben. So teilt z. B. Lochtmann (2003) in ihrer Studie zur Korrektur mündlicher Fehler Lehrerpersönlichkeiten in fehlertolerante, fehlerintolerante und gemäßigte Typen ein. Lehrkräfte entwickeln zudem Routinen, die sie quasi automatisch abrufen, wenn sie auf Fehler von Lernenden reagieren. Auf der anderen Seite bevorzugen auch Lernende bestimmte Verfahren bei der Korrektur sowohl ihrer mündlichen als auch ihrer schriftlichen Fehler (zur Korrektur mündlicher Fehler vgl. Kleppin & Königs, 1991, S. 277). Eine Differenz bei den Vorlieben der Lehrkräfte und Lernenden kann zu Problemen führen. Zwei Beispiele von Lehrkräften in jeweils unterschiedlichen Unterrichtskontexten sollen dies verdeutlichen. <?page no="261"?> 260 9 Feedback zu schriftlichen Lernerproduktionen Beispiel 1: Lehrerin X tendiert dazu, Fehler direkt und explizit zu korrigieren, indem sie in vielen Fällen die richtigen Formen unmittelbar im Schülertext anmerkt. Dies kann bei Schülerin A, die es vorzieht, zunächst auf einige zentrale Fehler z. B. durch Unterstreichen aufmerksam gemacht zu werden und sich dann selbst zu korrigieren, zu einer negativen Beeinflussung des Selbstwirksamkeitsgefühls führen. Lieber würde diese Schülerin sich anhand von weiterführenden Tipps mit ihrer Produktion auseinandersetzen, um möglicherweise auf der Basis ihres überarbeiteten Textes eine bessere Note zu erhalten. Schüler B schätzt dagegen das Korrekturverhalten der Lehrerin X als für ihn adäquat ein. Er möchte sich nach Rückgabe der Arbeit entweder gar nicht oder lediglich durch aufmerksames Nachlesen der in seinen Text eingefügten Korrekturen mit seiner Arbeit beschäftigen. Schüler B wäre durch das Unterstreichen seiner Fehler mit dem Ziel der Selbstkorrektur überfordert. Beispiel 2: Lehrer Y zieht es vor, die seiner Meinung nach wichtigen, schweren oder auch interessanten Fehlertypen zu sammeln und sie dann z. B. entweder in Partner- oder Kleingruppenarbeit oder auch in der gesamten Lerngruppe eigenständig korrigieren zu lassen. Die Fehler und Korrekturen werden besprochen und sollen die Lernenden dazu anregen, sich intensiv mit ihren Fehlern zu beschäftigen. Wahrscheinlich gibt es in der jeweiligen Gruppe jedoch auch Lernende, die sich insbesondere in der Großgruppe dabei unwohl fühlen, weil sie viele ihrer eigenen Fehler als ein Scheitern wahrnehmen. Sie würden daher vermutlich eher direkte und explizite Korrekturen, die der Lehrer in ihren Text einfügt, vorziehen - eventuell versehen mit zusätzlichen Erklärungen. Grundsätzlich könnte sich eine Lehrkraft beim Feedback auf schriftliche Produktionen eher als bei der schnell ablaufenden mündlichen Produktion auf Vorlieben von Lernenden einlassen, was allerdings mit großem Aufwand verbunden und daher in der Regel nur eingeschränkt realisierbar ist. Den Vorlieben der Lernenden und Lehrkräfte in adäquater Weise Rechnung zu tragen, stellt deswegen eine große Herausforderung dar. Eine wichtige Möglichkeit sind interaktive Feedbackgespräche (vgl. Kapitel 9.4). Hierbei versuchen Lehrkräfte und Lernende in der gesamten Gruppe-- allerdings vorbereitet in Kleingruppen-- miteinander zu klären, welche Vorlieben sie haben und wie darauf eingegangen werden kann. Besonders betont werden soll abschließend, dass empirische Untersuchungen zu schriftlicher und mündlicher Fehlerkorrektur darauf hinweisen, dass ein selbstständiges und bewusstes Auseinandersetzen mit den eigenen Fehlern, die Reflexion über Fehlerschwerpunkte und ihre Ursachen sowie eine sich daraus ergebene „schülerorientierte Fehlerdidaktik“ (vgl. u. a. Bohnensteffen, 2010, S. 92) die Lernmotivation erhöhen können. <?page no="262"?> 261 9.2 Funktionen und Typen von Feedback zu schriftlichen Produktionen 9.1.4 Allgemeine Feedbackregeln Grundsätzlich kann man sich beim Feedback zu schriftlichen Lernerproduktionen an allgemeinen Feedbackregeln orientieren (vgl. u. a. Hattie & Yates, 2014, S. 55; Vilsmeier, 2000, S. 38). Einige Regeln, die uns für die Rückmeldung zu den Schreibprodukten der Lernenden besonders relevant erscheinen, sind im Folgenden zusammengestellt. Die Regeln gelten sowohl für schriftliches und mündliches als auch für formatives und summatives Feedback (siehe zur Unterscheidung oben Abbildung 2): Feedback zu schriftlichen Lernerproduktionen sollte ▶ beschreibend, klar und (für den einzelnen Lernenden) verständlich sein und nicht lediglich pauschal bewertend; ▶ dem Lernstand angemessene Informationen enthalten, die zur Investition von Anstrengung und zur Umsetzung von Empfehlungen ermutigen; ▶ konkret sein und ein realisierbares Ziel implizieren, z. B. im Hinblick auf die Bewältigung der Aufgabe oder auch in Bezug auf einzelne Bearbeitungsstrategien; ▶ konstruktiv sein, d. h. nicht nur Hinweise auf Defizite, sondern auch Hinweise auf Gelungenes enthalten; ▶ Fehler so darlegen, dass sie als Möglichkeit für das Weiterlernen gesehen werden können; ▶ den Schülerinnen und Schülern die Möglichkeit eröffnen, eigene Entscheidungen im Hinblick auf ihre nächsten Schritte zu treffen (z. B. worauf er / sie bei der nächsten schriftlichen Produktion besonders achten möchte); ▶ falls eine Bewertung gegeben wird, sich an vorher transparent gemachten Bewertungskriterien orientieren. Darüber hinaus können Lehrkräfte ihre Lernenden bereits im Unterricht dazu anregen, ein spezifisches Feedback einzufordern, z. B. indem sie bestimmte Phänomene benennen, zu denen sie ein Feedback wünschen (siehe hierzu die Empfehlungen in Kapitel 9.3). 9.2 Funktionen und Typen von Feedback zu schriftlichen Produktionen Wir wollen nun auf die Funktionen von Feedback zu schriftlichen Lernerproduktionen und auf mögliche Verfahren genauer eingehen. Die Art des Feedbacks hängt dabei von der Intention der Lehrkräfte oder auch Mitlernenden ab, die die Rückmeldung geben, von der Wahrnehmung der Person, die Feedback erhält, und / oder von der Wahrnehmung der Mitlernenden. Im Folgenden besprechen wir- - jeweils in einem gesonderten Kapitel- - die folgenden Funktionen und Verfahren: 1. Rückmeldung eines ermittelten Kompetenzniveaus; 2. Rückmeldung zu spezifischen Schwächen und / oder Stärken der Lernenden- - mit Hinweisen zur Weiterarbeit; 3. Lob und Hervorheben von Fortschritten; 4. Vorstellen eines korrekten Modells; <?page no="263"?> 262 9 Feedback zu schriftlichen Lernerproduktionen 5. Hilfen für die Überarbeitung; 6. Rückmeldung in Form einer verbalen Bewertung oder einer Ziffernnote; 7. Anstoß und Aktivitäten zum Weiterlernen; 9.2.1 Rückmeldung eines ermittelten Kompetenzniveaus Häufig wird das anhand von Schreibaufgaben ermittelte Kompetenzniveau auf der Basis von im GER dargelegten und in den Bildungsstandards für die erste Fremdsprache (Englisch / Französisch) für den Mittleren Schulabschluss z. T. aufgegriffenen und angepassten Kann-Beschreibungen rückgemeldet. Hierzu ist u. a. kritisch anzumerken, dass die entsprechenden Skalen zumeist nicht empirisch kalibriert worden sind (vgl. hierzu auch Kapitel 5 und 6 im vorliegenden Band). Bei den jährlich durchgeführten Vergleichsarbeiten in der 8. Jahrgangsstufe ( VERA -8) wurden allerdings bisher nur ein einziges Mal-- und zwar 2010-- fremdsprachliche Schreibaufgaben eingesetzt, obwohl bereits 2007 und 2008 im Rahmen der Implementierung und Normierung der Bildungsstandards für Englisch und Französisch zusätzlich zu den eingesetzten Hör- und Leseverstehensaufgaben auch mehr oder minder offene Schreibaufgaben entwickelt, empirisch erprobt und auf einem vorläufigen Kompetenzstufenmodell verortet wurden (vgl. Kapitel 2.5 im vorliegenden Band). 59 Neben dem Fehlen eines hinreichend validierten Kompetenzstufenmodells dürfte ein Grund für die fehlende Implementierung von Schreibaufgaben im Rahmen der Bildungstrends und VERA -8 der hohe Bewertungsaufwand und die Notwendigkeit einer gründlichen Schulung von Bewerterinnen und Bewertern sein. Setzt man allerdings, wie es z. B. in neueren internationalen Sprachtests wie TOEFL i BT oder Pearson Test of English sowie insbesondere in den USA auch zunehmend in unterrichtlichen Kontexten der Fall ist, computer-basierte automatisierte Diagnose- und Feedbacksysteme ein, dann stellt sich das Problem der Praktikabilität und Ökonomie nicht mehr in der gleichen Weise (vgl. Kapitel 9.6). Ein Beispiel für eine individuelle niveaustufenbezogene Rückmeldung findet sich in Abbildung-3. Es handelt sich dabei um eine Rückmeldung zum Leseverstehen bei VERA -8 Englisch in Berlin / Brandenburg, die gewählte Form ist jedoch prinzipiell auch für das Schreiben (im Rahmen von VERA ) nutzbar. Die Rückmeldung soll speziell Eltern einen Eindruck vermitteln, auf welchem GER -Niveau (A1 bis B1.2) ein Schüler / eine Schülerin auf Grund der Testergebnisse eingestuft werden sollte. Dabei ist der Unschärfebereich grau unterlegt, d. h. es wird auch auf die mögliche Ungenauigkeit der Einstufung verwiesen. Anhand der angegebenen Prozentwerte sollen sich Eltern darüber hinaus ein Bild machen können, wo 59 Allerdings werden im Rahmen von VERA-6 (einem Verbundprojekt der Länder Mecklenburg-Vorpommern, Sachsen, Schleswig-Holstein und Thüringen sowie der Autonomen Provinz Bozen-- Südtirol) seit mehreren Jahren auch Aufgaben zur Überprüfung von Schreibkompetenzen im Englischen eingesetzt (vgl. Kapitel-6.6.2 sowie die Hinweise in Siebold & Hyatt, 2011). <?page no="264"?> 263 9.2 Funktionen und Typen von Feedback zu schriftlichen Produktionen ihr Kind verglichen mit den anderen Schülerinnen und Schülern in der Klasse (Lerngruppe) und im Bundesland steht, ob es also z. B. zum oberen Drittel innerhalb der Klasse gehört. 60 Abbildung 3: Emmrich & Dietrich (2011, S. 50, Abb. 1) Inwiefern die beschriebene Form der Rückmeldung sinnvoll ist, können letztendlich nur die Eltern selbst beantworten. Als konkrete Hilfestellung für Lehrkräfte oder Lernende ist die Form der Darstellung eher ungeeignet und im Rahmen von VERA -8 auch nicht intendiert. Die Aussagen zum Niveau sind zu wenig spezifisch und bieten nur sehr eingeschränkt Hinweise zu Stärken oder Schwächen und damit auch nur wenige Hilfen, was die Lernenden eventuell wiederholen bzw. worauf sie sich in Zukunft besonders konzentrieren sollten. Auch externe Prüfungen bieten häufig eine Einstufung auf einer Niveaustufe. Sind sie zudem mit einem Zertifikat verbunden, kann dies für Lernende einen größeren Anreiz darstellen als die zuvor beschriebene Art der Rückmeldung. Ein spezifischer Fall ist das auf der Basis des GER für 14 Sprachen entwickelte Diagnosesystem DIALANG (siehe https: / / www.lancaster.ac.uk/ researchenterprise/ dialang/ about) und dessen „Skalen für die beratende Rückmeldung bei Schreiben“ für die Kompetenzniveaus A1 bis C2 (abgedruckt in Europarat, 2001, S. 229, Dokument C3). DIALANG bietet zusätzlich zu einer Einstufung auf einer Niveaustufe detaillierte Informationen dazu, welche Schreibaktivitäten erwachsene Fremdsprachenlernende auf dem betreffenden Niveau und den angrenzenden Stufen typischerweise realisieren können und welche Voraussetzungen und Einschränkungen dabei möglicherweise gelten. 60 In der aktuell verwendeten Version (2017) der Grafik fehlen die Angaben für die Vergleichsgruppe auf Landesebene. <?page no="265"?> 264 9 Feedback zu schriftlichen Lernerproduktionen 9.2.2 Rückmeldung zu Schwächen und Stärken Eine diagnosebasierte Rückmeldung zu Schwächen und Stärken kann sich auf direkt beobachtbare Aspekte des Schreibprodukts, auf zugrundeliegende Kompetenzen sowie auch auf potenzielle Ursachen für bestimmte Schwächen beziehen. Außerdem kann der Fokus auf dem gesamten Schreibprodukt oder auf einzelnen Teilaspekten liegen, und die Rückmeldung kann z. B. auch strategische Kompetenzen sowie Medien- und Textkompetenzen thematisieren. Weiterhin kann die Rückmeldung im (direkten) Anschluss an das Schreiben oder auch prozessbegleitend während des Schreibens erfolgen. Wir haben die Schwächen zuerst genannt, weil in Bezug auf die unterrichtliche Weiterentwicklung von Kompetenzen u. E. eine angemessene Rückmeldung von Schwächen einen potentiell höheren Stellenwert hat als die Rückmeldung von Stärken (vgl. hierzu auch Alderson, 2005; Knoch, 2009, S. 19-22; Lee, 2015, S. 302-304). Der GER betont allerdings im Zusammenhang mit der Formulierung von Kann-Beschreibungen die Wichtigkeit der Rückmeldung von Stärken, schließt das Aufzeigen von Schwächen jedoch nicht prinzipiell aus (vgl. Europarat, 2001, z. B. S. 18, 47, 200). Es folgen fünf Beispiele für Rückmeldungen zu Schwächen und Stärken. Die Beispiele- 1 und- 2 beziehen sich jeweils in erster Linie auf beobachtbare Aspekte des Schreibprodukts. Das Beispiel- 2 enthält darüber hinaus explizite Hinweise auf die Bewertungskriterien. Interessante Beispiele speziell bezogen auf den akademischen Schreibkontext nennt Knoch (2009, S. 288-290). Beispiel 1: Die Aufgabe hast du inhaltlich vollständig gelöst. Du hast alle Punkte bearbeitet. Achte demnächst mehr auf die Bildung und den Gebrauch der Vergangenheitsformen. Beispiel 2: Du hast vier von fünf geforderten Punkten bearbeitet und diese sehr ausführlich behandelt. Die Punkte hast du sehr gut aufeinander bezogen und den Text gegliedert. Dafür erhältst du in diesem Bereich eine besonders hohe Punktzahl. Abzüge gibt es bei der Beachtung der Aufgabenstellung, da du nur vier Punkte bearbeitet hast. <?page no="266"?> 265 9.2 Funktionen und Typen von Feedback zu schriftlichen Produktionen Das Beispiel-3 illustriert eine eher kompetenzorientierte Rückmeldung. Beispiel 3: Dein Text zeigt, dass du gut logisch gliedern kannst. Du hast aber noch einige Schwächen bei der Verwendung von Konjunktionen wie since, although oder while. Achte doch besonders auf den Gebrauch dieser Konjunktionen. Benutzt die Lehrkraft metasprachliche Termini wie Konjunktion, müssen die Schülerinnen und Schüler mit der Terminologie natürlich vertraut sein. In den Beispielen 4 und 5 werden jeweils Gründe für eine spezifische Schwäche thematisiert. Dabei wird im Beispiel 4 der vermutete Grund durch die Lehrkraft genannt, während im Beispiel 5 die Schülerin / der Schüler lediglich angeregt wird, über mögliche Gründe zu reflektieren. Beispiel 4: Du verwendest in if-clauses noch sehr häufig would. Übersetzt du hier direkt aus dem Deutschen? Beispiel 5: Du verwendest in if-clauses noch sehr häufig would. Überleg mal, woher das kommen könnte. Eine Rückmeldung kann auch spezifische Korrekturhinweise zu bestimmten Aspekten eines Schreibprodukts beinhalten. Will man dabei speziell Stärken fokussieren, kann man am Rand einer schriftlichen Arbeit besonders gelungene sprachliche oder inhaltliche Realisierungen hervorheben. Ökonomisch ist es für eine solche Positivkorrektur, besondere Zeichen oder auch Emojis zu benutzen wie etwa Smileys. Im Fall von Schwächen bietet sich ein Rückgriff auf Verfahren an wie Fehlermarkierungen oder metasprachliche Fehlerbenennungen (Gr für Grammatikfehler etc.). Auch hier sind-- allerdings nach Absprache mit den Lernenden- - Emojis möglich. Damit die Schülerinnen und Schüler sich mit ihren Schwächen auseinandersetzen, ist eine konstruktive Formulierung des Feedbacks von besonderer Bedeutung. <?page no="267"?> 266 9 Feedback zu schriftlichen Lernerproduktionen Häufig macht man sich nicht bewusst, was ein potenziell destruktives Feedback von einem konstruktiven Feedback unterscheidet. Die Tabelle-1 gibt einige ausgewählte Beispiele, die den Unterschied verdeutlichen sollen. Potenziell destruktives Feedback Konstruktives Feedback Es gibt in deinem Text keine Struktur. Du könntest dich auf das Wesentliche konzentrieren und die Punkte bearbeiten und klar voneinander abgrenzen, die in der Aufgabenstellung verlangt werden. Schlecht war … Du hättest … besser machen können. Du hast in deinem Text viele Fehler im Bereich … Achte das nächste Mal besonders auf … Das müsstest du wissen. Ist das vielleicht ein Versehen? Du hast die Aufgabenstellung nicht beachtet. Lies beim nächsten Mal genau die Aufgabenstellung durch. Du hast nur einfache Hauptsätze aneinandergereiht. Nutze ruhig häufiger komplexe Satzstrukturen! Das zählt auch für die Bewertung. Tabelle 1: Destruktives vs. konstruktives Feedback Natürlich können die Schülerinnen und Schüler, wenn sie die Atmosphäre in der Gruppe insgesamt als eher konstruktiv wahrnehmen, auch mit klaren Benennungen von (sprachlichen) Fehlern umgehen. Es sollte allerdings stets ein ermutigender Grundtenor damit verbunden werden. Die Aussagen in Tabelle- 1 können nicht nur als schriftliches Feedback gegeben werden, sondern auch in Form eines nachträglichen individuellen mündlichen Feedbacks, das die Schülerinnen und Schüler ermutigen soll, sich mit ihren Produktionen auseinanderzusetzen. Auch kollektives mündliches Feedback wird in der Praxis häufig genutzt wie etwa: Ihr habt dieses Mal schon viel strukturierter gearbeitet. Ihr habt z. B. Folgendes gemacht: -… Prinzipiell kann mündliches Feedback eher interaktiv gestaltet werden als schriftliches Feedback. So können z. B. im Anschluss an schriftliches Feedback Korrekturvorschläge in Partnerarbeit erarbeitet werden und diese dann in der Großgruppe, z. B. in Form eines interaktiven Feedback-Gesprächs vertieft werden. 9.2.3 Lob und Hervorheben von Fortschritten Über die oben schon erwähnte Beschreibung von Stärken hinaus können zusätzlich Aspekte herausgestellt werden, die in einer vorliegenden Arbeit im Vergleich zu früheren Arbeiten schon besser realisiert wurden. Damit dies für Lehrkräfte praktikabel ist, reicht es, nur einen Aspekt lobend hervorzuheben. Damit verbunden ist vor allem eine motivierende Funktion: Selbst ein kleines Erfolgserlebnis kann zu weiterer Anstrengung führen. Denn es gilt nicht nur, dass eine höhere Motivation zu mehr Erfolg führt, sondern auch umgekehrt, dass Erfolg die Motivation positiv beeinflusst. Lob und das Hervorheben von Fortschritten können sich auf die von Hattie & Timperley (2007) genannten Faktoren Aufgabe, Prozess, Selbstregulation <?page no="268"?> 267 9.2 Funktionen und Typen von Feedback zu schriftlichen Produktionen und persönliche Merkmale des Lernenden beziehen. Hierfür geben wir im Folgenden jeweils ein Beispiel, ohne zu spezifizieren, wo genau der Kommentar im Schreibprodukt eingefügt werden soll. Kommentar zur bearbeiteten Aufgabe: Dieses Mal hast du bei dem Text darauf geachtet, ihn nachvollziehbar aufzubauen. Kommentar zum Lernprozess: Du hast jetzt verstanden, wie man Konditionalsätze bildet und hast diese in vielen Fällen auch richtig gebraucht. Kommentar zur Selbstregulation: Dieses Mal hast du deine Zeit geschickt eingeteilt. Kommentar zu persönlichen Merkmalen des Schreibenden: Man merkt, dass du dir diesmal viel mehr Mühe gegeben hast als bei der letzten Arbeit. Sinnvoll ist es, ein ausgefülltes Kriterienraster mit einem Hinweis zu einem Fortschritt in einem Teilbereich zu kombinieren. Eine alleinige Hervorhebung eines Fortschritts würde zu wenig an relevanten Informationen vermitteln. Ein solches Vorgehen ist zeitökonomisch, da ein gegebenes Raster lediglich durch einen weiteren individuell ausgerichteten Kommentar zu ergänzen ist. Dieses Verfahren sollte sparsam und fokussiert eingesetzt werden, damit es nicht als reine Routine wahrgenommen wird. <?page no="269"?> 268 9 Feedback zu schriftlichen Lernerproduktionen Beispiel: In einer Prüfungsaufgabe soll auf eine Einladungsmail geantwortet werden. Der Schüler / die Schülerin soll sich entschuldigen, dass sie die Einladung nicht annehmen kann. Bei dem Kriterium der sprachlichen Angemessenheit haben wir eine Bewertung und einen möglichen Kommentar vorgegeben. Bewertungskriterium Punkte (0-5) Kommentar Beachtung der Aufgabenstellung Aufbau und Struktur Sprachliche Angemessenheit 4 Du hast die Entschuldigung wirklich höflich formuliert! ☺ ….. Tabelle 2: Beispiele für Kriterien und begleitende Kommentare 9.2.4 Vorstellen eines korrekten Modells In einigen Fällen schreiben Lehrkräfte über oder neben eine Passage auch einen Lösungsvorschlag. Dies ist vor allem dann angebracht, wenn Lernende einen Versuch gemacht haben, etwas auszudrücken, was sie noch nicht ausdrücken konnten. Durch den Versuch haben sie ihr Bedürfnis im Hinblick auf die Äußerungsabsicht artikuliert. Ein Lösungsvorschlag kann also möglicherweise dazu führen, dass sie den betreffenden Ausdruck in ihr Repertoire integrieren. Solche Versuche können auch Anlass für eine weitere kurze Behandlung des Phänomens im Unterricht sein, wenn es sich z. B. um für Schülerinnen und Schüler lebensweltlich relevante Themen und Wörter handelt, die aber in den Unterrichtsmaterialien nicht berücksichtigt wurden. Explizite Lösungsvorschläge sollten allerdings nur dann verwendet werden, wenn man relativ sicher ist, dass der Lernende nicht mit kleinen Hilfen zu eigenen Lösungen oder Selbstkorrekturen kommen kann (vgl. auch die Ausführungen zu implizitem und explizitem Feedback in Kapitel-9.5). Lehrerseitige Lösungsvorschläge können außerdem zwei Gefahren mit sich bringen: Sie werden zum einen, wenn sie gehäuft vorkommen, nicht immer entsprechend wahrgenommen und verarbeitet. Zum anderen kann es zu Verzerrungen der ursprünglich vom Lernenden intendierten Aussagen kommen, wenn etwa Lehrkräfte die Absicht des Lernenden nicht erkennen und Korrekturen auf der Basis ihrer persönlichen Interpretation der Lernerabsicht durchführen. <?page no="270"?> 269 9.2 Funktionen und Typen von Feedback zu schriftlichen Produktionen 9.2.5 Hilfen für die Überarbeitung Der Einsatz von Hilfen für die Überarbeitung eines Schreibprodukts ist für Lehrkräfte sicherlich nichts Neues. Lehrkräfte, denen vor allem daran gelegen ist, dass die Schülerinnen und Schüler sich intensiv noch einmal mit ihrem eigenen Schreibprodukt befassen, wenden zum Teil den ‚Trick’ an, Zusatzpunkte für eine gelungene Überarbeitung bei der Notengebung anzurechnen. Wenn gezielte Hilfen für eine Überarbeitung gegeben werden, besteht die Chance, dass Lernende ihr Schreibprodukt eigenständig verbessern und sie angesichts eines für sie günstigen Kosten-Nutzen-Verhältnisses dann auch tatsächlich ihr Produkt überarbeiten. Neue Konzeptionen von Hilfen wurden in jüngerer Zeit vor allem aus der Sicht des soziokulturellen Paradigmas und der interaktionistischen dynamischen Evaluation formuliert (vgl. Kapitel 9.5). Es handelt sich dabei zumeist um Hilfen im Rahmen von interaktiven, kooperativen Unterrichtsgesprächen. Entsprechende Hilfen können aber auch bei der schriftlichen Produktion sinnvoll eingesetzt werden. Diese richten sich zwar meist an individuelle Lernende, können aber ebenso in Lernergruppen genutzt werden. Eine Reihe von Hilfen zur Unterstützung einer Überarbeitung ist in Tabelle-3 aufgeführt. Kategorien von Hilfen zur Unterstützung einer Überarbeitung Beispiele für Realisierungen und Formulierungen Die Anzahl von Fehlern in bestimmten Passagen angeben, ohne diese einzeln zu kennzeichnen 7 Fehler kennzeichnen bzw. unterstreichen Nur die Fehler kennzeichnen, bei denen eine Selbstkorrektur zu vermuten ist, die den Fokus der Arbeit betreffen Fehlertypen kennzeichnen ▶ Farblich typisieren, z. B. inhaltliche Fehler rot, grammatische Fehler grün ▶ Metasprachlich typisieren, z. B. „Gr“ für Grammatik ▶ Einfache Signalwörter wie „Vergangenheit“ Am Ende der Arbeit Hinweise auf häufige, typische oder sogenannte Lieblingsfehler geben. ▶ Überprüfe die Endungen noch einmal! ▶ Schau dir noch mal an, ob du richtig gegliedert hast. ▶ Passé composé oder imparfait? Auf mögliche Fehlerursachen hinweisen, wie z. B.: Arbeiten mit Signalwörtern, die bekannt und mit den Lernenden abgesprochen sein müssen, z. B.: ▶ grammatikalischer oder lexikalischer Transfer (Übertragung) aus der Erstsprache oder anderen Sprachen (Interferenz) Deutsch? ▶ sozio-kultureller bzw. pragmatischer Transfer Höflich? ▶ Übergeneralisierung innerhalb des Englischen bzw. des Französischen, wo dies unzulässig ist Regelmäßig oder unregelmäßig? ▶ Einfluss persönlicher Störfaktoren (z. B. Unkonzentriertheit, Gedächtnisprobleme) Müde gewesen? ▶ Auf inhaltliche, pragmatische oder logische Zusammenhänge verweisen. Logik? Tempus? Auf typische individuelle oder auch typische gruppenspezifische Fehler verweisen. Lieblingsfehler? Typischer Fehler? Daran erinnern, dass man sich schon einmal mit dem sprachlichen Phänomen im Unterricht beschäftigt hat. Denk an die letzte Stunde! Anmerkung: Beispiele für mögliche Formulierungen sind kursiv gesetzt. Tabelle 3: Hilfen zur Unterstützung einer Überarbeitung <?page no="271"?> 270 9 Feedback zu schriftlichen Lernerproduktionen Im Folgenden beschreiben wir zwei Szenarien für den Einsatz der Überarbeitungshilfen (vgl. Grotjahn & Kleppin, 2015, S. 37 f.). Szenario 1: In einer Lerngruppe wurde eine offene Schreibaufgabe gestellt (z. B. Bewerbung für einen Praktikumsplatz). Die Lehrkraft schaut sich die Arbeiten an, um einen ersten Eindruck von den Leistungen der Lernenden zu erhalten. Er / sie möchte nun durch schriftliche Hilfestellungen die Lernenden dazu bringen, dass diese ihre Produktionen in Einzelarbeit noch einmal überprüfen und eventuell korrigieren. Für die Überarbeitung kann die Lehrkraft Hilfen anbieten, die entweder direkt in die Arbeit hineingeschrieben (z. B. Fehlermarkierung) oder als Anmerkung unter die Arbeit geschrieben werden (z. B. weitere Hinweise). Die erste in der Tabelle-3 angegebene Möglichkeit (Nennung der Fehleranzahl) kann nur dann verwendet werden, wenn es sich um eine kürzere Passage handelt, die für eine Weiterarbeit in Kleingruppen genutzt werden soll. Hierbei soll die Verwendung der fehlerhaften Passage dazu dienen, dass in Kleingruppen die Fehler ‚detektivisch’ entdeckt werden. Die Angabe einer einfachen Fehleranzahl unter einer zu bewertenden Arbeit bietet in der Regel einem einzelnen Lernenden keine echte Unterstützung, die sinnvoll genutzt werden kann. Natürlich muss man sich beim Einsatz solcher individualisierter Verfahren immer auch fragen, ob die Lernenden damit zurechtkommen. Verfahren sollten genau abgesprochen sein, und es muss für Lernende transparent sein, welchen Nutzen sie daraus ziehen können. Im vorangehenden Szenario- 1 ging es um ein individualisiertes Vorgehen. Die Lehrkraft vermutet bei bestimmten Fehlern, dass der Schüler / die Schülerin diese eigentlich schon selbst korrigieren kann, dass es sich also um Performanzfehler handelt. Durch einen kleinen Anstoß, eine Aufmerksamkeitslenkung oder eine implizite oder auch explizitere Hilfe soll der Lernende die Möglichkeit erhalten, sein möglicherweise bereits vorhandenes Wissen über das entsprechende Phänomen zu nutzen, um sich dann mit Unterstützung der Lehrkaft selbst zu korrigieren. Solche individualisierte Verfahren können z. B. auch dann genutzt werden, wenn Lernende ein Portfolio führen, in dem sie die ursprüngliche Version und die überarbeiteten Versionen und damit ihre Fortschritte dokumentieren. Auf Schreibportfolios und Portfolio-Assessment gehen wir im Rahmen der vorliegenden Publikation nicht weiter ein. Prinzipiell sind aber die hier dargelegten Funktionen und Verfahren auch auf Feedback im Rahmen von Schreibportfolios übertragbar. Abschließend möchten wir eine Möglichkeit eines Vorgehens vorstellen, das stärker gruppenorientiert ist. <?page no="272"?> 271 9.2 Funktionen und Typen von Feedback zu schriftlichen Produktionen Szenario 2: Die Lehrkraft gibt Gruppen von nicht mehr als drei Schülerinnen und Schülern eine gemeinsame schriftliche Aufgabe (z. B. das Schreiben einer Biografie zu einer für die Schülerinnen und Schüler wichtigen Person). Die jeweilige Gruppe erstellt gemeinsam einen Text. Dabei kommt es bereits zu Aushandlungsprozessen, durch die die Lehrkraft als Beobachtende Hinweise sowohl zum aktuellen Stand als auch zur potenziellen Weiterentwicklung der Schreibkompetenzen der einzelnen Gruppenmitglieder erhält. Die Gruppe überprüft dann gemeinsam den Text und notiert sich, was sie die Lehrkraft noch fragen möchte, d. h. wozu sie noch Hilfestellungen braucht. Da diese Fragen das Produkt von Aushandlungsprozessen in der Gruppe sind, erlauben sie zusätzlich Rückschlüsse in Bezug auf den Stand und das Potenzial der jeweiligen Gruppe. Sowohl die Erkenntnisse zum individuellen Entwicklungsstand und Potenzial als auch zum Entwicklungsstand und Potenzial der Gruppe können dann für den weiteren Unterricht genutzt werden (siehe auch die Ausführungen zum Feedback auf der Basis der interaktionistischen dynamischen Evaluation in Kapitel 9.5). 9.2.6 Rückmeldung in Form einer verbalen Bewertung oder Ziffernnote Gesamtbewertungen in Form einer Leistungsbeschreibung sollten sich an transparent dargelegten Leistungsanforderungen orientieren. Wenn Schülerinnen und Schüler mit Beurteilungen und Bewertungskriterien vertraut sind, kann eine ökonomische Form der Rückmeldung anhand eines Formulars gegeben werden. In diesem Formular sollten die Kriterien aufgelistet werden, nach denen die Lehrkraft die Beurteilung vornimmt. Sie müssen für Schülerinnen und Schüler verständlich sein und sollten mit ihnen in Selbst- und Peerbewertungen erarbeitet bzw. besprochen werden. Man kann sich hierbei an dem in Kapitel- 8 vorgestellten Bewertungsraster orientieren (vgl. auch Kapitel-6 zur Bewertung von Schreibleistungen). Die Kriterien bzw. der Fokus der Kriterien können aber auch von Arbeit zu Arbeit variieren. Ein Beispiel für ein mögliches Formular findet sich in Tabelle-4. Kriterien für diese Arbeit Punkte Beachtung der Aufgabenstellung Aufbau und Struktur Beachtung der Situation, in der der Text geschrieben wird Korrektheit von … (hier kann ein besonderer Fokus eingefügt werden) Gesamtpunktzahl Tabelle 4: Beispiel für ein mögliches Formular mit einer Punkteskala von 0 bis 5 <?page no="273"?> 272 9 Feedback zu schriftlichen Lernerproduktionen Die Note ergibt sich-- wie bei kriterialen Beurteilungen üblich-- auf der Basis der erreichten Punktzahl. Gewichtet man alle Kriterien gleichmäßig mit 5 erreichbaren Punkten und setzt die Bestehensgrenze auf 50 % der maximalen Punktzahl, dann könnte eine Notenskala ohne Zwischenstufen z. B. wie in Tabelle-5 dargestellt aussehen. Note erreichte Punktzahl Bestehensgrenze 1 20-19 bestanden 2 18-17 3 16-14 4 13-10 5 9-6 nicht bestanden 6 5-0 Tabelle 5: Beispiel für eine Notenskala Auch in einigen Lehrplänen wird darauf hingewiesen, dass die Leistungsbeurteilung grundsätzlich mit einer Rückmeldung in Form von individuellen Hinweisen für das Weiterlernen verbunden sein sollte. So findet sich z. B. im Lehrplannavigator der Qualitäts- und Unterstützungsagentur-- Landesinstitut für Schule NRW (2015) in Bezug auf den Kernlehrplan Englisch (G8) für die Sekundarstufe-I, Gymnasium folgender Hinweis zur Leistungsbewertung: Die Beurteilung von Leistungen soll demnach mit der Diagnose des erreichten Lernstandes und individuellen Hinweisen für das Weiterlernen verbunden werden. Wichtig für den weiteren Lernfortschritt ist es, bereits erreichte Kompetenzen herauszustellen und die Lernenden-- ihrem jeweiligen individuellen Lernstand entsprechend-- zum Weiterlernen zu ermutigen. Dazu gehören auch Hinweise zu erfolgversprechenden individuellen Lernstrategien. Den Eltern sollten im Rahmen der Lern- und Förderempfehlungen Wege aufgezeigt werden, wie sie das Lernen ihrer Kinder unterstützen können. (http: / / www.schulentwicklung.nrw.de/ lehrplaene/ lehrplannavigator-s-i/ gymnasium-g8/ eng lisch-g8/ kernlehrplan-englisch/ leistungsbewertung/ ) Ähnliche Ausführungen finden sich in vielen weiteren Lehrplänen der Länder, so z. B. im Rahmenlehrplan RLP -Online Berlin-Brandenburg (siehe http: / / bildungsserver.berlin-bran denburg.de/ rlp-online/ startseite/ ). 9.2.7 Anstoß und Aktivitäten zum Weiterlernen Im Rahmen von Feedbackmaßnahmen können eine Reihe weiterer Aktivitäten als Anstoß für das Weiterlernen genutzt werden. Neben der üblichen Wiederholung von Bereichen, mit denen die Schülerinnen und Schüler noch Probleme haben, können spezifische, auf metakognitive Bewusstmachung zielende Aufgaben zum Umgang mit Fehlern- - im Folgenden Fehlerbewusstmachungsaufgaben genannt-- gestellt werden. Diese sollen die Schülerinnen und Schüler motivieren, sich mit den Fehlern und Korrekturvorschlägen auseinander- <?page no="274"?> 273 9.2 Funktionen und Typen von Feedback zu schriftlichen Produktionen zusetzen und damit ein selbstbewusstes Umgehen mit Fehlern anregen (vgl.-z. B. Kleppin & Mehlhorn, 2008). Fehlerbewusstmachungsaufgaben dienen damit nicht nur dazu, Lernende bei der Weiterentwicklung des Bereichs Korrektheit der schriftlichen Produktion zu unterstützen, sondern leisten auch einen allgemeinen Beitrag für die Weiterentwicklung der in den Bildungsstandards als bedeutsam herausgestellten Teilkompetenz der Sprach- und Sprachlernbewusstheit. Es folgen zwei Beispiele für entsprechende Fehlerbewusstmachungsaufgaben. Beispiel 1: Die Schülerinnen und Schüler erhalten fehlerhafte Textpassagen, bei denen sie in Paararbeit z. B. - die Fehler detektivisch entdecken und eventuell korrigieren; - interessante mögliche Fehlerursachen entdecken, kategorisieren und überlegen, ob sie selbst solche Fehler schon gemacht haben; - herausfinden sollen, wo sich im Englischen oder Französischen für deutsch- oder auch anderssprachige Schülerinnen und Schüler besondere Schwierigkeiten ergeben. Beispiel 2: Die Schülerinnen und Schüler erhalten fehlerhafte Textpassagen, bei denen sie in Paararbeit z. B. - ihre typischen und häufig vorkommenden Fehler gemeinsam oder auch individuell sammeln (z. B. in Form einer Fehlerstatistik). Dabei sollte möglichst auf nur einige Fehler (z. B. ‚Lieblingsfehler‘) eingegangen werden, damit die Lernenden nicht durch Überforderung den Spaß an der Statistik verlieren. Außerdem ist durch die Fokussierung auf nur wenige Fehlertypen die Aufmerksamkeit dementsprechend gelenkt, so dass sie eher vermieden werden können. Individuelle ‚Lieblingsfehler‘ werden natürlich im Laufe des Lernprozesses stark variieren. Die folgende Tabelle illustriert eine Möglichkeit des Vorgehens. <?page no="275"?> 274 9 Feedback zu schriftlichen Lernerproduktionen Meine ‚Lieblingsfehler‘ Hier habe ich mich nur vertan und kann mich selbst korrigieren Hier habe ich nochmal genau die Regel recherchieren müssen Den Fehler will ich unbedingt demnächst vermeiden Korrekte Form Si j’aurais-… X Si j’avais-… I would go-… X If I went-… … 9.3 Feedback bei Selbst- und Peer-Evaluation Selbst- und Peer-Evaluationen haben wir in Kapitel-3 kurz vorgestellt. An dieser Stelle sollen sie im Hinblick auf ein sinnvolles Feedback von Lehrkräften behandelt werden. Dabei besteht die Möglichkeit, dass Lernende selbst das Feedback steuern, dass sie also selbst das Feedback zu einem bestimmten Phänomen initiieren. Campbell & Schumm Fauster (2013, S. 62 ff.) machen im Hinblick auf ein solches lernerinitiiertes Feedback Vorschläge zu relevanten sprachlichen Phänomenen und geben im Anschluss Beispiele für Lernerfragen. Die Abbildung- 4 listet in Form von Guidelines eine Reihe wichtiger Phänomene auf, zu denen nach Campbell & Schumm Fauster Lerner Feedback einfordern könnten. In Abbildung-5 machen wir dann einen eigenen Vorschlag für mögliche Feedback-Bereiche. Wir beziehen uns dabei auf das in Kapitel-8 vorgestellte Bewertungsraster. <?page no="276"?> 275 9.3 Feedback bei Selbst- und Peer-Evaluation Guidelines for learner-centred feedback Here are some areas which you can ask for feedback on. Note that these are just suggestions. You can add your own. You should ask no more than 5-7 questions on each piece of written work; therefore, you should consider your questions carefully. Textual Competence ▶ Effectiveness of thesis statement ▶ Well-developed paragraphs, including topic sentences ▶ Logical development of argument ▶ Thorough development of ideas ▶ Relevance to topic ▶ Exemplification of argument ▶ Reader-friendliness (i.e., is your text easy to follow? ) ▶ Correct use of cohesion markers ▶ Reference (i.e., pronoun reference) Vocabulary and Expression ▶ Sophisticated range ▶ Correct / effective usage ▶ Collocations ▶ Prepositions ▶ Register Grammar ▶ Tense use ▶ Word order ▶ Sentence structure ▶ Articles Mechanics of Writing ▶ Correct marking of paragraphs ▶ Punctuation ▶ Spelling ▶ Layout and format Abbildung 4: Vorschläge für lernerzentriertes Feedback aus Campbell & Schumm Fauster (2013, S. 62) <?page no="277"?> 276 9 Feedback zu schriftlichen Lernerproduktionen Leitfaden Im Folgenden findest du Vorschläge für Bereiche, zu denen du eine Rückmeldung erhalten kannst. Du kannst die Vorschlagsliste natürlich noch selbst erweitern. Du kannst dann Fragen zu diesen Bereichen stellen. Überlege dir genau, was für dich wirklich wichtig ist. Inhalt ▶ Vollständigkeit in Bezug auf die Aufgabenstellung Textsorte ▶ inhaltliche Angemessenheit ▶ formale Angemessenheit Situations- und Adressatenbezug ▶ Berücksichtigung des Adressaten ▶ Berücksichtigung des Kontexts und der Situation sprachliche Realisierung ▶ Verständlichkeit ▶ Angemessenheit ▶ Bandbreite der sprachlichen Mittel ▶ Kohärenz / Kohäsion (inhaltliche und sprachliche Verknüpfungen) ▶ sprachliche Korrektheit ▷ Orthografie ▷ Grammatik ▷ Lexik Abbildung 5: Vorschlag für Bereiche lernerzentrierten Feedbacks in Form eines Leitfadens <?page no="278"?> 277 9.3 Feedback bei Selbst- und Peer-Evaluation Eine einfache Möglichkeit, Schülerinnen und Schüler zu einer Selbstevaluation ihrer Schreibprozesse und verfassten Texte anzuregen, besteht darin, sie durch ein Formular zu lenken, das sie nach der Erstellung einer Schreibaufgabe ausfüllen: Mein Vorgehen beim Schreiben Besonders geachtet habe ich dieses Mal auf ___________________________________ Schwierigkeiten hat mir noch bereitet _______________________________________ Zu meiner Leistung Besonders stolz bin ich auf ______________________________________________ Noch nicht so gut gelungen ist mir ________________________________________ Eine Rückmeldung hätte ich gern zu _______________________________________ Schülerinnen und Schüler werden nicht ohne eine Vorbereitung und ohne Einsicht in den Sinn einer solchen Selbstevaluation mit diesem oder einem ähnlichen Instrument umgehen können. Es sind also vorbereitende Gruppengespräche und Aufgaben notwendig, in denen die Lernenden Hinweise erarbeiten, worauf sie achten können. Oben schon dargestellte Fehlerbewusstmachungsaufgaben bieten eine Grundlage. Dabei kann es angebracht sein, diese Aufgaben mit einem den Schülerinnen und Schülern besser zugänglichen Terminus zu kennzeichnen (z. B. Fehlerdetektivaufgaben, Fehlerrateaufgaben). Lernende erwarten auf solche Selbstevaluationen ein Feedback. Die angesprochenen Bereiche können gesammelt, in Kleingruppen vorbesprochen und die offenen Fragen dann in der Klasse geklärt werden. Darüber hinaus können wiederum Zusatzpunkte vergeben werden, z. B. dann, wenn Lernende im Hinblick auf selbst genannte Problembereiche sichtbare Fortschritte gemacht haben. Ein Feedback kann auch im Rahmen einer Peer-Evaluation erfolgen (vgl. auch Alter, 2016). Das gegenseitige Feedback wird dann in der Regel mündlich erfolgen. Sinnvoll ist eine Peer- Evaluation eher bei kurzen Schreibproduktionen oder einzelnen (von den Verfassern selbst ausgewählten) Passagen. Man kann auch hier zwar ansatzweise mit vorgefertigten komplexen Bewertungsrastern arbeiten, um die Schülerinnen und Schüler mit Bewertungskriterien vertraut zu machen. Häufig können allerdings die Kriterien kaum korrekt verwendet werden, da zumeist weder ausreichende Beurteilungskompetenzen noch hinreichende sprachliche Kompetenzen vorhanden sind. Man wird also eher mit einzelnen schülergerechten Kommentaren arbeiten wie z. B.: <?page no="279"?> 278 9 Feedback zu schriftlichen Lernerproduktionen Besonders gefallen hat mir bei deinem Text: _______________________________________________________________________________ Empfehlen möchte ich dir: _______________________________________________________________________________ Mit dem Kompliment sollen die Peers bewerten, was die Mitlernenden bereits gut können oder was den Peers besonders gefallen hat. Mit den Empfehlungen können Defizite angesprochen werden, ohne zu kritisieren. Wenn Mitlernende auf Fehler eingehen, sollte allerdings klar sein, dass alle Beteiligten grundsätzlich eine positive Einstellung zu Fehlern haben, d. h. dass sie Fehler als Anlass zum Weiterlernen betrachten. Wenn erreicht werden soll, dass bei der Rückmeldung durch Peers bestimmte Aspekte fokussiert werden sollen, dann besteht die Möglichkeit, mit vorgefertigten Beobachtungsbögen zu arbeiten, die auch von den Schülerinnen und Schülern selbst entwickelt werden können. Hierbei können auch Symbole wie Smileys, Verkehrsampeln oder Blumensträuße zum Einsatz kommen (vgl. die Beispiele in Alter, 2016, S. 12). Ein einfacher Beobachtungsbogen könnte z. B. folgendermaßen aussehen: Der Text-… trifft zu ist für mich inhaltlich interessant. □ ist für mich verständlich. □ ist für mich korrekt. □ … … Der Beobachtungsbogen dient als Grundlage für ein Feedback der Peers, die dann auch konkrete Belege und Gründe für ihre Einschätzungen nennen sollten. Dabei sollten die Peers vorgegebene Regeln beachten, wie z. B.: ▶ Formuliere dein Feedback beschreibend und nicht bewertend. ▶ Nenne auch positive Aspekte und gib Beispiele dafür an. ▶ Teile deine konkreten Beobachtungen zum Text mit. ▶ Drücke dich möglichst präzise aus und belege deine Aussagen mit konkreten Beispielen. ▶ Achte darauf, dass dein Feedback für die Mitlernenden hilfreich ist. <?page no="280"?> 279 9.4 Feedbackgespräche und Überarbeitung 9.4 Feedbackgespräche und Überarbeitung Nach einer schriftlichen Arbeit und einem damit verbundenen zumeist schriftlichen lehrerseitigen Feedback können weitere Feedbackgespräche sinnvoll sein, die sowohl in der Großgruppe als auch in Kleingruppen stattfinden können. Die Gespräche sollten so gestaltet werden, dass die Schülerinnen und Schüler sie auch als hilfreich und motivierend empfinden. Dies ist nicht immer einfach zu realisieren; ein ‚Trick‘ besteht darin, nicht nur auf die Weiterentwicklung der Sprachkompetenz abzuheben, sondern auch Sonderpunkte in Aussicht zu stellen, wenn eine Überarbeitung durch die Lernenden zeigt, dass Anstrengung investiert wurde. Feedbackgespräche können sich z. B. beziehen auf ▶ die an Hand der Kriterien beurteilte Leistung; ▶ die gestellte Aufgabe und die damit verbundenen Anforderungen; ▶ einzelne Teilbereiche, die mit besonderen Schwierigkeiten verbunden waren; ▶ die Bearbeitungsstrategien (z. B. auf die Orientierung an transparenten Beurteilungskriterien); ▶ weitere Tipps und Hilfen. Von Bedeutung ist bei Feedbackgesprächen, dass in ihnen nicht nur die allgemeinen Feedbackregeln (siehe Kapitel 9.1.4) berücksichtigt werden. Vielmehr sollten den Schülerinnen und Schülern z. B. durch die Verwendung von Gesprächstechniken, die auch in der Sprachlernberatung genutzt werden (vgl. u. a. Kleppin & Spänkuch, 2014), strukturierte Hilfen zur Reflexion über ihre Schreibprodukte und über die mögliche Weiterentwicklung ihrer Schreibkompetenzen gegeben werden. Zu solchen Techniken gehören u. a.: ▶ Offene Fragen stellen: Diese sollen Aussagen zum Schreibprodukt und zur Bearbeitung der Schreibaufgabe initiieren und die Reflexion über den Schreibprozess anstoßen, wie z. B.: „Was kann und will ich beim nächsten Mal erreichen? “, „Was kann ich dafür genau tun? “, „Welches Vorgehen bei der Schreibaufgabe wäre für mich eventuell angemessener? “ ▶ Aktiv zuhören: Nachfragen, Bedeutungen und Zusammenhänge klären. D.h., die Lehrkraft signalisiert nonverbal ihr Interesse an den Aussagen der Schülerinnen und Schüler und fragt außerdem nach, paraphrasiert und fasst zusammen. Dies ermöglicht den Lernenden, ihre Aussagen weiter zu präzisieren und vermittelt ihnen das Gefühl, dass ihre Reflexionen ernst genommen werden. ▶ Hypothesen anbieten: Die Lehrkraft bildet Hypothesen und bietet diese den Lernenden als Grundlage für ihre weiteren Entscheidungen an. Sie versucht dabei, die Aussagen der Lernenden mit ihrem Wissen über Schreibprozesse zu verknüpfen und auf der Basis ihrer Feldkompetenz Erklärungen zu Schwierigkeiten oder auch weiteren Vorgehensweisen zu liefern. Z. B. könnte er oder sie folgende Hypothese und Hinweise für das weitere Vorgehen formulieren: „Möglicherweise reihst du die Sätze unverbunden aneinander, weil du das Risiko vermeiden willst, Fehler zu machen. Ich stelle noch einmal meine Bewertungskriterien vor, damit du siehst, dass nicht die Anzahl der Fehler allein die Note ausmacht. <?page no="281"?> 280 9 Feedback zu schriftlichen Lernerproduktionen Bei dem Kriterium Kohärenz und Struktur geht es insbesondere um eine klare und logische Gliederung deines Textes sowie eine inhaltlich und sprachlich angemessene Verknüpfung der einzelnen Satzteile.“ ▶ Systemisch fragen: Systemische Fragen helfen, die Wahrnehmungsfähigkeit der Lernenden im Hinblick auf die gesamten Zusammenhänge (z. B. individuelle Merkmale, Unterrichtskontext, Lernziele) zu erweitern und damit neue Blickwinkel auf die Wirklichkeit zu eröffnen. Auf systemische Fragen werden nicht immer Antworten erwartet, sie sollen vielmehr zur Reflexion anregen. Zu solchen systemischen Fragen gehören z. B. die so genannten zirkulären Fragen, die hypothetischen Fragen und die skalierenden Fragen. Eine zirkuläre Frage an eine Person A ist so formuliert, dass sie eine Beantwortung aus der Perspektive einer weiteren, zum gleichen System gehörenden Person B verlangt. Z. B. könnte nach einer Schreibaufgabe, in der eine Bewerbung für einen Praktikumsplatz gefordert war, folgende zirkuläre Frage an den jeweiligen Schreiber gestellt werden: „Wie würde wohl die Person, an die du die Bewerbung gerichtet hast, auf die Bewerbung reagieren? “ Eine hypothetische Frage könnte z. B. folgendermaßen lauten: „Einmal angenommen, in der nächsten Arbeit hast du eine deutlich bessere Leistung erbracht, was würde sich bei dir verändern? “ Skalierende Fragen dienen dazu, über mögliche Veränderungen im Verhalten nachzudenken: „Auf einer Skala von 1-10, wobei 1 gering ist und 10 hoch, wie zufrieden bist du mit deinem Ergebnis? “ „Was müsste sich verändern, damit sich deine Bewertung um eine Stufe nach oben bewegt? “ „Was müsstest du machen, um von 5 auf 7 zu kommen? “ Feedbackgespräche sollten sich stets an der Schülerperspektive orientieren. Da die Wahrnehmung von Feedback zum Teil zwischen Lehrkräften, einzelnen Lernenden und der gesamten Gruppe variiert, dienen Feedbackgespräche den Lehrkräften auch dazu, selbst Feedback auf das von ihnen gegebene Feedback zu erhalten. Dies soll es ihnen ermöglichen, ihr Feedback möglichst optimal an die jeweiligen Lernenden anzupassen. 9.5 Feedback auf der Basis der interaktionistischen dynamischen Evaluation Feedback kann auch aus der Perspektive der interaktionistischen dynamischen Evaluation ( IDE ; engl. interactionist dynamic assessment) betrachtet werden. Die IDE ist im Bereich des Lehrens und Lernens von Fremd- und Zweitsprachen vor allem durch Publikationen von Lantolf und Poehner bekannt geworden und wird in jüngerer Zeit zunehmend diskutiert (vgl. Grotjahn, 2015; Grotjahn & Kleppin, 2015, Kap. 6.1.2; Lantolf & Poehner, 2011a, 2011b, 2014). Diagnostizieren und Unterrichten stehen bei der IDE in einem dialektischen Wechselspiel und bilden eine untrennbare Einheit. Dabei kann je nach Kontext und Intention der Fokus eher auf dem Aspekt des Diagnostizierens oder eher auf dem Aspekt des Unterrichtens liegen (vgl. z. B. Poehner & Van Compernolle, 2011). In Übereinstimmung mit dem Prinzip des Diagnostizierens und Unterrichtens als dialektische Einheit ist das letztendliche Kriterium für die Validität der IDE , inwieweit deren Einsatz im jeweiligen unterrichtlichen Kontext zu einer Verbesserung des Lernens führt (vgl. z. B. Lidz & Haywood, 2014 sowie den Hinweis zur treatment validity in Kapitel 4.3). <?page no="282"?> 281 9.5 Feedback auf der Basis der interaktionistischen dynamischen Evaluation Die IDE beruht auf der soziokulturellen Theorie des russischen Psychologen Lev S. Vygotskij (1896-1934) und dessen entwicklungs- und lernpsychologischem Konzept einer individuellen Zone der nächsten Entwicklung (zone of proximal development, ZPD ). Vygotskij geht davon aus, dass sich individuelle Kompetenzen in der sozialen Interaktion mit anderen und in einem bestimmten kulturellen Kontext entwickeln und charakterisiert die ZPD u. a. als die Distanz zwischen dem aktuellen Entwicklungsstand eines Lernenden und dem potentiell erreichbaren nächsten Entwicklungsstand (zu dieser Charakterisierung sowie weiteren Lesarten vgl. z. B. Grotjahn, 2015, S. 475; Lantolf & Poehner, 2014, S. 148; McCafferty, 2013). Den aktuellen Entwicklungsstand eines Lernenden erkennt man daran, inwieweit sie / er bestimmte sprachliche Aufgaben ohne Hilfe einer (kompetenteren) Person lösen kann. Der potentielle Entwicklungsstand zeigt sich daran, inwieweit ein Lernender in der Lage ist, eine Aufgabe, die er / sie ohne Hilfe nicht hinreichend lösen konnte, mit Hilfe einer zumeist kompetenteren Person zu lösen. Die kompetentere Person ist im unterrichtlichen Kontext zumeist die Lehrkraft, es können aber auch Mitlernende, also Peers, sein. Eine zentrale Voraussetzung für eine valide Diagnostik des Potentials und für die gleichzeitige Weiterentwicklung der Kompetenzen ist damit, dass dem Lernenden eine Aufgabe gestellt wird, die in ihrer Schwierigkeit über dem aktuellen Lern- und Entwicklungsstand liegt, aber mit interaktiver Unterstützung durch eine kompetente Person für den Lernenden prinzipiell lösbar ist. Im Zuge der Interaktion kann auch leicht festgestellt werden, ob der Lernende die Aufgabenstellung hinreichend verstanden hat- - eine weitere wichtige Bedingung für eine valide Diagnostik. Schließlich erlaubt ein interaktives Vorgehen auch ein geeignetes affektives Feedback, dessen Bedeutung wir schon mehrfach betont haben. Prinzipiell können für entsprechende Rückmeldungen aber auch computerbasierte Diagnose- und Feedbacksysteme eingesetzt werden (vgl. Ahmed & Pollitt, 2010 sowie Kapitel 9.6). Eine an der ZPD orientierte Hilfestellung wird häufig als Mediation bezeichnet und die jeweiligen Hilfesteller als Mediatoren. 61 Hilfestellungen müssen allerdings noch bestimmte weitere Charakteristiken aufweisen, damit sie als Mediation im Sinne der IDE gelten können (vgl. Grotjahn, 2015, S. 475 f.). Poehner (2008, S. 58 f.) und Tzuriel (2013, S. 62) nennen als wichtigste Merkmale, dass die Mediation gezielt erfolgen muss und der Lernende sich aktiv beteiligt (intentionality and reciprocity), dass die Bedeutung der Aufgabe dem Lernenden konzeptuell bewusst gemacht wird (mediation of meaning), dass die Mediation nicht nur auf die Lösung der gerade gestellten Aufgabe zielt, sondern auf die Entwicklung von transferierbaren Kompetenzen (mediation of transcendence) und dass die Mediation soweit möglich dem Lernenden ein Erfolgserlebnis und ein Gefühl der Selbstwirksamkeit vermitteln soll (mediation of feelings of competence). Vor diesem Hintergrund beschreiben Vertreter der L2- IDE die ZPD unter Rückgriff auf Vygotskij auch als transformative Aktivität zwischen Mediator und Lernenden und argumentieren, dass ein entsprechendes Verständnis am ehesten 61 Mediation im Sinne von Vygotskij unterscheidet sich damit grundlegend von Mediation z. B. im Sinne einer Schlichtung eines Konflikts oder im Sinne von Sprachmittlung. Das Konzept unterscheidet sich ebenfalls vom Ansatz des Scaffolding (vgl. weiter unten) sowie von Hilfestellungen auf der Basis des Unterstützungsmodells interaktiver Evaluation von Ahmed & Pollitt (2010). Wie Ahmed & Pollitt (2010, S. 157 f.) explizit feststellen, zielt ihr Unterstützungsmodell auf die Messung des aktuellen Lernstands und nicht des Lernpotentials. <?page no="283"?> 282 9 Feedback zu schriftlichen Lernerproduktionen dem beschriebenen Konzept von Mediation und dem dialektischen Wechselspiel zwischen Diagnose und Unterrichten im Rahmen der L2- IDE gerecht werde (vgl. z. B. Poehner & Van Compernolle, 2011, S. 187). Wichtige Merkmale eines geeigneten Feedbacks auf der Basis von soziokultureller Theorie und IDE sind damit u. a., dass das Feedback an der ZPD orientiert ist, zwischen Lernenden und Mediatorin oder Mediator ausgehandelt wird und dass eine möglichst optimale Passung zwischen Feedback und individuellen Lernercharakteristiken erreicht wird (vgl. für weitere Merkmale auch Thompson, 2013, S. 272). Entsprechend wenden sich Vertreter der IDE auch gegen eine Standardisierung der Hilfestellung unter anderem mit folgendem Argument: […] scripted prompts and hints may in fact not mediate at all because they are usually predicated on a generalised or idealised learner rather than a real individual engaged in a task. (Poehner & Van Compernolle, 2011, S. 187) Weiterhin grenzen Vertreter der L2- IDE ihr Verständnis von Mediation von dem seit Mitte der 70er Jahre zunehmend verwendeten (instruktionspsychologischen) Konzept des Scaffolding (Gerüstbau) ab, das eindeutige Parallelen zum Konzept der Mediation aufweist. So argumentieren z. B. Poehner & Van Compernolle (2011, S. 186 f.), dass im Gegensatz zur Mediation beim Scaffolding die Kontrolle vor allem bei der Lehrkraft liege, dass dieses in erster Linie darauf ziele, dem Lernenden bei der Bewältigung einer spezifischen Aufgabe zu helfen, und dass dem Konzept zudem eine geeignete lerntheoretische Basis fehle. Eine solche sei nötig um zu entscheiden, wann Hilfestellungen zu geben sind, wann darauf verzichtet werden kann und wie eine Unterstützung zu gestalten ist, damit die Bewältigung der Aufgabe den Lernenden auch hinreichend fordert. Diese Kritik trifft u. E. sicherlich z. B. auf die Verwendung der Scaffolding-Metapher im Hinblick auf eindeutig lehrerzentrierte Unterrichtskontexte zu. Sie trifft jedoch nicht oder nur mit Einschränkungen auf Arbeiten zu, in denen Scaffolding unter Rückgriff auf Vygotskij und ZPD begründet wird (vgl. z. B. Shaman, 2014 für relevante Literaturhinweise). Viele Hilfestellungen und Techniken, die im Rahmen einer Mediation im Sinne der IDE zur Sichtbarmachung des Lernerpotentials und zur Weiterentwicklung von Kompetenzen genutzt werden können, haben wir bereits vorgestellt und sind auch für viele Lehrkräfte sicher nichts Neues. Dazu gehören insbesondere Hilfen für die Unterstützung einer Überarbeitung (vgl.-Kapitel 9.2.5) sowie die Formen von Feedbackgesprächen, in denen Lernenden strukturierte Hilfen zur Reflexion über ihre Schreibprodukte gegeben werden (vgl.-Kapitel- 9.4). Weitere Hinweise zu Formen von Mediation auf der Basis der ZPD finden sich z. B. bei Thompson (2013, S. 272). Die Abbildung-6 verdeutlicht noch einmal einige im Hinblick auf Diagnose und Feedback wichtige Aspekte der ZPD . Im Fokus steht dabei ein individueller Lernender zu einem bestimmten Zeitpunkt seiner Lerngeschichte. Bei den lernerseitigen Kompetenzen kann es sich um breit definierte Bereiche, aber auch um spezifische Phänomene wie z. B. ein inkonsistenter Tempusgebrauch in einem Bericht über ein Geschehnis in der Vergangenheit handeln. Stellt die Lehrkraft z. B. fest, dass der Lernende mit Hilfestellungen (vgl. Kapitel 9.2.5) die korrekten Tempora verwenden kann, dann ist das ein Hinweis darauf, dass der Lernende <?page no="284"?> 283 9.5 Feedback auf der Basis der interaktionistischen dynamischen Evaluation sich im Hinblick auf dieses Phänomen und die notwendigen Kompetenzen in der Phase der nächsten Entwicklung befindet (vgl. für ein differenzierteres Phasenmodell Thompson, 2013, S. 258). Zentral ist dabei die Vorstellung, dass Lernende, die den gleichen aktuellen Entwicklungs- und Lernstand aufweisen, sich in ihrem Entwicklungs- und Lernpotential deutlich unterscheiden können. Abbildung 6: Visualisierung der Zone der nächsten Entwicklung ( ZPD ) Ein wichtiges Prinzip bei der Diagnose des Potentials ist die Gradierung des Feedbacks auf einer Skala von implizit zu explizit. Dem liegt die Vorstellung zugrunde, dass z. B. ein Lernender, dem bereits mit einer impliziten Hilfe eine Selbstkorrektur seines Schreibproduktes gelingt, im Hinblick auf den jeweiligen Problembereich ein größeres Entwicklungspotential aufweist als ein Lernender, der erst nach mehreren, zunehmend expliziten Hilfen zu einer korrekten Lösung gelangt. Ein häufig zitiertes Beispiel für eine mögliche Skala der Explizitheit von Feedback findet sich bereits in einem viel beachteten Beitrag von Aljaafreh & Lantolf (1994). Die Skala wurde entwickelt im Zuge einer Serie von Tutor-Lerner-Mediationen zu den englischen Schreibproduktionen von Studierenden mit Englisch als Zweitsprache. Wie die Autoren selbst sowie auch Lantolf & Poehner (2014, S. 173) betonen, soll die Skala keinesfalls einen standardisierten Ablauf unterrichtlichen Feedbacks suggerieren. Die Abbildung 7 zeigt einen illustrativen Ausschnitt aus der insgesamt 13-stufigen Skala. <?page no="285"?> 284 9 Feedback zu schriftlichen Lernerproduktionen 3. Tutor indicates that something may be wrong in a segment (e. g., sentence, clause, line)-- “Is there anything wrong in this sentence? ” 5. Tutor narrows down the location of the error (e. g., tutor repeats or points to the specific segment which contains the error). 7. Tutor identifies the error (“You can’t use an auxiliary here”). 9. Tutor provides clues to help the learner arrive at the correct form (e. g., “It is not really past but some thing that is still going on”). 10. Tutor provides the correct form. Abbildung 7: Illustration der Stufung des Feedbacks von „implizit“ nach „explizit“ anhand der Skala von Aljaafreh & Lantolf (1994, S. 471) Ob der Mediator ein eher implizites oder ein eher explizites Feedback wählt, richtet sich nach der vermuteten Position des Lernenden in der ZPD . Gibt es Hinweise darauf, dass sich der Lernende in Bezug auf das entsprechende Phänomen schon relativ weit in der Phase der nächsten Entwicklung befindet, wird man ein eher implizites Feedback geben. Steht er hingegen am Anfang der ZPD , dann wäre ein expliziteres Feedback angemessener. Ein wichtiger Indikator für den Stand des Lernenden in der ZPD ist die Frequenz und Qualität der Hilfen, die der Lernende selbst von der Lehrkraft in einem interaktiven Feedbackgespräch erbittet. Ein vereinfachtes, im normalen Unterrichtsalltag im Rahmen eines Unterrichtsgesprächs prinzipiell einsetzbares Modell für ein entsprechend gestuftes Feedback zu einem als Hausarbeit angefertigten Schreibprodukt könnte z. B. folgendermaßen aussehen: 1. Die Lehrkraft fordert die Lernenden auf, entweder einzeln oder in Partnerarbeit ihre schriftliche Arbeit im Hinblick auf Korrektheit, Kohärenz oder auch andere Kriterien zu lesen. Die Lernenden unterstreichen zunächst alles, was ihnen als möglicher Fehler oder auch ungeschickte Formulierung auffällt. 2. Die Ergebnisse werden in der Gruppe diskutiert und-- falls möglich-- von den Lernenden selbst korrigiert. 3. Die Lehrkraft identifiziert wichtige Fehler oder ungeschickte Formulierungen, die den Lernenden nicht aufgefallen sind und bittet die Schülerinnen und Schüler, sich diese genauer anzuschauen und nach Lösungen zu suchen. 4. Die Lösungen werden vorgestellt und besprochen. 5. Die Lehrkraft gibt Hilfen (vgl.-Kapitel-9.2.5) zu Fehlern und ungeschickten Formulierungen, die von den Lernenden nicht selbst korrigiert werden konnten. 6. Die Lernenden versuchen, mit den gegebenen Hilfen weiter zu arbeiten und Lösungen zu finden. 7. Die Lösungen werden besprochen. 8. Wenn noch Fehler vorhanden sind, die nach Meinung der Lehrkraft unbedingt korrigiert werden sollten, dann gibt die Lehrkraft wohl dosierte explizite Korrekturen und Erklärungen zu diesen Korrekturen. <?page no="286"?> 285 9.6. Automatisierte Diagnose- und Feedbacksysteme Ein gestuftes Feedback ist natürlich nicht nur im Kontext der Korrektur spezifischer Fehler z. B. bei der Verwendung der Vergangenheitstempora in den Schreibproduktionen deutscher Französischlerner einsetzbar. Auch Feedback zum strategischen Vorgehen bei der Textrevision kann auf einer Skala von implizit nach explizit angeordnet werden. Ein wichtiges Kennzeichen eines solchen Feedbacks ist, dass es in kohärenter Weise auf Prinzipien der soziokulturellen Theorie und insbesondere dem Konzept der ZPD beruht. Wie bereits angedeutet, ist das Ziel, eine optimale Passung zwischen Feedback und jeweiligem Lernenden zu erreichen und die Selbstregulation der Lernenden zu fördern. Entsprechend kritisch wird deshalb auch eine ausschließliche oder auch zu frühe Verwendung von explizitem Feedback gesehen. Insbesondere die bereits beschriebenen Feedbackgespräche (vgl.-Kapitel-9.4) können beim Erreichen des übergeordneten Ziels der Selbstregulation helfen. Das abschließende Zitat aus Lantolf & Poehner (2014) verdeutlicht noch einmal zusammenfassend die Problematik einer unangepassten Verwendung von (explizitem) Feedback und die formative, autonomiefördernde Zielsetzung von Feedback auf der Basis soziokultureller Theorie und IDE : A ‘one-size-fits-all’ reliance on explicit feedback thus runs counter to formative purposes of assessment, as teachers do not gain the necessary understanding of learner capabilities on which to base instruction. Moreover, exclusive use of explicit feedback risks creating learner dependence rather than promoting self-regulation because answers and explanations are provided regardless of learner needs. In L2 DA , negotiating mediation with learners is the basis for diagnosing their abilities and promoting their autonomous use of the language. (Lantolf & Poehner, 2014, S. 174) 9.6. Automatisierte Diagnose- und Feedbacksysteme Abschließend möchten wir noch kurz auf computerbasierte automatisierte Diagnose- und Feedbacksysteme eingehen. Entsprechende Systeme sind in erster Linie in den USA für das Englische entwickelt worden und werden dort zunehmend eingesetzt. So erfolgt z. B. in neueren computerbasierten internationalen Sprachtests mit einer Vielzahl von Testteilnehmerinnen und Testteilnehmern wie dem TOEFL i BT oder dem Pearson Test of English ( PTE ) Academic die Bewertung der Schreibprodukte teilweise ( TOEFL i BT ) oder sogar ausschließlich ( PTE Academic) mit Hilfe von Softwaresystemen. In diesem Zusammenhang ergaben Studien z. T. sehr hohe Übereinstimmungen zwischen menschlicher und automatisierter Bewertung. Insbesondere in den USA kommen automatisierte Diagnose- und Feedbacksysteme mittlerweile nicht nur im Rahmen von High-Stakes-Tests zum Einsatz, sondern immer häufiger auch im unterrichtlichen Kontext (vgl. z. B. Chapelle, Cotos & Lee, 2015; Dikli & Bleyle, 2014; Li, Link & Hegelheimer, 2015). Automatisierte Diagnose- und Feedbacksysteme erlauben eine deutliche Reduktion des Aufwandes und damit auch der Kosten bei der Evaluation von Schreibkompetenzen. Sie sind zudem absolut objektiv, konsistent und unparteiisch. Darüber hinaus eröffnen sie neue Möglichkeiten, wie z. B. eine unmittelbare Rückmeldung zu spezifischen Merkmalen des Schreibprodukts direkt während des Schreibens. Ein solches Feedback kann die Lernenden im Schreibprozess unterstützen und zur Kompetenzentwicklung beitragen. <?page no="287"?> 286 9 Feedback zu schriftlichen Lernerproduktionen Allerdings ist der Einsatz von automatisierten Diagnose- und Feedbacksystemen auch mit einer Reihe von Problemen verbunden und wird entsprechend kontrovers diskutiert (vgl. z. B. Deane, 2013; Stevenson & Phakiti, 2014; Weigle, 2013). Die entsprechenden Systeme erlauben z. B. (bisher) vor allem eine Bewertung einer Vielzahl von formalen Aspekten des Englischen, wie z. B. Subjekt-Verb-Übereinstimmung, Gebrauch von Artikeln und Präpositionen oder auch Orthografie und Zeichensetzung und sind hier auch sehr effizient. Wenn allerdings eine Lehrkraft im Fall eines komplexeren Schreibprodukts eher inhaltliche Aspekte bei der Bewertung fokussiert, können automatisierte und traditionelle lehrerseitige Diagnose sowie das resultierende Feedback erheblich differieren. Darüber hinaus zeigen Studien, dass ein ausführliches lehrerseitiges Feedback auch im Fall formaler Aspekte in der Regel qualitativ hochwertiger als ein automatisiertes Feedback ist (vgl. z. B. Dikli & Bleyle, 2014; McCurry, 2012; Stevenson & Phakiti, 2014). Trotz dieser und weiterer Einschränkungen stellen automatisierte Diagnose- und Feedbacksysteme u. E. auch für den deutschen Kontext eine interessante Perspektive dar. Sie eröffnen neue Möglichkeiten z. B. im Hinblick auf den Einsatz von Schreibaufgaben in Studien zum Bildungsmonitoring oder auch im Rahmen einer individuenzentrierten formativen Evaluation. Es sollte geprüft werden, inwieweit sich dieses Potenzial (weiter entwickelter) automatisierter Diagnose- und Feedbacksysteme zukünftig nutzen lässt und wie möglichen Akzeptanzproblemen begegnet werden könnte. Hinweise zum Weiterlesen Allgemein zur Rolle des Feedbacks beim Unterrichten und Testen: Buhren (2015); Hattie & Timperley (2007); Hattie & Yates (2014) Feedback beim Lehren und Lernen von Fremd- und Zweitsprachen Sammlung von Artikeln zum Feedback im Englischunterricht mit praxisnahen Beispielen: ▶ Reitbauer et al. (2013) Verhältnis von Diagnose und Feedback: ▶ Jang & Wagner (2014); Lee (2015) Überblick über Formen und Effizienz von Feedback zu schriftlichen Produktionen: ▶ Bitchener & Ferris (2012); Bitchener & Storch (2016); Busse (2015, 2016); Ferris & Hedgcock (2013, S. 237-308, Kap. 7 und 8); Hyland & Hyland (2006); Kang & Han (2015); Porsch (2010, S. 71-98) Detaillierte Darstellung der Entwicklung einer diagnose- und feedbackorientierten Bewertungsskala für Schreibkompetenzen im akademischen Kontext: ▶ Knoch (2009) <?page no="288"?> 287 Literatur Empirische Untersuchungen zur Fehlerkorrektur: ▶ Bohnensteffen (2010); Busse (2015); Mawlawi Diab (2015) Coaching-Techniken, die bei Feedbackgesprächen genutzt werden können: ▶ Kleppin & Spänkuch (2012, 2014) Fehlerkorrektur mit vielen Empfehlungen für die Praxis: ▶ Kleppin (1998) Individualisiertes Feedback unter Einbezug von Selbst- und Partnerevaluation: ▶ Alter (2016) Interaktionistische dynamische Evaluation und Zone der nächsten Entwicklung: ▶ Grotjahn (2015); Grotjahn & Kleppin (2015, Kap. 6.1.2); Lantolf & Poehner (2011a, 2011b; 2014, Kap. 7 und 8); McCafferty (2013); Poehner (2008); Poehner & Infante (2016); Thompson (2013) ▶ sowie auch folgende Web-Seiten: http: / / discoverarchive.vanderbilt.edu/ handle/ 1803/ 3909 http: / / www.tirfonline.org/ resources/ references/ Literatur Ahmed, Ayesha & Pollitt, Alastair. (2010). The Support Model for interactive assessment. Assessment in Education: Principles, Policy & Practice, 17(2), 133-167. doi: 10.1080/ 09695941003694425 Alderson, J. Charles. (2005). Diagnosing foreign language proficiency: The interface between learning and assessment. London: Continuum. Aljaafreh, Ali & Lantolf, James P. (1994). Negative feedback as regulation and second language learning in the zone of proximal development. The Modern Language Journal, 78(4), 465-483. doi: 10.1111/ j.1540-4781.1994.tb02064.x Alter, Grit. (2016). Achievement Enhancer „Feedback“: Möglichkeiten der Reflexion, Selbst- und Partnerevaluation. Praxis Fremdsprachenunterricht Englisch, 1, 11-22. Assessment Reform Group. (2002). Assessment for learning: 10 principles. [abrufbar unter https: / / www.aaia.org.uk/ content/ uploads/ 2010/ 06/ Assessment-for-Learning-10-principles.pdf] Bitchener, John & Ferris, Dana R. (2012). Written corrective feedback in second language writing. New York: Routledge. Bitchener, John & Storch, Neomy. (2016). Written corrective feedback for L2 development. Bristol: Multilingual Matters. Black, Paul, Harrison, Chris, Lee, Clare, Marshall, Bethan & Wiliam, Dylan. (2003). Assessment for learning: Putting it into practice. London: Open University Press. Black, Paul & Wiliam, Dylan. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7-74. doi: 10.1080/ 0969595980050102 <?page no="289"?> 288 9 Feedback zu schriftlichen Lernerproduktionen Bohnensteffen, Markus. (2010). Fehler-Korrektur. Lehrer- und lernerbezogene Untersuchungen zur Fehlerdidaktik im Englischunterricht der Sekundarstufe II . Frankfurt am Main: Lang. [abrufbar unter http: / / rzbl04.biblio.etc.tu-bs.de: 8080/ docportal/ servlets/ MCRFileNodeServlet/ DocPortal_ derivate_00009763/ diss.pdf] Buhren, Claus G. (Hrsg.). (2015). Handbuch Feedback in der Schule. Weinheim: Beltz. Busse, Vera. (2015). Förderung von schriftsprachlichen Kompetenzen im Fremdbzw. Zweitsprachenunterricht: Zum Verhältnis von Motivation und schriftlichem Feedback. Zeitschrift für Interkulturellen Fremdsprachenunterricht, 20(1), 201-214. [abrufbar unter http: / / tujournals.ulb. tu-darmstadt.de/ index.php/ zif/ article/ view/ 198] Busse, Vera. (2016). Effektiv auf Schülertexte eingehen-- aber wie? Praxis Fremdsprachenunterricht, 1, 11-13. Campbell, Nancy & Schumm Fauster, Jennifer. (2013). Learner-centred feedback on writing: Feedback as dialogue. In Margit Reitbauer, Sarah Mercer, Jennifer Schumm Fauster & Renate Vaupetitsch (Hrsg.), Feedback matters (S. 55-68). Frankfurt am Main: Lang. Chapelle, Carol A., Cotos, Elena & Lee, Jooyoung. (2015). Validity arguments for diagnostic assessment using automated writing evaluation. Language Testing, 32(3), 385-405. doi: 10.1177/ 0265532214565386 Deane, Paul. (2013). On the relation between automated essay scoring and modern views of the writing construct. Assessing Writing, 18(1), 7-24. doi: 10.1016/ j.asw.2012.10.002 Dikli, Semire & Bleyle, Susan. (2014). Automated Essay Scoring feedback for second language writers: How does it compare to instructor feedback? Assessing Writing, 22, 1-17. doi: 10.1016/ j. asw.2014.03.006 Dobrić, Nikola & Sigott, Günther. (2014). Towards an error taxonomy for student writing. Zeitschrift für Interkulturellen Fremdsprachenunterricht, 19(2), 111-118. [abrufbar unter http: / / tujournals.ulb. tu-darmstadt.de/ index.php/ zif/ article/ view/ 35/ 32] Emmrich, Rico & Dietrich, Steffi. (2011). Vergleichsarbeiten schreiben-- und dann? Zum Umgang mit Rückmeldungen aus Vergleichsarbeiten im Fremdsprachenunterricht. Praxis Englisch, 3, 49-53. Europarat. (2001). Gemeinsamer europäischer Referenzrahmen für Sprachen: Lernen, lehren, beurteilen. Berlin: Langenscheidt. [abrufbar unter: http: / / www.coe.int/ lang und http: / / student.unifr.ch/ pluriling/ assets/ files/ Referenzrahmen2001.pdf] Ferris, Dana R. & Hedgcock, John S. (2013). Teaching L2 composition: Purpose, process, and practice. New York: Routledge. Grotjahn, Rüdiger. (2015). Dynamisches Assessment: Grundlagen, Probleme, Potenzial. In Jessica Böcker & Anette Stauch (Hrsg.), Konzepte aus der Sprachlehrforschung-- Impulse für die Praxis. Festschrift für Karin Kleppin (S. 469-488). Frankfurt am Main: Lang. Grotjahn, Rüdiger & Kleppin, Karin. (2015). Prüfen, Testen, Evaluieren. München: Klett-Langenscheidt. Hamp-Lyons, Liz. (2016). Purposes of assessment. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 13-27). Boston: De Gruyter. Hattie, John A. C. (2009). Visible learning: A synthesis of over 800 meta-analyses relating to achievement. London: Routledge [deutsche Übersetzung: 3. Aufl. 2015]. Hattie, John A. C. & Timperley, Helen. (2007). The power of feedback. Review of Educational Research, 77(1), 81-112. doi: 10.3102/ 003465430298487 Hattie, John A. C. & Yates, Gregory C. R. (2014). Using feedback to promote learning. In Victor A. Benassi, Catherine E. Overson & Cristopher M. Hakala (Hrsg.), Applying the science of learning in <?page no="290"?> 289 Literatur education: Infusing psychological science into the curriculum (S. 45-58). Washington, DC : American Psychological Association. [abrufbar unter http: / / teachpsych.org/ ebooks/ asle2014/ index.php] Hohwiller, Peter. (2016). Der Umgang mit Fehlern: Die Hattie-Studie und die Gretchenfrage des Fremdsprachenunterrichts. Praxis Fremdsprachenunterricht, 1, 5-6. Hyland, Ken & Hyland, Fiona. (Hrsg.). (2006). Feedback in second language writing: Contexts and issues. Cambridge: Cambridge University Press. Jang, Eunice E. & Wagner, Maryam. (2014). Diagnostic feedback in the classroom. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 693-711). Chichester: Wiley-Blackwell. doi: 10.1002/ 9781118411360.wbcla081 Jones, Neil & Saville, Nick. (2016). Learning oriented assessment: A systemic approach. Cambridge: Cambridge University Press. Kang, Eun Young & Han, Zhaohong. (2015). The efficacy of written corrective feedback in improving L2 written accuracy: A meta-analysis. The Modern Language Journal, 99(1), 1-18. doi: 10.1111/ modl.12189 Kleppin, Karin. (1998). Fehler und Fehlerkorrektur. Berlin: Langenscheidt. Kleppin, Karin & Königs, Frank G. (1991). Der Korrektur auf der Spur: Untersuchungen zum mündlichen Korrekturverhalten von Fremdsprachenlehrern. Bochum: Brockmeyer. Kleppin, Karin & Mehlhorn, Grit. (2008). Zum Stellenwert von Fehlern. Am Beispiel des Französischen und Russischen. Praxis Fremdsprachenunterricht, 4, 17-20. Kleppin, Karin & Spänkuch, Enke. (2012): Sprachlerncoaching: Reflexionsangebote für das eigene Fremdsprachenlernen. Fremdsprache Deutsch, 46, 41-49. Kleppin, Karin & Spänkuch, Enke. (2014). Fremdsprachenlerner beraten / coachen: Was hat das mit Lehren zu tun? Ein Reflexionsangebot. Fremdsprachen Lehren und Lernen, 43(1), 94-108. Knoch, Ute. (2009). Diagnostic writing assessment: The development and validation of a rating scale. Frankfurt am Main: Lang. Lantolf, James P. & Poehner, Matthew E. (2011a). Dynamic assessment in the classroom: Vygotskian praxis for second language development. Language Teaching Research, 15(1), 11-33. doi: 10.1177/ 1362168810383328 Lantolf, James P. & Poehner, Matthew E. (2011b). Dynamic assessment in the foreign language classroom: A teacher’s guide (2. Aufl.). University Park, PA : CALPER Publications [mit DVD ]. Lantolf, James P. & Poehner, Matthew E. (2014). Sociocultural theory and the pedagogical imperative in L2 education: Vygotskian praxis and the research / practice divide. New York: Routledge. Lee, Icy. (Hrsg.). (2014). Feedback in writing: Issues and challenges [Special Issue]. Assessing Writing, 19. [abrufbar unter http: / / www.sciencedirect.com/ science/ journal/ 10752935/ 19] Lee, Yong-Won. (2015). Diagnosing diagnostic language assessment. Language Testing, 32(3), 299-316. doi: 10.1177/ 0265532214565387 Li, Jinrong, Link, Stephanie & Hegelheimer, Volker. (2015). Rethinking the role of automated writing evaluation ( AWE ) feedback in ESL writing instruction. Journal of Second Language Writing, 27, 1-18. doi: 10.1016/ j.jslw.2014.10.004 Lidz, Carol S. & Haywood, H. Carl. (2014). From dynamic assessment to intervention: Can we get there from here? Transylvanian Journal of Psychology, Special Issue, 81-108. [abrufbar unter http: / / search.proquest.com/ openview/ eba88f3aa5211056ac2d60cdc6039527/ 1? pq-origsite= gscholar&cbl=2035941] Lochtmann, Katja. (2003). Die mündliche Fehlerkorrektur im DaF-Unterricht. gfl-journal, 3, 1-19. [abrufbar unter http: / / www.gfl-journal.de/ 3-2003/ lochtman.pdf] <?page no="291"?> 290 9 Feedback zu schriftlichen Lernerproduktionen Mawlawi Diab, Nuwar. (2015). Effectiveness of written corrective feedback: Does type of error and type of correction matter? Assessing Writing, 24, 16-34. doi: 10.1016/ j.asw.2015.02.001 McCafferty, Steven G. (2013). Zone of proximal development in second language acquisition. In Carol A. Chapelle (Hrsg.), The encyclopedia of applied linguistics (S. 1-8). Chichester,: Wiley- Blackwell. doi: 10.1002/ 9781405198431.wbeal1303 McCurry, Doug. (2012). Computer scoring and quality of thought in assessing writing. In Elke Van Steendam, Marion Tillema, Gert Rijlaarsdam & Huub Van den Bergh (Hrsg.), Measuring writing: Recent insights into theory, methodology and practice (S. 153-175). Leiden: Brill. MSW [Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen]. (2014). Kernlehrplan für die Sekundarstufe II Gymnasium / Gesamtschule in Nordrhein-Westfalen: Englisch. Frechen: Ritterbach. [abrufbar unter: http: / / www.schulentwicklung.nrw.de/ lehrplaene/ lehrplannavigator-s-ii/ gymnasiale-oberstufe#endfassung] Poehner, Matthew E. (2008). Dynamic Assessment: A Vygotskyan approach to understanding and promoting L2 development. Berlin: Springer. Poehner, Matthew E. & Infante, Paolo. (2016). Dynamic Assessment in the language classroom. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 275-290). Boston: De Gruyter. Poehner, Matthew E. & Van Compernolle, Rémi A. (2011). Frames of interaction in Dynamic Assessment: developmental diagnoses of second language learning. Assessment in Education: Principles, Policy & Practice, 18(2), 183-198. doi: 10.1080/ 0969594X.2011.567116 Porsch, Raphaela. (2010). Schreibkompetenzvermittlung im Englischunterricht in der Sekundarstufe-I: Empirische Analysen zu Leistungen, Einstellungen, Unterrichtsmethoden und Zusammenhängen von Leistungen in der Mutter- und Fremdsprache. Münster: Waxmann. Reitbauer, Margit, Mercer, Sarah, Schumm Fauster, Jennifer & Vaupetitsch, Renate. (Hrsg.). (2013). Feedback matters: Current feedback practices in the EFL classroom. Frankfurt am Main: Lang. Qualitäts- und Unterstützungsagentur-- Landesinstitut für Schule. (2015). Lehrplannavigator-- Kernlehrpläne für die Sekundarstufe I. [abrufbar unter http: / / www.schulentwicklung.nrw.de/ lehrplaene/ lehrplannavigator-s-i/ ] Schoormann, Matthias & Schlak, Torsten. (2012). Sollte korrektives Feedback „maßgeschneidert“ werden? Zur Berücksichtigung kontextueller und individueller Faktoren bei der mündlichen Fehlerkorrektur im Zweit-/ Fremdsprachenunterricht. Zeitschrift für Interkulturellen Fremdsprachenunterricht, 17(2), 172-190. [abrufbar unter http: / / tujournals.ulb.tu-darmstadt.de/ index.php/ zif/ article/ view/ 93/ 88] Shaman, Suda. (2014). Scaffolding: Re-framing the construct in its original context. Journal of ELT and Applied Linguistics, 2(1), 132-139. [abrufbar unter http: / / www.jeltal.com/ yahoo_site_admin/ assets/ docs/ Scaffolding.41123633.pdf] Siebold, Jörg. (2014). Feedback ist unerlässlich: Was die Hattie-Studie zum Feedback sagt. Praxis Fremdsprachenunterricht, 4, 5-6. Siebold, Jörg & Hyatt, Graham. (2011). „A1ness“ or „A2ness“? Bewertung schriftlicher Schülerleistungen. Praxis Fremdsprachenunterricht Englisch, 1, 8-13. Stevenson, Marie & Phakiti, Aek. (2014). The effects of computer-generated feedback on the quality of writing. Assessing Writing, 19, 51-65. doi: 10.1016/ j.asw..11.007 Thompson, Ian. (2013). The mediation of learning in the Zone of Proximal Development through a co-constructed writing activity. Research in the Teaching of English, 47(3), 247-276. [abrufbar unter http: / / www.jstor.org/ stable/ 24397856] <?page no="292"?> 291 Literatur Turner, Carolyn E. & Purpura, James E. (2016). Learning-oriented assessment in second and foreign language classrooms. In Dina Tsagari & Jayanti Banerjee (Hrsg.), Handbook of second language assessment (S. 255-273). Boston: De Gruyter. Tzuriel, David. (2013). Mediated learning experience and cognitive modifiability. Journal of Cognitive Education and Psychology, 12(1), 59-80. doi: 10.1891/ 1945-8959.12.1.59 Vilsmeier, Carmen. (2000). Feedback geben-- mit Sprache handeln: Spielregeln für bessere Kommunikation. Düsseldorf: Metropolitan. Weigle, Sarah C. (2013). English language learners and automated scoring of essays: Critical considerations. Assessing Writing, 18(1), 85-99. doi: 10.1016/ j.asw.2012.10.006 <?page no="294"?> 10 Überprüfung von Kompetenzen - aktuelle Trends Bettina Akukwe, Rüdiger Grotjahn & Stefan Schipolowski In den letzten Jahren reichten die Trends in Schule und Unterricht von kompetenzorientiertem Unterricht über Binnendifferenzierung in Lerngruppen bis hin zur Inklusion von Schülerinnen und Schülern mit sonderpädagogischem Förderbedarf. Dabei stehen immer stärker die Bedürfnisse der einzelnen Lernenden im Fokus. Das Testen von Wissen und Kompetenzen wird in diesem Zuge angedockt an den Lernprozess, der individuell sehr unterschiedlich ablaufen kann. Zugleich wird aber vor dem Hintergrund großer Schulleistungsstudien wie PISA , TIMSS und DESI , Lernausgangslagenuntersuchungen und Vergleichsarbeiten oder auch Qualifikationstests wie DELF und Cambridge English die Notwendigkeit immer deutlicher, sprachliche Kompetenzen auch über den jeweiligen lokalen Kontext und den einzelnen Lernenden hinaus in vergleichbarer Weise zu messen. Damit einher geht auch ein Abweichen von bisher üblichen Konventionen: Beispielsweise wurden Abiturprüfungen mit einem Schreibanteil bisher eher an inhaltlichen Gesichtspunkten ausgerichtet, was sich entsprechend im Erwartungshorizont niederschlug. Mittlerweile gewinnt auch die Erfüllung der kommunikativen Absicht bei der Konzeption von Prüfungen und Aufgaben immer mehr an Gewicht. 10.1 Kompetenzorientierter Unterricht und Assessment Literacy Bildungspolitik und Wissenschaft haben in den letzten Jahren Konzepte entwickelt, die einen kompetenzorientierten Unterricht begünstigen sollen. 62 Allerdings ist die Praxis vielerorts nur bedingt an innovativen Konzepten ausgerichtet. In vielen Fällen findet nur vereinzelt kompetenzorientierter Unterricht statt, weil Lehrkräfte nicht entsprechend qualifiziert sind, um Kompetenzen auch zu messen-- es mangelt ihnen an assessment literacy (diagnostischer Kompetenz) oder schlichtweg an Zeit. Umso wichtiger ist es, die Vermittlung von diagnostischer Kompetenz zukünftig stärker in der Ausbildung zu berücksichtigen. Am Beispiel der Vergleichsarbeiten ( VERA ) zeigt sich, dass eine Diskrepanz zwischen bildungspolitischen Konzepten und der Umsetzung in der Praxis entstehen kann. VERA dient der Feststellung von Stärken und Schwächen der Lerngruppe bzw. Klasse ( KMK , 2015) und bietet Hinweise zur weiteren Unterrichtsentwicklung. Lehrkräfte kritisieren jedoch zum Teil die mit VERA verbundene Mehrarbeit, deren Nutzen dem Aufwand nicht gerecht werde. Diese Kritik mag häufig darin begründet sein, dass Lehrkräfte die Ergebnisse der Testungen nicht ohne Unterstützung und intensive Anleitung interpretieren und daraus Konsequenzen für die weitere 62 Zu nennen ist hier insbesondere das KMK -Projekt „Fortbildungskonzepte und -materialien zur kompetenzbzw. standardbasierten Unterrichtsentwicklung“ (for.mat). Die Materialien sind frei zugänglich auf den Seiten der KMK einzusehen, z. B. für den Kompetenzbereich Schreiben in der Fremdsprache unter http: / / www.kmk-format.de/ FS-Schreiben.html. <?page no="295"?> 294 10 Überprüfung von Kompetenzen - aktuelle Trends Unterrichtsgestaltung ableiten können. Auch die umfangreichen, jährlich zur Verfügung gestellten Didaktischen Handreichungen zu den Vergleichsarbeiten finden wenig Resonanz. Dies könnte u. a. daran liegen, dass die Bereitschaft zur Auseinandersetzung mit VERA bereits im Zuge der Eingabe der Schülerlösungen in eine Datenmaske, die in den meisten Ländern erforderlich ist, abnimmt. Ein konstruktiver Umgang mit evidenzbasierter Unterrichtsentwicklung muss erst erlernt werden und geht Hand in Hand mit der Stärkung der diagnostischen Kompetenz. Lehrkräfte müssen im Rahmen von Fortbildungen o. Ä. die Chance erhalten, ihre diagnostische Kompetenz zu entwickeln. Das Projekt „Entwicklung und Validierung eines Instruments zur Erfassung von Assessment Literacy bei Mathematiklehrkräften“ (ELIAS-Projekt) soll zukünftig dazu beitragen, Aussagen zur Evaluationskompetenz von Mathematiklehrkräften in Deutschland zu treffen. 63 Basierend auf den Ergebnissen des Projekts können auch zukünftige Fortbildungen gestaltet werden. Auch der vorliegende Band ist vor dem Hintergrund der Entwicklung von assessment literacy zu sehen. Es werden Möglichkeiten aufgezeigt, wie Lehrkräfte selbstständig die Schreibkompetenz ihrer Schülerinnen und Schüler überprüfen können. In den einzelnen Kapiteln wurden die notwendigen Schritte umfassend beschrieben und um praxisrelevante Tipps ergänzt. In den Kapiteln 2 bis 5 wurden die Grundlagen für die Testung von Schreibkompetenzen (u. a. Rahmenbedingungen, Funktionen und Typen der Evaluation, Gütekriterien, Testkonstrukt) vorgestellt und diskutiert. Die kiteriale Evaluation von Schreibkompetenzen und die Erstellung von Schreibaufgaben war Thema der Kapitel 6 und 7. Beispielhafte Bewertungen mit einem eigens entwickelten Bewertungsraster wurden in Kapitel 8 gezeigt und anhand von Schülertexten veranschaulicht. In Kapitel 9 wurden Formen des Feedbacks vorgestellt und mit zahlreichen praktischen Beispielen erklärt. Anliegen der Autorinnen und Autoren dieses Bandes sowie der Herausgeberin und der Herausgeber war es, Lehrkräften einen handlungsorientierten Leitfaden zur Testung der Schreibkompetenz ihrer Schülerinnen und Schüler bereitzustellen. Die Testung von Kompetenzen geht Hand in Hand mit der Unterrichtsplanung. Eine Lehrkraft wird sich stets Gedanken machen, wie sie Schülerinnen und Schülern bestimmte Inhalte vermittelt und in welcher Form das Erreichen der Lernziele überprüft werden kann. Dafür sind einerseits das pädagogische (Handlungs-)Wissen und andererseits die bereits thematisierte diagnostische Kompetenz notwendig. Diagnostische Kompetenz erlernt man nicht durch das bloße Anlesen von Theorie; die notwendigen Fertigkeiten müssen in der Praxis eingeübt werden, wie Rogier (2014) argumentiert: Teachers seem to feel that assessment literacy is not something you are taught in a course, though you can get the fundamentals and theories there; it is basically something that must be developed through ongoing experience and practice. Assessment literacy is a skill that you have to learn by doing, not just by reading about it. (S. 12) 63 Informationen zum Projekt finden sich auf den Seiten der Universität Potsdam (http: / / www.unipotsdam.de/ erziehungswissenschaftliche-bildungsforschung/ forschung/ elias.html). <?page no="296"?> 295 10.2 Überprüfung von Sprechkompetenzen Sinnvoll ist dabei die Zusammenarbeit mit Kolleginnen und Kollegen: gemeinsames Überlegen, Entwickeln von Aufgaben, Feedback zu den Aufgaben, wechselseitige Tests in der Parallelklasse, etc. 10.2 Überprüfung von Sprechkompetenzen Eine bisher in der standardisierten Überprüfung noch vernachlässigte Kompetenz ist das Sprechen. Dies liegt u. a. daran, dass das Testen der Sprechkompetenz sehr viel aufwändiger ist als das Erfassen der Schreibkompetenz oder der rezeptiven Kompetenzen. In den meisten internationalen Tests ist das Sprechen Bestandteil der Sprachstandsfeststellung, jedoch erhält es einen deutlich geringeren Testzeitanteil als eine Testung im Kompetenzbereich Schreiben. Der Test Cambridge English Advanced beispielsweise misst Sprechen in Form von 15-minütigen Paarprüfungen, in denen der Testteilnehmende abwechselnd mit einer Prüferin oder einem Prüfer, einem anderen Testteilnehmenden und in einem Monolog spricht. 64 Ein zweiter Prüfender macht während der Testung Notizen und beide Prüfende beurteilen zusammen die Leistung (vgl. Tesch & Grotjahn, 2010, S. 184). Für die Durchführung eines Tests wie VERA , an dem alle Schülerinnen und Schüler einer Klasse teilnehmen sollen, bräuchten zwei Lehkräfte alleine für eine 25-köpfige Schulklasse mindestens fünf Stunden (vgl. Tesch & Grotjahn, 2010). Im Rahmen solcher großflächig angelegten Untersuchungen ist die Testung des Sprechens somit kaum realisierbar. Allerdings wird der Bedeutung des Sprechens in der unterrichtlichen Praxis immer stärker in Abschlussprüfungen Rechnung getragen. Beispielsweise ist seit 2017 Sprechen obligatorischer Bestandteil der Englisch-Abiturprüfung in Schleswig-Holstein. Im Rahmen der Operationalisierung der Bildungsstandards durch das IQB wurden in den Jahren 2008 und 2009 auch Aufgaben zur Überprüfung des zielsprachlichen Sprechens (Französisch) entwickelt, die seit 2011 auf den Seiten des IQB abrufbar sind. 65 Neben den Aufgaben werden Begleittexte und beispielhafte Schülerleistungen in Form von Videomaterial zur Verfügung gestellt. 10.3 Computerbasiertes Testen Ein vom Unterrichtsfach weitgehend unabhängiger Trend in der pädagogischen Diagnostik sind computerbasierte Testungen, die standardisierte papierbasierte Testungen verstärkt ablösen. Große Testinstitute zur Entwicklung von Sprachstandstests und zur Vergabe von Zertifikaten (u. a. Pearson, Educational Testing Service) haben bereits vor längerer Zeit aus Praktikabilitätsgründen auf eine computerbasierte Testung umgestellt. In PISA 2015 wurde erstmalig computerbasiert getestet und auch im Rahmen von VERA haben die Universität Jena (Projekt kompetenztest.de) und das Zentrum für Empirische Pädagogische Forschung (zepf) an der Universität Koblenz-Landau erste Schritte hin zu einer Testung am PC unter- 64 Informationen zu den einzelnen Testeinheiten sind einsehbar unter http: / / www.cambridgeenglish.org/ exams/ advanced/ exam-format/ . 65 Die Aufgaben zum Sprechen sind abrufbar unter: https: / / www.iqb.hu-berlin.de/ bista/ teach/ sprech_frz. <?page no="297"?> 296 10 Überprüfung von Kompetenzen - aktuelle Trends nommen. Die Vorteile dieser Methode auch im unterrichtlichen Kontext liegen auf der Hand: z. B. Möglichkeit des Einsatzes innovativer Itemformate, standardisierte und bessere Wiedergabequalität bei Höraufgaben durch den Einsatz von Kopfhörern, schnellere Auswertung durch Automatisierung und damit verbunden die Entlastung von Lehrkräften. Sogenannte Modalitätseffekte, d. h. durch die Darbietungsform bedingte konstruktirrelevante Einflüsse auf die Testergebnisse, sind mittlerweile gut erforscht. Entsprechende Forschung ermöglicht es Testinstituten, Aufgabenformate auszuwählen, die eine valide Messung fremdsprachlicher Kompetenzen ermöglichen und den Einfluss unerwünschter Varianzquellen wie individueller Unterschiede in der Vertrautheit mit den technischen Geräten zu minimieren. Gerade für den Kompetenzbereich Schreiben sind beeindruckende Fortschritte in der computerbasierten Auswertung beobachtbar. Kapitel 9.6 gibt dazu einen kleinen Überblick. Neuere Systeme kommen insbesondere auf der Ebene der sprachlichen Realisierung (bspw. Rechtschreibung, Grammatik und Stil) zu validen Kompetenzmessungen (vgl. Chen & Cheng, 2008; Enright & Quinlan, 2010; Warschauer & Grimes, 2008; Weigle, 2010). Zwar können auch schon für die Bewertung des Inhalts Kriterien programmiert werden, aber überwiegend greift man hier noch auf menschliche Bewerterinnen und Bewerter zurück. Einer neueren Studie zufolge (Li, Link & Hegelheimer, 2015) schätzen auch Lernende das unmittelbare und sehr spezifische Feedback der automatiserten Systeme zur Sprachproduktion. Für Lehrkräfte bietet sich des Weiteren die Möglichkeit, sich Subscores für Mikrokompetenzen wie z. B. die korrekte Verwendung von Präpositionen ausgeben zu lassen. Der Einsatz computerbasierter Systeme kann damit über die Ökonomie der Bewertung hinaus auch das diagnostische Potenzial erhöhen. Weitere Vorteile des computerbasierten Testens werden in Kapitel 9.6 genannt. 10.4 Integrierte Aufgabenformate Immer beliebter werden integrierte oder auch kombinierte Aufgabenformate, die Schreibkompetenzen zusammen mit dem Lese- und / oder Hörverstehen in integrierter Form erfassen sollen (vgl. z. B. Cumming, 2014; MSW , 2015). So kann beispielsweise eine Aufgabe mit einem Lesetext zu Schuluniformen als Stimulus angeboten werden. In einem ersten Schritt wird anhand von Fragen überprüft, ob der Text von den Schülerinnen und Schülern verstanden wurde (Leseverstehen). In einem zweiten Schritt hören die Schülerinnen und Schüler ein aktuelles Interview mit der Schulleiterin einer Privatschule, die Uniformen an ihrer Schule eingeführt hat. Erneut beantworten die Lernenden Fragen zum Text (Hörverstehen). In einem letzten Schritt verschriftlichen die Schülerinnen und Schüler ihre Meinung zu diesem Thema (Schreiben). Je nach der zur Verfügung stehenden Testzeit kann die Aufgabenstellung enger oder weiter gefasst sein. Vorteil einer solchen Aufgabenstellung ist, dass mit Hilfe ein und desselben Themas unterschiedliche Teilkompetenzen gemessen werden können. Für den Unterricht, der häufig in thematische Einheiten untergliedert ist, bietet dieses Vorgehen zahlreiche Möglichkeiten in der Gestaltung eines Tests. Benachteiligt werden jedoch Lernende, die sich mit einem bestimmten Thema nicht identifizieren können und in der Folge Schwierigkeiten haben, sich mit diesem Thema auseinanderzusetzen. Diese Schülerinnen und Schüler be- <?page no="298"?> 297 10.5 Schülerinnen und Schüler mit sonderpädagogischem Förderbedarf kommen keine Chance, ihre Kompetenzen auch an einem anderen Thema zu beweisen. Des Weiteren kann es aus psychometrischer Sicht schwierig sein, die einzelnen Teilkompetenzen getrennt voneinander zu bewerten: Kennt der Lernende bestimmte Informationen bereits aus dem Lesetext, dann muss er diese nicht mehr unbedingt im Hörtext verstehen, um die Fragestellungen dazu beantworten zu können. Auch für den produktiven Teil des Tests wird der Lernende auf Formulierungen und Argumente aus den bereits dargebotenen Texten zurückgreifen können. Für eine standardisierte Testung von Schreibkompetenz z.B. im Sinne der Bildungsstandards sind entsprechende integrierte Aufgaben somit nur bedingt sinnvoll. Dies gilt allerdings nicht in der gleichen Weise im Hinblick auf die Testung mit Hilfe integrierter Aufgabenformate z. B. im TOEFL i BT (vgl. u. a. Cumming, 2014). 10.5 Schülerinnen und Schüler mit sonderpädagogischem Förderbedarf Ein weiterer allgemeiner Trend in der Testung von Kompetenzen ist der Einbezug von Schülerinnen und Schülern mit sonderpädagogischem Förderbedarf in allgemeinen Schulen und Förderschulen. Fragen der Diagnostik spielten für Sonderpädagoginnen und -pädagogen schon immer eine größere Rolle. Im Zuge der Bemühungen um eine stärkere Inklusion wird es jedoch auch für Lehrkräfte ohne sonderpädagogische Ausbildung wichtiger, den Leistungsstand von Schülerinnen und Schülern mit besonderen Bedürfnissen festzustellen. Für Kinder mit den Förderschwerpunkten Hören, Sehen und Körperliche und motorische Entwicklung gibt es schon seit Längerem angepasste Testmaterialien im Rahmen der Vergleichsarbeiten. Die Bemühungen, Kinder mit Lern- oder Sprachschwierigkeiten adäquat zu testen, haben ebenso zugenommen. Der Forschungsstand und die besonderen Herausforderungen wurden erst kürzlich von Kuhl und Kollegen (2015) aufgearbeitet. Einen aktuellen Überblick zum Umgang mit dem gerade auch im Hinblick auf die (adaptierte) Überprüfung von Schreibkompetenzen wichtigen Aspekt der Legasthenie im Fremdsprachenunterricht gibt Engelen (2016). Nicht nur für das Schreiben müssen die zum Teil verzögerten oder gänzlich unterschiedlichen Lernprozesse von Schülerinnen und Schülern mit besonderen Bedürfnissen berücksichtigt werden. Im Rahmen des IQB -Bildungstrends werden auch Schülerinnen und Schüler der Förderschwerpunkte Lernen, Sprache und Emotionale und soziale Entwicklung getestet (Stanat, Böhme, Schipolowski & Haag, 2016). Bei einer heterogenen Klassenzusammensetzung, die inklusiv beschulte Kinder oder Jugendliche einschließt, muss die Aufgabenauswahl mit deutlich größerem Bedacht vorgenommen werden, da ein größeres Leistungsspektrum abgedeckt werden muss. Hierbei kommen in den IQB -Bildungstrends zunehmend auch eigens für Schülerinnen und Schüler mit sonderpädagogischem Förderbedarf entwickelte Testaufgaben zum Einsatz. Den besonderen Rahmenbedingungen einer Testung inklusiv beschulter Schülerinnen und Schüler sowie der am Computer durchgeführten Testungen werden sich auch Lehrkräfte stellen müssen, die bisher weniger Berührungspunkte mit diesen Themen hatten. Eine Testung der Schreibkompetenz schafft im Licht beider Trends neue Möglichkeiten, beinhaltet jedoch auch neue Einschränkungen, die jeweils in Abhängigkeit vom lokalen Kontext diskutiert werden müssen. <?page no="299"?> 298 10 Überprüfung von Kompetenzen - aktuelle Trends Hinweise zum Weiterlesen Eine Auswahl an Aufgabenbeispielen inklusive Lösungshinweisen und fachdidaktischen Kommentierungen der Aufgaben zu den Vergleichsarbeiten finden Sie unter http: / / www.iqb. hu-berlin.de/ vera/ aufgaben. Hinweise zur Unterrichtsentwicklung nach der Ergebnisrückmeldung im Zusammenhang mit VERA finden Sie unter http: / / www.iqb.hu-berlin.de/ vera/ unterricht. Beispielaufgaben zum Kompetenzbereich Sprechen sowie umfangreiches Videomaterial für das Fach Französisch finden Sie unter https: / / www.iqb.hu-berlin.de/ bista/ teach/ sprech_frz. Literatur Chen, Chi-Fen Emily & Cheng, Wie-Yuan Eugene. (2008). Beyond the design of automated writing evaluation: Pedagogical practices and perceived learning effectiveness in EFL writing classes. Language Learning & Technology, 12, 94-112. [abrufbar unter http: / / llt.msu.edu/ vol12num2/ vol12num2.pdf#page=87] Cumming, Alister. (2014). Assessing integrated skills. In Antony J. Kunnan (Hrsg.), The companion to language assessment. Vol. II : Approaches and development (S. 216-229). Chichester: Wiley-Blackwell. Engelen, Sophie. (2016). Zum Umgang mit Legastenie im Fremdsprachenunterricht-- Forschungsstand, theoretische Konzepte und Leitlinien für den Unterricht. Zeitschrift für Fremdsprachenforschung, 27(2), 227-253. Enright, Mary K. & Quinlan, Thomas. (2010). Completing human judgment of essays written by English language learners with e-rater® scoring. Language Testing, 27, 317-334. doi: 10.1177/ 0265532210363144 KMK [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland]. (Hrsg.). (2015). Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring. Beschluss der 350. Kultusministerkonferenz vom 11. 06. 2015. [abrufbar unter http: / / www. kmk.org/ fileadmin/ Dateien/ veroeffentlichungen_beschluesse/ 2015/ 2015_06_11-Gesamtstrategie- Bildungsmonitoring.pdf] Kuhl, Poldi, Stanat, Petra, Lütje-Klose, Birgit, Gresch, Cornelia, Pant, Hans A. & Prenzel, Manfred. (Hrsg.). (2015). Inklusion von Schülerinnen und Schülern mit sonderpädagogischem Förderbedarf in Schulleistungserhebungen. Wiesbaden: Springer Verlag VS . Li, Jinrong, Link, Stephanie & Hegelheimer, Volker. (2015). Rethinking the role of automated writing evaluation ( AWE ) feedback in ESL writing instruction. Journal of Second Language Writing, 27, 1-18. doi: 10.1016/ j.jslw.2014.10.004 MSW [Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen]. (2015). Konstruktionshinweise: Neue Aufgabenformate in den modernen Fremdsprachen Englisch, Französisch, Spanisch, Italienisch, Russisch, Niederländisch, Türkisch, Portugiesisch, Neugriechisch. Aufgabenart 1.1: Schreiben mit Leseverstehen (integriert) und einer weiteren Teilkompetenz (Sprachmittlung/ Hör-/ Hörsehverstehen) in isolierter Überprüfung (Stand: 27. 3. 2015). [abrufbar unter https: / / www. standardsicherung.schulministerium.nrw.de/ cms/ zentralabitur-wbk/ faecher/ getfile.php? file=2573] Rogier, Dawn. (2014). Assessment literacy: Building a base for better teaching and learning. English Teaching Forum, 52(3), 2-13. [abrufbar unter https: / / americanenglish.state.gov/ resources/ englishteaching-forum-2014-volume-52-number-3] <?page no="300"?> 299 Literatur Stanat, Petra, Böhme, Katrin, Schipolowski, Stefan & Haag, Nicole. (Hrsg.). (2016). IQB -Bildungstrend 2015. Sprachliche Kompetenzen am Ende der 9. Jahrgangsstufe im zweiten Ländervergleich. Münster: Waxmann. [abrufbar unter https: / / www.iqb.hu-berlin.de/ bt/ BT2015/ Bericht] Tesch, Bernd & Grotjahn, Rüdiger. (2010). Messung der fremdsprachlichen Sprechkompetenz im Fach Französisch. In Raphaela Porsch, Bernd Tesch & Olaf Köller (Hrsg.), Standardbasierte Testentwicklung und Leistungsmessung: Französisch in der Sekundarstufe I (S. 177-205). Münster: Waxmann. Warschauer, Mark & Grimes, Douglas. (2008). Automated writing assessment in the classroom. Pedagogies: An International Journal, 3, 22-36. doi: 10.1080/ 15544800701771580 Weigle, Sarah C. (2010). Validation of automated scores of TOEFL i BT ® tasks against non-test indicators of writing ability. Language Testing, 27(3), 335-353. doi: 10.1002/ j.2333-8504.2011.tb02260.x <?page no="302"?> Sachregister Angemessenheit 13, 33, 43, 55 f., 71, 75, 80, 91, 125, 130, 169, 171, 174 f., 183, 187 ff., 197, 199, 201, 204 ff., 208, 219, 227, 234, 243, 268, 276 Ansatz aufgabenzentriert 78 f. Bi-Level 86, 127, 139, 147, 172 f., 193, 245 interaktional 77, 79-82, 90 interaktionistisch 77, 82 kompetenzorientiert 128, 139 Multi-Level 84 ff., 127 f. traitzentriert 77, 79 Uni-Level 84 ff., 127, 166 verhaltenszentriert 77 f., 90 assessment 9, 29, 31, 41, 51, 73, 78, 103, 118, 124, 128-131, 133, 142, 144 f., 280, 285 assessment as learning 31, 159 assessment for learning 31, 37, 255 assessment literacy 11 f., 15 f., 293 f. learning-oriented 9, 16, 37, 255 performance-based 42, 72 task-based 9, 16, 42, 72 task-centered 42, 77 Aufgaben 9 f., 12 ff., 24, 41-44, 46-50, 52, 54 f., 58-62, 64, 71-79, 81 f., 84-88, 90, 96 ff., 100 f., 103 f., 118 f., 123 f., 127, 131, 136, 139, 148 f., 152, 159-166, 170 f., 173, 177, 181 f., 184 ff., 189, 191, 193 ff., 245 f., 262, 272, 277, 281, 293, 295, 298 Arbeitsanweisung 10, 55, 126, 165, 167 ff., 171, 173 f., 176 Bi-Level 172 f., 193 f., 245 Inputmaterial 47, 165, 167 f., 171, 296 integriert 104, 129, 160, 162 f., 296 f. Lernaufgaben 16, 64, 72, 159, 186 Multi-Level 85 Prüfungsaufgaben 23, 30, 36, 71, 75, 77, 162 Testaufgaben 13 f., 16, 25, 35 f., 47, 53 f., 56-61, 64, 72 f., 76, 79, 81-84, 88 f., 100 f., 126, 159 f., 163, 165, 297 Uni-Level 166 Aufgabenbeispiele 14, 22, 93, 146, 171, 298 Aufgabenformate 41, 48, 59, 61, 72, 100, 119 f., 122, 126, 159 f., 163-166, 171, 177, 296 Aufgabenschwierigkeit 47, 61, 84, 148 Authentizität 13, 42 f., 58 ff., 63, 73, 82 BBandbreite 183, 186 f., 189, 192, 197, 199, 201, 204 ff., 208 ff., 212, 220, 227, 229, 234, 237, 244 f., 247, 249, 276 Benotung 24, 30 f., 33, 35, 75, 118, 122 f., 148 f., 151, 162, 166, 191 ff., 257, 260, 262, 269, 271 f., 279 Beurteilungskriterien 14, 31, 33, 42 ff., 46-49, 52, 54-59, 61, 64, 71, 73, 76, 79, 81, 83 f., 86, 99, 101, 103 f., 117 f., 124 ff., 147-150, 152, 160, 163-166, 168-171, 174 f., 177, 189 f., 261, 264, 268, 271, 277, 279 Bewertungsraster 14, 16, 80, 86, 92, 96, 117, 119 ff., 126-129, 131, 135 f., 142, 146 f., 151, 168 f., 173, 181 f., 184-191, 193 f., 210, 253, 271, 274, 277, 294 Bildungsstandards 9, 12 f., 19-25, 35 ff., 74 f., 85 f., 90 f., 93-96, 118, 121, 135, 147 f., 162, 170 f., 177, 195, 262, 273, 295 Ccomputerbasiertes Testen 51, 281, 285, 295 f. Curricula 13, 19, 23, 25, 33, 36, 53, 75, 82, 100, 123, 147 f., 159, 162, 170, 255 DDiagnose 12, 16, 24, 29, 34 ff., 63, 75, 78, 104, 122, 152, 162, 252, 256, 262 ff., 272, 281 ff., 285 f., 295, 297 EErwartungshorizont 44, 128, 147 f., 151, 153, 170 f., 182, 185, 293 Evaluation formativ 13, 29, 31 f., 37, 72, 126, 257, 286 formell 13, 29, 32 f., 36, 136 Fremdevaluation 36 gruppenorientiert 13, 29 ff., 45 f., 49, 117, 123 f., 270 informell 13, 29, 32, 52, 60, 119, 150, 171 interaktionistisch dynamisch 14, 31, 34, 62 f., 82, 159, 255 f., 269, 271, 280, 287 kompetenzorientiert 10, 58, 80 ff. kriteriumsorientiert 13, 29 ff., 37, 46, 49, 123 <?page no="303"?> 302 Sachregister Peer-Evaluation 32 f., 35 f., 248, 255, 271, 274, 277 performanzbasiert 42, 72 f., 78, 117 f. Selbstevaluation 32 f., 35 f., 146, 150, 255, 271, 274, 277, 287 summativ 13, 29, 31, 37 FFairness 13, 43 f., 57, 61, 63 f., 79, 120, 122, 125, 150, 166 f., 184 Feedback Feedbackgespräch 184, 252, 255, 260, 279 f., 282, 284 f., 287 Feedbackregeln 261, 279 formativ 122, 149, 162, 250 f., 257, 261, 285 lernerinitiiert 274 lernerzentriert 275 f. mündlich 255 f., 258, 261, 266, 277 schriftlich 256-259, 261, 266, 279 summativ 257, 261 GGemeinsamer europäischer Referenzrahmen 13, 19-25, 30, 33, 36 f., 41, 45, 74 ff., 84-96, 98, 101, 104, 113-116, 119, 124, 126 f., 134 f., 142, 146, 148 f., 152, 161, 163, 165, 177, 181 f., 184 f., 189 ff., 193, 253, 262 ff. Grammatik 22, 42, 54, 59 f., 72, 75, 79, 83, 87, 92, 94 f., 98 f., 101, 115, 126, 130 f., 134, 152, 160, 177, 183, 187, 190, 198 f., 201, 204 f., 207, 209, 220, 228, 234, 244, 246, 251, 265, 269, 276, 296 Gütekriterien 13, 32, 41, 43, 50, 52 f., 57, 59-64, 123, 125, 159, 165, 294 HHandlungsorientierung 24, 36, 58, 86 Hauptschulabschluss 21 f., 93, 172 Hörverstehen 9, 21 f., 24 f., 35, 41, 53 f., 159 f., 162 f., 170, 296 IInhalt 44, 53 ff., 58, 76, 99, 101, 114, 116, 118, 123, 125, 129, 135 f., 148-151, 159 f., 162-165, 167-170, 172-177, 183-192, 195, 198-201, 203-206, 208 f., 216, 221 f., 227, 229 ff., 233 f., 236-239, 241, 244 ff., 248, 250, 264 f., 269, 276, 278, 280, 286, 293 f., 296 IQB 9, 12-16, 20 ff., 24 f., 58 ff., 85, 101, 103, 171, 181, 295, 297 K Kohärenz 31, 33, 48, 52, 75, 88, 91 ff., 116, 125 f., 128, 130, 152, 159, 182 ff., 187, 189, 191, 198 f., 201, 204 f., 207 ff., 212 f., 220 f., 227 f., 235, 237, 244 f., 276, 280, 284 Kohäsion 29, 33, 48, 75, 78 f., 91 ff., 98 f., 116, 125 f., 128, 130, 152, 159, 172, 182 ff., 187, 189, 191, 198 f., 201, 204 f., 207 ff., 212, 220 f., 227 ff., 235, 237, 244 f., 276 Kompetenz 9, 11, 14 f., 17, 20, 36, 41 f., 54, 60, 71, 73 f., 82 ff., 87, 89, 92, 99, 104, 117, 129, 131, 255, 295 diagnostisch 11, 33, 35, 122, 135, 293 f. interkulturell 21 f., 54 kommunikativ 14, 20 ff., 24, 59, 71, 73, 81, 86-90, 93, 95, 126 Makrokompetenz 33 Mikrokompetenz 33, 164, 296 produktiv 9, 35, 56 rezeptiv 21, 35, 160, 295 Kompetenzniveau 9, 20, 49, 61, 84 ff., 119, 126 f., 130, 134, 139, 167, 170, 229, 261 ff. Kompetenzorientierung 10, 13, 25, 43, 58, 86, 190 Kompetenzstufenmodell 20 ff., 25, 148, 262 Korrekturzeichen 251 LLändervergleich / Bildungstrend 9, 15, 24 f., 36, 60, 262, 297 Lehrwerke 10, 19, 23, 75, 162 Lerngruppe 10, 14, 30, 33 ff., 123, 151, 161, 182, 194, 240, 253, 260, 263, 270, 293 Lernstandserhebung 35, 139 Leseverstehen 21 f., 25, 35, 139, 160, 162, 168, 230, 250, 262, 296 Lexik 42, 51, 54, 60, 72, 75, 79, 83, 87, 89, 92, 94, 98 f., 101, 104, 126, 134, 152, 160, 170, 177, 183, 187, 190, 198 f., 201, 204 f., 207, 209, 216, 220, 228, 236, 244, 250, 269, 276 MMittlerer Schulabschluss 21 NNiveaustufe 20 f., 24, 35, 45, 58, 61, 84 ff., 91, 93 f., 98, 101, 124, 127, 131, 134 f., 139, 146 f., 149, 152, 161, 163, 165 f., 172-177, 181 f., 184 f., 189 ff., 193 f., 196, 199, 202, 208, 210, 214 f., 221 f., 230, 234, 236, 238 ff., 244 f., 250, 262 f. Nützlichkeit 13, 43, 60, 63 <?page no="304"?> 303 Sachregister Objektivität 13, 32, 43 ff., 51 f., 57, 63, 125 Beurteilungsobjektivität 43 f. Durchführungsobjektivität 43 f. Interpretationsobjektivität 43 f. Operationalisierung 84, 103 f., 164, 295 Orthografie 22, 54, 75 f., 87, 91 f., 94 f., 97 f., 116, 119, 126, 131, 159, 163, 173, 183, 187, 190, 198 f., 201, 204 f., 207, 209, 220, 228, 236, 241, 244, 276, 286 PPerformanztest 42, 44, 56, 72, 78 f., 118 Phase der nächsten Entwicklung 247, 281, 283 f., 287 Positivkorrektur 250 f., 265 Praktikabilität 13, 42 f., 48, 54, 60, 78, 125, 166, 184, 262, 295 RReliabilität 13, 32, 43-52, 54, 56 f., 60, 62, 64, 85, 125 Aufgabenreliabilität 47, 62 Beurteilerreliabilität 13, 47 f., 64, 136 Kriterienreliabilität 47 f. Retestreliabilität 48 Skalenreliabilität 47 f. Testreliabilität 47, 62 Richtigkeit 126, 130 f., 134, 150, 152, 173, 183, 187, 190, 192, 194, 198 f., 201, 204 f., 207, 209, 220 f., 228 f., 235, 237, 244 f. Rückwirkung 13, 42 f., 53, 56 ff., 60, 63, 82, 161 f. SScaffolding 246, 252, 281 f. Schreibaktivitäten 22, 42, 71 ff., 75 f., 78 f., 82, 89 f., 93, 101, 263 Schülerlösungen 147, 181 f., 184 f., 188, 193, 196, 214, 294 Schwierigkeit 13, 30, 43, 61 f., 84, 86, 95, 104, 114, 119, 123, 164, 170 f., 181, 186, 195, 199, 240, 246, 248, 250, 252 f., 273, 277, 279, 281, 296 f. Situations- und Adressatenbezug 183 f., 186 ff., 192, 194, 199, 210, 217, 219, 221, 225, 227, 229, 233 f., 237, 241, 243, 245, 248 f., 276 sonderpädagogischer Förderbedarf 10, 293, 297 Sprachmittlung 22, 87, 90, 94 f., 160, 163 f., 167, 281 Sprechen 9, 22, 94, 97, 295, 298 Standardisierung 13, 43 ff., 282 Testentwicklung 15, 24, 56, 58, 97, 177 Testkonstrukt 13 f., 20, 25, 41 f., 45, 50, 52, 54 f., 61, 71, 73, 75 ff., 79 ff., 84 ff., 88, 95, 97, 99 ff., 103 f., 125 ff., 134 f., 149, 151, 161 f., 164 ff., 168 f., 171 f., 174 f., 177, 186, 253, 294 Testspezifikation 11, 13, 20, 25, 54 f., 71, 75, 84 f., 100 f., 103, 126, 161 Textsorte 22 ff., 34, 44, 46, 55, 59, 87, 90, 92, 95, 97 f., 100 f., 125, 127, 148, 160, 164 f., 167-171, 183, 186, 194, 197, 199 ff., 203-206, 208-211, 216 f., 219, 221, 225 f., 232 f., 237, 239 ff., 245, 247 ff., 252, 276 Themen 23, 46, 49, 55, 61, 76, 87 f., 90-95, 113-116, 161, 163, 166 f., 171 f., 176, 181, 188, 227, 233 f., 236, 245, 248, 268, 296 f. Transparenz 13, 24, 43, 61, 101 Trennschärfe 13, 43, 62, 170 VValidität 13, 32, 42 ff., 46, 48, 50-58, 60, 63 f., 71, 85, 96 f., 101, 103 f., 119, 121, 125, 150, 161, 280 Aufgabenvalidität 52, 54 Augenscheinvalidität 59 f. curricular 13, 53 Inhaltsvalididät 53 Inhaltsvalidität 52 f., 55, 57 kognitiv 55 f., 59, 62, 81, 95 konsequentiell 55 f. Konstruktvalidität 52 ff., 56, 59 ff. Kontextvalidität 55 f., 88, 96 kriterienbezogen 52, 55 ff. Ratervalidität 52 Scoring-Validität 55 f. Treatment-Validität 63 Vorhersagevalidität 78 Vergleichsarbeiten 15 f., 24 f., 31, 35, 59, 101, 124, 128, 139, 262, 293, 297 f. Verständlichkeit 33, 59, 95, 130, 183, 187, 190 f., 197, 199 ff., 203, 205 f., 208 f., 218, 221, 227, 229, 233, 236, 241, 245, 276 WWeiterarbeit 9, 11, 14, 181, 184, 245 f., 252, 261, 270 Wortschatz 22, 33, 92, 94 f., 114 ff., 125, 131, 189, 191, 194, 197, 199, 219 f., 227 f., 230, 234, 243 ff., 249 f., 253 <?page no="305"?> ISBN 978-3-8233-8069-6 Kompetenzorientierter Unterricht und heterogene Klassenzusammensetzungen erfordern u. a. von Lehrkräften, eigene Aufgaben zu entwickeln, die von unterschiedlich leistungsstarken Lernenden gelöst werden können. Dieser Band unterstützt Lehrende, Fortbildende, Studierende und Vertreterinnen und Vertreter der Fachdidaktiken bei der Entwicklung eigener Schreibaufgaben für die Fremdsprache. Neben praxisorientierten Beispielen werden auch die Rahmenbedingungen der Testung von Schreibkompetenz sowie Möglichkeiten der Rückmeldung an Lernende ausführlich beschrieben. Akukwe et al. (Hg.) Schreibkompetenzen Schreibkompetenzen in der Fremdsprache Bettina Akukwe / Rüdiger Grotjahn / Stefan Schipolowski (Hg.) Aufgabengestaltung, kriterienorientierte Bewertung und Feedback