Fremdsprachen Lehren und Lernen
flul
0932-6936
2941-0797
Narr Verlag Tübingen
Es handelt sich um einen Open-Access-Artikel, der unter den Bedingungen der Lizenz CC by 4.0 veröffentlicht wurde.http://creativecommons.org/licenses/by/4.0/121
2004
331
Gnutzmann Küster SchrammEvaluation fremdsprachlicher Wortschatzkompetenz:
121
2004
Karin Aguado
flul3310231
Karin AGUADO * Evaluation fremdsprachlicher Wortschatzkompetenz: Funktionen, Prinzipien, Charakteristika, Desiderate Abstract. The aim of the present paper is to discuss a number of selected issues involved in the area of foreign language vocabulary assessment. After naming the most relevant criteria for quality I will deal with the various components of word knowledge and lexical competence and the most widely discussed ways to evaluate them. lt becomes obvious that the assessment methods are strongly determined by the definition of the respective construct. The complexity of the construct "vocabulary" and the goal to evaluate it adequately requires the combination of a number of different test formats. 0. Einleitung Wortschatzkenntnisse stellen eine unabdingbare Voraussetzung für einen effizienten und kompetenten Sprachgebrauch und eine erfolgreiche Verständigung dar. Entsprechend gilt er bei Lehrenden, Forschenden und auch Lernenden gleichermaßen als wichtig, wobei er von den Lernenden als besonders lernschwieriger und lernintensiver Bereich (KöSTER 1994: 2 ff) wahrgenommen wird. Dennoch lässt sich feststellen, dass der Wortschatz sowohl in der Forschung wie auch in der unterrichtlichen Praxis lange Zeit vernachlässigt wurde und erst in den letzten 10 Jahren allmählich stärker in den Fokus des Interesses gerückt ist (vgl. dazu die Ausführungen von Köster 2001). Gegenstand des vorliegenden Beitrags ist die Diskussion ausgewählter Aspekte der Evaluation der fremdsprachlichen Wortschatzkompetenz. Die ihr zugeschriebenen Funktionen sind auf einer Meta-Ebene anzusiedeln und beziehen sich ebenso auf jede andere Komponente überprüfbarer sprachlicher Kompetenz. Zu nennen sind hier zum Einen die Sprachstandsdiagnose und zum Anderen die Lernfortschrittsmessung. Bei der Sprachstandsdiagnose wird mit meist zufällig zusammengestellten Items der Umfang des Wortschatzes als Komponente einer globalen Sprachbeherrschung gemessen. Da die Ergebnisse solcher Tests unmittelbare Auswirkungen beispielsweise auf Einstufungen oder Zulassungen und damit letztlich auf unterrichtliche Maßnahmen haben können, sollten sie so beschaffen sein, dass ihre Ergebnisse leicht zu interpretieren und umzusetzen sind (vgl. NATION 2001: 374). Bei der Evaluation von Lernfortschritten bzw. bei der Untersuchung der Wirkung von Lehrmaßnahmen und -materialien auf die Sprachkompetenz werden die zu testenden Items gezielt ausgewählt und zwar aus der Menge Korrespondenzadresse: Dr. habil. Karin AGUADO, Hochschuldozentin, Universität Bielefeld, Fakultät für Linguistik und Literaturwissenschaft, Deutsch als Fremdsprache, Postfach 10 01 31, 33501 BIELEFELD. E-mail: Karin.Aguado@Uni-Bielefeld.de Arbeitsbereiche: Deutsch als Fremdsprache, Empirische Fremdsprachenerwerbsforschung, Forschungsmethodologie FLlUliL 33 (2004) 232 Karin Aguado der zuvor vermittelten lexikalischen Einheiten. Es geht hierbei nicht zuletzt auch um die Selbstüberprüfung von Lehrenden, um die Ermittlung der Effektivität des eigenen Unterrichts und um die Überprüfung der Angemessenheit von Unterrichtsmethoden und -verfahren. Die Zwecke, zu denen Wortschatzwissen evaluiert wird, können sich ebenfalls unterscheiden. Entscheidend ist, dass sie einen wesentlichen Einfluss auf die Konzeption bzw. die Auswahl der einzusetzenden Verfahren, auf die Art der Durchführung sowie auf die Verwendung der gewonnenen Ergebnisse ausüben. Es sind mindestens drei Zielgruppen zu unterscheiden, die je ein spezifisches Interesse an der Evaluation der Wortschatzkompetenz von Fremdsprachenlernern haben, nämlich Lehrende, Spracherwerbsforscher sowie professionelle Tester (vgl. READ/ CHAPELLE 2001). Die Überprüfung von Lernfortschritten stellt unzweifelhaft eine wichtige Komponente des Fremdsprachenunterrichts dar. So schreibt LöSCHMANN (1993) in Bezug auf die Wortschatzarbeit: "Das Überprüfen von Gelerntem, die Ermittlung, inwieweit bestimmte Lernziele realiter erreicht worden sind, ist integrierter Bestandteil der Prozessgestaltung. Sowohl Lehrer als auch Lerner haben ein ursächliches Interesse daran zu erfahren, in welchem Maße gezielte WSA [= Wortschatzarbeit, K.A.] erfolgreich war. Der Einprägungseffekt hängt zu einem Teil von der Bestätigung bzw. Nichtbestätigung des Lernerfolgs ab. So gehört zur Semantisierung unweigerlich die Kontrolle, ob die LE [ = lexikalische Einheit, K.A.J auch verstanden wurde" (LöSCHMANN 1993: 140). Meist handelt es sich hierbei um informelle, unterrichtsbegleitende Tests, denen einerseits zwar kaum statistische Relevanz zukommt, die dafür andererseits aber einen vergleichsweise hohen diagnostischen Wert aufweisen. Während es Lehrenden in erster Linie um die Diagnose des Sprachstands und um die Messung von Lernfortschritten geht, liegt das Interesse von Fremdsprachenerwerbsforschern in der Untersuchung von Entwicklungsprozessen beim Wortschatzerwerb, insbesondere in der Erforschung der Beschaffenheit und der Organisation des lernersprachlichen mentalen Lexikons. Professionelle Tester hingegen interessieren sich v.a. für die Ermittlung einer globalen Sprachkompetenz. Da die Ergebnisse, die sie mittels ihrer Evaluationen gewinnen, nicht selten erhebliche Konsequenzen für die getesteten Personen (wie Zulassungen zu Sprachkursen, Universitäten, Voraussetzungen für berufliche Positionen, Beförderungen o.ä.) oder Institutionen (wie Entscheidungen über Einführung oder Aufrechterhaltung von Sprachprogrammen) haben, verwenden sie hochgradig standardisierte Tests, deren Qualität an der Einhaltung einer Reihe von Gütekriterien (siehe nächsten Abschnitt) festgemacht wird. Trotz der unterschiedlichen Zwecke, die die genannten Interessengruppen im Einzelnen verfolgen, können sie dennoch auf vielfältige Weise voneinander profitieren. So tragen beispielsweise die Erkenntnisse von Forschern, deren Fokus auf erwerbsspezifische Fragestellungen gerichtet ist, zu einem vertieften Verständnis des Konstrukts "Wortschatz" bei was sowohl für Lehrende als auch für Tester von hoher Relevanz ist. Ferner entwickeln selbstverständlich nicht alle Forscher ihre Testinstrumente selbst, sondern greifen häufig auf bereits vorhandene, von Experten erstellte und überprüfte Tests zur Messung lernersprachlicher Wortschatzkompetenz zurück. Bereits an dieser lFlLwL 33 (2004) Evaluation fremdsprachlicher Wortschatzkompetenz: ... 233 Stelle kann das Desiderat formuliert werden, dass die Evaluation der Wortschatzkompetenz künftig stärker das Resultat kooperativer Zusammenarbeit sein sollte, bei der das Expertenwissen aller Beteiligten maximal genutzt wird. Gegenstand des vorliegenden Beitrags ist es, die Komplexität des Konstrukts „Wortschatz" und die mit der Evaluation der Quantität und der Qualität fremdsprachlicher Wortschatzkompetenz verbundenen Fragen und Schwierigkeiten sowie mögliche Perspektiven aufzuzeigen und zu diskutieren. 1. Testtheoretische Gütekriterien Gemäß der von GROTJAHN (2000) recht weit gefassten und somit komplexen Definition sind unter Tests Prüfungsverfahren zu verstehen, die „Individuen unter kontrollierten Bedingungen zu Handlungs- und Verhaltensweisen" veranlassen, "die Rückschlüsse ermöglichen sollen auf zugrundeliegende Persönlichkeitsmerkmale wie Sprachfähigkeit oder Wissensstrukturen, auf spezifische Fertigkeiten wie das Schreiben von fremdsprachigen Zusammenfassungen und/ oder auf den Stand in bezug auf einen bestimmten Maßstab, wie z.B. Lehrziele oder Leistung einer Vergleichsgruppe" (GROTJAHN 2000: 304 f). Für die Konstruktion eines „guten" Tests, aber auch für einen rationalen Diskurs über dessen Qualität bedarf es der Einhaltung von explizit zu machenden Beurteilungskriterien. Dazu zählen klassischerweise die teilweise interdependenten Kriterien Objektivität, Validität und Reliabilität, die in jüngster Zeit immer häufiger um die von BACHMAN/ PALMER (1996) zusammenhängend beschriebenen Kriterien Praktikabilität, Nützlichkeit, Transparenz, Fairness sowie Authentizität ergänzt werden von denen einige im Folgenden knapp skizziert werden (für eine ausführliche und kritische Darstellung siehe GROTJAHN 2000). Voraussetzung für die Einhaltung des Kriteriums der Objektivität d.h. die Unabhängigkeit der Ergebnisse von demjenigen, der den Test durchführt ist die größtmögliche Standardisierung des Vorgehens und zwar in allen Phasen des Evaluationsprozesses, i.e. sowohl bei der Durchführung und der Auswertung des Tests als auch bei der Interpretation der Ergebnisse. Da Tests größtenteils schriftlich durchgeführt werden - und somit verhältnismäßig wenige Interaktionsmöglichkeiten zwischen Testern und Getesteten vorhanden sind ist die Durchführungsobjektivität im allgemeinen recht hoch. Auf den Ebenen der Auswertung und der Interpretation ist der Grad an Objektivität abhängig davon, welche Art von Daten erhoben werden (i.e. "geschlossene" oder „offene") bzw. ob und inwieweit vor der Durchführung des Tests Antwortmöglichkeiten und Bewertungsverfahren verbindlich festgelegt werden bzw. festgelegt werden können. Die Validität eines Tests sozusagen das „Königskriterium" einer jeglichen empirischen Untersuchung bezieht sich auf das Maß, mit dem ein Test misst, was gemessen werden soll bzw. was er zu messen beabsichtigt. Es ist von der Validität eines Verfahrens abhängig, inwieweit es als geeignet betrachtet wird, das jeweilige Erkenntnisinteresse zu verfolgen, gestellte Forschungsfragen zu beantworten sowie Akzeptanz der gewonnenen Ergebnisse durch die Forschergemeinschaft zu erzielen. Auch hier werden verschiedene Sub-Typen unterschieden, von denen im vorliegenden Kontext v.a. die Inhaltsvalidität, die Konstruktvalidität und die kriterienbezogene Validität von Bedeutung sind. Mit der Inhaltsvalidität ist gemeint, dass die Gültigkeit einer Messung plausibel aus den einzelnen Teilen des Messinstruments deutlich wird. Sie beurteilen zu können, bedarf genauen Wissens über den Gegenstand. Mit Konstruktvalidität ist die Frage angesprochen, ob und inwiefern das zu messende Konstrukt adäquat lFLlllL 33 (2004) 234 Karin Aguado operationalisiert worden ist und die ermittelten Testergebnisse gültige Indikatoren für die zugrundegelegten theoretischen Konstrukte sind. Die kriterienbezogene Validität betrifft die Frage, ob und inwiefern die Ergebnisse eines Tests mit den Ergebnissen eines anderen Tests übereinstimmen, inwieweit sie also miteinander korrelieren (je nach dem zeitlichen Verhältnis der Verfahren zueinander spricht man von Übereinstimmungsvalidität bzw. von Vorhersagevalidität). Eine wichtige Voraussetzung zur Einhaltung des Gütekriteriums der Validität ist die genaue Bestimmung des Testzwecks, bevor die Evaluation im Detail geplant und konzipiert wird. Die Reliabilität eines Tests bezieht sich auf die Genauigkeit bzw. Zuverlässigkeit, mit der ein Test eine Eigenschaft erfasst. So bestimmt beispielsweise die Anzahl der Test-Items, mit der etwas gemessen werden soll, die Genauigkeit bzw. Zuverlässigkeit, mit der gemessen werden kann. Also: je höher die Anzahl der Items ist, desto reliabler ist der Test. Auch wenn unter gleichen Bedingungen gleichzeitig oder wiederholt durchgeführte Tests zu den gleichen Ergebnissen führen, ist dies ein Indikator für eine hohe Reliabilität. Einschränkend ist hier anzumerken, dass eine hohe Reliabilität allein kein ausreichendes Kriterium ist. So ist ein Verfahren, das zwar reliabel also genau und zuverlässig aber nicht valide misst, unbrauchbar. Die Güte eines Verfahrens wird jedoch nicht ausschließlich von theoretischen Aspekten bestimmt; auch forschungspraktische Aspekte sind in Betracht zu ziehen. So ist im vorliegenden Kontext u.a. das Kriterium der Praktikabilität relevant. Damit ist gemeint, dass die zum Zweck der Evaluation eingesetzten Verfahren gut handhabbar, d.h. leicht zu erklären, zu bearbeiten und auszuwerten sein müssen. Gleichzeitig ist jedoch folgendes zu beachten: Je einfacher und schneller ein Test bearbeitet werden kann, desto weniger Information ist erwartbar, d.h. desto weniger Tiefe kann erreicht werden. Die Durchführbarkeit eines Tests ist nicht zuletzt aber auch von ökonomischen Aspekten abhängig, also den entstehenden Material- und Personalkosten für seine Planung, Durchführung und Auswertung. Damit sich ein Verfahren also letztlich amortisiert, müssen Aufwand und Nutzen in einem „guten" und ausgewogenen Verhältnis zueinander stehen. Es steht außer Frage, dass Tests auch der Wiederholung, der Übung und damit der Erhaltung des jeweiligen Gegenstands (hier: dem Wortschatz) dienen und ihnen somit eine gewisse Nützlichkeit zukommt. In diesem Zusammenhang relevant sind auch die Auswirkungen, die Tests auf die Einstellungen und damit letztlich auf das Verhalten von Testteilnehmern haben können - und zwar sowohl vor als auch nach der Evaluation. Denn: welchen Stellenwert beispielsweise Fremdsprachenlerner Unterrichtsinhalten beimessen, hängt nicht zuletzt davon ab, ob und auch wie diese Inhalte getestet werden. In Bezug auf das Kriterium der Nützlichkeit koexistieren je nach „Testkultur" sehr unterschiedliche Einschätzungen. Während zum Einen die Funktion eines Tests darin gesehen wird, möglichst genau lediglich den Ist-Zustand im Hinblick auf eine spezifische sprachliche Struktur bzw. Ebene festzustellen, vertreten beispielsweise READ/ CHAPELLE (2001) die Position, dass gewünschte Wirkungseffekte ( washback effects) bereits beim Design von Tests berücksichtigt und somit als eine Komponente des Testzwecks in die Konzeption einbezogen werden sollten. Eine ähnliche Ansicht wird von Nation (NATION 2001: 372) vertreten, der meint: Gute Tests sorgen für Lernfortschritt! In Bezug auf die Evaluation der Wortschatzkompetenz könnte dies heißen: Tests sind nicht nur eine sinnvolle Wiederholung des Wortschatzes und dienen somit dessen Festigung, sondern stellen je nach Format sogar eine Möglichkeit dar, das Wortschatzwissen zu erweitern. Nicht alle genannten Gütekriterien sind ohne Weiteres miteinander zu vereinbaren zumal sie recht unterschiedlicher Provenienz sind. So besteht beispielsweise ein Konflikt bezüglich der gleichzeitigen Einhaltung der Gütekriterien Validität und Reliabilität auf der einen und der Praktikabilität auf der anderen Seite: Um die Validität und die Reliabilität von Tests zu erhöhen, müssen möglichst viele Items getestet werden. Gleichzeitig erschwert ein großer Umfang von Items die Durchführung und die Auswertung von Tests, schränkt also seine Praktikabilität ein. Ein bekanntes Beispiel für ein äußerst praktikables Vorgehen stellen multiple-choice-Tests dar, die aufgrund ihrer leichten Handhabbarkeit und ihrer Effizienz bezüglich Durchführung und Auswertung eine ausgesprochen hohe Popularität aufweisen. So besteht für NATION (2001: 350) der einzige Nachteil JFLIIIL 33 (2004) Evaluation fremdsprachlicher Wortschatzkompetenz: ... 235 dieses Typs in dem relativ hohen Arbeitsaufwand bei der Erstellung der einzelnen Items, insbesondere hinsichtlich der Sicherstellung der Gleichwertigkeit der Distraktoren also deren Beschaffenheit bzgl. Umfang, Komplexität oder Verständlichkeit. Auch ist zu berücksichtigen, dass die Konstruktion dieses Tests umso schwieriger ist, je mehr Antwortmöglichkeiten eingeräumt werden. Im Folgenden sollen die in der Literatur genannten Mängel dieses Formats knapp skizziert werden, um zu verdeutlichen, inwiefern es für sich allein genommen im Widerspruch zu den Prinzipien moderner, integrativer Verfahren zur Evaluation fremdsprachlicher Wortschatzkompetenz steht. Die folgenden Aspekte werden genannt: - Multiple-choice-Aufgaben verleiten zum Raten. So besteht je nachdem, ob vier oder fünf Antwortoptionen angeboten werden eine 25%ige bzw. 20%ige Wahrscheinlichkeit, dass die Antwort nicht auf Wissen bzw. Können, sondern auf Zufall beruht oder per Eliminierung der anderen drei bzw. vier Möglichkeiten zustande kommt. Es ist außerdem zu beachten, dass sich der größte Teil des getesteten Wissens auf die Distraktoren und nur ein verhältnismäßig geringer Anteil auf die Bedeutung des eigentlich im Fokus stehenden Ziel-Items bezieht. Ein nicht zu unterschätzender Nachteil, der in einem engen Zusammenhang mit dem zuvor thematisierten washback-Effekt zu sehen ist, ist die Gefahr, dass sich Lernende für den Fall, dass sie das getestete Item nicht kennen durch die Distraktoren falsche Lösungsmöglichkeiten einprägen. Zusammenfassend ist festzuhalten, dass mittels multiple-choice-Tests nur ein vergleichsweise kleiner Ausschnitt des Lernerwortschatzes evaluiert werden kann und v.a. dass dieses Verfahren der Gradualität des Wortschatzwissens nicht gerecht wird (siehe Abschnitt 3.2). Die zentralen Gütekriterien der Objektivität, Validität und Reliabilität sowie das der Praktikabilität auf allen Ebenen eher erfüllenden Testformate sind der Cloze- und der C-Test. Hinsichtlich des Cloze-Tests werden verschiedene Typen unterschieden: rein statistische, bei denen jedes nte Wort getilgt wird solche, die nur bestimmte Wortarten überprüfen und daher nur diese tilgen solche, die nur eine ganz bestimmte Auswahl an Items überprüfen Es ist offensichtlich, dass bei diesem Test die Fähigkeit zu inferieren bzw. gezielt zu raten also den Kontext heranzuziehen eine zentrale Rolle für die erfolgreiche Bewältigung der betreffenden Aufgaben spielt. Der Zweck des C-Tests bei dem die zweite Hälfte jedes n-ten Wortes getilgt wird-ist allerdings die Messung allgemeiner Sprachbeherrschung; d.h. es geht hierbei nicht gezielt um die Evaluation des Wortschatzes. Ferner ist zu berücksichtigen, dass die Art des Wissens, das mittels dieser beiden Testformate überprüft wird, u.a. entscheidend vom Sprachtyp der jeweiligen Zielsprache abhängig ist. So steht insbesondere bei stark flektierenden Sprachen v.a. grammatisches Wissen im Fokus. Ferner ist kritisch anzumerken, dass nur zuvor festgelegte lexikalische Einheiten zugelassen werden, obwohl andere Wörter ebenso korrekt oder angemessen sein könnten. Nicht zu unterschätzen ist bei diesen Formaten außerdem die Tatsache, dass der Kontext ein erhebliches Maß an Leseverstehen erforderlich macht und der Test damit auch Wissen überprüft, das nicht Testgegenstand ist. An dieser Stelle wird deutlich, dass das Testformat einen starken Einfluss darauf hat, welches Wissen mit seiner Hilfe überhaupt evaluiert werden kann: je nach Verfahren werden unterschiedliche Kenntnisse bzw. Fertigkeiten ermittelt. Während für Übersetzungen „volles" Wortwissen benötigt wird, reicht für die Bearbeitung von multiple-choice-Aufgaben in Abhängigkeit von der Beschaffenheit der Distraktoren - Teilwissen aus. Gleichzeitig sagt beispielsweise die Fähigkeit zur Angabe einer Übersetzung eines Wortes nichts über die Fähigkeit aus, das betreffende Wort in einem fremdsprachlichen Kontext selbstständig verwenden zu können. Ein Argument, das aus durchführungspraktischen Gründen für den Einsatz von Übersetzungen spricht, ist die Tatsache, dass sie bereits auf niedrigen Sprachniveaus verwendet werden können und dass insbesondere die Übersetzung von Einzel-Items eine leichte Aufgabe darstellt und mittels dieses Verfahrens vergleichsweise viele Wörter auf einmal getestet werden können. 1 Für ein Plädoyer für Übersetzungen als effizientes Verfahren zur Evaluation der Wortschatzkompetenz, siehe NATION (2000: 351). ]F]Ll.11][, 33 (2004) 236 Karin Aguado Abschließend sei an dieser Stelle nochmals betont, dass die Auswahl und die Beschaffenheit von Verfahren oder Instrumenten, mittels derer die fremdsprachliche Wortschatzkompetenz evaluiert werden soll, vom Zweck der Evaluation abhängt. D.h. im Zentrum steht der Zweck bzw. das Erkenntnisinteresse, die jeweils einzusetzenden Mittel sind nachgeordnet. SCHMITT (2000) stellt daher die folgende Forderung auf: Je weitreichender die Konsequenzen eines Tests für die Testteilnehmer sind, desto sorgfältiger sollte die Auswahl der Items vorgenommen werden und desto umfangreicher sollte ihre Menge sein. 2. Wortschatz und Wortschatzkompetenz Wie bereits oben angedeutet, ist es für die angemessene Evaluation eines Gegenstands und die Auswahl der zu diesem Zweck einzusetzenden Verfahren unabdingbar, den Gegenstand vorab eindeutig zu definieren. Eine mögliche Definition von Wortschatz könnte lauten: Wortschatz besteht aus Wörtern, und Wörter sind die „kleinsten selbständigen Träger einer Bedeutung" (BOHN 2000: 19). Auf der Basis einer solchen Konstruktdefinition konzentrieren sich einschlägige Forscher wie beispielsweise Laufer oder Nation in ihren Untersuchungen auf Einzelwörter, die sie als separate Komponente des Sprachwissens betrachten und ungeachtet ihrer Funktionen in grammatischen Konstruktionen, Texten oder ganzen Diskursen untersuchen (vgl. zu einer kritischen Einschätzung dieser Sichtweise READ/ CHAPELLE 2001: 2). Auf der anderen Seite gehen Fremdsprachenforscher wie beispielsweise SINGLETON (1999) davon aus, dass lexikalische Phänomene die gesamte Sprache durchdringen, dass es also unzulässig ist, einzelne Items zum Gegenstand einer Evaluation zu machen. Um Auskunft über die Definition dessen zu erhalten, was in einzelnen Forschungsarbeiten unter Wortschatzkompetenz verstanden wird, macht HENRIKSEN (1999) den Vorschlag, diese Studien nicht nur im Hinblick auf ihren Untersuchungsfokus näher zu betrachten, sondern insbesondere auf die in ihnen verwendeten Evaluationsinstrumente (vgl. HENRIKSEN 1999: 304). Je nach Definition des Konstrukts ergeben sich entsprechend verschiedene Verfahren zu seiner Evaluation. Wenn Wortschatz als separates, aus Einzelwörtern bestehendes Konstrukt definiert wird, bieten sich als klassische Verfahren zu seiner Messung weitgehend geschlossene Verfahren wie multiple-choice-Aufgaben, Zuordnungsaufgaben oder Wortübersetzungen an. Geht man hingegen davon aus, dass die Wortschatzkompetenz komplexes sprachliches Wissen umfasst, das nicht separat evaluiert werden kann, sind umfassendere, kontextualisierte Verfahren wie beispielsweise Cloze-Tests, C-Tests oder Produktionsaufgaben angezeigt. Die Meinungen darüber, ob es sinnvoll ist, die zu evaluierenden Wörter mit oder ohne Kontext zu präsentieren, gehen jedoch auseinander. So wird auf der einen Seite dafür argumentiert, dass die Nutzung und Interpretation des Kontextes eher die Leseverstehensfertigkeit überprüfe als die Wortschatzkompetenz, denn: "the more we contextualize the assessment of vocabulary, the less clear it may be to what extent it is vocabulary knowledge that is influencing the test-takers' performance" (READ 2000: 116). D.h. wenn das reine und tatsächlich bereits vorhandene Wortschatzwissen eines Lerners und nicht dessen „Inferierungs-Fähigkeit" evaluiert werden soll, muss der Kontext, in dem das betreffende Lexem präsentiert wird, so knapp wie möglich gehalten werden. lFILtnlL 33 (2004) Evaluation fremdsprachlicher Wortschatzkompetenz: ... 237 Auf der anderen Seite steht die Ansicht, dass eine stärker kontextualisierte Präsentation der betreffenden Items aus Gründen der „Augenscheinvalidität" günstiger sei als die isolierte Darbietung, da sie eben dem Lesen ähnele und deshalb für die Lernenden eine natürliche, bekannte Auseinandersetzung mit der Zielsprache darstelle (vgl. READ 2000). Ein weiteres wichtiges Argument für die Kontextualisierung von Test-Items ist das der Authentizität, d.h. die Test-Bedingungen sollten dem „normalen" Sprachgebrauch weitestgehend entsprechen. NATION (2001) spricht hier von "normal access to the meaning" (NATION 2001: 353). Ferner ist für den Fall, dass eine spezifische Bedeutung eines Wortes überprüft werden soll, unverzichtbar, mehr Kontext zur Verfügung zu stellen, um dem Lerner Hinweise darauf zu geben, welche Bedeutung des betreffenden Wortes evaluiert werden soll. 2.1 Komponenten der Wortschatzkompetenz Die Frage, was es heißt, ein Wort zu kennen, wird in der Literatur unterschiedlich beantwortet. Grundsätzlich wird die Antwort zum Einen von sprachtheoretischen Annahmen (z.B. bezüglich der Funktion von Sprache oder des Stellenwerts, der dem Lexikon eingeräumt wird) und zum Anderen von sprachunabhängigen Faktoren bestimmt, wie z.B. dem Sprachstand des betreffenden Lerners. Handelt es sich um einen Anfänger, heißt ein Wort zu kennen, es zu verstehen oder es übersetzen zu können. Handelt es sich um fortgeschrittene Lerner, heißt ein Wort zu kennen, es selbständig und aktiv gebrauchen zu können. Die von RICHARDS (1976) aufgestellte recht umfassende aber dennoch nicht erschöpfende - Liste bezüglich der Komponenten der Wortschatzkompetenz enthält eine Reihe von Annahmen, die sich in erster Linie auf die verschiedenen Aspekte des Wortwissens (i.e. Semantik, Morphologie, Syntax) beziehen. Ein Wort zu kennen, heißt für ihn: seinen semantischen Wert zu kennen verschiedene Bedeutungen dieses Wortes zu kennen das Netzwerk von Assoziationen zwischen dem Wort und anderen Wörtern zu kennen die Wahrscheinlichkeit zu kennen, mit der das Wort auftritt und zu wissen, mit welchen anderen Wörtern es ko-okkurriert die Grenzen seines Gebrauchs zu kennen seine Basisform sowie seine Ableitungen zu kennen sein syntaktisches Verhalten zu kennen. Neuere Konzeptionen gehen über diese rein deklarative Ebene hinaus und messen dem Verwendungsaspekt eine wichtigere Funktion bei. So unterscheidet NATION (1990, 2001) drei für die Evaluation relevante Aspekte, nämlich Form, Bedeutung und Gebrauch wobei er diese noch weiter ausdifferenziert. Ein Wort zu kennen, heißt für Nation demnach, dass man es auf der Ebene der Form zunächst einmal erkennen (akustisch und optisch) und produzieren (aussprechen und schreiben) kann. Ferner müssen die Wortbestandteile erkannt und zugehörige Flexions- und Derivationsformen produziert werden können. JFLIIIL 33 (2004) 238 Karin Aguado Auf der Ebene der Bedeutung geht es um die Fähigkeit, zu einer Form die entsprechende Bedeutung abrufen sowie für eine bestimmte Bedeutung eine entsprechende Form auswählen und verwenden zu können. Die nächste Sub-Ebene bezieht sich auf den Bedeutungsumfang von Wörtern, der ebenfalls rezeptiv und produktiv verfügbar sein sollte. Auf der nun folgenden Ebene wird danach gefragt, ob ein Lerner die allgemein mit einem Wort verbundenen häufig kulturspezifisch geprägten - Assoziationen kennt bzw. ob er das entsprechende Wort benennen kann, wenn er mit assoziierten Wörtern oder Konzepten konfrontiert wird. Der dritte große Aspekt betrifft den Gebrauch eines Wortes. An erster Stelle steht das Erkennen und die eigene korrekte Verwendung eines Wortes im Kontext. Neben dem Erkennen und Anwenden von Kollokationen spielt auch das Wissen über Verwendungsregularitäten eine wichtige Rolle, d.h. die Kenntnis darüber, ob ein Wort häufig oder selten vorkommt, zu welchem Register es gehört etc. und auf der produktiven Ebene die im Hinblick auf die Frequenz und die Pragmatik angemessene eigene Verwendung. Ein Vergleich zwischen den Aufstellungen von Richards und Nation zeigt, dass sie im Wesentlichen deckungsgleich sind und sich in erster Linie hinsichtlich des Gebrauchsaspekts unterscheiden. CHAPELLE (1994) basiert ihre Definition der Wortschatzkompetenz auf BACHMANs (1990) integriertem Konzept der Sprachbeherrschung, d.h. es handelt sich hierbei eher um ein rein theoretisches Konzept und weniger um eine aus praktischen Erwägungen entstandene Definition. Dieses Konzept umfasst drei Komponenten, nämlich den sprachlichen, kulturellen und situativen - Kontext des Wortschatzgebrauchs, das Wortschatzwissen (i.e. Umfang des Wortschatzes, Wissen über Wörter, Organisation des mentalen Lexikons und eng damit verknüpft - Prozesse der Wortschatzverarbeitung, d.h. Zugang zu und Abruf von Wörtern) sowie metakognitive Strategien des Gebrauchs. Letztere beziehen sich auf die von BACHMAN (1990) und später von BACHMAN/ PALMER (1996) für die Sprachbeherrschung als unabdingbar bezeichnete strategische Kompetenz. Da wie bereits oben angedeutet die Wortschatzkompetenz nicht nur (deklaratives) Wissen, sondern auch den Zugang zu diesem Wissen umfasst, es im Bedarfsfall abrufen und anwenden zu können, ist hier auch strategische Kompetenz unverzichtbar insbesondere dann, wenn es darum geht, nicht vorhandenes bzw. nicht ausreichendes Wortwissen zu kompensieren. Es zeigt sich, dass der Wortschatz sowie dessen Erwerb komplex sind und vom Lerner entsprechend komplexe kognitive Aktivitäten verlangen. Um dieser Komplexität bei der Evaluation gerecht zu werden, bedarf es angemessen differenzierter Instrumente. Da Evaluationen immer nur Ausschnitte des Lernerwortschatzes erfassen können, ist offensichtlich, dass die Grenzen dessen, was im Rahmen einer einzigen Evaluation erhoben bzw. überprüft werden kann, relativ schnell erreicht sind. 2.2 Verfügbarkeit des Wortschatzwissens Eine als grundsätzlich konsensfähig zu bezeichnende Unterscheidung im Hinblick auf die Wortschatzkompetenz betrifft den Zugang zu bzw. die Verfügbarkeit von Wortschatz. Es lFILuL 33 (2004) Evaluation fremdsprachlicher Wortschatzkompetenz: ... 239 wird zwischen aktivem und passivem bzw. produktivem und rezeptivem Wortschatzwissen unterschieden (siehe die Aufstellung von NATION (2001)), wobei die Operationalisierung der hier getroffenen Unterscheidung als problematisch gilt. So kritisiert HENRIKSEN (1999) mit Bezug auf die einschlägige Literatur, dass eine eindeutige und adäquate Definition dessen, was unter Rezeption und Produktion zu verstehen ist, ein dringendes Desiderat darstelle (vgl. HENRIKSEN 1999: 307). Durch eigene empirische Untersuchungen dieses Aspekts lernersprachlicher Wortschatzkompetenz hat LAUFER (1998) festgestellt, dass die quantitative Diskrepanz zwischen rezeptivem und produktivem Wortschatz von Nichtmuttersprachlern mit zunehmendem Spracherwerb größer wird, insofern als der rezeptive Wortschatz beständig zunimmt und schließlich etwa das lüfache des produktiven Wortschatzes umfasst. Es lässt sich also nicht nur feststellen, dass das rezeptive Wortschatzwissen das produktive übersteigt, sondern darüber hinaus auch, dass sich das Verhältnis zwischen diesen beiden Wissenstypen im Laufe des Erwerbsprozesses zugunsten des rezeptiven Wissens entwickelt. Dies hängt m.E. unmittelbar mit der Tatsache zusammen, dass der intra- und interindividuell hochgradig variable Wortschatzerwerb dynamisch und inkrementell verläuft. Somit kann das Lernerwissen über ein einzelnes Lexem auf einem „Verfügbarkeits"-Kontinuum angesiedelt werden. Die Dynamik bezieht sich darauf, dass durch allmählich zunehmendes Wissen im Laufe des Erwerbs vielfältige Umorganisierungsbzw. Restrukturierungsprozesse stattfinden. HENRIKSEN (1999) ist zuzustimmen, wenn sie den Unterschied zwischen rezeptivem und produktiven Wortschatzwissen nicht als dichotom, sondern als graduell betrachtet. Dies impliziert, dass Wörter im Laufe der Zeit ihren Status verändern können. Es können aber auch nur einzelne Aspekte eines Wortes bzw. Bedeutungsvarianten produktiv sein, während andere ausschließlich rezeptiv verfügbar sind. D.h. ein Wort verstehen zu können, heißt nicht zwingend, es auch produzieren zu können. Genauso gilt: ein Wort produzieren zu können, heißt nicht zwingend, es auch zu verstehen. Es werden hinsichtlich der genannten Modalitäten die folgenden Begrifflichkeiten verwendet, nämlich a) Wiedererkennen ("recognition") vs. Abruf ("recall") und b) Verstehen ("comprehension") vs. Verwendung ("use"). In Bezug auf die Wortschatzkompetenz lassen sich die beiden zuerst genannten Fähigkeiten relativ leicht vermittels selektiver und kontextunabhängiger Verfahren überprüfen. Die Wiedererkennung ist kognitiv einfacher und schneller als der Abruf, da auch nur partielles Wissen genügen kann, um einem dargebotenen Wort eine Bedeutung zuzuordnen. Verstehen und Gebrauch hingegen sind eher umfassende und stark kontextabhängige Prozesse, so dass sich ihre angemessene Untersuchung insgesamt schwieriger und aufwendiger gestaltet. Hinsichtlich des Gebrauchs ist die Möglichkeit der Kontrolle durch den Tester/ durch das Testverfahren offenkundig stark eingeschränkt. Hinsichtlich des Verstehens liegt die Schwierigkeit vor allem darin sicherzustellen, dass das zu evaluierende Wortschatzwissen tatsächlich bereits vorhanden ist. So ist nicht auszuschließen, dass sich der Lerner durch Einbeziehung des Kontexts und die erfolgreiche Anwendung von Inferenzstrategien den zu messenden Wortschatz erst während der Evaluation erschließt. Das heißt, dass ohne die Erhebung zusätzlicher Daten (wie z.B. lautes Denken oder retrospektive Interviews) JFLIWL 33 (2004) 240 Karin Aguado die Interpretation solcher Ergebnisse zu einem großen Teil auf Spekulation beruhen muss. 2.3 Umfang und Tiefe des Wortschatzes Bevor im folgenden Abschnitt Überlegungen zu Umfang und Tiefe des Wortschatzes aus "darstellungspraktischen" Gründen getrennt voneinander angestellt werden, ist festzuhalten, dass für eine kompetente Sprachbeherrschung sowohl Breite als auch Tiefe des Wortschatzwissens erforderlich sind. Viele Wörter zu kennen, ohne zu wissen, mit welchen anderen Wörtern sie ko-okkurrieren, ist für die Verständigung ebenso wenig nützlich, wie einige Wörter in all ihren Bedeutungsnuancen zu kennen. 2.3.1 Zur Evaluation des Umfangs Hier ist zunächst einmal danach zu unterscheiden, ob der rezeptive oder der produktive Wortschatz evaluiert werden soll. In Bezug auf die rezeptive Wortschatzkompetenz sind eine Reihe von Testtypen zu unterscheiden. Dazu zählen u.a. Korrektheitsurteile, Zuordnungen von Wörtern und Definitionen, Zuordnungen von Wörtern und Bildern/ Illustrationen, Vervollständigungen von Definitionen, multiple-choice-Aufgaben, Checklisten-Verfahren oder Übersetzungen 2 um nur einige zu nennen. Auf die am häufigsten eingesetzten und in der Fachliteratur ausgiebig diskutierten Verfahren nämlich Zuordnungen, Vervollständigungen und Checklisten werde ich weiter unten näher eingehen. Zunächst jedoch einige Anmerkungen zu den Kriterien, die Evaluationen der Wortschatzkompetenz von Fremdsprachenlernern zugrunde gelegt werden. Bei der Untersuchung des rezeptiven Wortschatzes werden in der Regel Häufigkeitslisten 3 herangezogen, deren Basis im Idealfall ein repräsentatives Korpus sowohl gesprochener als auch geschriebener Sprache bildet, wobei die Auswahl der zu evaluierenden Items nach dem Zufallsprinzip erfolgt. Auf der Basis von NATION (1983) hat SCHMITT (1993) ein Verfahren entwickelt, bei dem pro Zuordnungsaufgabe jeweils sechs Wörter und drei verständliche und mit hochfrequentem Wortschatz formulierte - Definitionen angeboten werden. Da nicht das Leseverstehen überprüft werden soll, werden die einander zuzuordnenden Wörter und Definitionen kontextlos präsentiert. Der Vorteil dieses Vorgehens wird von Nation darin gesehen, dass nicht nur die zu testenden (i.e. drei), sondern auch die übrigen (i.e. sechs) Items mit den Definitionen abgeglichen werden müssen. Ob dies allerdings auch im 2 Die Übersetzung ist ein Verfahren, das je nach Übersetzungsrichtung entweder als rezeptiv oder als produktiv zu bezeichnen ist: Wenn die Richtung von der Fremdsprache (L2) in die Erstsprache (Ll) verläuft, handelt es sich um ein rezeptives, wenn sie von der Erstsprache in die Fremdsprache verläuft, um ein produktives Verfahren. 3 Vgl. hier beispielsweise die von NATION (1983) zugrundegelegten fünf Häufigkeitslevels (Level 1: die 1000 häufigsten Wörter, Level 2: die 2000 häufigsten Wörter, Level 3: die 3000 häufigsten Wörter, Level 4: University Word Level(= akademischer Wortschatz in universitären Textbüchern), Level 5: die 10000 häufigsten Wörter). lFL1UilL 33 (2004) Evaluation fremdsprachlicher Wortschatzkompetenz: ... 241 Hinblick auf einfache ltems gilt, die vom Lerner spontan und sicher zugeordnet werden können, ist fraglich. Bezüglich der Anzahl der zu testenden ltems besteht die Möglichkeit zu variieren; so können entweder mehr Wörter als Definitionen oder vice versa mehr Definitionen als Wörter vorgegeben werden. In jedem Fall wichtig ist es, dass es eine ungleiche Anzahl von Wörtern und Definitionen gibt; wie dieses Verhältnis im Einzelnen beschaffen ist, hängt vom Testfokus ab. Die Hauptkritik an diesem Verfahren besteht darin, dass pro Level insgesamt zu wenige Wörter (i.e. 6 x 6 Wörter= 36 Wörter) getestet werden (vgl. dazu READ 2000). Auf der Grundlage der genannten fünf Häufigkeitslevels haben LAUFERINATION (1995, 1999) eine Variante entwickelt, bei der anstelle von Zuordnungen - Wörter in vorgegebenen Sätzen vervollständigt werden sollen. Um sicherzustellen, dass tatsächlich das jeweils gesuchte Wort eingesetzt wird, wird eine (unterschiedlich hohe) Anzahl von Buchstaben vorgegeben. Es werden also die Antwortmöglichkeiten eingegrenzt und somit handelt es sichden Ausführungen von LAUFERINATION (1999) zufolge -um eine kontrollierte Produktion. Methodisch problematisch im Hinblick auf die Validität des Venahrens ist hierbei v.a. die Tatsache, dass jeweils eine unterschiedliche Anzahl von Buchstaben vorgegeben wird, da auf diese Weise bei verschiedenen ltems möglicherweise unterschiedliche Fertigkeiten „gemessen" werden. Bei einer anderen Variante des Verfahrens, die LAUFERINATION (1999) als freie Produktion bezeichnen, handelt es sich um einen Cloze-Test. Ob die Fähigkeit, vorgegebene Lücken unterschiedlichen Umfangs auszufüllen, Schlüsse auf die produktiven Fähigkeiten eines Lerners erlaubt, möchte ich mit READ (2000: 126) bezweifeln, da es sich hier eher um eine besondere Variante der Evaluation rezeptiven Wissens handelt. Problematisch ist dieses Vorgehen darüber hinaus insbesondere in den Fällen, in denen ein anderes Wort ebenso gut passen würde. Ein mögliches Verfahren der Erhebung des Wortschatzes in freien Produktionen besteht darin, die mündlichen oder schriftlichen Lernerproduktionen nach Wortfamilien 4 „auszuzählen". Da in der einschlägigen Literatur Meinungsverschiedenheiten bei der Frage bestehen, was genau eine Wortfarnilie ausmacht und aufgrund welcher Kriterien die Zugehörigkeit eines Wortes zu einer Wortfarnilie bestimmt wird, ist erforderlich, was READ (2001) in Bezug auf den Einsatz von Häufigkeitslisten ohnehin grundsätzlich fordert, nämlich "a clear statement of how the word forms were classified" (READ 2001: 227). Mehrheitlich wird eine Wortfamilie so definiert, dass sie die Basisform eines Wortes, dessen Flexionsformen und Ableitungen sowie deren jeweilige Bedeutungen umfasst. Allerdings ist zu beachten, dass Wörter durch Wortbildungsprozesse zuweilen erhebliche Bedeutungsveränderungen erfahren können (Bsp.: "Anzug" ➔ "anzüglich", "Art" ➔ „Unart", "Art" ➔ "artig" oder „lassen" ➔ "verlassen"), so dass sich die Frage stellt, ob es legitim ist, semantisch derart verschiedene Wortbildungsresultate zu derselben Wortfarnilie zu zählen. Festzuhalten ist, dass die auf Wortfamilien basierende Evaluation über die rein lexikalisch-semantische Ebene hinausgeht, da aufgrund erforderlichen Wortbildungswissens auch die morphologische Ebene von zentraler Bedeutung ist. 4 Hier sei angemerkt, dass nach NATION (1990) und LAUFER (1992) für ein flüssiges Verständnis eines Textes die Kenntnis von etwa 3000 Wortfamilien benötigt werden. FJL1.! IL 33 (2004) 242 Karin Aguado Ein insgesamt relativ einfaches, schnelles und spätestens seit ANDERSON! FREEBODY (1983) etabliertes Verfahren, die Wortschatzkompetenz von Lernenden zu evaluieren, besteht darin, sie direkt zu befragen. Ausgehend von der Annahme, dass Wissen graduell ist und dass diese Gradualität bewusstseinsfähig und von den Befragten benennbar ist, wurden differenzierte mehrstufige Skalen entwickelt, auf denen Lerner angeben können, ob sie über „kein Wissen", "unsicheres Wissen", "rezeptives/ produktives Wissen" und/ oder über die „Fähigkeit zum Gebrauch" verfügen (siehe SCARCELLAIZIMMERMAN 1998). Zunächst einmal stellt sich hier die Frage, ob und inwiefern Lernende überhaupt in der Lage sind, sich selbst angemessen einzuschätzen. So können Testteilnehmer und Tester verschiedene Konzepte dessen haben, was sie jeweils unter „Wissen" oder „Beherrschen" verstehen (vgl. in diesem Zusammenhang KNAPP-POTTHOFF 2000). Ferner ist kritisch anzumerken, dass der Wortbedeutung hier offenbar keine allzu große Relevanz beigemessen wird und "formats of this kind will not distinguish between items of which the learner has a vague versus a fairly precise knowledge" (HENRIKSEN 1999: 305). Solchen kritischen Einwänden Rechnung tragend haben PARIBAKHTIWESCHE (1997) im Rahmen ihrer Forschungen zum inzidentellen Wortschatzerwerb eine 5stufige Vocabulary Knowledge Scale entwickelt, die die folgenden "self-report categories" (PARI- BAKHTIWESCHE 1997: 180) umfasst: I I don't remember having seen this word before. II I have seen this word before, but I don't know what it means. III I have seen this word before, and I think it means __ . (synonym or translation) IV I know this word. lt means __ . (synonym or translation) V I can use this word in a sentence: __ . (Write a sentence.) (lf you can do this section, please also do Section IV.) Die in Bezug auf die Kategorien I und II von Befragten gegebenen Antworten lassen sich nicht „objektiv" überprüfen; zwischen III und IV besteht ein Unterschied bzgl. des „Sicherheitsgrades" "think" vs. "know"); da Synonyme oder Übersetzungen angegeben werden müssen, ist es möglich zu überprüfen, inwieweit die zuvor abgegebene Selbsteinschätzung zutreffend ist. Kategorie V bezieht sich auf die Fähigkeit, das betreffende Wort in einem Kontext zu verwenden und dabei auch erforderliches kollokatives sowie grammatisches Wissen zum Einsatz zu bringen. Trotz ihrer vergleichsweise guten empirischen Absicherung (vgl. dazu READ 2000: 133) können auch gegen diese Skala eine Reihe von Einwänden erhoben werden. So gibt es keine Begründung dafür, warum es ausgerechnet fünf Kategorien sind, hinsichtlich derer die eigene Wortschatzkompetenz eingeschätzt bzw. demonstriert werden soll. Auch ist unklar, ob die zwischen den einzelnen Skalenpunkten angenommenen Abstände tatsächlich gleich bzw. gleichwertig sind. Da nur schwer zu kontrollieren ist, ob die Befragten wahrheitsgemäße Angaben machen, wird jeder Liste ein bestimmter Prozentsatz von Pseudo- oder Unsinns-Wörtern hinzugefügt. Im Hinblick auf die Auswertung der Selbsteinschätzungen ist zu sagen, dass sie unproblematisch ist, solange die Befragten nur „echte" Wörter als bekannt bezeichnen; sobald sie „unechte" Wörter ebenso häufig als bekannt bezeichnen, bedeutet das zwar nicht, dass sie über keinerlei Wortschatzkennt- ]F]Lu][, 33 (2004) Evaluation fremdsprachlicher Wortschatzkompetenz: ... 243 nisse verfügen; dennoch können aus ihren Antworten keine zuverlässigen Schlüsse gezogen werden. Ein weiterer Kritikpunkt betrifft die Tatsache, dass jeweils wird nur eine Bedeutung eines Wortes erfragt wird. Dies könnte allerdings leicht durch eine weitere Kategorie kompensiert werden, bei der die Befragten aufgefordert werden, sämtliche Bedeutungen des betreffenden Wortes anzugeben. Hinsichtlich der Aufforderung zur Produktion durch den Lerner (Kategorie V) könnte es problematisch sein, dass sie zwar (grammatisch) korrekte, nicht jedoch idiomatische bzw. "einschlägige" Sätze produzieren, anhand derer erkennbar wäre, dass die Bedeutung des Wortes wirklich verstanden worden ist. Trotz der genannten kritischen Einwände die größtenteils leicht zu auszuräumen sind ist dieses Verfahren in Bezug Einfachheit der Konstruktion, Durchführung und Auswertung bestechend. Auch die Tatsache, dass auf diese Weise eine große Menge an Items gezielt getestet werden kann, und zwar ohne weitere kontextuelle Einbettung, stellt ein Plus dar. 2.3.2 Zur Evaluation der Tiefe von Wortschatzwissen 5 In jüngster Zeit ist eine Entwicklung zugunsten einer verstärkten Erhebung der Qualität des Wortschatzes festzustellen. Hierbei geht es um die Genauigkeit des Wortwissens, um die Berücksichtigung der Komplexität von Wörtern, um ihre vielfältigen Bedeutungen sowie um ihre (paradigmatischen und syntagmatischen) Beziehungen zu anderen Wörtern. Von besonderer Relevanz ist dabei die Tatsache, dass viele Wörter ihre Bedeutung erst im Kontext erhalten. 2.3.2.1 Maße zur Bestimmung der lexikalischen Qualität Ein allgemein anerkanntes Maß zur Evaluation der grammatischen Qualität eines lernersprachlichen Textes ist die t-unit. Je fortgeschrittener ein Lerner ist, desto umfangreicher sind die von ihm produzierten t-units. Im Hinblick auf die lexikalische Qualität eines Lernertextes existiert kein vergleichbares Einzelmaß. Stattdessen werden eine Reihe von Maßen zur Bestimmung der lexikalischen Qualität lernersprachlicher mündlicher oder schriftlicher - Produktionen angenommen. Die hier angewandte lexikalische Statistik vermittelt oberflächlich betrachtet den Eindruck eines hohen Grades an Objektivität. Bei genauerem Hinsehen wird jedoch klar, dass sowohl die Definition als auch die Klassifikation der zu evaluierenden lexikalischen Kategorien „menschliche" Urteile erfordert, also in hohem Maße subjektiv ist. a) Type-token-ratio: Dieses Verhältnis wird berechnet, indem die Anzahl der verschiedenen Wörter in einem (Lerner)Text durch die Anzahl aller verwendeten Wörter geteilt wird. Je höher der Wert, desto größer die Varianz des vom Lernenden verwendeten Wortschatzes. Methodisch besteht hier das Problem, dass sich die Länge eines Textes i.a. ungünstig auf das zu untersuchende Verhältnis auswirkt: je mehr Text produziert 5 Vgl. dazu auch HENRIKSEN (1999), die vorschlägt, den Begriff depth ausschließlich auf Wissensaspekte lexikalischer Kompetenz zu beziehen "whereas questions in relation to the control or accessibility aspect should be viewed as part ofthe receptive-productive dimension" (HENRIKSEN 1999: 306). lFlLlllllL 33 (2004) 244 Karin Aguado wird, desto weniger verschiedene Wörter werden gebraucht. Daher muss darauf geachtet werden, dass im Falle eines Vergleichs zwischen verschiedenen Lernern nur gleich lange Texte dieser Analyse unterzogen werden dürfen. b) Lexikalische Dichte: Die lexikalische Dichte eines Textes wird bestimmt, indem die Anzahl der Inhaltswörter durch die Anzahl aller Wörter geteilt wird. Auch hier gilt: je höher der Wert, desto höher die lexikalische Dichte. O'LOUGHLIN (1995) stellt in diesem Zusammenhang fest, dass aufgrund ihrer semantischen Entleerung besonders frequente Wörter (wie z.B. "machen", "tun", "Sache" u.ä.) wie grammatische Wörter behandelt und bei der Berechnung der lexikalischen Dichte nur zur Hälfte gezählt werden sollten. c) Lexikalische Variation: Bei diesem Maß wird die Anzahl der verschiedenen lexikalischen Einheiten durch die Anzahl aller lexikalischen Einheiten geteilt. Also auch hier: Je höher der Wert, desto größer die lexikalische Variation. d) Angemessenheit des Gebrauchs: Nicht zu vernachlässigen ist selbstverständlich die Frage, ob die Wortwahl des Lernenden der jeweiligen Aufgabenstellung, der Textsorte, dem Register etc. angemessen ist. Spätestens an dieser Stelle ist die Grenze der Automatisierbarkeit der Auswertung erreicht: Während die Klassifikation von Inhaltswörtern und Funktionswörtern sowie deren Auszählung mittels entsprechender software durchgeführt werden kann, ist bezüglich der Entscheidung hinsichtlich der Angemessenheit des Gebrauchs das muttersprachliche Urteil unverzichtbar. 3. Welches ist das beste Verfahren zur Evaluation der Wortschatzkompetenz? NATION (2001) beantwortet die Frage nach dem „besten" Wortschatztest folgendermaßen: "In general, a good vocabulary test has plenty of items (around 30 is probably a minimum for a reliable test). lt uses a test item type which requires learners to use the kind of vocabulary knowledge that you want to test. lt is easy enough to make, mark and interpret, and it has a good effect on the learning and teaching that leads up to the test and follows it" (NATION 2001: 345). Es wird erkennbar, dass für Nation neben den traditionellen Gütekriterien Validität und Reliabilität vor allem Praktikabilität und Nützlichkeit (genauer: washback) wichtige Merkmale eines guten Verfahrens zur Evaluation der Wortschatzkompetenz darstellen. Es stellt sich hier zunächst einmal die Frage, wie gewährleistet werden kann, dass Wortschatztests konstruktvalide sind, d.h. dass sie tatsächlich und ausschließlich lexikalisches Wissen bzw. lexikalische Kompetenz evaluieren. So stellt beispielsweise allein die Tatsache, dass jeder Wortschatztest, der mehr als ein Wort pro Item enthält, strenggenommen ein Leseverstehenstest ist, ein methodisches Problem dar. Daher fordert Schmitt, dass Lehrende bei Vokabeltests den Schwierigkeitsgrad des Lesens, Schreibens, Sprechens und Hörens weitgehend minimieren, damit Einschränkungen bezüglich dieser Fertigkeiten die Lerner nicht darin beeinträchtigen, ihr Wortschatzwissen zu demonstrieren (vgl. SCHMITT 2000: 172). Hier besteht ein klarer Widerspruch zu dem in jüngster Zeit stärker propagierten Vorgehen der integrativen Evaluation der Wortschatzkompetenz (vgl. dazu auch LöSCHMANN 1993: 141). lFlLllllL 33 (2004) Evaluation fremdsprachlicher Wortschatzkompetenz: ... 245 READ (2001) führt eine Reihe von polaren Begriffspaaren zur Charakterisierung von Evaluationsverfahren ein. Diese sind: a) "discrete" vs. "embedded", b) "selective" vs. "comprehensive" und c) "context-independent" vs. "context-dependent". Ada) Während „diskrete" Tests Wortschatz als distinkte sprachliche Komponente betrachten und gezielt deklaratives Wortschatzwissen erheben, handelt es sich bei „eingebetteten" Tests eher um eine indirekte Messung. Der Testteilnehmer soll zeigen, dass er das betreffende Wissen anwenden kann. Dies ist beispielsweise dann der Fall, wenn bei einer so einer komplexen Aufgabe wie der freien schriftlichen Produktion auch die Auswahl und die Angemessenheit des Wortschatzes betrachtet und beurteilt wird. Ad b) Während es bei selektiven Tests um festgelegte lexikalische Einzel-Items geht (z.B. solche, die zuvor im Fremdsprachenunterricht vermittelt und geübt worden sind), evaluieren umfassende Tests die Kompetenz im Hinblick auf sämtliche Inhaltswörter bzw. ohne eine vorherige Auswahl zu treffen. Ad c) Diese Unterscheidung erklärt sich weitgehend von selbst: Während beim kontextunabhängigen Test die Präsentation der Items ohne Einbeziehung des Kontexts vonstatten geht, gibt es andere Typen, in denen der Kontext eine zentrale Rolle spielt. Wie bereits angedeutet, handelt es sich bei den genannten Begriffspaaren nicht um dichotome Gegensätze. Im Gegenteil: in der Praxis werden sie verschiedentlich sogar miteinander kombiniert, wobei sich jedoch einige Kombinationen wie z.B. "umfassend" ("comprehensive") und „kontextunabhängig" ("context-independent") gegenseitig ausschließen. LöSCHMANN (1993) formuliert das Ziel der unterrichtlichen Wortschatzarbeit als „die Aneignung eines intentions- und situationsgerecht anwendbaren, dauerhaften, schnell abrufbaren, disponibel verknüpfbaren sowie normgerecht verwendbaren Wortschatzbesitzes" (LöSCHMANN 1993: 29). Gemäß dieser Definition wird die Qualität des Wortschatzbesitzes in erster Linie in der Anwendbarkeit sowie in der Korrektheit und Genauigkeit der Verwendung erkennbar. So ist es letztlich das prozedurale Wissen eines Lerners, was im Zentrum der Evaluation stehen sollte, also die Fähigkeit zur Rezeption und Produktion, während der Fokus auf dem Inhalt der Mitteilung liegt (vgl. dazu NATION 2001: 361). Nation geht noch einen Schritt weiter, indem er die Beurteilung eines Wortes als „beherrscht" davon abhängig macht, ob ein Lerner es in einem neuen Kontext verwenden kann: "Using language is a creative activity which involves understanding and using words in new contexts. Unless leamers can do this we cannot be sure ifuseful leaming has occurred" (NATION 2001: 372). Den Ausführungen von READ (2000) zufolge konnte bislang keine Evidenz dafür erbracht werden, dass der Wortschatz eine separat messbare Komponente der Sprachfähigkeit darstellt. Entsprechend warnt er vor voreiligen Schlüssen: "we need to be cautious in making assumptions about what aspect of language is being assessed just on the basis of the label that a test has been given" (READ 2000: 99). Mit SINCLAIR (1991) nehme ich die Untrennbarkeit von Wortschatz und Grammatik an: jeder lexikalischen Einheit sind immer auch grammatische Informationen inhärent, sei es bezüglich ihrer Wortart, sei es bezüglich ihrer Valenz oder der mit ihr untrennbar verbundenen kollokativen und/ oder syntagmatischen Relationen. D.h. es ist nicht möglich, ausschließlich Wortschatz zu evaluieren, es wird zugleich immer auch anderes sprachliches Wissen lFLl! llL 33 (2004) 246 Karin Aguado mitevaluiert. Ferner gilt, dass die dafür jeweils einzusetzenden Verfahren nicht zuletzt auch vom Niveau der Lerner abhängig sind. Es mag möglich sein, bei Anfängern eher rein lexikalisches Wissen zu erheben, d.h. einfache Wörter mit nur einem geringen Bedeutungsumfang, für die es einfache Entsprechungen in der L1 der Lerner gibt. Dies könnten sogenannte psychologische Basiswörter sein, die als separate Einheiten im Langzeitgedächtnis gespeichert sind und die nicht vermittels morphologischer Analysen dekodiert werden können (vgl. dazu NATION 2001: 366). Traditionelle Verfahren zur Evaluation der Wortschatzkompetenz hält READ (2001) unter den folgenden Prämissen für nützlich und effizient: "They work best in assessment situations where it makes sense to focus on vocabulary as a discrete form of language knowledge and to treat lexical items as individual units of meaning" (READ 2001: 222). Dies betrifft einerseits einen stärker formfokussierten Fremdsprachenunterricht und andererseits sämtliche Untersuchungen, in denen der Umfang des Wortschatzes gemessen werden soll; hinsichtlich der Evaluation der Qualität der Wortschatzkompetenz eines Fremdsprachenlernenden bzw. im Rahmen eines kommunikativ-kognitiv orientierten Ansatzes der Fremdsprachenvermittlung erscheinen sie unzweckmäßig. Wenn es zu den Prinzipien einer adäquaten, i.e. behaltensgerechten Wortschatzvermittlung gehört, vernetztes und mehrkanaliges Lernen zu fördern, wenn das Gedächtnis nicht länger als Speicher, sondern als dynamische Struktur bzw. konstruktiver Prozess betrachtet wird, ist es an der Zeit, auch die Evaluation von Wortschatzwissen entsprechend zu konzipieren, d.h. kontextuell eingebettet und in Sinn- und Textzusammenhängen (vgl. dazu auch KöSTER 2001). 4. Desiderate für künftige Evaluationen von fremdsprachlicher Wortschatzkompetenz Die in der einschlägigen Literatur anerkannte Tatsache, dass ein großer Anteil des kompetenten muttersprachlichen Sprachgebrauchs auf vorgefertigten, ganzheitlich gespeicherten und abgerufenen Äußerungen basiert, gilt in vergleichbarer Weise auch für den nicht-muttersprachlichen Sprachgebrauch (siehe AGUADO 2002). So stellt READ (2001) in Anlehnung an die Ausführungen von PAWLEY/ SYDER (1983) fest: "Fluent performance is made easier if the learner has command of a range of multi-word items which can be readily accessed as the occasion demands" (READ 2001: 233). Da diesen komplexen lexikalischen Einheiten jedoch bisher nicht einmal im Hinblick auf die unterrichtliche Vermittlung angemessen Rechnung getragen wird, verwundert es nur wenig, dass sie auch in der Testpraxis weitgehend vernachlässigt werden, denn: was nicht vermittelt wird, kann auch nicht überprüft werden! Ein weiterer Grund, warum diese Ausdrücke bei der Evaluation des Wortschatzes bisher kaum eine Rolle spielen, ist darin zu sehen, dass sie sich einem „klassischen" Vokabeltest verschließen. Da es sich hier nicht um distinkte sprachliche Items handelt, die mittels selektiver Tests evaluiert werden können, sondern um Mehrwortsequenzen, die aufgrund ihrer v.a. sozio-pragmatischen Funktionen nur kontextuell eingebettet sinn- JF[,IIL 33 (2004) Evaluation fremdsprachlicher Wortschatzkompetenz: ... 247 voll sind, weisen kontextualisierte Tests hier eine deutlich höhere Gegenstandsangemessenheit auf. Ein wichtiger Aspekt ist in diesem Zusammenhang zunächst einmal die Identifizierung dieser Einheiten, die nur z.T. automatisch vorgenommen werden kann. Zwar gibt es inzwischen bereits statistische Programme zur Bestimmung der „kollokativen Stärke" (READ 2001: 23 2) komplexer Ausdrücke dies betrifft die Häufigkeit und die Konsistenz des gemeinsamen Auftretens von Wörtern. Allerdings besteht die „Kunst" des angemessenen Gebrauchs gerade darin, die betreffenden Ausdrücke in genau der „richtigen" Frequenz (d.h. nicht zu selten, aber auch nicht zu häufig) zu verwenden. Dies zu beurteilen, erfordert muttersprachliche Kompetenz. Ferner ist insbesondere in Bezug auf den lernersprachlichen Gebrauch die Frage relevant, ob der Ausdruck auf einem prä-analytischen oder einem post-analytischen Niveau verwendet wird. Da dies für eine angemessene Evaluation des Sprachstands wesentlich ist, dürfen solche Ausdrücke nicht nur gezählt werden, sondern müssen differenziert betrachtet werden (vgl. dazu READ (2001) und SKEHAN (1996)). Trotz des allmählich, aber stetig steigenden Bewusstseins hinsichtlich der zentralen Rolle komplexer lexikalischer Einheiten wie z.B. Kollokationen, Routinen, Idiomen und anderen Typen formelhafter Sprache 6 liegt der Fokus nach wie vor größtenteils auf Einzelwörtern. Dies liegt nicht zuletzt daran, dass der Schwerpunkt der Evaluation von Wortschatzkompetenz in erster Linie auf der geschriebenen Sprache liegt, was sich u.a. zuungunsten der Erhebung pragmatischer Aspekte des Wortschatzgebrauchs auswirkt. D.h. wenn es um die Evaluation der Fähigkeit zum Wortschatzgebrauch gehen soll, müssen andere Tests eingesetzt werden. Hier ist SCHMITT (2000) zuzustimmen, wenn er schreibt: "the more test writers wish to measure learners' ability to actually use words in real-world situations, the further tests need to move toward the embedded, comprehensive, and context-dependent ends of the continuum" (SCHMITT 2000: 174; vgl. zu einer ähnlichen Position auch READ 2001: 223). Ein wichtiger Kritikpunkt ist die Tatsache, dass der Gebrauch eines Wortes nicht unbedingt die genaue Kenntnis seiner Bedeutung voraussetzt. Oder einen Schritt zurück: die reine Benutzung eines Wortes bedeutet nicht, dass es vollkommen beherrscht wird, also jederzeit und mit allen Nuancen abrufbar ist. Umgekehrt gilt, dass aus dem Nicht- Gebrauch nicht zwingend die Nicht-Kenntnis geschlossen werden kann, denn ein großer Wortschatz muss sich nicht zwingend im frequenten Gebrauch sämtlicher Einheiten zeigen. Zur Wortschatzkompetenz gehört neben der Fähigkeit, Wörter angemessen verstehen und verwenden zu können auch strategisches Wissen bzw. strategische Fertigkeiten, wie z.B. Erschließungsstrategien, denn: "Inferencing is a desirable strategy because it involves deeper processing that is likely to contribute to better comprehension of the text as a whole and may result in some learning of the lexical item that would not otherwise 6 Siehe dazu den soeben von N. SCHMITT (2004) herausgegebenenallerdings im vorliegenden Beitrag noch nicht berücksichtigten - Sammelband mit dem Titel Formulaic Sequences. Acquisition, processing and use und darin insbesondere der Artikel von READINATION: "Measurement of formulaic sequences". lFILl.lL 33 (2004) 248 Karin Aguado occur" (READ 2000: 53). Entsprechend müssen neben dem deklarativen Wortschatzwissen auch die im Fremdsprachenunterricht vermittelten Strategien des Wortschatzlernens, -erschließens und -behaltens zum Gegenstand der Evaluation gemacht werden. Hierbei geht es um den potentiellen Wortschatz als Fähigkeit (Weltwissen, Sprachwissen, kognitive und metakognitive Strategien, Analogiebildung, Klassifizierung). Löschmann plädiert für eine stärkere Durchführung individueller Tests und fordert, dass das Prinzip der „Lernerorientierung vor dem Testen nicht haltmachen" (LöSCHMANN 1993: 145) dürfe, denn „Individuelle Tests haben[ ...] ihren Sinn[ ...] darin, daß sie den individuelldifferenzierten Wortschatzbesitz erfassen" (LöSCHMANN 1993: 145). Dies ist insbesondere im Hinblick auf die Tatsache relevant, dass der Wortschatz „unendlich" und der Wortschatzerwerb damit praktisch niemals abgeschlossen ist - und zwar weder beim Fremdsprachenlerner noch beim Muttersprachler. Zusammenfassend ist festzuhalten, dass zur angemessenen Evaluation der Wortschatzkompetenz von L2-Lernern der folgenden Forderung von HENRIKSEN (1999) Rechnung getragen werden sollte: "researchers must ideally use a combination of test formats that tap different aspects of knowledge" (HENRIKSEN 1999: 306). D.h. für eine adäquate Evaluation lernersprachlicher Wortschatzkompetenz sind verschiedene, komplementäre Verfahren einzusetzen, im Rahmen derer möglichst integrativ sowohl rezeptives Wissen erhoben als auch die produktive Verwendungsfähigkeit überprüft werden sollte (vgl. auch NATION 2000: 175 sowie READ 2000: 4). Auch um gleichzeitig die Breite und die Tiefe des Wortschatzwissens von Fremdsprachenlernenden zu evaluieren, müssen Einzelverfahren miteinander kombiniert werden. 7 Eine moderne, lernerorientierte und sämtlichen validen Verfahren kombinierbare Methode erscheint mir die Vocabulary Knowledge Scale nach PARIBAKHTIWESCHE (1997) und JoE (1998) zu sein. So sollte wie Joe es vorschlägt die Skala nicht nur schriftlich, sondern auch im Rahmen von Interviews eingesetzt werden. Die außerdem von ihr zwischen den Kategorien II und III (siehe oben) eingefügte Kategorie, nämlich: "I have not seen this word before, but I think. .." berücksichtigt die Fähigkeit von Lernern, ihr vielfältiges Vorwissen (wie z.B. LI-Wissen und/ oder andere Sprachkenntnisse, L2-Wortbildungskenntnisse) zur Anwendung zu bringen eine für den erfolgreichen Spracherwerb unverzichtbare Strategie. Literatur AGUADO, Karin (2002): "Formelhafte Sequenzen und ihre Funktionen für den L2-Erwerb". In: Zeitschrift für Angewandte Linguistik 37, 27-49. ANDERSON, Richard C./ FREEBODY, Peter (1983): "Reading comprehension and the assessment and acquisition of word knowledge". In: HUSTON, B. (ed.): Advances in Reading/ Language Research. Volume 2. Greenwich, CT: JAI Press, 231-256. 7 Für einen möglichen Vorschlag, siehe LAUFER (2001), die eine Kombination des Vocabulary Levels Test (NATION 1983, 1990), des Test of controlled productive ability (LAUFERINATION 1999) sowie des Lexical Frequency Profile (LAUFERINATION 1995) beschreibt. lFJLlllL 33 (2004) Evaluation fremdsprachlicher Wortschatzkompetenz: ... 249 BACHMAN, Lyle F. (1990): Fundamental considerations in language testing. Oxford: Oxford University Press. BACHMAN, Lyle F. / P ALMER, Adrian S. (1996): Language testing in practice. Oxford: Oxford University Press. BOHN, Rainer (2000): Probleme der Wortschatzarbeit. Berlin: Langenscheidt. (Fernstudieneinheit 22). CHAPELLE, Carol A. (1994): "Are C-tests valid measures for L2 vocabulary research? " In: Second Language Research 10, 157-187. GROTJAHN, Rüdiger (2000): "Testtheorie: Grundzüge und Anwendungen in der Praxis". In: Materialien Deutsch als Fremdsprache 53, 304-341. HENRIKSEN, Birgit (1999): "Three dimensions of vocabulary development". In: Studies in Second Language Acquisition 21, 303-317. JOE, Angela (1995): "Text-based tasks and incidental vocabulary learning". In: Second Language Research 11, 149-158. JOE, Angela (1998): "What effects to text-based tasks promoting generation have on incidental vocabulary acquisition? " In: Applied Linguistics 19, 357-377. KNAPP-POTTHOFF, Annelie (2000): "Vokabeln im Kopf". In: RlEMER, Claudia (Hrsg.): Kognitive Aspekte des Lehrens und Lernens von Fremdsprachen. Festschrift für Willis J. Edmondson. Tübingen: Narr, 293-307. KöSTER, Lutz (1994): Semantisierungsprozesse im Unterricht Deutsch als Fremdsprache. Eine Analyse von Bedeutungserklärungen im Unterricht mit fortgeschrittenen Lernern. Frankfurt a.M.: Lang. KöSTER, Lutz (2001): "Wortschatzvermittlung". In: HELBIG, Gerhard [et al.] (Hrsg.): Deutsch als Fremdsprache. Ein internationales Handbuch. 2. Halbband. Berlin: de Gruyter, 887-893. LAUFER, Batia (1998): "The development ofpassive and active vocabulary in a second language: same or different? " In: Applied Linguistics 19, 255-271. LAUFER, Batia (2001): "Quantitative evaluation of vocabulary: How it can be done and what it is good for". In: ELDER, Cathie [et al.] (eds.): Experimenting with uncertainty. Essays in honour of Alan Davies. Cambridge, U.K.: Cambridge University Press, 241-250. LAUFER, Batia / NATION, I.S.P. (1995): "Vocabulary size and use: Lexical richness in L2 written production". In: Applied Linguistics 16, 307-322. LAUFER, Batia / NATION, I.S.P. (1999): "A vocabulary size test of controlled productive ability". In: Language Testing 16, 36-51. LÖSCHMANN, Martin (1993): Effiziente Wortschatzarbeit. Alte und neue Wege. Frankfurt a.M.: Lang. NATION, I.S.P. (1983): "Testing and teaching vocabulary". In: Guidelines 5,12-25. NATION, I.S.P. (1990): Teaching & Leaming Vocabulary. New York: Newbury House. NATION, I.S.P. (2001): Leaming vocabulary in another language. Cambridge: Cambridge University Press. O'LOUGHLIN, Kieran (1995): "Lexical density in candidate output on direct and semi-direct versions of an oral proficiency test". In: Language Testing 12.2, 217-237. P ARIBAKHT, T. Sima/ WESCHE, Marjorie B. ( 1996): "Enhancing vocabulary acquisition through reading: a hierarchy of text-related exercise types". In: Canadian Modem Language Review 52, 155-178. P ARIBAKHT, T. Sima/ WESCHE, Marjorie B. ( 1997): "Vocabulary enhancement activities and reading for meaning in second language vocabulary acquisition". In: COADY, James/ HUCKIN, Thomas (eds.): Second language vocabulary acquisition. A rationale for pedagogy. New York: Cambridge University Press, 174-200. PAWLEY, Andrew / SYDER, Frances Hodgetts (1983): "Two puzzles for linguistic theory: nativelike selection and nativelike fluency". In: RICHARDS, Jack C. / SCHMIDT, Richard W. (eds.): Language and Communication. London: Longman, 191-226. READ, John (2000): Assessing vocabulary. Cambridge: Cambridge University Press. lFLllllL 33 (2004) 250 Karin Aguado READ, John/ CHAPELLE, Carol A. (2001): "A framework for second language vocabulary assessment". In: Language Testing 18.1, 1-32. READ, John/ NATION, Paul (2004): "Measurement of formulaic sequences". In: SCHMITT, Norbert (ed. ): Fonnulaic sequences. Acquisition, processing and use. Amsterdam & Philadelphia: Benjamins, 23-35. RICHARDS, Jack C. (1976): "The role of vocabulary teaching". In: TESOL Quarterly 10, 77-89. SCARCELLA, Robin/ ZIMMERMAN, Cheryl (1998): "Academic words and gender: ESL student performance on a test of academic lexicon". In: Studies in Second Language Acquisition 20, 27-49. SCHMITT, Norbert (2000): Vocabulary in language teaching. Cambridge: Cambridge University Press. SCHMITT, Norbert (2004) (ed.): Fonnulaic sequences. Acquisition, processing and use. Amsterdam & Philadelphia: Benjamins. SINCLAIR, John (1991): Corpus, concordance, collocation. Oxford: Oxford University Press. SINGLETON, David (1999): Exploring the second language mental lexicon. Cambridge: Cambridge University Press. ]F]Ll.l][, 33 (2004)