Bijlage A. Ontwikkeling van taalvaardigheidsdescriptoren
In deze bijlage worden technische aspecten besproken van het beschrijven van taalvaardigheidsniveaus. Eerst komen criteria voor de formulering van descriptoren aan de orde. Vervolgens worden methodieken voor de ontwikkeling van schalen opgesomd, waarna een geannoteerde literatuurlijst wordt gegeven.
Descriptoren formuleren
Op basis van ervaring met schalen voor taaltoetsen, de theorie van het schalen op het bredere terrein van de toegepaste psychologie en de voorkeuren van adviserende docenten/leerkrachten (bijvoorbeeld in het Verenigd Koninkrijk en Zwitserland) komen wij tot de volgende richtlijnen voor de ontwikkeling van descriptoren:
Positief |
Negatief |
beschikt over een repertoire van elementaire taal en strategieën dat hem of haar in staat stelt met voorspelbare alledaagse situaties om te gaan. (Eurocentres, niveau 3: certificaat) basisrepertoire van taal en strategieën dat voldoet voor de meeste alledaagse behoeften, maar meestal met een bijgestelde boodschap en zoeken naar woorden. (Eurocentres, niveau 3: beoordelingsmatrix) |
beschikt over een smal taalrepertoire, dat voortdurend herformuleren en zoeken naar woorden vereist. (ESU, niveau 3) beperkte taalvaardigheid leidt regelmatig tot afbreken van de communicatie en tot misverstanden in niet-alledaagse situaties. (Finse schaal, niveau 2) communicatie wordt afgebroken doordat taalbeperkingen de boodschap verstoren. (ESU, niveau 3) |
woordenschat concentreert zich op gebieden als elementaire voorwerpen, plaatsen en veelgebruikte familierelaties. (ACTFL, beginner) |
heeft slechts een beperkte woordenschat. (Nederlands, niveau 1) beperkt bereik van woorden en uitdrukkingen verhindert uitwisselingen van gedachten en ideeën. (Universiteit van Gotenburg) |
produceert en herkent een reeks uit het hoofd geleerde woorden en korte frasen. (Trim 1978, niveau 1) |
kan alleen gestandaardiseerde uitingen, lijstjes en opsommingen voortbrengen. (ACTFL, beginner) |
kan korte alledaagse uitdrukkingen voortbrengen om eenvoudige behoeften van concrete aard te vervullen (op het gebied van begroetingen, inlichtingen, enz.). (Elviri, Milan, niveau 1, 1986) |
beschikt alleen over het meest basale taalrepertoire en geeft geen of weinig blijk van een functionele beheersing van de taal. (ESU, niveau 1) |
Gebruikers van het Referentiekader zouden kunnen overwegen en indien van toepassing vermelden:
Methodieken voor schaalontwikkeling
Het bestaan van een reeks niveaus vooronderstelt dat bepaalde zaken op een bepaald niveau kunnen worden geplaatst en niet op een ander niveau en dat beschrijvingen van een bepaalde mate van vaardigheid bij een bepaald niveau behoren en niet bij een ander niveau. Dit impliceert een of andere consequent toegepaste schaal. Er is een aantal mogelijke manieren waarop beschrijvingen van taalvaardigheid kunnen worden gekoppeld aan verschillende niveaus. De beschikbare methoden kunnen worden onderverdeeld in drie groepen: intuïtieve, kwalitatieve en kwantitatieve methoden. De meeste bestaande schalen van taalvaardigheid en andere niveau-indelingen zijn ontwikkeld met een van de drie intuïtieve methoden in de eerste groep. De beste methoden maken gebruik van een combinatie van de drie benaderingen in een complementair en cumulatief proces. Kwalitatieve methoden vergen een intuïtieve voorbereiding en selectie van het materiaal en een intuïtieve interpretatie van de uitkomsten. Kwantitatieve methoden moeten materiaal kwantificeren dat eerst kwalitatief getest is; ook deze methoden vergen een intuïtieve interpretatie van de uitkomsten. Daarom is bij de ontwikkeling van de Gemeenschappelijke Referentieniveaus een combinatie van intuïtieve, kwalitatieve en kwantitatieve benaderingen gebruikt.
Bij het gebruik van kwalitatieve en kwantitatieve methoden zijn er twee mogelijke uitgangspunten: descriptoren of voorbeelden van taaluitingen.
Uitgaan van descriptoren: Eén uitgangspunt is om eerst te bedenken wat je wilt beschrijven en vervolgens conceptdescriptoren te schrijven, verzamelen of bewerken voor de betrokken categorieën, die als input dienen voor de kwalitatieve fase. Methoden 4 en 9, de eerste en de laatste in de hierna beschreven kwalitatieve groep, zijn voorbeelden van deze benadering. Die is in het bijzonder geschikt voor de ontwikkeling van descriptoren voor curriculumgebonden categorieën zoals communicatieve taalactiviteiten, maar kan ook worden gebruikt om descriptoren te ontwikkelen voor competentieaspecten. Het voordeel van het gebruik van categorieën en descriptoren als uitgangspunt is dat een theoretisch uitgebalanceerd bereik kan worden gedefinieerd.
Uitgaan van voorbeelduitingen. Het alternatief, dat alleen kan worden gebruikt om descriptoren te ontwikkelen ter beoordeling van taaluitingen, is om te beginnen met representatieve voorbeelden van taalgebruik. Hier kan aan representatieve beoordelaars worden gevraagd wat zij zien wanneer zij met de voorbeelden werken (kwalitatief). Methoden 5–8 zijn varianten op dit idee. Een alternatief is dat men de beoordelaars alleen vraagt de voorbeelden te beoordelen en vervolgens een toepasselijke statistische techniek toepast om te ontdekken welke hoofdkenmerken bepalend zijn voor hun beslissingen (kwantitatief). Methoden 10 en 11 zijn voorbeelden van deze benadering. Het voordeel van het analyseren van voorbeelden is dat men op basis van de gegevens tot heel concrete beschrijvingen kan komen.
De laatste methode, nummer 12, is de enige waarbij de descriptoren daadwerkelijk worden geschaald in meetkundige zin. Dit is de methode die is gebruikt om de Gemeenschappelijke Referentieniveaus en illustratieve descriptoren te ontwikkelen, na methode 2 (intuïtief) en methoden 8 en 9 (kwalitatief). Dezelfde statistische techniek kan echter ook worden gebruikt nadat de schaal is ontwikkeld, om het gebruik van de schaal in de praktijk te valideren en de behoefte aan herziening na te gaan.
Intuïtieve methoden:
Voor deze methoden is geen gestructureerd verzamelen van gegevens vereist, alleen de interpretatie van ervaringen op basis van welbepaalde principes.
Kwalitatieve methoden:
Al deze methoden maken gebruik van kleine workshops met
groepen informanten, en een kwalitatieve in plaats van een statistische
interpretatie van de verkregen informatie.
Kwantitatieve methoden:
Deze methoden vergen een aanzienlijke hoeveelheid statistische analyse en een zorgvuldige interpretatie van de resultaten.

Naast de schaalontwikkeling kan de Rasch-methodiek ook worden gebruikt om te analyseren hoe de bandbreedte op een beoordelingsschaal werkelijk wordt benut. Hiermee kunnen onscherpe formuleringen en te weinig of te veel gebruikte bandbreedtes aan het licht worden gebracht en kunnen herzieningen worden onderbouwd (Davidson 1992; Milanovic e.a. 1996; Stansfield en Kenyon 1996; Tyndall en Kenyon 1996).
Gebruikers van het Referentiekader zouden kunnen overwegen en indien van toepassing vermelden:
Geannoteerde literatuurselectie over taalvaardigheidsschalen
Alderson, J.C. 1991: Bands and scores. In: Alderson, J.C. and North, B. (eds.): Language testing in the 1990s, London: British Council/Macmillan, Developments in ELT, 71–86. |
Bespreekt problemen die worden veroorzaakt door
verwarrende doelen en richtingen, alsmede de ontwikkeling van de
IELTS-spreekvaardigheidsschalen. |
Brindley, G. 1991: Defining language ability: the criteria for criteria. In Anivan, S. (ed.) Current developments in language testing, Singapore, Regional Language Centre. |
Principiële kritiek op de claim dat vaardigheidsschalen een oordeel op basis van criteria vertegenwoordigen. |
Brindley, G. 1998: Outcomes-based assessment and reporting in language learning programmes, a review of the issues. Language Testing 15 (1), 45–85. |
Bekritiseert de nadruk op resultaten in termen van wat leerders kunnen doen ten koste van nadruk op aspecten van toenemende competenties. |
Brown, Annie, Elder, Cathie, Lumley, Tom, McNamara, Tim and McQueen, J. 1992: Mapping abilities and skill levels using Rasch techniques. Paper presented at the 14th Language Testing Research Colloquium, Vancouver. Reprinted in Melbourne Papers in Applied Linguistics 1/1, 37–69. |
Klassieke toepassing van de Rasch-schaalmethode op testitems om een leesvaardigheidsschaal te maken op basis van de in de verschillende items getoetste leestaken. |
Carroll, J.B. 1993: Test theory and behavioural scaling of test performance. In Frederiksen, N., Mislevy, R.J. and Bejar, I.I. (eds.) Test theory for a new generation of tests. Hillsdale N.J. Lawrence Erlbaum Associates: 297–323. |
Baanbrekend artikel waarin het gebruik van Rasch wordt aanbevolen om testitems te schalen en zo een vaardigheidsschaal te ontwikkelen. |
Chaloub-Deville M. 1995: Deriving oral assessment scales across different tests and rater groups. Language Testing 12 (1), 16–33. |
Studie die aan het licht brengt welke criteria Arabische moedertaalsprekers belangrijk vinden bij het beoordelen van leerders. Vrijwel het enige voorbeeld van de toepassing van meerdimensionale schalen op taaltoetsen. |
Davidson, F. 1992: Statistical support for training in ESL composition rating. In Hamp-Lyons (ed.): Assessing second language writing in academic contexts. Norwood N.J. Ablex: 155–166. |
Zeer heldere beschrijving van het valideren van een beoordelingsschaal in een cyclisch proces met behulp van Rasch-analyse. Pleit voor een 'semantische' benadering van schalen in plaats van de 'concrete' aanpak die bijvoorbeeld met de illustratieve descriptoren wordt gevolgd. |
Fulcher 1996: Does thick description lead to smart tests? A data-based approach to rating scale construction. Language Testing 13 (2), 208–38. |
Systematische benadering van descriptor- en schaalontwikkeling, die begint bij de juiste analyse van wat er feitelijk gebeurt bij de taalproductie. Zeer tijdrovende methode. |
Gipps, C. 1994: Beyond testing. London, Falmer Press. |
Pleidooi voor 'normgerichte beoordeling' door docenten/leerkrachten op basis van gemeenschappelijke referentiepunten die zijn opgebouwd door te netwerken. Bespreking van problemen als gevolg van vage descriptoren in het Britse nationale curriculum. Geldt voor alle curricula. |
Kirsch, I.S. 1995: Literacy performance on three scales: definitions and results. In Literacy, economy and society: Results of the first international literacy survey. Paris, Organisation for Economic Cooperation and development (OECD): 27–53. |
Simpel niet-technisch rapport over geavanceerd gebruik van Rasch om een schaal samen te stellen vanuit testgegevens. Methode die is ontwikkeld om de moeilijkheid van nieuwe testitems te voorspellen en te verklaren vanuit de betrokken taken en competenties, dus binnen een referentiekader. |
Kirsch, I.S. and Mosenthal, P.B. 1995: Interpreting the IEA reading literacy scales. In Binkley, M., Rust, K. and Wingleee, M. (eds.) Methodological issues in comparative educational studies: The case of the IEA reading literacy study. Washington D.C.: US Department of Education, National Center for Education Statistics: 135–192. |
Gedetailleerde, meer technische versie van bovenstaande publicatie, waarin de ontwikkeling van de methode in drie verwante projecten wordt beschreven. |
Linacre, J. M. 1989: Multi-faceted Measurement. Chicago: MESA Press. |
Grote doorbraak in de statistiek waardoor de strengheid van examinatoren kan worden meegewogen bij het rapporteren van de uitslag van een toetsing. In het project toegepast om de illustratieve descriptoren te ontwikkelen en het verband tussen niveaus en schooljaren te controleren. |
Liskin-Gasparro, J. E. 1984: The ACTFL proficiency guidelines: Gateway to testing and curriculum. In: Foreign Language Annals 17/5, 475–489. |
Schets van de doelstellingen en de ontwikkeling van de Amerikaanse ACTFL-schaal vanuit de moederschaal van het Foreign Service Institute (FSI). |
Lowe, P. 1985: The ILR proficiency scale as a synthesising research principle: the view from the mountain. In: James, C.J. (ed.): Foreign Language Proficiency in the Classroom and Beyond. Lincolnwood (Ill.): National Textbook Company. |
Gedetailleerde beschrijving van de ontwikkeling van de Amerikaanse Interagency Language Roundtable-schaal (ILR-schaal) vanuit de FSI-moederschaal. Functies van de schaal. |
Lowe, P. 1986: Proficiency: panacea, framework, process? A Reply to Kramsch, Schulz, and particularly, to Bachman and Savignon. In: Modern Language Journal 70/4, 391–397. |
Verdediging van een systeem dat goed werkte – in een specifieke context – tegen wetenschappelijke kritiek naar aanleiding van de verbreiding van de schaal en haar interviewmethodiek naar het onderwijs (met ACTFL). |
Masters, G. 1994: Profiles and assessment. Curriculum Perspectives 14,1: 48–52. |
Kort verslag van de manier waarop Rasch is gebruikt om testresultaten en oordelen van docenten/leerkrachten te schalen om in Australië een stelsel van curriculumprofielen tot stand te brengen. |
Milanovic, M., Saville, N., Pollitt, A. and Cook, A. 1996: Developing rating scales for CASE: Theoretical concerns and analyses. In Cumming, A. and Berwick, R. Validation in language testing. Clevedon, Avon, Multimedia Matters: 15–38. |
Klassiek verslag van het gebruik van Rasch om een schaal te verfijnen die bij een spreektoets wordt gebruikt, waarbij het aantal niveaus op de schaal wordt verlaagd tot het aantal dat beoordelaars doeltreffend kunnen gebruiken. |
Mullis, I.V.S. 1981: Using the primary trait system for evaluating writing. Manuscript No. 10-W-51. Princeton N.J.: Educational Testing Service. |
Klassieke beschrijving van de primaire-karakteristiekmethodiek voor de ontwikkeling van een beoordelingsschaal bij geschreven moedertaal. |
North, B. 1993: The development of descriptors on scales of proficiency: perspectives, problems, and a possible methodology. NFLC Occasional Paper, National Foreign Language Center, Washington D.C., April 1993. |
Kritiek op de inhoud en ontwikkelingsmethodiek van traditionele taalvaardigheidsschalen. Projectvoorstel om in samenwerking met docenten/leerkrachten illustratieve descriptoren te ontwikkelen en deze te schalen met behulp van Rasch op basis van oordelen van docenten/leerkrachten. |
North, B. 1994: Scales of language proficiency: a survey of some existing systems, Strasbourg, Council of Europe CC-LANG (94) 24. |
Alomvattende studie over curriculumschalen en beoordelingsschalen die later is gebruikt als uitgangspunt voor de ontwikkeling van illustratieve descriptoren. |
North, B. 1996/2000: The development of a common framework scale of language proficiency. PhD thesis, Thames Valley University. Reprinted 2000, New York, Peter Lang. |
Bespreking van taalvaardigheidsschalen en het verband tussen schalen, competentie en taalgebruik. Gedetailleerde beschrijving van de ontwikkelingsstappen in het project dat de illustratieve descriptoren heeft opgeleverd – de problemen die men tegenkwam en de oplossingen die men vond. |
North, B. forthcoming: Scales for rating language performance in language tests: descriptive models, formulation styles and presentation formats. TOEFL Research Paper. Princeton NJ; Educational Testing Service. |
Uitvoerige analyse en historisch overzicht van de soorten beoordelingsschalen die zijn gebruikt voor spreek- en schrijfvaardigheidstoetsen: voordelen, nadelen, valkuilen, enzovoort. |
North, B. and Schneider, G. 1998: Scaling descriptors for language proficiency scales. Language Testing 15/2: 217–262. |
Overzicht van het project dat de illustratieve descriptoren heeft opgeleverd. Bespreekt de resultaten en de stabiliteit van schalen. Voorbeelden van instrumenten en producten in een bijlage. |
Pollitt, A. and Murray, N.L. 1996: What raters really pay attention to. In Milanovic, M. and Saville, N. (eds.) 1996: Performance testing, cognition and assessment. Studies in Language Testing 3. Selected papers from the 15th Language Testing Research Colloquium, Cambridge and Arnhem, 2–4 August 1993. Cambridge: University of Cambridge Local Examinations Syndicate: 74–91. |
Interessant methodologisch artikel dat de analyse van de repertoirematrix koppelt aan een eenvoudige schaaltechniek om te identificeren waarop beoordelaars zich concentreren bij verschillende vaardigheidsniveaus. |
Scarino, A. 1996: Issues in planning, describing and monitoring long-term progress in language learning. In Proceedings of the AFMLTA 10th National Languages Conference: 67–75. |
Bekritiseert het vage woordgebruik en het gebrek aan informatie over hoe goed leerders presteren in gemiddelde beschrijvingen in Britse en Australische curriculumprofielen ten behoeve van beoordelingen door docenten/leerkrachten. |
Scarino, A. 1997: Analysing the language of frameworks of outcomes for foreign language learning. In Proceedings of the AFMLTA 11th National Languages Conference: 241–258. |
Als voorgaand. |
Schneider, G and North, B. 1999: 'In anderen Sprachen kann ich' . . . Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunikationsfähigkeit. Bern/Aarau: NFP 33/SKBF (Umsetzungsbericht). |
Beknopt rapport over het project waaruit de illustratieve descriptoren zijn voortgekomen. Introduceert tevens een Zwitserse versie van de Portfolio (40 pagina's A5). |
Schneider, G and North, B. 2000: 'Dans d'autres langues, je suis capable de ' Echelles pour la description, l'évaluation et l'auto-évaluation des competences en langues étrangères. Berne/ Aarau PNR33/CSRE (rapport de valorisation). |
Als voorgaand. |
Schneider, G and North, B. 2000: Fremdsprachen können – was heisst das? Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunikationsfähigkeit. Chur/Zürich, Verlag Rüegger AG. |
Volledig rapport over het project waaruit de illustratieve descriptoren zijn voortgekomen. Met een helder hoofdstuk over schalen in het Engels. Introduceert tevens een Zwitserse versie van de Portfolio. |
Skehan, P. 1984: Issues in the testing of English for specific purposes. In: Language Testing 1/2, 202–220. |
Bekritiseert de normatieve en relatieve formulering van de ELTS-schalen. |
Shohamy, E., Gordon, C.M. and Kraemer, R. 1992: The effect of raters' background and training on the reliability of direct writing tests. Modern Language Journal 76: 27–33. |
Eenvoudige beschrijving van een elementaire kwalitatieve methode om een analytische schrijfvaardigheidsschaal te ontwerpen. Leidde tot verbluffende onderlinge betrouwbaarheid van onopgeleide niet-professionele beoordelaars. |
Smith, P. C. and Kendall, J.M. 1963: Retranslation of expectations: an approach to the construction of unambiguous anchors for rating scales. In: Journal of Applied Psychology, 47/2. |
Eerste methode waarmee descriptoren werden geschaald en niet alleen schalen werden beschreven. Baanbrekend. Zeer moeilijk te lezen. |
Stansfield C.W. and Kenyon D.M. 1996: Comparing the scaling of speaking tasks by language teachers and the ACTFL guidelines. In Cumming, A. and Berwick, R. Validation in language testing. Clevedon, Avon, Multimedia Matters: 124–153. |
Gebruik van Rasch-schalen om de rangorde te bevestigen van taken die voorkomen in de ACTFL-richtlijnen. Belangwekkende methodologische studie die inspiratie leverde voor de ontwikkeling van de illustratieve descriptoren. |
Takala, S. and F. Kaftandjieva (forthcoming). Council of Europe scales of language proficiency: A validation study. In J.C. Alderson (ed.) Case studies of the use of the Common European Framework. Council of Europe. |
Rapport over de toepassing van een verder ontwikkeld Rasch-model om zelfbeoordelingen van taal te schalen met betrekking tot aanpassingen van de illustratieve descriptoren. Context: DIALANG-project: proefprojecten voor Fins. |
Tyndall, B. and Kenyon, D. 1996: Validation of a new holistic rating scale using Rasch multifaceted analysis. In Cumming, A. and Berwick, R. Validation in language testing. Clevedon, Avon, Multimedia Matters: 9–57. |
Eenvoudige beschrijving van de validatie van een schaal voor beoordelingsgesprekken over Engels als tweede taal bij toelating tot de universiteit. Klassieke toepassing van veelzijdig Rasch-model voor identificatie van opleidingsbehoeften. |
Upshur, J. and Turner, C. 1995: Constructing rating scales for second language tests. English Language Teaching Journal 49 (1), 3–12. |
Verfijnde uitwerking van de primaire-karakteristiektechniek om grafieken van binaire beslissingen te maken. Zeer relevant voor scholen. |
Wilds, C.P. 1975: The oral interview test. In: Spolsky, B. and Jones, R. (Eds): Testing language proficiency. Washington D.C.: Center for Applied Linguistics, 29–44. |
De oorspronkelijke publicatie van de oorspronkelijke taalvaardigheidsschaal. Verdient zorgvuldig gelezen te worden om nuances te zien die sindsdien in de meeste interviewmethoden verloren zijn gegaan. |