Begripsvoorspelling

  1. Hoe werkt begripsvoorspelling?
  2. Leesbaarheidsformules voor het Nederlands
  3. Problemen met leesbaarheidsformules
  4. Tools voor automatische begripsvoorspelling 

4. Leesbaarheidstools op de Nederlandse markt

De informatie op deze pagina is tevens gepubliceerd in het Tijdschrift voor Taalbeheersing.

Inleiding

De laatste jaren is het onderzoek naar automatische leesbaarheidsvoorspelling in binnen- en buitenland weer tot bloei gekomen. Bovendien zijn er de afgelopen jaren enkele leesbaarheidstools op de Nederlandse markt gekomen. Ons zijn drie tools bekend, gemaakt door drie verschillende organisaties:

  • Texamen van BureauTaal
  • Klinkende Taal van het taaltechnologiebedrijf Gridline
  • Accessibility Leesniveau Tool van de Stichting Accessibility

De makers van deze tools stellen allen “het taalniveau” van een tekst te kunnen vaststellen, maar hoe deze tools dat doen wordt uit de informatie op de websites van deze instellingen niet helemaal duidelijk. Texamen en Gridline combineren de inzet van de tools met een pakket aan hulp bij het verbeteren van teksten. In het verslag van dit onderzoek naar deze tools gaan we voorbij aan die aanvullende diensten. We benaderden de drie organisaties met drie vragen:

  1. Met welke tekstkenmerken werkt het programma? 
  2. Hoe wordt op basis van die kenmerken een leesbaarheidsniveau gedefinieerd?
  3. Welk onderzoek ligt er ten grondslag aan de kenmerkenkeuze en de werking van het programma?

Daarnaast leverden we aan iedere organisatie een twintigtal teksten van ca. 275 woorden, met het verzoek deze teksten te analyseren met het programma. Naast het leesniveau vroegen wij ook per tekst een overzicht te geven van de scores voor de verschillende tekstkenmerken aan de hand waarvan de niveaus zijn toegekend.

Vooraf: taalniveau en begrijpelijkheid 

Voordat we de antwoorden op onze vragen en de analyses door de tools bespreken, is het goed nader in te gaan op wat deze tools nu precies voorspellen. Met ‘taalniveau’ wordt regelmatig verwezen naar het Common European Framework of Reference (CEFR) met verschillende niveaus van taalvaardigheid. Dit framework is vastgesteld door de Raad van Europa. Deze schaal is ontwikkeld om de taalvaardigheid van mensen die een vreemde Europese taal leren te kunnen duiden. De CEFR schaal kent 6 niveaus: A1, A2, B1, B2, C1 en C2. Zo moeten in Nederland inburgeringsplichtigen sinds 2007 een taalniveau van A2 hebben. Op A2 niveau ben je als spreker van het Nederlands in staat: 

  • simpele zinnen en veelgebruikte uitdrukkingen te begrijpen; 
  • korte, simpele gesprekken te voeren over alledaagse onderwerpen zoals familie, winkelen en persoonlijke achtergrond.
Voor het begrip van geschreven taal werden de niveaus oorspronkelijk als volgt gedefinieerd:
 
Niveau
Kenmerken
C2
Can understand and interpret critically virtually all forms of the written language including abstract, structurally complex, or highly colloquial literary and non-literary writings. Can understand a wide range of long and complex texts, appreciating subtle distinctions of style and implicit as well as explicit meaning
C1
Can understand in detail lengthy, complex texts, whether or not they relate to his/her own area of speciality, provided he/she can reread difficult sections.
B2
Can read with a large degree of independence, adapting style and speed of reading to different texts and purposes, and using appropriate reference sources selectively. Has a broad active reading vocabulary, but may experience some difficulty with low frequency idioms.
B1
Can read straightforward factual texts on subjects related to his/her field and interest with a satisfactory level of comprehension.
A2
Can understand short, simple texts on familiar matters of a concrete type which consists of high frequency everyday or job-related language. / Can understand short, simple texts containing the highest frequency vocabulary, including a proportion of shared international vocabulary items.
A1
Can understand very short, simple texts a single phrase at a time, picking up familiar names, words and basic phrases and rereading as required.
Tabel 1: Officiële definities van de taalniveaus volgens het CEFR. Bron: Common European Framework of Reference for Languages: Learning, Teaching, Assessment (CEFR). http://www.coe.int/t/dg4/linguistic/CADRE_EN.asp; geraadpleegd 23-2-2011.
 
In het wetenschappelijk onderzoek naar de leesvaardigheid van moedertaalsprekers en naar de begrijpelijkheid van teksten spelen de taalniveaus tot dusver geen rol. Het is dan ook niet zo eenvoudig om uit niveaus van taalvaardigheid af te leiden welke kenmerken een tekst moet hebben voor een bepaalde lezer met een bepaald niveau. We zouden dan eigenlijk moeten weten hoe het taalniveau van een lezer samenhangt met de componenten die ten grondslag liggen aan leesvaardigheid. Dat zijn bijvoorbeeld decodeervaardigheid (technisch lezen), woordenschat, syntactische vaardigheden en redeneervaardigheid (Macaruso & Shankweiler, 2010). Ons is geen onderzoek bekend dat het taalniveau op goede gronden verbindt aan dit soort deelvaardigheden. Daarom is het nog niet goed mogelijk om te bepalen welke tekstkenmerken passen bij lezers met een bepaald niveau van leesvaardigheid. Naast deze indirecte route van taalniveau naar tekstkenmerken (via deelvaardigheden van de lezer) is ook onderzoek denkbaar naar een directe link tussen taalniveaus van lezers en tekstkenmerken die zij ‘aankunnen’. Wij kennen zulk onderzoek niet. Ook de makers van de softwareprogramma’s hebben ons niet gewezen op het bestaan van zulk onderzoek.
 
Hoe zien de programma’s eruit en waar zijn zij dan wel op gebaseerd? Wij bespreken hieronder elk programma afzonderlijk waarbij we ons baseren op de gegevens die we ontvingen van de makers van deze programma’s. Telkens bespreken we de volgende vragen:
 
  • Wat zeggen de makers zelf over het programma?
  • Met welke tekstkenmerken werkt het programma?
  • Hoe wordt op basis van die kenmerken een leesbaarheidsniveau gedefinieerd? (Op basis van welk onderzoek?) 

Tool 1: Texamen 
 

  • Eigenaar/ontwikkelaar: BureauTaal 
  • URL: http://www.texamen.nl/ 
  • Kosten voor gebruik: een jaarlicentie kost 1000 euro, daarnaast betaalt de gebruiker 1 euro per geanalyseerde tekst.
Wat zegt de ontwikkelaar zelf?

Texamen is een instrument waarmee u het taalniveau van teksten kunt: 

  • diagnosticeren (Wat is het taalniveau van de tekst?); 
  • analyseren (Welke elementen in de tekst bepalen het taalniveau?); 
  • aanpassen (Wat moet ik doen om mijn tekst op het gewenste taalniveau te krijgen?).

Texamen is dus een instrument waarmee u het taalniveau van teksten op een objectieve en efficiënte manier kunt meten. 

Welke tekstkenmerken?

Drie van de tekstkenmerken die Texamen gebruikt bij het vaststellen van het taalniveau moeten door de gebruiker zelf worden aangegeven:

  • Staat het belangrijkste vooraan?
  • Hoeveel figuurlijke uitdrukkingen komen in de tekst voor?
  • Legt de schrijver jargonwoorden uit? 

Daarnaast berekent Texamen de waardes voor de volgende kenmerken zelf:

  • Lengte van de tekst
  • Aantal kopjes
  • Gemiddelde aantal zinnen per alinea
  • Gemiddeld aantal woorden per zin
  • Gemiddeld aantal letters per woord.
  • Aantal formele uitdrukkingen
  • Aantal formele woorden
  • Aantal hoogfrequente woorden
  • Aantal laagfrequente woorden
  • Aantal passiefconstructies
  • Aantal tangconstructies (in een tangconstructie is de afstand tussen delen die bij elkaar horen, zoals het onderwerp en de persoonsvorm, erg groot)
  • Aantal pp-ketens (pp: prepositional phrase – een voorzetselgroep als “met de trein”, “op de tafel”,...)
  • Aantal nominalisaties (bijv. “werking”, “ontdekking”, ...)
  • Aantal vooropplaatsingen (bijv. “Die auto, ik wil er nooit meer in rijden.”, “In de krant, op tv, op de radio, je komt die man echt overal tegen.”) 

We zien dat er naast de kenmerken die al onderdeel waren van de klassieke leesbaarheidsformules kenmerken zijn gebruikt die iets kunnen zeggen over de grammaticale complexiteit van de tekst (passiefconstructies, tangconstructies, vooropplaatsingen en aantal pp-ketens). Nominalisaties en formele woorden vallen onder de noemer “woordmoeilijkheid”.

BureauTaal vermeldt wel dat Texamen deze kenmerken vaak herkent in de tekst aan de hand van heuristieken. Dit houdt in dat er in sommige gevallen geen harde regels zijn gebruikt die met 100% zekerheid scoren, maar dat er ervaringsregels gebruikt zijn die niet altijd (maar hopelijk vaak) tot het goede resultaat leiden. Dat is op zich niet zo verwonderlijk: taaltechnologie is niet perfect en voor bijvoorbeeld het herkennen van formele uitdrukkingen bestaan geen algoritmes.

We leverden elke maker van een programma onder andere vijf teksten aan uit roddelbladen. Als we het kenmerk “Aantal formele woorden” nader bekijken, dan valt bijvoorbeeld op dat Texamen in die teksten 7 formele woorden terugvindt, terwijl wij er zelf geen hebben kunnen vinden. Helaas gaf de output van Texamen ons alleen aantallen aan; het wees de woorden zelf niet in de tekst aan. We kunnen dus niet nagaan of wij formele woorden gemist hebben, of dat Texamen zogenaamde ‘false alarms’ voor formele woorden produceerde.

Onderzoek en definitie van het leesbaarheidsniveau 
 

BureauTaal heeft geen onderzoek gepubliceerd over de totstandkoming van Texamen. Het laat weten dat het programma niveaus heeft leren toekennen aan de hand van input door een onbekend aantal MBO-docenten. Deze MBO-docenten hebben aan 200 teksten een taalniveau toegekend. Het taalniveau van de tekst zou overeen moeten komen met een van de Europese taalniveaus.

Tekstkenmerken werden gekozen “op basis van intuïtie, onderbuikgevoel en ervaring als tekstschrijvers: zeg maar ‘best practice’”. Verder moesten de kenmerken uit te drukken zijn in een getal en makkelijk te herkennen zijn aan de hand van heuristieken. De verschillende tekstkenmerken zijn vervolgens door middel van een neuraal netwerk (een classificatiemethode uit de Kunstmatige Intelligentie) aan deze taalniveaus gekoppeld. Volgens BureauTaal is bij Texamen “de leesbaarheid van een tekst een afgeleide van het taalniveau dat het programma toekent aan een tekst”. Hoe leesbaar de tekst is, hangt af van het taalbeheersingsniveau van de lezer. BureauTaal adviseert gebruikers van Texamen die een groot publiek willen bereiken “om op taalniveau B1 te schrijven”.

Het is lastig om op deze basis het programma te beoordelen. Het is onbekend in hoeverre de 200 experts het met elkaar eens waren wat betreft de toekenning van de taalniveaus. Verder weten we niet in hoeverre de experts de begripsprestaties van echte lezers goed voorspellen. We kunnen hierdoor helaas niets zeggen over de prestaties van het programma. Een andere onduidelijkheid betreft de link tussen de CEFR-taalniveaus en de daarbij passende tekstkenmerken; daarover schreven we hierboven al.

Biedt Texamen nieuwe oplossingen voor de problemen met klassieke leesbaarheidsformules? Het biedt een zekere vooruitgang wat betreft het introduceren van relevantere tekstkenmerken. Wat diagnostiek betreft geeft de interface een grove indicatie van het aantal laagfrequente en formele woorden, de hoeveelheid abstract taalgebruik, het aantal “ingewikkelde zinnen” (waarschijnlijk zinnen met lange tangconstructies) en de hoeveelheid figuurlijk taalgebruik in de tekst. Het lijkt zinniger een tekst te reviseren op deze kenmerken dan op woord- en zinslengte (zoals de oude leesbaarheidsformules doen). Maar er zijn natuurlijk nog veel meer factoren die een tekst moeilijker of makkelijker te begrijpen maken. En we weten ook bij de meeste kenmerken niet hoe nauwkeurig de heuristiek is.

Voor de overige kritiekpunten biedt Texamen geen oplossingen. De interactie tussen de lezer en de tekst blijft afgezien van het taalniveau nog buiten beeld. Zouden alle lezers op een bepaald taalniveau evenveel moeite hebben met exact dezelfde teksten? Texamen lijkt dit wel te suggereren, omdat alle lezers die op taalniveau B1 of hoger zitten een tekst met het Texamen label “B1” zonder problemen zouden moeten kunnen begrijpen. En er wordt dus nog steeds met gemiddelde data voor groepen lezers gewerkt. Dit betekent dat de voorspellende waarde voor specifieke lezers uit die groep B1 veel geringer is. Verder krijgen teksten nog steeds één niveau (een gemiddeld niveau dus) toegekend, en komen we weinig te weten over de locatie van ingewikkelde passages in de tekst zelf of over de mate waarin de moeilijkheid binnen de tekst zelf varieert. De ene passage kan immers moeilijker zijn dan de andere.

We weten verder weinig over de 200 teksten die gebruikt zijn bij de totstandkoming van Texamen. Om welk genre gaat het? Er wordt geen voorbehoud gemaakt wat betreft de verschillende typen teksten waarvoor Texamen voorspellingen doet. Idealiter vormen de 200 teksten een goede afspiegeling van de totale diversiteit aan tekstgenres; het is bijvoorbeeld maar de vraag in hoeverre een programma dat getraind is op krantenartikelen in staat is voorspellingen te maken voor juridische teksten.

Op één punt is Texamen een verslechtering ten opzichte van de klassieke leesbaarheidsformules. De oude formules werden ontwikkeld en getoetst aan de hand van leesonderzoek met echte lezers. Bij Texamen waren het experts en aanbieders van leesmateriaal (de opdrachtgever) die bepaalden of een lezer een tekst al dan niet zou moeten begrijpen. We kunnen daarom niet meer spreken van ‘begripsvoorspelling’. De relatie tussen tool en het begripsniveau van een lezer is indirecter. Het programma levert een voorspelling van een begripsvoorspelling: de begripsvoorspelling die besloten ligt in het oordeel van de experts die met de 200 teksten gewerkt hebben. Over de waarde van zo’n diagnose voor de schrijfhulp die Bureau Taal biedt, kunnen wij geen uitspraak doen.

Tool 2: Klinkende Taal 
 

  • Eigenaar/ontwikkelaar: Gridline
  • URL: http://www.klinkendetaal.nl/ 
  • Kosten: de kosten van een licentie zijn afhankelijk van het aantal werknemers van de afnemende instelling; vanaf €3000 per jaar. Daarnaast zijn er eenmalige opstartkosten voor installatie en optionele kosten voor hosting en applicatiebeheer. Per geanalyseerde tekst wordt geen extra bedrag gevraagd.

De meting met het instrument wordt niet afzonderlijk geleverd, hoewel een eenmalige scan op een hoeveelheid teksten wel tot de mogelijkheden behoort. Gridline ziet het instrument uitdrukkelijk als een hulpmiddel bij het revisieproces. Het instrument is bedoeld als aanvulling op het aanbod van bureaus die schrijftrainingen en coaching verzorgen. Gridline biedt zelf dergelijke trainingen niet aan, afgezien van een introductie in het instrument. 

Wat zegt de ontwikkelaar zelf?
 

Klinkende Taal helpt u duidelijke teksten te schrijven. Onze producten controleren uw brieven, brochures en webteksten snel en effectief op leesbaarheid. Onze Word Plugin meet het taalniveau (A1 t/m C2). Bovendien worden alle moeilijke zinnen, woorden en passages duidelijk voor u aangestreept. Zo kunt u makkelijk en snel het gewenste taalniveau bereiken.

Lange zinnen, moeilijke woorden, passieve constructies? U vindt ze makkelijk, verbetert wat u wilt verbeteren, en komt zo tot een beter leesbare tekst. Zodat er meer tijd overblijft voor de inhoud.

Welke tekstkenmerken?
 

Klinkende Taal test het taalniveau op de volgende kernmerken en markeert passages op die punten: 

  • Dure woorden
  • Vaktermen
  • Lange zinnen
  • Ingewikkelde zinnen
  • Passieve zinnen
  • Lange alinea’s
  • Gemiddeld aantal bijzinnen per zin
  • Gemiddeld aantal woorden per zin en per alinea

Klinkende Taal brengt bovendien markeringen aan in de tekst voor enkele kenmerken die niet meetellen bij de beoordeling van het taalniveau:

  • Opsommingen
  • Uitdrukkingen
  • Hulpwerkwoorden
  • Aanspreekvormen (jij, men, etc.)
  • Lange bijzinnen aan het begin van de zin
  • Ontbrekende tussenkopjes
  • Lexicale samenhang
  • Lange woorden
  • Dubbele ontkenningen
  • Naamwoordstijl
  • Tangconstructies
  • Abstracte woordkeuze

We weten niet hoe nauwkeurig Klinkende Taal is in het extraheren van deze tekstkenmerken. We ontvingen van slechts 1 van de 20 ingezonden teksten een volledige output met enkele markeringen, en van een andere tekst een onvolledige output. Ter illustratie laten we de eerste tekst hieronder volgen. 

 Figuur 1. Screenshot van de analyse met Klinkende Taal.

In deze tekst zijn “huurovereenkomst” en “dient” dure woorden. Maar bijvoorbeeld “incasso”, “machtigingskaart”, “postbankrekening”, “acceptgiro”, “stornomededeling” en “storneren” niet. Mogelijk gaat het hier om vaktermen die de gebruiker zelf als zodanig dient op te geven bij de ontwikkelaar. Hiervoor stelt Klinkende Taal een speciale beheertool beschikbaar.

Wanneer of waarom een zin te lang is, is niet duidelijk. De makers van het instrument zeggen in een toelichting dat de beoordeling afhangt van het soort woorden in de zin: hoe meer korte woorden (6 letters of minder), hoe langer de toegelaten zinslengte. Dit beloont het omzetten van moeilijke naar makkelijke woorden. 

Over de andere 18 teksten werd geen extra informatie verstrekt; we ontvingen alleen het toegekende taalniveau. Het aantal teksten met zo’n analyse op kenmerken dat ons toegestuurd werd, is te laag om conclusies aan te verbinden. Het illustreert wel dat de tekstkenmerken door Klinkende Taal niet helemaal foutloos geëxtraheerd worden. Het is overigens niet reëel van taaltechnologie te verwachten dat de opsporing van probleempassages perfect gaat. Een kenmerk als “dure woorden” zal gebaseerd zijn op een lijst die door de ontwikkelaars mogelijk samen met gebruikers moet worden opgesteld. Daar zullen altijd woorden op blijven ontbreken. 

Onderzoek en definitie van het leesbaarheidsniveau 

Gridline heeft geen onderzoek gepubliceerd over de totstandkoming van Klinkende Taal, en evenmin over de nauwkeurigheid waarmee het programma taalniveaus voorspelt. We kunnen hierdoor helaas niets zeggen over de prestaties van de tool.

Gridline stelt dat zij weliswaar geen wetenschappelijk onderzoek doen, maar wel ervaring opgedaan hebben met het gebruik van het programma door partners en klanten. Deze gebruikers komen met opmerkingen aan de hand waarvan Gridline vervolgens het programma kan aanpassen. Voor Gridline is dit erg nuttig en waardevol.

Over de toekenning van taalniveaus aan teksten meldt Gridline dat die “in de praktijk heel goed blijkt te werken”. Bij de ontwikkeling van het programma is de hulp ingeroepen van communicatie-experts, die ervaring hebben als trainer. Teksten van cursisten werden gebruikt als trainingsmateriaal. Klinkende Taal geeft volgens Gridline in 95% van de gevallen hetzelfde oordeel als de communicatie-expert. De cursisten zouden meer waarde hechten aan het oordeel van Klinkende Taal, dan aan het oordeel van de expert. Gridline erkent dat deze praktijkervaringen geen wetenschappelijke data vormen, maar vindt dat zij een acceptabel startpunt vormen voor het product, aangezien er op dit moment geen alternatief is.

Klinkende Taal is net als Texamen niet gebaseerd op onderzoek bij lezers. In feite is Klinkende Taal een programma dat het oordeel van experts over leesbaarheid probeert te voorspellen. Hierbij richt het programma zich op de vormkenmerken van de tekst. Om die reden kunnen we dan ook niet echt spreken van ‘begripsvoorspelling’. De relatie tussen voorspelling en het begripsniveau van een lezer is indirecter. Het programma levert een voorspelling van een begripsvoorspelling: de begripsvoorspelling die besloten ligt in het oordeel van de expert. Over de waarde van dergelijke diagnoses voor de schrijfpraktijk kunnen we in dit rapport geen uitspraak doen. Een verschil met Texamen is de presentatie van de output. Bij Klinkende Taal vindt de gebruiker markeringen in de tekst die wijzen op revisiemogelijkheden. Bij Texamen ontvangt de gebruiker scores op verschillende variabelen, die echter niet direct naar concrete passage verwijzen.

Tool 3: Accessibility Leesniveau Tool 
 

Wat zegt de ontwikkelaar zelf?

De Accessibility Leesniveau Tool is een programma dat, op basis van een ingevoerde tekst, een indicatie geeft van het niveau van de technische leesbaarheid van de tekst. Buiten de technische leesbaarheid zijn ook de inhoud van de tekst, de structuur van de tekst en het design van de tekst van belang voor de totale leesbaarheid. Deze punten zijn echter niet met dit programma vast te stellen. Het programma geeft dan ook geen enkele garantie over het precieze leesniveau, maar moet puur indicatief gebruikt worden!

Welke tekstkenmerken?

Volgens de Stichting Accessibility baseert de Leesniveau Tool zijn oordeel op o.a. de volgende kenmerken:

  • Berekeningen van aantallen woorden uit een vijftal verschillende lijsten ten opzichte van het totaal.
  • Het aantal woorden per zin
  • Het aantal lettergrepen per woord

In totaal werkt het programma op dit moment met vijf criteria waarbij de woordenlijsten de doorslag geven.

De gebruiker geeft verder zelf aan hoeveel namen er in de tekst staan.

Alle kenmerken zijn kenmerken op woordniveau; de zinsopbouw wordt niet gemeten. Deze kenmerken zijn simpel, zonder verdere taaltechnologische middelen, uit de tekst te extraheren. Alle kenmerken zijn kenmerken die al werden gebruikt in de klassieke leesbaarheidsformules uit de vorige eeuw. De kritiek op het gebruik van zulke formules is dus ook op dit instrument van toepassing. Kenmerken als woord- en zinslengte hebben bovendien geen diagnostische waarde: een tekst reviseren door de zinnen in tweeën te knippen en voor kortere woorden te kiezen leidt niet tot een beter leesbare tekst.

Wel moeten we erbij zeggen dat de Accessibility Leesniveau Tool de gebruiker geen informatie over de waardes van tekstkenmerken toont. Texamen en Klinkende Taal doen dit met het oog op tekstrevisie wel. Stichting Accessibility is bescheiden in wat het programma kan: het gaat om een indicatie van het niveau van technische leesbaarheid. Over de leesbaarheid van teksten in ruimere zin doet het programma geen uitspraak, omdat o.a. inhoud en structuur niet meegenomen worden. Stichting Accessibility benadrukt in een reactie dat het programma geen garantie geeft over het leesniveau, maar puur indicatief gebruik dient te worden. 

Onderzoek en definitie van het leesbaarheidsniveau  

Stichting Accessibility meldt dat het programma in overleg met Stichting Lezen en Schrijven is getest door Eenvoudig Communiceren. Zij hebben tientallen teksten per niveau aangeleverd. De gewichten van de kenmerken zijn vervolgens aangepast om de voorspelling van het programma overeen te laten komen met de niveaus zoals aangegeven door Eenvoudig Communiceren.

Verdere details ontbreken. Het is mogelijk dat er bij het ontwikkelen van het programma sprake is van wat ook wel overfitting wordt genoemd: het programma lijkt zo sterk getraind op één specifieke dataset dat ook de ruis in deze dataset door het programma gemodelleerd wordt.

Voor zover bekend is er geen onderzoek verricht bij de ontwikkeling van het programma. Stichting Accessibility meldt dat de lezer geen rol had in het ontwikkelingsproces. Er is ons geen validatie onderzoek bekend, het programma lijkt dusdanig gekalibreerd dat de oordelen van experts van Eenvoudig Communiceren op een set teksten voorspeld konden worden,

De Accessibility Leesniveau Tool lijkt van de drie besproken tools het meest op de klassieke leesbaarheidsformules, omdat het rust op dezelfde soort tekstkenmerken. Net als Klinkende Taal en Texamen zijn er geen lezers direct betrokken bij het ontwikkelingsproces noch bij de validatie ervan. Daarmee wordt er nog meer dan bij de klassieke leesbaarheidsformules voorbijgegaan aan het feit dat lezen een interactie is tussen een lezer en tekst. Wat de overige kritiekpunten op leesbaarheidsformules betreft lijkt de Accessibility Leesniveautool evenmin dichterbij een oplossing te zijn gekomen.

De ontwikkelaars hebben met hun tool echter weinig pretenties: het moet gezien worden als een grof schattingsmiddel van het technisch leesniveau van de tekst.

Vergelijking van de tools

Het is onmogelijk uitspraken te doen over de betrouwbaarheid van de tools wanneer een validatie-onderzoek niet uitgevoerd of niet gepubliceerd is. Een dergelijk validatie-experiment is erg tijdrovend en vraagt bovendien onbeperkte toegang tot de tools. Die toegang is ons niet geboden. Hieronder rapporteren wij over een iets bescheidener analyse van de tools.

Wij hebben een beperkt aantal teksten – geanalyseerd door de drie tools – vergeleken op de resultaten. We hebben vier soorten teksten van rond de 270 woorden gebruikt:

  • Vijf van onze teksten zijn afkomstig van een woningbouwvereniging en zijn gericht aan huurders.
  • Vijf van onze teksten zijn krantenberichten over uiteenlopende binnenlandse onderwerpen.
  • Vijf van onze teksten zijn fragmenten uit polisvoorwaarden van verzekeringen.
  • De laatste vijf teksten zijn afkomstig uit de roddelrubriek van een landelijk dagblad.

De bedoeling was een zekere spreiding in zowel onderwerp als complexiteit in de verzameling te brengen.

De leesniveaus van deze teksten zoals bepaald door de drie tools vindt u terug in Tabel 2 hieronder. Van één tekst ontbrak bij Texamen het resultaat.

Tekst
Texamen
Klinkende Taal
Accessibility Leesniveau Tool
huur1
C1
C1
B2
huur2
C1
C2
C2
huur3
C1
C1
B2
huur4
B2
B2
B1/B2
huur5
C1
C1
B2
krant1
C1
C1
B2
krant2
C1
B2
B2
krant3
C1
C1
B2/C1
krant4
C1
B2
C1
krant5
C1
C1
C1
polis1
C1
C2
C2
polis2
C1
C2
C2
polis3
C1
C2
C2
polis4
 
B2
B1/B2
polis5
C1
B2
B2
roddel1
B2
B2
B2
roddel2
B1
B2
B1/B2
roddel3
C1
C1
B2/C1
roddel4
B2
B2
B2
roddel5
B1
B2
B2
Tabel 2: Gemiddelde taalniveaus en standaarddeviaties


Deze test laat een significant verschil zien tussen de hoogte van de taalniveaus toegekend door Accessibility en Klinkende Taal: Accessibility kent een significant lagere score toe (Z = 2.04; p < .05). Ten tweede zijn onderlinge rangorde correlaties (Spearmans rho) berekend voor de tools. Het is immers mogelijk dat ook al verschillen de toegekende niveaus per tool, elke tool uiteindelijk dezelfde rangorde toekent aan onze verzameling teksten. De correlaties zijn te vinden in Tabel 3. Hoewel ze allemaal significant zijn op 1%-niveau (p < .01), blijft er heel wat variantie tussen de tools bestaan, met name tussen Texamen en de twee andere tools. Ter vergelijking: een correlatie van .64 op intervaldata zou 41% van de variantie verklaren.

 
Texamen
Klinkende Taal
Accessibility
Texamen
-
.64
.60
Klinkende Taal
 
-
.75
Accessibility
 
 
-
Tabel 3: Rangordecorrelaties tussen de taalniveaus toegekend door de drie tools


Ten slotte hebben zijn we nagegaan of de toegekende taalniveaus correleren met een aantal tekstkenmerken waarvan op basis van de literatuur bekend is dat ze begripsprestaties helpen voorspellen (zie voor een overzicht Kraf & Pander Maat (2009)): 

  • Proportie frequente woorden 
    Deze maat drukt uit hoeveel woorden uit de tekst voorkomen in een lijst meest frequente woorden. Wij gebruikten een frequentielijst die we zelf bouwden aan de hand van een verzameling teksten uit het D-COI corpus. Dit corpus bevat ongeveer 25 miljoen woorden uit o.a. krantenteksten, tijdschriften, Wikipedia en teletekstpagina’s. We vormden daaruit frequentielijsten waarop alleen de meest frequente woorden uit het corpus. Daarbij hebben we twee lijsten uitgeprobeerd. Om te beginnen een lijst waarop de meest frequente woorden voorkomen die samen 50% van het totaal aantal woorden (woordtokens) in het corpus vormen. Daarnaast een soortgelijke lijst met daarop de meest frequente woorden die samen 77% van de woordtokens in het corpus voor hun rekening nemen. Op die eerste lijst komen minder woorden voor dan op de tweede. De eerste lijst telt woorden met een vrij hoge frequentie, de tweede lijst legt eigenlijk het frequentieplafond iets hoger. Voor beide lijsten berekenden we per tekst hoeveel procent van de tekstwoorden gedekt wordt door de lijst. We verwachten voor beide lijsten dat hoe hoger de dekking, hoe eenvoudiger de tekst en dus lager het taalniveau. 
  • TTR: de type-token ratio, eveneens aanwezig in de CLIB formule 
    Deze wordt berekend door het aantal unieke woorden (types) in de tekst te delen op het totale aantal woorden (tokens). Hoe lager deze waarde, des te meer unieke woorden voorkomen in de tekst en des te minder woorden herhaald worden. We verwachten daardoor wederom een negatieve correlatie. TTR zegt dus iets over woordgebruik, maar kan ook gezien worden als een grove maat voor informatiedichtheid. 
  • De gemiddelde afstand tussen onderwerp en de persoonsvorm in de tekst. 
    In het verleden is door bijv. Gibson (1998) aangetoond dat deze afstand (ook wel afhankelijkheidslengte genoemd) een grotere invloed heeft op de complexiteit van de zin dan de lengte van de gehele zin. Deze waarde werd automatisch berekend met behulp van de automatische zinsontleder Alpino (link). Hoewel erg nauwkeurig maakt deze ontleder altijd nog twee maal zoveel fouten als een menselijk expert: de berekende waarde voor dit kenmerk zou daarom kunnen afwijken van de werkelijke waarde. We verwachten een positieve correlatie tussen de tools en dit kenmerk: langere afstanden maken een tekst complexer en horen dus bij een hoger taalniveau. 
  • De gemiddelde afstand tussen lijdend voorwerp en de persoonsvorm in de tekst.
    Ook hier verwachten we een positieve correlatie met de tools.

Tabel 4 geeft informatie over de scores op deze vijf maten van de twintig gebruikte teksten. Hier is dus nog geen vergelijking met de tools aan de orde. De tabel laat zien hoe groot de spreiding is op deze scores in het corpus van die twintig teksten. We zien dat er meer spreiding is tussen de teksten wat betreft de afstand tussen object en persoonsvorm dan wat betreft de afstand tussen subject en persoonsvorm. Dat kan kloppen, omdat in langere zinnen vooral de eerste afstand toeneemt.

 
N
Minimum
Maximum
Gemiddelde
Std. Deviatie
50%-dekking
20
.36
.47
.42
.028
77%-dekking
20
.56
.68
.62
.038
TTR
20
.44
.64
.55
.059
Afstand subject – pv
20
1.48
4.58
2.86
.95
Afstand object – pv
20
.40
7.89
3.76
2.06
Tabel 4. Descriptieve gegevens over vijf tekstkenmerken
 
De volgende stap is een vergelijking tussen deze scores en de uitkomsten van de drie tools. We gaan na
hoog de correlatie is tussen de scores van de tools en elk van de bovengenoemde maten.
 
 
50%-dekking
77%-dekking
TTR
Subject-pv
Object-pv
Texamen
.066
-.051
-.549*
.379
.466*
Klinkende Taal
.298
-.153
-.406
.426
.542*
Accessibility
.122
-.436
-.241
.460*
.644**
Tabel 5. Rangordecorrelaties tussen de taalniveaus per tool en de vijf tekstkenmerken
(* = p < .05; ** = p < .01)
 

Welke conclusies kunnen we trekken uit deze berekening?

Woordmoeilijkheid: Het valt op dat Texamen en Klinkende Taal weinig verband laten zien met de proportie frequente woorden in de tekst. Dat is opmerkelijk, omdat in onderzoek woordfrequentie de meest robuuste predictor van begripsprestaties is (Kraf en Pander Maat 2009). Bovendien hebben beide tools veel aandacht voor het woordniveau. Beslissend is natuurlijk hoe een tool dure woorden of vaktermen definieert, en die definities kennen wij niet.

Accessibility is enigszins gevoelig voor frequentie. Dat zou je ook mogen verwachten, aangezien dit programma hoofdzakelijk met frequentiematen werkt.

Informatiedichtheid: De scores van Texamen correleren redelijk met de type-token-ratio van de geanalyseerde teksten. Dat is opmerkelijk, omdat de makers daar zelf weinig over zeggen. Klinkende Taal laat een minder duidelijke samenhang zien met deze score.

Zinscomplexiteit: Alle drie de tools correleren redelijk met de beide afhankelijkheidslengtes, vooral die tussen persoonsvorm en lijdend voorwerp. Waarschijnlijk komt dit doordat alle tools de zinslengte als tekstkenmerk gebruiken.

Conclusie

Voor het Nederlands zijn op dit moment drie tools op de markt. Deze tools plaatsen een tekst op een schaal met zes taalniveaus. Deze niveau-indeling is ontwikkeld als indicatie van de taalvaardigheid van mensen die een vreemde taal leren. In de verzameling aangeboden teksten kwamen slechts vier van die niveaus tevoorschijn. Blijkbaar zijn de eenvoudige tekstjes uit de roddelrubriek van een landelijk dagblad te moeilijk voor die laagste niveaus. Er is geen onderzoek bekend waar uit blijkt dat er echt een verband is tussen dit Europees raamwerk voor taalvaardigheid en kenmerken van teksten. De makers van de tools hebben ons ook niet gewezen op eigen onderzoek waaruit wel een relatie blijkt tussen begripsprestaties van volwassen Nederlanders enerzijds en de scores van hun tools anderzijds. Er ontbreekt dus een empirische basis voor de claim dat zo’n instrument de leesbaarheid of begrijpelijkheid van een tekst zou kunnen voorspellen.
 
Voor zover de tools zijn geijkt, is dat gebeurd door de voorspellingen te vergelijken met die van experts. Het blijft daardoor onduidelijk voor welke teksten en wat voor lezers deze tools de begrijpelijkheid voorspellen. We kunnen daarom niets zeggen over hun betrouwbaarheid.
 
Dankzij de medewerking van de makers konden we voor twintig teksten in beperkte mate nagaan wat de scores dan wel zouden kunnen betekenen. Een klein experiment waarbij we de uitkomsten van de tools op deze tekstjes met elkaar vergelijken, laat zien dat de tools het niet met elkaar eens zijn over het taalniveau van teksten. We mogen voorzichtig aannemen dat ook de experts van wie de oordelen in de tools gemodelleerd werden, van mening zouden verschillen over de begrijpelijkheid.
 
Een vergelijking van de scores met een analyse op een beperkt aantal algemeen aanvaarde factoren die de begrijpelijkheid van teksten beïnvloeden leidt tot een volgende conclusie. Texamen en Klinkende Taal zijn niet erg goed in het voorspellen van woordmoeilijkheid: er is nauwelijks een relatie met de scores op woordfrequentie. Dit betekent dat die programma’s niet erg goed onderscheid kunnen maken tussen meer en minder bekende woorden. Meer samenhang is er met de scores op zinsmoeilijkheid en informatiedichtheid.
 
Voor zowel Bureau Taal als voor Klinkende Taal geldt dat deze instrumenten ingezet worden in een context van training en schrijfhulp. In onze analyse blijft die toepassing buiten beschouwing. Het is goed denkbaar dat cursisten de feedback waarderen die met deze instrumenten geleverd wordt. Het is ook denkbaar dat zij beter gaan schrijven wanneer ze van die feedback goed gebruik maken. Maar wanneer diezelfde cursisten menen dat een tekst met de score B2 door de meeste Nederlanders begrepen zal worden, hebben zij een verkeerde voorstelling van zaken. Er is namelijk geen onderzoek dat de Europese taalniveaus definieert in termen van tekstbegrip. De vraag of zo’n definitie überhaupt mogelijk is, staat nog open. Hoe dan ook, de grenzen tussen de niveaus worden op dit moment gebaseerd op de intuïties van enkele experts. Daarom is er een reële kans dat een ander instrument op een ander niveau uitkomt. 

Literatuur

  • Gibson, E. & N. Pearlmutter (1998). Constraints on sentence comprehension. Trends in Cognitive Sciences 2 (7), 262-268.
  • Kraf, R. & H. Pander Maat (2009). Leesbaarheidsonderzoek: oude problemen, nieuwe kansen. Tijdschrift voor Taalbeheersing 31 (2), 97-123.
  • Macaruso, P. & D. Shankweiler (2010). Expanding the simple view of reading in accounting for reading skills in community college students. Reading Psychology 31, 454-471. 

← Ga terug