111 samenvattingen langer dan de helft van de oorspronkelijke tekstlengte verwijderd uit de dataset (3 op T1, 0 op T2). Verder bleek dat sommige leerlingen niet volledig aan de samenvattingstaak (de laatste opdracht in de leestoets) waren toegekomen. Zij hadden slechts een halve zin of enkele losse woorden opgeschreven. Aangezien de taak hier dus eigenlijk niet was uitgevoerd, hebben we samenvattingen met minder dan tien woorden uit de dataset verwijderd (19 op T1, 7 op T2). Om de betrouwbaarheid van deze beoordeling te controleren werd een tweede codeur getraind in het beoordelen van de samenvattingen. Deze analyseerde van beide taken 30 samenvattingen (11%). De correlaties tussen scores waren zeer sterk (T1: r = .94, p < .001; T2: r = .97, p < .001). Verschillen in scores werden besproken. Deze ontstonden voornamelijk wanneer een kernelement summier of wat meer impliciet in de samenvatting was opgenomen. Overleg tussen beide codeurs leidde tot enig aanscherpen van beslisregels over het scoren van enkele kernelementen in het scoringsmodel. De eerste auteur analyseerde vervolgens de overige samenvattingen. Schrijftaak Bij beide schrijftaken schreven leerlingen informatieve teksten vanuit het perspectief van een fictief personage. Op T1 schreven leerlingen als tandarts een tekst voor een informatiefolder over het onderwerp snoepen. Op T2 werd iemand voorgesteld die als vrijwilliger zwerfafval opruimt en moesten ze uit naam van deze persoon een tekst over zwerfafval schrijven voor de plaatselijke krant. In de keuze van deze onderwerpen speelden twee criteria een rol: het onderwerp moest qua voorkennis geen problemen opleveren en moest verschillende mogelijkheden bieden om de inhoud van de tekst te structureren. Beide onderwerpen nodigen uit tot oorzaak-gevolg- en/of probleem-oplossingsstructuren. Leerlingen kregen 45 minuten de tijd om aan de schrijftaak te werken. De kwaliteit van de teksten werd holistisch beoordeeld met behulp van een doorgaande schaal met vijf ankerteksten (Bouwer et al., 2023). In bijlage E zijn de ankerteksten van schrijfopdracht 1 opgenomen. Het beoordelen van de teksten werd gedaan door twee codeurs. Zij analyseerden eerst een kwart van alle teksten waarbij op twee momenten de interbeoordelaarsbetrouwbaarheid werd bepaald. Bij de eerste set van 30 teksten was de correlatie tussen beide codeurs voldoende (r = .70, p < .001). Verschillen in scores werden besproken, waarna een tweede set van 30 teksten werd geanalyseerd. De correlatie in deze set was goed (r = .80, p < .001), waarna het werk tussen beide codeurs werd verdeeld. Voor de tweede schrijftaak werd dezelfde werkwijze toegepast en was de correlatie bij de eerste set voldoende (r = .75, p < .001) en bij de tweede set goed (r = .82, p < .001). Om een indruk te geven van de geschreven teksten is hieronder en voorbeeld van een hoog (voorbeeld 3) en een laag (voorbeeld 4) scorende tekst (schrijftaak 2) opgenomen. 112
RkJQdWJsaXNoZXIy MTk4NDMw