
doi: 10.17585/njlr.v2.230
handle: 11250/2389413
Tillförlitlighet i bedömning är en avgörande komponent i varje testprogram där testtagares resultat bygger på bedömares tolkningar utifrån en bedömningsskala eller en bedömningsguide. Utförliga svar på öppna uppgifter bedöms exempelvis sällan som antingen ”rätt” eller ”fel”. Istället tillämpas skalan eller bedömningsguiden för att fastställa i vilken utsträckning svaret uppvisar den efterfrågade kompetensen. I den här artikeln redovisas resultat från en studie av bedömarreliabilitet på öppna uppgifter i det nationella provets i svenska läsförståelsedel i årskurs nio. För att undersöka i vad mån provsystemet skapar förutsättningar för god bedömarreliabilitet har sex lärare fått bedöma tre elevers lösningar av 14 öppna uppgifter, totalt 252 bedömningar. Analyserna innefattar konsensusestimat (procentuell samstämmighet och Cohens kappa) och konsistensestimat (ICC). Dessutom har kvalitativa analyser genomförts på uppgiftsnivå för att undersöka orsaker till låg bedömarreliabilitet för specifika uppgifter. Resultaten från studien visar på moderata nivåer av bedömarreliabilitet, både ifråga om kappavärden (.73) och ICC (.82), vilket motsvarar en variation mellan bedömningarna som får stora konsekvenser för elevernas slutgiltiga provresultat. I artikeln diskuterar vi resultatens implikationer för rättvis bedömning av elevers läsförmåga i Sverige. Vi för också ett resonemang om olika sätt att stärka bedömarreliabiliteten det nationella provet i läsförståelse. English abstract Consistency in Teachers' Assessments of National Tests in Literacy Inter-rater reliability is a critical component in any test program where test-takers’ responses are judged by human raters using scales or scoring rubrics. Lengthy responses to open-ended test items are, for instance, rarely judged objectively as either “correct” or “incorrect”. Rather, rubrics are used to determine the extent to which a particular item response displays the expected competence. This paper reports a study of inter-rater reliability in teachers’ assessment of open-ended items in the Swedish national reading test for 9th grade. In order to explore whether the test design supports reliable assessment, six experienced teachers of Swedish were asked to rate the responses of three students on 14 items, 252 ratings in all. Analyses included consensus estimates (percent agreement and Cohen’s kappa) and consistency estimates (ICC). In addition, qualitative item analyses were performed in order to investigate possible causes of low reliability for specific items. Findings indicate moderate levels of inter-rater reliability according to both kappa (.73) and ICC (.82) values, equaling a variation of ratings with large consequences for the students’ final results. Implications for equal assessment of students’ reading ability in Sweden are discussed, as well as some suggestions for necessary future development of the national reading test.
Language. Linguistic theory. Comparative grammar, P101-410, reliability, bedömning; interbedömarreliabilitet; läsning; nationella prov; reliabilitet, bedömning, assessment, Didactics, Education (General), läsning, Didaktik, reliabilitet, nationella prov, inter-rater reliability, reading, interbedömarreliabilitet, L7-991, national test
Language. Linguistic theory. Comparative grammar, P101-410, reliability, bedömning; interbedömarreliabilitet; läsning; nationella prov; reliabilitet, bedömning, assessment, Didactics, Education (General), läsning, Didaktik, reliabilitet, nationella prov, inter-rater reliability, reading, interbedömarreliabilitet, L7-991, national test
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
