Oppgrader til nyeste versjon av Internet eksplorer for best mulig visning av siden. Klikk her for for å skjule denne meldingen
Ikke pålogget
{{session.user.firstName}} {{session.user.lastName}}
Du har tilgang til Idunn gjennom , & {{sessionPartyGroup.name}}

Om vurdering av essaybesvarelser i høyere utdanning – en studie av vurderer-reliabilitet

Høgskolelektor på Høgskolen i Østfold

En analyse av vurderer-reliabiliteten når det gjaldt å karaktersette studenters innleverte essays, avdekket forskjeller mellom de to sensorene som oversteg to trinn på en sekstrinnsskala. For videre analyse ble det valgt ut et begrenset antall av de vurderte essaybesvarelsene. Fem sensorer som alle inngikk i det lokale sensorkorpset for vurdering av slike oppgaver ble trukket ut og bedt om å vurdere de utvalgte essaybesvarelsene og redegjøre for den prosedyre som ble fulgt når de satte karakter. Deres bruk av definerte og spesifiserte vurderingskriterier ble gjort til hovedsak ved rapporteringen. For essaybesvarelser der det i utgangspunktet var stor forskjell mellom de opprinnelige sensorene, viste også de nye vurderingene store forskjeller mellom sensorene. For besvarelser der det opprinnelig var høy grad av enighet mellom sensorene, viste også de nye vurderingene at det var stor enighet mellom sensorene. Sensorenes kommentarer indikerer at til tross for at eksplisitte kriterier var tilgjengelig, ble ikke disse anvendt i særlig grad. I stedet kunne vi identifisere et holistisk utgangspunkt med subjektive og tause kriterier som basis for vurderingen.

Nøkkelord: Higher Education; Inter-rater reliability; Essays

Innledning

Ved en regulær eksamen bestemte jeg meg for å foreta en begrenset studie av vurderer-reliabilitet. Studiet ble gjennomført ved en høgskole og dekket en hovedeksamen i et bachelorprogram. Eksamenen avsluttet det første året i programmet. Essaybesvarelser ble skrevet som individuell hjemmeeksamen over en uke, og det er disse anonyme besvarelsene som er blitt vurdert. Sensorpar (en intern og en ekstern) vurderte først besvarelsene uavhengig av hverandre, for deretter å enes om en felles karakter i sensormøte. Det ble ikke brukt moderator eller øvrige sensorer.

Hensikten med studiet var å bestemme graden av enighet mellom sensorer når de vurderer essaybesvarelser. Det er ingen vanlig prosedyre å innhente ulike sensorers karakterforslag i forkant av sensormøtet. I denne studien godtok samtlige sensorer at vi fikk tilgang til de foreslåtte karakterene før samsensureringen. Samtlige sensorer hadde betydelig erfaring med å vurdere lignende eksamensbesvarelser.

Resultatene var etter min mening ikke akseptable, og jeg ønsket derfor å utvide undersøkelsen ved å undersøke reliabiliteten mellom nye sensorer fra det samme sensorkorpset i håp om å avdekke noen grunner til den lave graden av samsvar mellom karakterforslagene.

Den foreliggende studien er direkte inspirert av Arild Raaheims studie av sensorreliabiliteten ved vurdering av karakterene på et introduksjonskurs i psykologi (Raaheim, 2000). Opprinnelig ble disse besvarelsene vurdert av syv sensorer. I 45 % av tilfellene var det en differanse på 10 tideler eller mer mellom sensorene. Ser vi på differansen mellom endelig og foreslått karakter, var denne inkonsistent for 7 av 50 studentbesvarelser. En student som fikk 2,8 kunne ha fått en hvilken som helst karakter mellom 2,5 og 3,9. En annen student som nesten strøk, kunne ha fått en meget god karakter (2,4) eller strøket. En tredje student som strøk kunne ha fått en meget god karakter (2,5). Disse syv besvarelsene ble videresendt til fire nye sensorer som fikk oppgitt den opprinnelige karakteren. Selv når disse sensorene vurderte besvarelsene, avvek karakterene fra hverandre med mer enn 10 tideler for tre av studentene. En av studentene som ble strøket av en av de nye sensorene, fikk 2,7 av en annen sensor.

Om undersøkelsen

Som kjent har vurderingssystemet når det gjelder høyere utdanning her i Norge inntil nylig kunnet karakteriseres ved to hovedelementer: 1) bruken av eksterne sensorer var det vanlige ved alle eksamener og deleksamener, og 2) en karakterskala med mange trinn (totalt 61 trinn, 41 trinn for bestått). I det minste ble studentens besvarelse vurdert av to sensorer som foreslo en karakter uavhengig av hverandre, for så å møtes og sette en endelig karakter. I dag er ikke kravet om bruk av ekstern sensor like påkrevet. Universitets- og høgskoleloven krever ikke bruk av ekstern sensor for lavere grads utdanning. I § 3-9 sier loven at ekstern sensor skal brukes ved evaluering av vurderinger eller vurderingsordninger. Ekstern sensor trer inn ved klagebehandling (KD, 2005,§ 3-9). Imidlertid har den foreliggende høgskolen et krav om at minimum ett studieemne per år skal ha ekstern i tillegg til intern sensor. I 2003 fikk vi også en ny karakterskala med seks trinn (A–F) (Kvalitetsreformen, 2001). Studiene ved våre universiteter og høgskoler er i tråd med Bolognaprosessen i større og større grad blitt modularisert eller også delt opp i ulike emner.

Området for denne undersøkelsen er en bachelorutdanning der det vanligvis brukes en ekstern og en intern sensor. Dersom disse sensorene ikke blir enige om en felles karakter, koples gjerne en tredje sensor inn. Tatt i betraktning at antall eksamener har økt som en konsekvens av modularisering og emneinndelinger samt at studentene i større grad enn tidligere blir avkrevd ulike typer innleveringsoppgaver som det skal gis tilbakemelding på, har arbeidsmengden for lærere økt betraktelig når det gjelder vurderinger. Utgiftene relatert til eksamener har økt, noe som har redusert bruken av ekstern sensor.

Den eksamenen som er i fokus for denne studien, finner sted på slutten av første studieår. Den har i utgangspunktet en integrerende form, noe som betyr at det er forventet at studentene skal anvende kunnskaper fra hele studieåret. I dette tilfellet gjelder det psykologi, sosiologi, pedagogikk og jus. Studentene skal vise at de kan anvende og kombinere elementer fra alle disse områdene i eksamensessayet. Eksamen foregår som en ukes individuell hjemmeeksamen, der studentene blir bedt om å 1) ta utgangspunkt i en situasjon fra siste praksisperiode og 2) beskrive, analysere og belyse teoretisk og diskutere denne situasjonen i relasjon til relevant teori. Fire vurderingskriterier blir kommunisert til studentene. Studentene står fritt til å søke den hjelp og støtte de ønsker i løpet av eksamensuka.

Hvorfor er sensorreliabilitet viktig?

For mer enn hundre år siden studerte Edgeworth karaktersettingen på eksamensbesvarelser produsert av kandidater som søkte opptak til Indian Civil Service (Brown, 1992, s. 33). Å vurdere latinske prosatekster viste seg så vanskelig at eksamenen måtte utgå som en sorteringsmetode når det gjaldt rekruttering på grunn av manglende samsvar mellom sensorenes vurderinger. Siden den tid har det vært mange studier som er blitt oppsummert slik Pieron (1963, sitert i Light & Cox, 2001, s. 73) hevder:

«[…] assessment by different examiners produces marks with considerable variability such that in determination of these marks the part played by the examiner can be greater than that of the performance of the examinee.»

Kravene er enkle å formulere, men vanskelig å hanskes med:

«Assessment tasks should be generating comparable marks across time, across markers and across methods.»

(Bloxham & Boyd, 2007, s. 38)

I min undersøkelse er fokuset på vurdering av essaybesvarelser, dvs. et ekspressivt produkt. Tilsynelatende er sensorreliabiliteten høyere når man vurderer objektive tester, muligens også ved muntlig eksamen (Caryl, 1999). Roy Cox kommenterte en tidligere studie av sensorreliabilitet:

«This experiment was with a particularly long essay where agreement is more difficult to reach, but there have been many other studies with shorter essays which have had particularly low correlations between examiners, usually in the region of 0.5.»

(Cox, 1967, s. 297)

Studier om sensorreliabilitet når det gjelder studentarbeider viser et tilsynelatende motstridende bilde. I noen tilfeller er reliabiliteten høy, andre ganger er den langt under grensen for hva som kan karakteriseres som ønskelig (Baume & Yorke, 2002). Studier vedrørende vurdering av eksamensarbeider under andre betingelser enn tradisjonelle skoleeksamener (som hjemmeeksamener eller mapper) viser den samme tendensen. I Baume & Yorkes (2002) studie når det gjaldt vurdering av mapper, var det fem områder som skulle vurderes. Ikke overraskende viste resultatene at det var høyt samsvar mellom sensorene når det gjaldt kategorier som «size limit» og «page limit». Når det derimot gjaldt kategorier som «course outcomes» og «overall result», var det prosentvise samsvar på henholdsvis +.39 og +.60, og forfatterne konkluderer derfor med at:

«The agreement rate of 60 % regarding the whole portfolio is lower than any assessment regimen would like.»

(Baume and Yorke, 2002, s. 16)

Reliabiliteten er relatert til antall trinn på en vurderingsskala. Det er lettere å oppnå konsensus når skalaen består av få trinn. Når sensor må avgjøre om en besvarelse er bestått eller ikke bestått, er potensialet for uenighet mindre enn når man anvender en skala med flere trinn (Jonsson, 2007). Jonsson og Svingby (2007) fant ut at «scoring rubrics» muligens kunne være et egnet verktøy for å oppnå et tilfredsstillende nivå for samsvar.

Johnston (2004) diskuterer ulike tilnærminger når det gjelder enighet om resultatene. Sett ut fra et positivistisk utgangspunkt vil målet være å kunne identifisere en såkalt «sann» karakter for hver enkelt student. Den grunnleggende ideen er at det finnes en sann karakter som reflekterer studentens virkelige kunnskap eller kompetanse. Dette forutsetter – dersom vurderingen også skal være valid – at grunnlaget for vurderingene er basert på kriterier som er operasjonalisert på bakgrunn av målene for besvarelsen. Sett ut fra et fortolkningsmessig utgangspunkt eksisterer det derimot ikke noen «sann» karakter. Vurdering dreier seg om å oppnå enighet om resultatene, og ikke at de skal reflektere en objektiv virkelighet. Reliabilitet og validitet blir dermed forstått som måter å rettferdiggjøre vurderingsresultatet på fremfor å garantere «sannhet». I tillegg vil troverdigheten kunne ivaretas ved at vurderingene er transparente slik at det kommer tydelig frem hvilke faktorer som har ligget til grunn for vurderingene (Johnston, 2004, s. 399–400). En studie gjort av Rasch og Eriksen peker i denne sammenheng på et problem når to sensorer samsensurerer en besvarelse. Den sensoren som kommer med karakterforslaget først, ser ut til å påvirke den andre sensoren når det gjelder dennes mening om besvarelsen. «I eksamenskommisjoner med to personer er det derfor feil som gjøres av den sensoren som kommer med andre innspill (respons) som vil ha størst sannsynlighet for å bli korrigert, men da kanskje først og fremst i form av at andresensor tilpasser sin respons til det forslaget førstesensor har kommet med» (Rasch og Eriksen, 2009, s. 311).

Vurderingskriterier og vurderingsstandarder

Da den nye vurderingsskalaen ble introdusert i høyere utdanning i Norge, ble det slik at man valgte en kombinasjon av kriterie- og normrelatert modell. De nasjonale retningslinjene (Appendiks 1, Tabell A1) tjener som veiviser for sensorene og presenterer generelle retningslinjer på tvers av hele utdanningssektoren.

I enkelte tilfeller blir det utviklet mer spesifikke kriterier, slik som i den foreliggende undersøkelsen. Jeg har lagt Sadlers’ (2005) definisjon av både standarder og kriterier til grunn:

Kriterium: «A distinguishing property or characteristic of any thing, by which its quality can be judged or estimated, or by which a decision or classification may be made» (2005, s. 178).

Standard: «A definite level of excellence or attainment, or a definite degree of any quality viewed as a prescribed object endeavor or as the recognized measure of what is adequate for some purpose, so established by authority, custom or consensus» (2005, s. 189).

Det er imidlertid usikkert hvorvidt utvikling av spesifikke kriterier er et godt verktøy i forsøket på å sikre god kvalitet på vurderingene. Praktiske erfaringer viser at sensorene ofte anvender sine egne, personlige standarder og at henvisning til kriterier gjerne skjer i ettertid, som når vurderingene må begrunnes og synliggjøres.

Resultater

Den opprinnelige sensureringen

Et komplett sett med foreslåtte karakterer ble hentet inn fra sensorene før de samsensurerte.

Tabell 1. Foreslåtte karakterer

Ut fra tallene i diagonalen kan man se at det har vært full enighet mellom de opprinnelige sensorene for 12 besvarelser (38 %). Et avvik på én karakter, som må kunne sies å være akseptabelt, ble observert i 40 % av tilfellene. For 22 % av studentene var det et avvik på to eller flere karakterer mellom de to sensorene. Det kunne se ut som om den interne sensoren foreslo litt bedre karakterer enn den eksterne. Når det gjelder den interne sensoren var gjennomsnittskarakteren C, mens det tenderte mot D for den eksterne.

Den relativt lave enigheten sensorene imellom inviterte til å gå mer i dybden med analysene. Hva kunne være årsaken til en så vidt lav reliabilitet? Man kan tenke seg ulike grunner til denne lave inter-sensorreliabiliteten. Sensorene kan mangle erfaring eller mangle tid til å diskutere og utvikle felles standarder og prosedyrer. De kan vektlegge ulike aspekter eller anvende ulike vurderingskriterier eller standarder. De kan ha ulike preferanser når det gjelder teorigrunnlag eller profesjonell praksis. De kan ha ulike oppfatninger om rammene rundt den aktuelle eksamenen. Men det kan også være egenskaper eller kvaliteter ved besvarelsen som forårsaker den lave graden av enighet.

Den utvidete sensureringen

På bakgrunn av det opprinnelig lave samsvaret mellom de opprinnelige sensorene, valgte jeg ut 9 av de 32 besvarelsene for videre analyse av fem nye sensorer slik:

  1. To besvarelser der begge de opprinnelige sensorene var enige – en B-besvarelse og en E-besvarelse.

  2. Fem besvarelser der de opprinnelige sensorene avvek fra hverandre med to karakterer.

  3. To besvarelser med et avvik på tre karakterer.

Tabell 2. Opprinnelig vurdering av utvalgte besvarelser
Student Intern sensor Ekstern sensor
Stor enighet   B B
E E
Uenighet D B
A C
C E
B D
C E
Stor uenighet B E
B E

Tabellen viser den opprinnelige sensureringen av de ni utvalgte besvarelsene.

De nye sensorene ble bedt om å sette karakter på besvarelsene og gi en kort begrunnelse for den foreslåtte karakteren. De ble også fortalt at essayene hadde blitt vurdert før, og at de essayene de hadde mottatt besto av besvarelser der de opprinnelige sensorene både hadde vært helt enige og besvarelser der de hadde vært uenige. De ble ikke informert om hvilken karakter som var blitt gitt, heller ikke om hvilke oppgaver det hadde vært enighet eller uenighet om.

Det ble laget et vurderingsskjema for å lette sensorenes arbeid. Fire kriterier (Appendiks 1, Tabell A2) ble vektlagt, og sensorene ble bedt om å vurdere studentenes besvarelser i henhold til disse kriteriene. Sensorene ble også bedt om å foreslå delkarakterer på de enkelte kriteriene, og i tillegg en endelig karakter.

I Tabell 3 vises korrelasjonskoeffisienten når det gjelder inter-sensorreliabiliteten mellom alle sensorenes endelige karakterer.

Tabell 3. Inter-sensorkorrelasjonen, utvalg
  I II III IV V Endelig karakter
I 1.00          
II –.01 1.00        
III .19 .91** 1.00      
IV –.19 .38 .30 1.00    
V –.09 .80* .85** .11 1.00  
Endelig karakter –.09 .65 .73* .55 .79* 1.00

Den gjennomsnittlige inter-sensorkorrelasjonen blant den utvidede gruppen av sensorer viste seg å være relativt lav (r=.31). Innenfor gruppen av nye sensorer (Tabell 3) var den gjennomsnittlige korrelasjonen noe bedre (r=.38), selv om to sensorer (særlig sensor I) avvek fra de andre sensorene og også fra den opprinnelige sensureringen. Sagt på en annen måte: To sensorer avvek fra resten av sensorene.

Fullstendig oversikt over karakterforslagene fra alle sensorene er vist i Tabell 4:

Tabell 4. Utvidede karakterforslag, utvalgte oppgaver
Student Opprinnelige sensorer Nye sensorer Oppnådd karakter
Intern Ekstern I II III IV V
1. B B D B B B B B
2. E E C F E D F E
3. D B D D C F B C
4. A C C B A B B B
5. C E D D D D E D
6. B D B C B F C D
7. C E C C C E C D
8. B E F C C D C D
9. B E C B B D C D
Gj.snitt 2.67 4.00 3.56 3.22 2.78 4.11 3.22 3.56

Gjennomsnittstallene nederst i tabellen fremkommer ved å erstatte bokstavkarakterene fra A–F med tall fra 6–1.

Ved den opprinnelige sensureringen var det full enighet mellom sensorene når det gjaldt student 1 og 2. Også mellom de nye sensorene var enigheten om disse to studentene stor. I utgangspunktet var student 2 på grensen til «ikke bestått», og tre av de nye sensorene vurderte også å stryke studenten. For studentene 3–7 er samsvaret lavere.

Disse to eksemplene kan indikere en mer generell regel, nemlig at inter-sensorreliabiliteten er høyere når det gjelder besvarelser som er enten gode eller dårlige og lavere for essays av gjennomsnittlig kvalitet. Det er imidlertid bare en indikasjon i og med at karakterforslagene varierer også for disse studentene. I tillegg er datagrunnlaget for lite. Ved senere analyse av sensorenes begrunnelser viste det seg imidlertid at sensor I, som representerer det største avviket (Tabell 4), vektla andre kriterier enn de fire øvrige nye sensorene.

I den andre enden av skalaen ser vi at meningsforskjellene fortsatt er tydelige når det gjelder student 8 og 9. Ved den opprinnelige sensureringen fikk begge studentene B fra den ene sensoren og E fra den andre. Når det gjelder de nye sensorenes vurderinger, ser vi at de foreslåtte karakterene varierer mellom C og F når det gjelder student 8 og mellom B og D når det gjelder student 9.

Alle sensorene lagde skriftlige kommentarer til hvert av vurderingskriteriene, og de foreslo også en karakter på hver av dem. Ser vi på student 1 (bortsett fra sensor I), finner vi nesten helt korresponderende kommentarer fra sensorene. Den helhetlige vurderingen av essayene korresponderer med de foreslåtte karakterene på de fire kriteriene. Det ser altså ut til å være minimal uenighet mellom sensorene når det gjelder å fortolke og anvende kriteriene. Dersom vi tar i betraktning de nye sensorenes begrunnelser for de foreslåtte karakterene, er det interessant at det interne samsvaret er høyt på alle kriteriene (Appendiks 1, Tabell A2). Sensor I, som foreslo F for student 8, hadde en F på tre av de fire kriteriene. To av sensorene som foreslo C for den samme studenten, hadde C på tre av fire kriterier. Så, når sensorene vurderer oppgaver av varierende kvalitet, ser det ut til at de separat sett er konsistente på tvers av kriteriene.

Vi kan imidlertid se et unntak fra det generelle mønsteret. Analysen av de skrevne kommentarene relatert til student 2 indikerer at alle sensorene (bortsett fra sensor I) var enige om vurderingen av studenten på alle kriteriene. Sensorene ga E eller F på de fleste kriteriene. En av de som foreslo D som endelig karakter, vektla de to første kriteriene (der han foreslo C) mer enn de to siste, der han foreslo henholdsvis F og E. Det kan se ut som om den relative vektleggingen på de fire kriteriene bidrar til noe av uenigheten mellom denne sensoren og de andre. Bortsett fra dette er tendensen klar: Den generelle vurderingen av studentenes arbeider korresponderer godt med vurderingene som er relatert til de enkelte kriteriene. En god karakter på essayet samsvarer godt med gode karakterer på de spesifikke vurderingskriteriene.

En generell konklusjon basert på de foreliggende data er at uenigheten mellom de opprinnelige sensorene er relativt lik uenigheten mellom de nye sensorene når de leser de samme studentbesvarelsene. Det kan se ut som om det er aspekter ved disse besvarelsene som gjør dem vanskelige å sensurere, selv om man ikke direkte kan lese dette ut fra de foreliggende dataene.

Fiktive sensorpar

Med basis i de foreslåtte karakterene fra de opprinnelige sensorene og de nye sensorene, kan det være interessant – sett fra et studentperspektiv – å se hva slags karakter studenten teoretisk sett kunne ha fått dersom vi kombinerer to og to sensorer på forskjellige måter. Dette blir riktignok noe spekulativt, hovedsakelig fordi sensorene ikke matematisk kalkulerer gjennomsnittet av de to karakterene de foreslår (Rasch og Eriksen, 2009, s. 311). Tabell 5 viser fiktive karakterer som fremkommer ved ulike kombinasjoner av sensorer. Det gjøres oppmerksom på at når ett medlem av sensorparet har foreslått en karakter som avviker én karakter fra den andre sensorens forslag, er begge de foreslåtte karakterene med i tabellen.

Tabell 5. Fiktive gjennomsnittskarakterer basert på alle kombinasjoner av sensorpar
Student Oppnådd karakter Høyest mulig karakter Lavest mulig karakter
1. B B C
2. E C/D F
3. C B E
4. B A C
5. D C/D E
6. D B E
7. D C E
8. D B/C E/F
9. D B E/D

Sensorene er gruppert i alle mulige parkombinasjoner. I åtte av ni tilfeller kan den karakteren som blir gitt til en student variere mer enn ett trinn på en sekstrinnsskala. I ett av tilfellene ville forskjellen på høyeste og laveste karakter utgjøre fire trinn.

I de senere årene har antall sensorer som arbeider sammen om sensureringen gått ned. Dette gjelder ikke bare for Norges del, jf. Rowntrees (1987, s. 191–192) fortelling. Det er ikke uvanlig at man i dag opererer med bare én sensor, muligens med noen korrektiver fra en ekstern sensor. I mange tilfeller er de forskjellene som er relevante for studentene relatert til forskjellige karakterer gitt av den enkelte sensor, ikke sensorpar. I den foreliggende undersøkelsen er det alltid to sensorer involvert, og i tillegg kan en tredje person trekkes inn ved behov.

Som kommentert tidligere vil – når det gjelder student 1 og 2 – fiktive sensorpar mer eller mindre komme til samme resultat som de opprinnelige sensorene. Dette er interessant av i hvert fall to grunner. For det første kan vi se en fullstendig enighet mellom alle sensorene. For det andre er det en klar tendens til at det er de samme studentbesvarelsene som ser ut til å være problematiske å karaktersette. I de tilfellene der de to i det opprinnelige sensorparet var enige om vurderingen, tenderte de nye sensorene i retning av samme resultat som det første paret. Dersom vi foretar et tankeeksperiment, kan vi observere følgende: Dersom det er tilfelle at sensorene tenderer til å være enige på enkelte av besvarelsene, er det bortkastet både tid og penger dersom vi øker tallet på sensorer. Kanskje hadde det ikke vært nødvendig med mer enn én sensor. En forutsetning for å tenke slik er imidlertid at det er mulig å identifisere slike besvarelser på forhånd, noe som synes høyst tvilsomt. Dersom de to sensorene er uenige om en studentbesvarelse, kan det se ut som om sannsynligheten også er høy for at uenigheten ville være der om besvarelsen hadde blitt vurdert av et annet sensorpar. Vi kan ta student 8 og 9 som eksempel: Student 8 ville ha fått B eller C dersom hun hadde vært «heldig» med sensorparet, men ville kunne fått E eller til og med F dersom sensor I hadde vært en del av sensorparet. Student 9 kunne ha fått B dersom besvarelsen hadde blitt vurdert av den opprinnelige interne sensoren sammen med sensor III, men ville ha fått D eller E dersom den opprinnelige eksterne sensoren hadde sensurert med sensor IV. På den annen side: Med et utvidet antall sensorer (flere enn to), ville man muligens kunne unngått ekstreme forskjeller. En tredje eller også flere sensorer kunne i slike tilfeller kunne fungert som en form for moderatorer.

Vi kan altså konkludere med at besvarelser der det i utgangspunktet var stort avvik mellom sensorene, også vil bli vurdert ulikt av nye sensorer. Dette kan indikere at man ved å øke antall sensorer, i noen tilfeller kan beskytte studenten mot urimelige konsekvenser av den lave reliabiliteten, men i seg selv behøver ikke dette nødvendigvis å føre til noe «riktigere» eller «sannere» bedømming av studentens besvarelser. Det vi på den annen side kan sikre ved å øke antall sensorer, er at negative konsekvenser for studentene når det gjelder innbyrdes rangering vil reduseres. I praksis vil bruk av flere sensorer være sammenlignbar med sensureringer der man som nevnt ovenfor benytter moderatorer for å minimalisere uheldige konsekvenser ved opprinnelig lav reliabilitet. Det er imidlertid ikke mulig å si på forhånd hvilke besvarelser som vil vise seg å være lette eller vanskelige å bedømme. Med så store avvik mellom sensorene som vi har vist her, kan det være at man må spørre seg om det er særtrekk ved besvarelsene som gjør dem spesielt vanskelige å vurdere.

Anvendelse av vurderingskriterier

Det pågår en kontinuerlig diskusjon om hvorvidt bruken av eksplisitte kriterier kan høyne reliabiliteten av bedømmingen (Sadler, 2005, s. 179). Sadler gjør et viktig skille mellom eksplisitte og implisitte kriterier:

«[…] judgments can be made either analytically (that is, built up progressively using criteria) or holistically (without using explicit criteria), it is practically impossible to explain a particular judgment, once it has been made, without referring to criteria.»

(ibid.)

Det at det foregår en holistisk vurdering betyr ikke nødvendigvis at kriterier ikke blir anvendt. Kriteriene vil komme til syne dersom man skal begrunne vurderingen eller karaktergivningen. Disse kriteriene er basert både på tidligere erfaringer med tilsvarende besvarelser og på teoretisk kunnskap. Kriteriene er delvis «tause» og implisitte. Sensurering vil aldri kunne bli slik at en eksakt anvendelse av kriteriene sikrer kvaliteten på bedømmingen. Sensorene vil bruke sine egne – eksplisitte eller tause – kriterier, som kan – eller kanskje ikke kan – være i tråd med de kriteriene som er definert på forhånd. Ut fra hva Bloxham (2007) sier, synes det som om det er lite forskningsmessig grunnlag som støtte for den tanken at ny sensurering, anonym karaktersetting, vurderingskriterier, karakterbeskrivelser eller vurderingsskjemaer har noe som helst betydning for reliabiliteten:

«It is clearly because most work needs a level of professional judgment that there are worries that is open to abuse.»

(Bloxham, 2007, s. 1)

På den annen side kom Jonsson og Svingby (2007) til en litt annen konklusjon på bakgrunn av litteraturstudier og resultater av egen undersøkelse:

«[…] the reliable scoring of performance assessment can be enhanced by the use of rubrics, especially if they are analytic, topic-specific, and complemented with exemplars and/or rater training.»

(Jonsson & Svingby, 2007, s. 141)

Baume (2007, s. 17) kom til den samme konklusjonen når det gjaldt reliabilitetsstudier av mappebedømminger:

«[…] reliability is enhanced when there are explicit outcome standards against which to judge, and when there are clear and unambiguous performance data upon which to exercise that judgment.»

Baume, Yourke og Coffey (2004) oppdaget at når sensorene vurderte mapper, summerte de ikke bare automatisk de karakterene de hadde gitt på de forskjellige delene. De gjorde sine egne vurderinger, og da i noen tilfeller vurderinger som sto i strid med hvordan de hadde vurdert de ulike delene av mappen.

I den foreliggende studien ble det gitt fire kriterier (Appendiks 1, Tabell A2) som skulle anvendes ved vurderingene. Sensorene ble bedt om å foreslå en karakter på hvert av dem. I tillegg ble sensorene bedt om å foreta en helhetlig vurdering av besvarelsen. Det er derfor interessant å se på eventuelle forskjeller mellom vurderingene gitt på bakgrunn av kriteriene og den helhetlige vurderingen.

Vurderingen av besvarelsen til student 1 er diskutert tidligere. Seks av syv ga ikke bare samme karakter; de kommenterte også kvaliteten på besvarelsen likt. Det kunne se ut som om de hadde en felles forståelse av hvordan kriteriene skulle fortolkes. Sensor I ga lavere karakter enn de andre sensorene på alle de fire kriteriene. Denne sensoren vektla også ett av kriteriene sterkere enn de andre. I den skriftlige begrunnelsen for karaktersettingen pekte denne sensoren på en hovedsvakhet med hele besvarelsen, nemlig at problemstillingen som dannet utgangspunktet for besvarelsen var for vid. Denne innvendingen reflekterer ikke noen av kriteriene, men ser heller ut til å reflektere en personlig oppfatning, en mening om oppgaveskriving, noe som også kommer frem ved vurderingen av de andre kriteriene. De andre sensorene vektla ikke dette aspektet, og sensor I vurderte åpenbart besvarelsen på et helt annet grunnlag enn de andre siden begrunnelsene i liten grad er knyttet til de eksplisitt definerte kriteriene. Dette gjelder den utvidede undersøkelsen. Det at en sensor avviker i så stor grad i forhold til de andre sensorene, vil selvfølgelig være uheldig ved en ordinær sensurering. I realiteten vil det ved en ordinær sensur ofte følge en mer eller mindre detaljert sensorveiledning, og det er heller ikke uvanlig at det legges opp til sensormøter i forkant av vurderingene. På denne måten kan man forhåpentligvis unngå uklarheter med hensyn til hva som skal vektlegges og hva som har mindre betydning ved den aktuelle sensureringen.

Besvarelser med i utgangspunktet høy inter-sensorenighet forårsaker også stor enighet blant de nye sensorene. Vurderingene viser seg også å være konsistente på tvers av kriterier når det gjelder den enkelte sensor, men ikke sensorene imellom. Dette kan eksemplifiseres med kommentarene som ble gitt for student 8 og 9:

Tabell 6. Sensorenes kommentarer
Sensor Stud. Kriterium Sensors kommentar Foreslått karakter
Sens. IV #8 1. Kandidaten skal vise adekvat begrepsmessig forståelse mht. spørsmålene i oppgaven. Presentasjonen av teori er umoden, men kan reflektere kommende forståelse. E
Sens. V God forståelse og konstruktiv tenkning. C
Sens. IV #9 Ikke tilstrekkelig belyst. Kandidaten holder seg ikke til saken. Mangler teori. E
Sens. V Viser god forståelse av oppgaven ved å bruke sentral teori. C

Dette er et kriterium som forutsetter at sensoren fortolker. Uttrykk som «begrepsmessig forståelse» (kriterium 1) og «belys teoretisk», «tenke logisk og fritt i forhold til oppgaven» (kriterium 2, se Appendiks 1, Tabell A2) vil lett medføre avvik mellom sensorene når kvaliteten på besvarelsen skal vurderes. Når en og samme students besvarelse (student 8) blir vurdert i henhold til det samme kriterium (kriterium 2), hevder en av sensorene at besvarelsen mangler tilfredsstillende diskusjon og videre at «den teorien som er presentert tidligere i besvarelsen i liten grad blir brukt». Den andre sensoren konkluderer langt mer positivt: «[…] diskusjonen vektlegger relevant teori og bruker denne teorien på en tilfredsstillende måte.» Det som er overraskende her er at begge sensorene gir studenten karakteren C på dette kriteriet.

Diskusjon

I de vurderingsordningene som er blitt innført i mange land – og som ser ut til å ha blitt mer og mer universelle – legges vekten ofte på klart definerte og presise kriterier, delvis for å sikre større reliabilitet, men også for å sikre validitet. Hvorvidt disse kriteriene bidrar positivt til å øke validiteten, synes å avhenge av i hvor stor grad de korresponderer med målene for emnet eller utdanningen. Eksamen i den form den ble gjennomført på i den foreliggende undersøkelsen hadde til hensikt å måle studentenes kompetanse etter endt emne. På bakgrunn av disse målene ble det laget kriterier som de ulike aktørene (lærere og studenter) mente ville være egnede redskaper å vurdere studentenes besvarelser ut fra. Det å måle den totale kompetansen på en valid måte, ville måtte kreve en rekke kriterier. I den foreliggende undersøkelsen ble fire kriterier som ble antatt å være relevante for målene med oppgaven plukket ut, men med implisitte forbehold om at også andre kriterier kunne være relevante.

I henhold til Baume og Yorke (2002, s. 16) er det lettere å oppnå enighet dersom kriteriene er presise og klart definerte. I deres studie vedrørende vurderingen av mapper, konkluderer de med at det var høy grad av enighet mellom sensorene når det gjaldt oppgavetekniske forhold. Noe av det samme ble funnet i min studie. Sensorenes kommentarer og karakterer viser bare små forskjeller når det gjelder hvordan de fortolker og anvender kriteriet som angår hvorvidt studenten bruker og refererer til kilder på en riktig måte, og likeledes hvordan de følger de øvrige retningslinjene for skriftlige arbeider. Men denne enigheten kommer ikke til syne når det gjelder de andre kriteriene. Bekymringene kommer tydelig frem hos Baume og Yorke som sier at når kriteriene er godt definerte, «[…] it is perhaps disappointing that there should be any disagreement at all» (Baume &Yorke, 2002, s. 16). Studentene kan derfor kanskje bli forledet til å stole på at sensorene anvender kriteriene på samme måte selv om de ikke gjør det.

Selv om kriterier ble anvendt i den foreliggende undersøkelsen, var avviket mellom sensorene påtakelig. En grunn kunne være at kriteriene ikke var eksplisitte nok – at de var for vage eller åpne slik at de inviterte til ulike tolkninger. En måte man kunne gjort dette på, var å gi konkrete eksempler på hva man la i kriteriene. Dersom sensorene kunne fått en felles forståelse av hva som lå i kriteriene, kunne man muligens unngått en utstrakt bruk av «tause» kriterier i vurderingene.

Sadler har imidlertid introdusert et skille mellom vurderingskriterier og standarder. Han hevder at man ikke alene kan basere vurderingene på kriterier. Han etterlyser en standard-basert vurdering. Problemet med at sensorene anvender standarder, er på den annen side at de ifølge Sadler (2005) har lett for å være basert på private oppfatninger.

«[Assessment] standards based on tacit knowledge commonly exist in unarticulated form but can be shared among experts, or transmitted from expert to novice, by joint participation in evaluative activity, including moderation of grades. Reliance on standards that are based purely on tacit knowledge has a certain mystique about it that reduces transparency and often supports a dependency relationship between learner and teacher. Students are then forced to rely heavily – or even exclusively – on the judgments of others.»

(Sadler, 2005, s. 192)

Spørsmålet kan derfor ikke bare være hvordan man skal endre fokuset fra vurderingskriterier til å konsentrere seg mer om standarder.

Den vurderingspraksisen som er blitt studert i dette prosjektet, ser ut til å fremstå som et eksempel på en holistisk vurdering – dette som et alternativ til en analytisk form der vurderingsprosessen blir delt inn i separate enheter som blir vurdert hver for seg og senere koplet sammen til en karakter. Dersom kriteriene er valide og presise nok, vil en analytisk vurdering antakelig i større grad enn holistisk vurdering sikre at validiteten ivaretas på en god måte. Forsøket på å introdusere en analytisk form for vurdering ser ikke ut til å ha lyktes i den foreliggende undersøkelsen, siden sensorene fortsetter å vurdere besvarelsene holistisk. Det kan se ut som om sensorene forkaster ideen om å legge til grunn definerte kriterier siden det ikke synes å gi noen mening å anvende dem når det ikke er noen referanser til standarder.

Problemet er at når man foretar en holistisk vurdering, så er standardene i stor grad basert på taus kunnskap. Dette kan egentlig ses på som et paradoks: Det forventes at sensorene har en analytisk tilnærmingsmåte til sensureringen. De er forventet å anvende kriterier konsistent gjennom hele prosessen, men det virker som om dette bare er delvis meningsfylt for dem. Vurderingskriterier er viktige elementer ved vurderingene – de er blitt kommunisert til studentene og studentene forventer at de blir brukt. Standarder er på den annen side viktige både på tvers av kriterier og også for det enkelte kriterium separat. Standarder er personlige konstruksjoner som er influert og moderert av deltakelse i vurderingsaktiviteter, særlig dersom disse aktivitetene foregår i samarbeid med andre. Studien indikerer at sensorene anvender sine personlige standarder i vurderingsprosessen. Vi får derved et problem, nemlig at de standardene som anvendes vil variere fra sensor til sensor i større eller mindre grad. Den fremtidige utfordringen er derfor å forsøke å øke reliabiliteten slik at vi får en mer rettferdig vurdering av studentene.

«Standards need to be established, and made accessible (1) to students, before and during the course, (2) to the university teacher or assessor, so that the students’ work can be appraised within that framework, and (3) to the panels that review grade distributions. Only then can proper discussion take place about what standards mean.»

(Sadler, 2005, s. 190)

Det kan også være at det er slik som både Sadler og Torrance (2007) sier, nemlig at bruken av spesifikke kriterier kan forårsake «the reverse of what was original intended» (Sadler, 2007, s. 387). I den hensikt å gjøre vurderingene lettere og mer «sanne», har man i Norge innført konkrete og spesifikke læringsutbytter og kompetanser for den enkelte modul eller emne (Kvalifikasjonsrammeverket, 2009). Da vil det også kunne bli lettere for veileder å gi mer presise tilbakemeldinger til studentene. Det kan videre se ut som om det er vurderingene og grunnlaget for vurderingene som er avgjørende for både innhold i og organisering av eksamen. Det betyr at det er kravet om objektiv og reliabel vurdering som kontrollerer studentenes læring. Torrance beskriver situasjonen slik:

«In a very real sense we seem to have moved from «assessment of learning» through «assessment for learning» to «assessment as learning», for both learners and tutors alike, with assessment procedures and processes completely dominating the teaching and learning experience.»

(Torrance, 2007, s. 291)

Sadler (2007, s. 392) anser situasjonen som bekymringsfull, men uttrykker et slags håp:

«If assessment authorities and assessment boards were to take the lead in setting the agenda to redefine learning, competence, assessment, credentials, and awards, an «assessment pull» could help turn the enterprise around over a period of time, given sufficient resolve and courage, and an enlightened political environment.»

Nå kan nok finansieringsordningene bli et alvorlig hinder for «turning the enterprise around». Utdanningsinstitusjonene finansieres delvis på basis av avlagte studiepoeng. For hver avsluttet modul eller emne vil studentene utløse studiepoeng. Tidligere ble disse utløst på slutten av året eller semesteret, og dersom studentene trakk seg fra studiet i denne perioden, altså uten noen avsluttende eksamen, ville institusjonen tape penger.

Denne studien bidrar til å kaste lys over noen av de problemene som er relatert til reliabilitet når det gjelder vurdering av essaybesvarelser. Studien var opprinnelig ment å kaste lys over vurderingspraksisen ved en ordinær eksamen, men resultatene var av en slik art at jeg ønsket en utvidet studie. Dette særlig siden jeg mente at reliabiliteten viste seg å være i laveste laget. De karakterene studentene fikk, viste seg å være vel så avhengig av hvem som vurderte oppgavene som av kvaliteten på selve besvarelsen. Dette kan selvfølgelig ikke generaliseres; noen av besvarelsene som ble innlevert viste seg å være vanskeligere å vurdere enn andre.

Denne begrensede studien støtter andre studier som viser at det nok er enklere å vurdere besvarelser med høy eller lav kvalitet sammenlignet med besvarelser av middels kvalitet. På den annen side: Å identifisere de «problematiske» besvarelsene er nok ikke bare et spørsmål om nivået på essayet. Det er tilsynelatende flere faktorer som spiller en rolle, hvorav karakteristika ved besvarelsene og også ved sensorene er to av dem.

Appendiks 1

Tabell A1. Nasjonale karakterbeskrivelser
Karakter Betegnelse Generell beskrivelse av vurderingskriterier
A Fremragende Fremragende prestasjon som klart utmerker seg.
B Meget god Meget god prestasjon som ligger klart over det forventede nivå.
C God God prestasjon som oppfyller forventningene.
D Nokså god Akseptabel prestasjon som likevel ikke oppfyller forventningene fullt ut.
E Tilstrekkelig Prestasjon som tilfredsstiller minimumskravene, men heller ikke mer.
F Ikke bestått Prestasjon som ikke tilfredsstiller minimumskravene.
Tabell A2. Vurderingskriterier til essaybesvarelsen
Kriterium Sensors kommentarer Karakter
1. Kandidaten skal vise adekvat begrepsmessig forståelse mht. spørsmålene i oppgaven.    
2. Det vil bli lagt vekt på kandidatens evne til å belyse teoretisk, tenke logisk og fritt i forhold til oppgaven.    
3. Det vil bli lagt vekt på at kandidaten viser til kilder og for øvrig forholder seg til retningslinjene for studentarbeider.    
4. Det vil bli lagt vekt på at essayet er godt presentert og logisk disponert og at kandidaten bruker egne ord.    

Referanser

Baume, D. & Yorke, M. (2002). The Reliability of Assessment by Portfolio on a Course to Develop and Accredit Teachers in Higher Education. Studies in Higher Education, 27 (1), 7–25.

Baume, D., Yorke, M. & Coffey, M. (2004). What is happening when we assess, and how can we use our understanding of this to improve assessment? Assessment & Evaluation in Higher Education, 24 (4), 451–477.

Bloxham, S. & Boyd, P. (2007). Developing Effective Assessment in Higher Education. A Practical Guide. Maidenhead: Open University.

Bloxham, S. (2007). A system that is wide of the mark. The Times Higher Educational Supplement, 26.10.2007. Hentet 9.12.2011 fra http://www.timeshighereducation.co.uk/story.asp?storycode=310924

Brown, G.& Pendlebury, M. (1992). Assessing Active Learning. Effective Learning and Teaching in Higher Education, Module 11, Part 1. Sheffield: CVCP.

Cox, R. (1967). Examinations and higher education: a survey of the literature. Universities quarterly, 21(3), 292–340.

Garyl, P. G., (1999). Psychology Examiners Re-examined: a 5-year perspective. Studies in Higher Education, 24(1), 61–74.

Jonsson, A. & Svingby, G. (2007). The use of scoring rubrics: Reliability, validity and educational consequences. Educational Research Review, 2(2), 130–144.

Johnston, B. (2004). Summative assessment of portfolios: an examination of different approaches to agreement over outcomes. Studies in Higher Education, 29(3), 395–412.

Kunnskapsdepartementet (2009). Nasjonalt kvalifikasjonsrammeverk for høyere utdanning Hentet 9.12.12. fra http://www.regjeringen.no/nb/dep/kd/tema/hoyere_utdanning/nasjonalt-kvalifikasjonsrammeverk.html?id=564809

Knight, P. (2006) .The local practices of assessment. Assessment & Evaluation in Higher Education, 31 (4), 435–452.

Lauvås, P. (2008): Changing assessment practices in Norwegian higher education?: From where to where? In: A. Havnes, & L. McDowell (Eds.): Balancing dilemmas in assessment and learning in contemporary education. (s.157–168) New York: Routledge.

Light, G. & Cox, R. (2001) Assessing: Student Assessment. Learning and Teaching in Higher Education.: The reflective Professional. London: Paul Chapman Publishing.

Raaheim, A. (2000) En studie av inter-bedømmer reliabilitet ved eksamen på psykologi grunnfag. Tidsskrift for Norsk psykologforening, 37(3), 203–213.

Rasch, B.E. & Eriksen, S.K. (2009) En eller to sensorer. Tidsskrift for samfunnsforskning,50( 3), 293–312.

Rowntree, D. (1987) Assessing students: How shall we know them? London: Kogan Page.

Sadler, R. (2005) Integration of criteria – based assessment and grading in higher education. Assessment & Evaluation in Higher Education, 30(2), 175–194.

Sadler, R, (2007) Perils in the meticulous specification of goals and assessment criteria. Assessment in Education, 14 (3), 387–392.

St.meld.nr 27 (2000-2001) Gjør din plikt – Krev din rett. Kvalitetsreform av høyere utdanning.

Torrance, H. (2007) Ass essment as learning? How the use of explicit learning objectives, assessment criteria and feedback in post – secondary education and training can come to dominate learning. Assessment in Education, 14(3), 281–294.

Universitets- og høgskoleloven (2005) Lov om universiteter og høgskoler.

Idunn bruker informasjonskapsler (cookies). Ved å fortsette å bruke nettsiden godtar du dette. Klikk her for mer informasjon