Oppgrader til nyeste versjon av Internet eksplorer for best mulig visning av siden. Klikk her for for å skjule denne meldingen
Ikke pålogget
{{session.user.firstName}} {{session.user.lastName}}
Du har tilgang til Idunn gjennom , & {{sessionPartyGroup.name}}

Studentevalueringer i høyere utdanning: Hva kan den internasjonale forskningslitteraturen lære oss?

(f. 1965) siviløkonom og dr. oecon. fra Norges Handelshøyskole. Ansatt som førsteamanuensis i organisasjons- og ledelsesfag ved Høgskolen i Bergen. Forsker og under-viser bl.a. innen fagområdene entreprenørskap, sosiale nettverk og teknologiledelse.

I denne artikkelen gjennomgår jeg en rekke internasjonale studier som er relatert til bruken av studentevalueringer i høyere utdanning. Empirien er til dels noe sprikende, men en tendens som tydelig fremtrer er at forhold langt utover faglærers formelle kvalifikasjoner kan være med på å influere på studentenes evalueringer av undervisningen. I forlengelse av litteraturstudien diskuterer jeg hvilke konsekvenser ukritisk bruk av studentevalueringer kan ha for faglig nivå og faglig integritet i høyere utdanning.

Innledning

Studentevalueringer har i løpet av de senere årene blitt et stadig viktigere element i vurderingen av undervisningskvalitet og faglig innhold ved de fleste universiteter og høgskoler i Norge. Denne tendensen gjør seg også gjeldende i mange vestlige land (Moore et al., 2003). I vår norske kontekst er studentevalueringer ett av flere tiltak i Kvalitetsreformen for å sikre nivået i høyere utdanning, og bør derfor i all hovedsak hilses velkommen av både studenter og faglærere. Studentevalueringer kan indikere styrker og svakheter i faglig opplegg og didaktisk formidlingsevne hos foreleser (Hand and Rowe, 2001). Det gir også en formalisert arena for tilbakemeldinger fra studentene, og kan derved skape rom for opplevd prosedyrerettferdighet hos denne gruppen (Kravitz et al., 1997). Til sist kan det fungere som et insentivsystem for faglig og pedagogisk kvalitet, noe som i mange tilfeller vil være en positiv motivasjonsfaktor hos undervisningspersonalet (Moore et al., 2003).

Lauvås og Maurud påpekte allerede i 1979 nytten og viktigheten av at undervisning og faginnhold i høyre utdanning ble evaluert av studenter (artikkelen ble republisert i 2008). Det såkalte Handalutvalget (Studiekvalitetsutvalget) fra 1990 poengterte også at evaluering av studietilbud og undervisning var sentrale byggesteiner for bedret studiekvalitet. Imidlertid kjenner jeg ikke til at det er blitt foretatt noen systematisering av forskningsarbeider som har sett på bruken av studentevalueringer i høyere utdanning. I denne artikkelen vil jeg derfor spesielt ta utgangspunkt i hva den internasjonale forskningslitteraturen sier om temaet, og på bakgrunn av dette vil jeg forsøke å peke på generelle trekk som kan influere på studenters evaluering av pedagogisk kvalitet.

Bruken av studentevalueringer er langt fra ukontroversiell i den pedagogiske faglitteraturen. Tomasco (1980) argumenterer at studentevalueringer i større grad fungerer som personlighetskonkurranser enn å fungere som valide mål på effektiv undervisning. Sproule (2002, s. 287) oppsummerer, etter min mening, kjernen i det kontroversielle rundt bruken av studentevalueringer på en glimrende måte: «[…] all models of instructor performance are underdetermined by the student evaluation of teaching data […] [Nevertheless,] the exclusive use of the student evaluation of teaching data in the determination of instructor performance is tantamount to the promotion and practice of pseudoscience, two activities anathema to the academic mission.» Følgelig er det viktig å ha et reflektert forhold til bruken av studentevalueringer, siden datamaterialet som blir tilveiebrakt – enten i kvantitativ eller kvalitativ form – i all hovedsak er en avspeiling av studentenes individuelle persepsjoner. Om en ikke i best mulig grad avdekker substansen i informasjonen som innhentes, kan det bli satt i verk tiltak selv om de faktiske forhold ikke skulle tilsi det som nødvendig. Dette kan til sist ramme både faglærere, studenter og det faglige miljøet i sin helhet.

Fortrinnsvis vil jeg diskutere og kategorisere forskning rundt bruken av studentevalueringer i lys av Handals (1984) avgrensing av fagdidaktikkbegrepet. I hans modell utgjør kategoriene 1) deltakerforutsetninger, 2) mål eller formål, 3) rammer, 4) innhold og 5) evalueringer sentrale byggesteiner.1 Fokuset i denne artikkelen er primært i hvilken grad de fire førstnevnte faktorene kan influere på de evalueringene som studentene gjør av faglærer og faglig opplegg. Videre vil jeg diskutere hvordan en bør forholde seg til informasjon som fremkommer i studentevalueringer. Målet for alle parter må til syvende og sist være at den enkelte faglærer vinner best mulig innsikt i egne styrker og svakheter, samt at han eller hun får rede på hvordan det faglige opplegget er treffende i forhold studentenes nødvendige eller faktiske forutsetninger.

Empirien som jeg gjør rede for kan være noe sprikende, men en gjennomgående tendens i den internasjonale forskningslitteraturen er at forhold langt utover faglærers kvalifikasjoner er med på å influere på studentenes evalueringer av undervisning og kursinnhold. På bakgrunn av litteraturstudien diskuterer jeg avslutningsvis hvilke implikasjoner bruken av studentevalueringer kan ha for faglig nivå i høyere utdanning. Gir studentevalueringer i det hele tatt noen genuin informasjonsverdi? Kan studentevalueringer i videre forstand gjøre forelesere til bedre pedagoger, eller er evalueringene snarere tvert imot en trussel mot faglig integritet i høyere utdanning? Sagt på en annen måte: I hvem sin interesse er det at flest mulig av studentene i størst mulig grad gir gode evalueringer? Slik insentivsystemet har utviklet seg innenfor høyere utdanning i dag, betyr faktisk denne type tilbakemeldinger mye for den enkelte faglærer (for eksempel ved lokale lønnsforhandlinger, stillingssøknader eller ganske enkelt heder og ære eller selvfølelse; i negativ retning kan det faktisk danne grunnlag for disiplinære tiltak). Men tjener bruken av studentevalueringer høyere utdanning i sin helhet? Har det ført til at studentene i for stor grad legger premissene for hva som tilbys av fagformidling og innhold? Og hvilke konsekvenser har dette i så fall for kvaliteten i høyere utdanning, for fremtidige arbeidsgivere og til syvende og sist for studentene selv?

På bakgrunn av hva den internasjonale forskningslitteraturen sier om bruken av studentevalueringer i høyere utdanning, håper jeg at denne artikkelen kan danne utgangspunkt for en debatt rundt de spørsmål som reises her. I forlengelse av litteraturgjennomgangen påpeker jeg også avslutningsvis mulige fremtidige retninger for forskning rundt bruken av studentevalueringer både i en norsk og internasjonal kontekst.

Jeg presiserer at artikkelen ikke bidrar med eksplisitt teoriutvikling eller frembringer nye analyser av empiriske data. Hovedbidraget er å systematisere og sammenfatte empirisk forskning som er blitt foretatt rundt bruken av studentevalueringer. Så langt jeg kjenner til er det ikke blitt foretatt tilsvarende studier verken internasjonalt eller i Norge. Jeg mener derfor at bidraget er nyttig ved at det gjør den aktuelle forskningslitteraturen kjent og tilgjengelig både for aktive forskere innenfor norsk høgskolepedagogikk og for administrativ og politisk ledelse ved norske universiteter og høgskoler.

Noen innledende metodiske presiseringer

Litteraturen jeg henviser til i denne artikkelen har jeg fortrinnsvis fremskaffet ved å gjennomføre søk i databasen Social Science Citation Index (SSCI). Dette er en bred og internasjonalt anerkjent database for samfunnsvitenskapelig forskningslitteratur innenfor en rekke fagområder. I artikkelen refererer jeg naturlig nok overveiende til publikasjoner i tidsskrifter innenfor fagområder som er relatert til pedagogikk og høyere utdanning, men jeg refererer også til tidsskrifter innenfor psykologi, kjønnsforskning, ledelse og samfunnsøkonomi. SSCI gir m.a.o. et bredere nedslagsfelt enn om jeg alternativt benyttet en tematisk sett smalere database for pedagogisk forskningslitteratur, som for eksempel Education Resources Information Center (ERIC).

Primært benytter jeg søkefrasen «student evaluation*» i tittelord, artikkelsammendrag (abstract) og nøkkelord (keywords) ved søk etter relevant forskningslitteratur i SSCI. Ved å benytte asterisk (*) får man treff på både entalls- og flertallsbøyninger av ordet «evaluation». Begrepet «student evaluation*» er veletablert i forskningslitteraturen, og et søk på SSCI gir et treff på 660 publikasjoner i tidsperioden fra 1975 til desember 2011. I denne artikkelen refererer jeg naturlig nok på langt nær til alle disse bidragene, og i utvelgelse av litteratur har jeg primært fokusert på 1) empiriske artikler, 2) artikler som på en eller annen måte evaluerer faglærer eller foredragsholder samt 3) artikler som entydig analyserer i hvilken grad en eller flere ulike faktorer influerer på studenters persepsjoner av faglærer eller foredragsholder. I vesentlig grad har jeg også forsøkt å begrense utvelgelsen av litteratur til å ligge innenfor de fire kategoriene 1) deltakerforutsetninger, 2) mål eller formål, 3) rammer og 4) innhold (jf. Handal, 1984). Jeg vil på ingen måte kategorisk hevde at jeg har maktet å identifisere samtlige av de mest sentrale og relevante bidragene på området, men jeg mener at litteraturen jeg henviser til gir et realistisk bilde av hva internasjonal forskning sier om bruken av studentevalueringer i høyere utdanning. Siden jeg ikke har funnet tidligere studier som har forsøkt å sammenfatte forskning på området, har jeg prioritert å søke etter både nylig publiserte studier samt studier som er publisert noe tilbake i tid.

Litteraturgjennomgang

Deltakerforutsetninger

Begrepet deltakerforutsetninger definerer jeg til å innbefatte både student- og faglærerforutsetninger. Med studentforutsetninger tenker jeg spesielt på den faglige motivasjonen eller forutsetningen som hver enkelt student måtte ha. Selv om motivasjon og forutsetninger er to selvstendige begreper, henger de imidlertid sammen og kan være vanskelig å behandle separat. Studenter som har gode forutsetninger for å gjennomføre et studium, vil naturlig nok være relativt godt motivert siden de i stor grad mestrer studiene. Motivasjon kan også påvirke resultatene de har oppnådd både før og under høyere utdanning, og derved i sin tur påvirke forutsetningene.

Seiler, Seiler og Chiang (1999) fant at studenter som hadde høy poengsum ved opptak til college (GPA, grade point average) ga gode studentevalueringer. Tilsvarende fant Langbein (2008) at studenter som fikk gode karakterer også tenderte til å gi gode evalueringer (studien kontrollerte for studentenes forventede karakterer). Radmacher og Martin (2001) fant videre at studenter som var opptatt på studier med høy prestisje, jevnt over ga positive tilbakemeldinger. Siden prestisjefylte studier normalt har høye opptakskrav, kan også dette indikere en positiv sammenheng mellom studentenes generelle kvalifikasjoner og tilbakemeldingene de gir til foreleser. Dyktige studenter forventer videre jevnt over gode karakterer, og en rekke studier har påvist en positiv sammenheng mellom slike forventninger og kursevalueringer (McPherson, 1982; Greenwald and Gillmore, 1997; Krautmann and Sander, 1999; Radmacher and Martin, 2001; Eiszler, 2002; Kidd and Latif, 2004; Isely and Singh, 2005). I forhold til det sistnevnte momentet er imidlertid kausalitetsproblematikken kompleks, noe jeg vil komme tilbake til senere.

Oppsummert kan vi si at empirien indikerer en klar sammenheng mellom studenters faglige kvalifikasjoner og gode studentevalueringer. Dette kan forklares på flere måter. For det første er det naturlig å anta at dyktige studenter jevnt over har en positiv holdning til det å lære og å tilegne seg nytt stoff. Naturlig nok vil dette smitte over på opplevelsen de har av det som skjer i undervisningssammenheng. Studenter med dårligere forutsetninger, og som derved kan ha vansker med å tilegne seg faget, vil på den annen side kunne ha en tendens til å skylde på dårlig undervisning. Dette kan forklares ut fra attribusjonsteori der egen suksess forklares som et resultat av personlige egenskaper, mens nederlag blir tillagt eksterne forhold (Kelly, 1973; Greenwald and Gillmore, 1997). Motiverte studenter vil også i større grad arbeide med faget både før og etter forelesning, og dette vil i sin tur gjøre faget enda mer tilgjengelig for denne gruppen.

Generelle studentforutsetninger og motivasjon kan også være en funksjon av modningsnivå. Det kan derfor hende at eldre studenter eller studenter med lang yrkeserfaring har en annen opplevelse av undervisningskvaliteten enn sine yngre og mindre erfarne medstudenter. Seiler et al. (1999) oppdaget at deltidsstudenter jevnt over var mer fornøyde med undervisningen enn fulltidsstudenter. Generelt sett er deltidsstudenter ofte både eldre enn fulltidsstudenter og har i tillegg gjerne lang yrkeserfaring. Funnet jeg har referert til kan derfor indikere en sammenheng mellom modningsnivå og opplevelse av undervisningssituasjonen. En annen forklaring kan selvsagt være at deltidsstudenter opplever det som et privilegium å studere mens unge fulltidsstudenter mer tar det som en selvfølge. Radmacher og Martin (2001) fant imidlertid ingen sammenheng mellom studentenes alder og evalueringene de ga, men utvalget deres var fulltidsstudenter på bachelornivå og her er aldersspredningen ofte lav.

Utover generelle forutsetninger (og generell motivasjon) kan naturlig nok også disse begrepene brytes ned i spesifikke karakteristika hos studenten. Med dette mener jeg spesifikke forutsetninger (og motivasjon) for enkelte fag, mens andre fag ikke vekker samme interesse (Yount, 1996). Siden empirien indikerer en klar sammenheng mellom generelle forutsetninger og opplevelse av kurskvalitet, er det da også naturlig å forvente at studenter som har spesiell interesse for et fag også tenderer til å gi gode tilbakemeldinger i det eller de kursene som omhandler dette faget. Jeg har ikke funnet bidrag som på en eksplisitt måte studerer dette, men Seiler et al. (1999) fant at obligatoriske kurs jevnt over ble evaluert mer negativt i form av kursinnhold enn valgfrie kurs. Siden valgfrie kurs naturlig nok tiltrekker seg studenter som nettopp har interesse for disse fagene, gir dette derfor en klar indikasjon på at spesifikke interesser (og forutsetninger) påvirker studentenes evalueringer. I tråd med dette fant også McPherson (1982) at den gjennomsnittlige evalueringen var mest positiv i kurs hvor en stor andel av studentene hadde faget som fordypningsemne.

Med faglærerforutsetninger mener jeg undervisningserfaring, formelt utdanningsnivå, faglig profil (inkludert eventuell pedagogisk formalkompetanse) og andre personlige egenskaper, som for eksempel personlighet. McPherson (1982) fant en klar positiv sammenheng mellom antall semestre med undervisningserfaring og tilbakemelding på undervisning for lavere grads collegestudenter. For høyere grads studenter var det imidlertid ingen slik sammenheng. Ragan og Walia (2010) fant at nyansatte lærere tenderte til å få negative evalueringer, men at forskjeller mellom denne gruppen og mer erfarne kolleger hurtig tenderte til å bli utvisket. En annen studie har faktisk påvist negative (men svake) sammenhenger mellom undervisningserfaring og studenters evalueringer (Crader and Butler, 1996). Seiler et al. (1999) fant videre at amerikanske universitetsprofessorer med fast ansettelse (som er en indikator for ansiennitet) jevnt over fikk gode evalueringer på personlige egenskaper som foreleser. Den samme studien viste imidlertid en negativ sammenheng mellom fast ansettelse og opplevd kursinnhold fra studentenes side.

Oppsummert så langt kan vi derfor si at empirien gir et noe blandet bilde av sammenhengen mellom undervisningserfaring og hvordan studentene opplever den faglige kvaliteten. Etter min mening er dette overraskende, men en mulig forklaring kan være at mindre erfarne forelesere legger seg mer i selen enn sine mer erfarne kolleger, siden det tross alt er mer som står på spill for den førstnevnte gruppen (for eksempel kvalifisering for fast ansettelse i det amerikanske universitetssystemet, dokumentasjon på «god» undervisning ved eventuell ny jobbsøknad etc.). En annen forklaring kan faktisk være en underliggende sammenheng mellom undervisningserfaring og alder. Studier har vist en klar negativ sammenheng mellom faglæreres alder og studentevalueringer (Renaud and Murray, 1996; Arbuckle and Williams, 2003). Ingen av bidragene jeg har kommentert ovenfor har imidlertid kontrollert for denne faktoren, og dette kan ha maskert en genuin sammenheng mellom faglæreres undervisningserfaring og de evalueringene hun eller han måtte få. En tredje forklaring på den noe sprikende empirien kan imidlertid rett og slett være at dyktige og erfarne forelesere som stiller høye krav til studentene, ikke nødvendigvis opplever å få de beste studentevalueringene. Det er studier som indikerer at «lette» kurs tenderer til å få gode evalueringer (Greenwald and Gillmore, 1997; Felton et al., 2008; Carrell and West, 2010). Videre kan det imidlertid vise seg at studenter i kurs med positivt evaluerte forelesere faktisk tenderer til å gjøre det dårlig karaktermessig i påfølgende kurs (Carrell and West, 2010). Sagt med litt andre ord kan dette indikere at jakten på å bli en populær foreleser (i form av «lette» kurskrav) resulterer i reduserte grunnleggende ferdigheter hos studentene (noe som viser seg ved svakere resultater i påfølgende kurs).

Andre studier har videre indikert at faglærers kjønn, personlighet, rase og utseende kan påvirke hvordan man blir evaluert. I et eksperiment lot Arbuckle og Williams (2003) studentene få høre en forelesning hvor stemmen til foreleseren var gjort kjønnsnøytral og aldersnøytral. Studenter som ble forespeilet at foreleser var en ung mann, anga at vedkommende både var mer entusiastisk og hadde mer meningsfull stemmebruk enn tilbakemeldinger fra studenter som ble forespeilet andre karakteristika hos foreleseren (ung kvinne, gammel mann eller gammel kvinne). Andre studier har også vist at mannlige lærere blir vurdert til å være mer entusiastiske enn sine kvinnelige kolleger (Leone-Perkins et al., 1999), og spesielt er det mannlige studenter som gjør negative vurderinger av kvinnelige faglærere (Basow, 1995). Med andre ord er det ikke bare alder som spiller inn, men også kjønn som påvirker hvordan studentene opplever foreleseren. Radmacher og Martin (2001) har videre avdekket en meget sterk positiv sammenheng mellom utadvendt personlighet hos foreleseren og gode studentevalueringer, noe som også finner støtte i en rekke andre studier (Waters et al., 1988; Murray et al., 1990; Ambady and Rosenthal, 1993; Inglehart, 1997; Patrick, 2011).

Hva gjelder rasemessig bakgrunn, har jeg ikke funnet bidrag som på en eksplisitt måte har studert hvordan dette påvirker studentevalueringer. En undersøkelse av kvinnelige fysioterapistudenter viste imidlertid at foredragsholderens etniske bakgrunn påvirket hvordan de ble evaluert av randomiserte utvalg av ferdigutdannede fysioterapeuter. Selv om foredragene var identiske i innhold, fikk den afroamerikanske foredragsholderen generelt dårligst evalueringer (Haskins et al., 1997).

Et naturlig eksperiment viste at MBA-studenter som eksplisitt fikk i oppgave å intervenere og spre negativ omtale av professoren i et bestemt kurs, resulterte i negative haloeffekter hva angår bedømmelse av både kursinnhold og læringsutbytte (McNatt, 2010). Dette funnet er kanskje ikke spesielt overraskende, men det viser uansett at forhold utover faglærers faglige og pedagogiske kvalifikasjoner kan påvirke studentevalueringer. En annen studie har til og med påvist at opplevd fysisk attraktive forelesere (både kvinner og menn) jevnt over skåret høyere på studentevalueringer enn sine mindre attraktive kolleger (Riniolo et al., 2006). Freng og Webber (2009) mener å kunne påvise en lignende sammenheng, mens Campbell, Gerdes og Steiner (2005) ikke greide å påvise noen sammenheng mellom utseende og studenters lærerevalueringer.

Jeg må til sist medgi at jeg overraskende nok ikke har funnet bidrag som eksplisitt måler hvorvidt formalkompetanse i pedagogikk influerer på studentenes evalueringer. Seiler et al. (1999) fant imidlertid at forskningsorienterte forelesere fikk gode tilbakemeldinger på personlige egenskaper, og dette kan indikere en positiv sammenheng mellom faglig ekspertise og opplevd kvalitet. Fast ansettelse i det amerikanske universitetssystemet er også en indikator på faglig dyktighet (i tillegg til ansiennitet), og Seiler et al. (1999) fant videre – som jeg har vært inne på – at amerikanske universitetsprofessorer med fast ansettelse jevnt over fikk gode evalueringer på personlige egenskaper som foreleser. Den samme studien viste imidlertid en negativ sammenheng mellom fast ansettelse og opplevd kursinnhold fra studentenes side, men som jeg også har nevnt kan dette forklares ved at fast ansettelse gir lavere insentiver for å skape gode kurs. Carrell og West (2010) fant at forelesere med doktorgrad og lang undervisningserfaring faktisk tenderte til å få negative evalueringer. Studentene til disse foreleserne oppnådde imidlertid bedre resultater i påfølgende kurs enn studenter som hadde forelesere med lavere formalkompetanse eller kortere undervisningserfaring.

Rammer, mål eller formål og faginnhold

Rammer eller rammefaktorer kan defineres som «forhold som kan fremme eller hemme undervisning og læring på mange forskjellige måter» (Hiim and Hippe, 1998, s. 134). Eksempler på rammer kan være undervisningsfasiliteter og økonomiske rammebetingelser. Det er ganske naturlig å tenke seg at dette kan påvirke den genuine kvaliteten på det faglige opplegget for studentene, noe som naturlig nok også kan bli gjenspeilt på tilbakemeldingene som de gir. McPherson (2006) fant for eksempel at bachelorstudenter som var plassert i store klasser var mer misfornøyd med undervisningskvaliteten enn studenter som var plassert i mindre klasser. For mastergradsstudenter var det imidlertid ingen slik sammenheng (men på masternivå er klassene generelt sett mindre enn på lavere grads studier både i Norge og USA). Crader og Butler (1996) oppdaget at langs noen evalueringsdimensjoner var det en negativ sammenheng med klassestørrelse (i hvilken grad studentene opplevde faget som utviklende og i hvilken grad faglærere var oppmuntrende), mens sammenhengen faktisk var positiv langs andre dimensjoner (i hvilken grad studentene opplevde læreren som respektfull og i hvilken grad studentene opplevde læreren som responderende). Dette noe blandede bildet kan indikere at det slett ikke alltid er slik at undervisning fungerer best i småklasser, men at store klasser under enkelte forhold faktisk kan gi studentene en positiv opplevelse. En alternativ forklaring kan selvfølgelig være at det er mer krevende å undervise store klasser og at faglærer derfor forbereder seg bedre. (Som en parentes bør det også nevnes at det er mindre krevende for studentene å være til stede i store klasser, noe som kan gjøre det til en mer behagelig – om enn ikke alltid like lærerik – opplevelse.)

Studentenes formål ved å ta høyere utdanning vil naturlig nok variere fra individ til individ, og på samme måte vil faglæreres målsetting også kunne avvike fra både andre faglæreres målsettinger og mange av studentenes målsettinger. Til sist kan det godt tenkes at både faglæreres og studentenes målsettinger slett ikke stemmer overens med verken fagplanens (eller kursinnholdets) målsettinger. Problemstillinger som er relatert til målsettinger i høyere utdanning er med andre ord meget komplekse, og ikke minst bør vi derfor ha et reflektert forhold til dette når vi ber studentene evaluere både faglærere og kursinnhold. Som vi skal se, kan også studentevalueringer påvirke det faktiske faginnholdet både i form av arbeidsmengde og kurskrav.

Jeg har påpekt tidligere at studentevalueringer internasjonalt nå blir benyttet som et insentivsystem for undervisningspersonalet i høyere utdanning. En utfordring er imidlertid at det kan føre til både liberal karaktergivning samt reduksjon i arbeidskrav (for lærere så vel som studenter). Studenter som blir forespeilet gode karakterer vil – som jeg har påpekt – jevnt over gi gode studentevalueringer. I sin tur kan også dette være positivt for faglæreren. Hun eller han kan derfor føle seg fristet til å være raus med karakterene, noe som kan forklare sammenhengen mellom gode evalueringer og studentenes forventninger til karakterer (McPherson, 1982; Greenwald and Gillmore, 1997; Krautmann and Sander, 1999; Radmacher and Martin, 2001; Eiszler, 2002; Kidd and Latif, 2004; Isely and Singh, 2005; Patrick, 2011). Greenwald og Gillmore (1997) fant i denne forbindelse en klar negativ sammenheng mellom forventet karakter og arbeidsinnsats, noe de mener bare kan forklares med at studenter forventer gode karakterer i kurs med «snille» professorer – både i form av liberal karaktergivning og lette arbeidskrav (som studentene i sin tur evaluerer positivt som «betaling»). Om forventet karakter ene og alene skyldtes hardt arbeid, ville naturlig nok sammenhengen mellom forventet karakter og arbeidsinnsats vært positiv og ikke negativ. Andre studier hevder også å kunne påvise en kausal sammenheng som Greenwald og Gillmore argumenterer for (Eiszler, 2002; Isely and Singh, 2005).

I vår norske kontekst virker imidlertid problematikken jeg har diskutert ovenfor kanskje noe fremmed. Likevel, økt bruk av både studentevalueringer samt at mange studenter nå i større grad enn før blir evaluert underveis i kursmoduler (eksempelvis mappeevalueringer og obligatoriske innleveringer), har også aktualisert debatten her hjemme. Liberal karaktergivning fører videre til færre klager og færre henvendelser om karakterbegrunnelse, noe som naturlig nok letter arbeidsbyrden til faglærere. Dette kan derfor forklare inflasjonen i gode karakterer som vi har observert de senere årene ved amerikanske læresteder, og som vi nå også ser tendenser til her til lands (eller kanskje enda mer i form av høyere produksjon av studiepoeng og lavere strykandel). Redusert bruk av ekstern sensor kan også spille inn her. Sistnevnte forhold innebærer at faglærer i større grad vurderer studentene alene, og derved kan føle seg fristet eller presset til liberal karaktersetting. Et annet forsterkende moment som kommer inn her, er at finansieringssystemet innenfor høgskolesektoren nå i større grad enn tidligere er basert på produksjon av studiepoeng. Dette kan danne et ekstra insentiv for å gi studenter ståkarakter, til tross for marginale kunnskaper.

Diskusjon

Utgangspunktet for denne artikkelen har vært å gi en oversikt over hva den internasjonale forskningslitteraturen sier om bruk av studentevalueringer i høyere utdanning. Jeg har forsøkt å integrere dette materialet i lys av Handals (1984) avgrensing av fagdidaktikkbegrepet. I hans modell utgjør kategoriene 1) deltakerforutsetninger, 2) mål eller formål, 3) rammer, 4) innhold og 5) evalueringer sentrale byggesteiner. Primært har jeg fokusert på i hvilken grad de fire førstnevnte kategoriene kan influere på evalueringer som studentene gjør av faglærer og faginnhold.

Oppsummert må man kunne si at til tross for noe sprikende empiri, viser internasjonal forskning at det finnes en rekke forhold utenfor faglærers kvalifikasjoner som kan influere på de evalueringene studentene gir. Det kanskje mest entydige bildet fra empirien er at studenter som er godt faglig kvalifisert tenderer til å gi bedre evalueringer enn svake studenter. Jeg har tidligere påpekt at denne sammenhengen kan forklares ved at relativt svake studenter som sliter med fagtilegnelse vil tendere til å attribuere egne læringsutfordringer til foreleser. Et annet gjennomgående trekk fra empirien er at utadvendte forelesere er mer populære enn mer innadvendte lærere.

Tilbakemeldinger fra studenter bør man derfor innta et edruelig forhold til. Spesielt bør det anspore en viss kritisk holdning når det også viser seg at faktorer som kjønn, alder, rase og utseende kan være med på å påvirke evalueringene. Videre har også studentforutsetninger som motivasjon og kvalifikasjoner betydning for tilbakemeldinger som blir gitt. Jeg har også referert til forskning som viser at «slepphendte» universitetsprofessorer tenderer til å få gode evalueringer. Det kan godt hende at de svakeste og minst motiverte studentene i «lette» kurs ville lære mer siden de ikke vil falle fullstendig gjennom pga. krevende kurskrav. Men på den annen side: Hva skal premissene være for høyere utdanning? Er målet at flest mulig studenter skal være fornøyde og at flest mulig (gjennom moderate arbeidskrav) tilegner seg minimumskravene? Eller ønsker vi at stramme kurskrav skal fungere som en seleksjonsmekanisme der motiverte kandidater med tilfredsstillende kvalifikasjoner slipper gjennom? Økende bruk av både studentevalueringer og studenttilfredshetsundersøkelser samt at studiestedene får betaling for produksjon av studiepoeng og uteksaminerte kandidater har i høy grad vært med på å aktualisere disse spørsmålene.

En student som både strever med motivasjon og fagtilegnelse vil naturlig nok ønske at fagnivå og fagformidling er av en slik art at hun eller han er i stand til å gjennomføre studiet. Men om dette kan forsvares ut fra arbeidslivets behov for kompetent arbeidskraft, finner jeg imidlertid grunn til å stille spørsmål ved. Å beskjære kurskrav og kursinnhold vil videre berøve dyktige og motiverte studenter muligheten fra å bevege seg mot optimal læring og fagforståelse. Disse momentene bør også ses i lys Carrell og West (2010), som påpeker at negative studentevalueringer av faglærere med doktorgrad eller lang undervisningserfaring er relatert til at studentene gjør det relativt godt i påfølgende kurs. Dette funnet kan faktisk indikere at studenttilfredshet står i et motsetningsforhold til optimal læring.

Jeg vil selvsagt være forsiktig med å hevde kategorisk at utstrakt bruk av studentevalueringer (og også andre studenttilfredshetsundersøkelser) vil føre til utglidning av både fagkrav og integritet i høyere utdanning. Like fullt mener jeg at denne redegjørelsen inneholder gode argumenter for at en slik tendens kan forekomme, og forskningsbidrag som jeg har referert til indikerer også at slike tilbøyeligheter faktisk finner sted.

Når dette er sagt, betyr det imidlertid ikke at studentevalueringer er verdiløse. Poenget er at vi må innta et reflektert forhold til innsamlet og bearbeidet materiale. I denne artikkelen har jeg derfor belyst hvordan internasjonal forskning kan hjelpe oss på vei i så måte. Jeg vil på ingen måte hevde at vi skal forholde oss til forskning som jeg her har referert til på en ukritisk måte (hvor resultatene også til dels kan være noe sprikende), men det gir uansett et faglig fundament til økt forståelse av tematikken som jeg har belyst i denne artikkelen. Ignorering av kunnskap vi faktisk har tilgang til (om den enn er aldri så ufullkommen) er absolutt det verste. Vi bør derfor ha et kritisk og reflektert forhold til de implikasjoner som økt bruk av studentevalueringer kan ha både i forhold til kurskrav og faglig integritet i høyere utdanning. Her ligger imidlertid ikke bare ansvaret hos den enkelte faglærer, men også i særdeleshet hos faglig og politisk ledelse ved norske høgskoler og universiteter.

Jeg håper at dette bidraget og mine refleksjoner rundt hva den internasjonale forskningslitteraturen sier om bruken av studentevalueringer videre kan anspore en diskusjon blant faglærere og andre interessenter innenfor høyere utdanning. Så langt jeg kjenner til, har ikke tilsvarende systematisering av forskningslitteraturen tidligere vært gjennomført, verken nasjonalt eller internasjonalt, og i så måte vil jeg argumentere for at artikkelen kan være et nyttig bidrag i en slik debatt. Jeg har allerede poengtert at empirien i internasjonal forskning til dels er noe sprikende. En annen ting som også bør problematiseres, er at det ikke finnes noen universelt anerkjent begrepsmessig definisjon av hva studentevaluering er. Tilsvarende finnes det heller ingen anerkjente operasjonaliseringer eller empiriske mål av begrepet. Disse faktorene kan være en plausibel forklaring på hvorfor litteraturen i begrenset grad er entydig. Tematikkens kompleksitet kan videre være en forklaring på at jeg ikke har vært i stand til å identifisere tidligere forskning som har forsøkt å sammenfatte empirien innenfor dette fagfeltet på en slik måte som jeg har forsøkt å gjøre her.

På bakgrunn av dette håper jeg derfor også at denne artikkelen kan inspirere til fremtidig forskning innenfor bruk av studentevalueringer i høyere utdanning. Så langt jeg kjenner til, er det heller ikke blitt publisert noen norske studier innenfor tematikken i internasjonale tidsskrifter. Plausible forskningsspørsmål kan derfor være: Er det spesielle kontekstuelle forhold som skulle tilsi at bruken av studentevalueringer i Norge vil sammenfalle med resultater fra internasjonale bidrag eller ei? Kan for eksempel egalitære kulturelle forhold i Norge ha implikasjoner for interaksjonen mellom faglærer og studenter slik at dette i sin tur påvirker evalueringer? Andre forskningsspørsmål av mer generell karakter kan være: Finnes det en nyttig eller hensiktsmessig entydig definisjon av begrepet studentevaluering? Kan det antas å være et universelt begrep, eller bør det tilpasses etter kontekstuelle forhold? Er det et endimensjonalt eller et flerdimensjonalt begrep? I forlengelse av disse spørsmålene kan det være hensiktsmessig å gå mer i dybden på hvordan internasjonal forskning både anvender begrepsmessige definisjoner og hvordan ulike studier har operasjonalisert begrepet. Disse forholdene ligger imidlertid utenfor det overblikket som jeg har presentert av internasjonal forskning i denne artikkelen, men jeg vil like fullt argumentere for at fremtidige bidrag bør ta tak i slike utfordringer.

Litteratur

Ambady, N. & Rosenthal, R. (1993): Half a minute: Predicting teacher evaluations from thin slices of nonverbal behavior and physical attractiveness. Journal of Personality and Social Psychology, 64(4) 31–441.

Arbuckle, J. & Williams, B. D. (2003): Students’ perceptions of expressiveness: Age and gender effects on teacher evaluations. Sex Roles, 49(9–10), 507–516.

Basow, S. A. (1995): Student evaluations of college professors: When gender matters. Journal of Educational Psychology, 87(4), 656–665.

Campbell, H. E., Gerdes, K. & Steiner, S. (2005): What’s looks got to do with it? Instructor appearance and student evaluations of teaching. Journal of Policy Analysis and Management, 24(3), 611–620.

Carrell, S. E. & West, J. E. (2010): Does Professor Quality Matter? Evidence from Random Assignment of Students to Professors. Journal of Political Economy, 118(3), 409–432.

Crader, K. W. & Butler, J. K. (1996): Validity of students’ teaching evaluation scores. The Wimberly-Faulkner-Moxley questionnaire. Educational and Psychological Measurement, 56(2), 304–314.

Eiszler, C. F. (2002): College students’ evaluation of teaching and grade inflation. Research in Higher Education, 43(4), 483–501.

Felton, J., Koper, P. T., Mitchell, J. & Stinson, M. (2008): Attractiveness, easiness and other issues: student evaluations of professors on Ratemyprofessors.com. Assessment & Evaluation in Higher Education, 33(1), 45–61.

Freng, S. & Webber, D. (2009): Turning Up the Heat on Online Teaching Evaluations: Does Hotness Matter? Teaching of Psychology, 36(3), 189–193.

Greenwald, A. G. & Gillmore, G. M. (1997): Grading leniency is a removable contaminent of student ratings. American Psychologist, 52(11), 1209–1217.

Hand, L. & Rowe, M. (2001): Evaluation of student feedback. Accounting Education, 10(2), 147–160.

Handal, G. (1984): Hva er fagdidaktikk? Norsk Pedagogisk Tidsskrift, 68(2), 59–63.

Haskins, A. R., RoseStPrix, C. & Elbaum, L. (1997): Convert bias in evaluation of physical thearpist students’ clinical performance. Physical Therapy, 77(2), 155–163.

Hiim, H. & Hippe, E. (1998): Læring gjennom opplevelse, forståelse og handling: En studiebok i didaktikk. Oslo: Universitetsforlaget.

Inglehart, R. (1997): Modernization and post-modernization: Cultural, economic, and political change in 43 societies. Princeton, NJ: Princeton University Press.

Isely, P., Singh, H. (2005): Do higher grades lead to favorable student evaluations? Journal of Economic Education, 36(1), 29–42.

Kelly, H. H. (1973): The processes of causal attribution. American Psychologist, 28, 107–128.

Kidd, R. S. & Latif, D. A. (2004): Student evaluations: Are they valid measures of course effectiveness? American Journal of Pharmaceutical Education, 68(3), Art. No. 61.

Krautmann, A. C. & Sander, W. (1999): Grades and student evaluation of teachers. Economics of Education Review, 18(1), 59–63.

Kravitz, D. A., Stone-Romero, E. F. & Ryer, J. A. (1997): Student evaluations of grade appeal procedures: The importance of procedural justice. Research in Higher Education, 38(6), 699–726.

Langbein, L. (2008): Management by results: Student evaluation of faculty teaching and the mis-measurement of performance. Economics of Education Review, 27(4), 417–428.

Lauvås, P. & Maurud, Ø. (2008): Evaluering av egen undervisning: En hjelp til selvhjelp for universitetene. Uniped, 31(4), 7–32.

Leone-Perkins, M., Schnuth, R. & Kantner, T. (1999): Preceptor-student interactions in an ambulatory clerkship: Gender differences in student evaluations of teaching. Teaching and Learning in Medicine, 11(3), 164–167.

McNatt, D. B. (2010): Negative Reputation and Biased Student Evaluations of Teaching: Longitudinal Results From a Naturally Occurring Experiment. Academy of Management Learning & Education, 9(2), 225–242.

McPherson, J. M. (1982): Hypernetwork sampling: duality and differentiation among voluntary organizations. Social Networks, 3, 225–249.

McPherson, M. A. (2006): Determinants of how student evaluate teachers. Journal of Economic Education, 37(1), 3–20.

Moore, S., Eng, E. & Daniel, M. (2003): International NGOs and the role of network centrality in humanitarian aid operations: A case study of coordination during the 2000 Mozambique floods. Disasters, 27, 305–318.

Murray, H. G., Rushton, J. P. & Paunonen, S. V. (1990): Teacher personality traits and student instructional ratings in six types of university courses. Journal of Educational Psychology, 82(2), 250–261.

Patrick, C. L. (2011): Student evaluations of teaching: effects of the Big Five personality traits, grades and the validity hypothesis. Assessment & Evaluation in Higher Education, 36(2), 239–249.

Radmacher, S. A. & Martin, D. J. (2001): Identifying significant predictors of student evaluations of faculty through hierarchical regression analysis. The Journal of Psychology, 135(3), 259–268.

Ragan, J. F. & Walia, B. (2010): Differences in Student Evaluations of Principles and Other Economics Courses and the Allocation of Faculty across Courses. Journal of Economic Education, 41(4), 335–352.

Renaud, R. D. & Murray, H. G. (1996): Aging, personality, and teaching effectiveness in academic psychologists. Research in Higher Education, 37(3), 323–340.

Riniolo, T. C., Johnson, K. C., Sherman, T. R. & Misso, J. A. (2006): Hot or not: Do professors perceived as physically attractive receive higher student evaluations? The Journal of General Psychology, 133(1), 19–35.

Seiler, M. J., Seiler, V. L. & Chiang, D. (1999): Professor, student, and course attributes that contribute to successful teaching evaluations. Financial Practice and Education, 9(2), 91–99, Fall/Winter

Sproule, R. (2002): The underdetermination of instructor performance by data from the student evaluation of teaching. Economics of Education Review, 21(3), 287–294.

Tomasco, A. T. (1980): Student perceptions of instructional and personality characteristics of faculty: A canonical analysis. Teaching of Psychology, 7(2), 79–82.

Waters, M., Kemp, E. & Pucci, A. (1988): High and low faculty evaluations. Teaching of Psychology, 15(4), 203–204.

Yount, W. R. (1996): Created to Learn. Nashville, Tennessee: Broadman & Holman Publishers.

1Handals (1984) modell innbefatter også kategorien «undervisningsutforming». Denne er imidlertid ikke gjenstand for eksplisitt diskusjon i denne artikkelen.

Idunn bruker informasjonskapsler (cookies). Ved å fortsette å bruke nettsiden godtar du dette. Klikk her for mer informasjon