Oppgrader til nyeste versjon av Internet eksplorer for best mulig visning av siden. Klikk her for for å skjule denne meldingen
Ikke pålogget
{{session.user.firstName}} {{session.user.lastName}}
Du har tilgang til Idunn gjennom , & {{sessionPartyGroup.name}}

Kvalitetssystemet i praksis: Ressurser på avveie?

Norges teknisk-naturvitenskapelig universitet (NTNU). E-post: Vidar.Gynnild@plu.ntnu.no.

Et sentralt tema i artikkelen er at «kvalitet» i utdanningen kan forstås ut fra perspektiver som hver for seg eksemplifiserer ulike aspekter av kvalitet. Undersøkelsen dokumenterer hvordan et undervisningsperspektiv og et resultatperspektiv gjør bruk av ulike typer data, som hver for seg ender i ulike konklusjoner med hensyn til kvalitet. Dersom oppmerksomheten rettes mot «input», framstår studenttilfredshet med undervisningen som et naturlig referansepunkt. Og motsatt, dersom interessen rettes mot «output», er oppnådde læringsresultater et selvfølgelig kriterium. Den metodiske bekymringen knyttet til det undersøkte kvalitetssystemet består i at ett valgt perspektiv utses til å si noe om «kvaliteten», og at denne synes å bli oppfattet som et absolutt snarere enn et relativt fenomen. «Kvalitet» som fenomen står dermed i fare for å forsvinne som et felt for nærmere utforskning til fordel for et evalueringsregime som bidrar til å svekke mulighetene til innsikt i mer vesentlige sammenhenger for bedre læring.

Nøkkelord: Kvalitetssystem, kvalitetsperspektiv, læringsprosesser, læringsresultater, studenttilfredshet

The construct of ‘quality’ in higher education may be approached from different perspectives, each of which generates evidence of particular aspects of quality. This study illustrates how two perspectives – a teaching approach and an achievement approach – produce different sets of data, uncovering different realities of the same course. In the first instance, student satisfaction of teaching is used as a key criterion of success, whereas the achievement approach seeks evidence in learning outcomes. The researcher argues that the main concern of the current quality assurance system is that one single perspective aspires to measure the ‘quality’ of the course more generally. This practice impedes the exploration of ‘quality’ from multiple perspectives, reducing the likelihood of professors acquiring a better understanding of how intended learning outcomes can be promoted and achieved by more students.

Keywords: Quality assurance, quality perspective, learning processes, learning outcomes, student satisfaction

Innledning

Universitets- og høyskolelovens § 1-6 pålegger alle høyere utdanningsinstitusjoner å ha et tilfredsstillende system for kvalitetssikring. Ved NTNU ligger det institusjonelle ansvaret for kvalitetssystemet hos Styret, mens lokale tilpasninger og bruk er delegert til rektor, dekaner og instituttledere. Kvalitetsarbeidet er en integrert del av styrings- og ledelsesstrukturen ved universitetet med utgangspunkt i felles, institusjonelle retningslinjer (NTNU, 2012, s. 8). Formålet er å «sikre og utvikle kvaliteten på utdanningstilbudet på alle nivå» og omfatter «alle prosesser og aktiviteter som har betydning for utdanningskvaliteten» (NTNU, 2012, s. 1). Universitets- og høyskolelovens § 1-6 framhever bruk av studentevalueringer som sentralt virkemiddel og at studentene skal involveres for å skape et godt arbeidsmiljø.

Artikkelen er skrevet med utgangspunkt i kvalitetsarbeid innen rammen av ett emne på 7,5 studiepoeng. Hensikten er å belyse hvordan ulike tolkninger av begrepet «kvalitet» i sin tur gir føringer for datainnsamling og resultatrapportering. Ettersom krav og retningslinjer er felles ved fakultetet, velger vi tilnærminger som potensielt kan kaste lys over praksis mer generelt. Analysen er gjennomført med utgangspunkt i tre ulike datakilder: 1) Dokumentasjon av universitetets overordnete krav og retningslinjer til kvalitetssystemet, 2) data generert ved bruk av kvalitetssystemet i ett emne og 3) råscorer ved eksamen, altså faglærers (og sensors) vurdering av prestasjoner. For å få et litt bredere datagrunnlag, ble samme analyse gjennomført med data for to påfølgende år, 2011 og 2012.

Mens begrepet «kvalitet» synes å opptre stadig oftere, volder operasjonaliseringen av begrepet hodebry. «Kvalitet» som begrep er prinsipielt åpent, så tydeliggjøring må til hvis man skal kunne måle eller sammenligne noe på dette feltet. Denne undersøkelsen har som utgangspunkt at «kvaliteten» (i bestemt form) unndrar seg enkel dokumentasjon, og at kvalitetsstudier med større hell kan gjennomføres ut fra valgte kvalitetsperspektiver. Resultatene avhenger av hvilket eller hvilke aspekter ved kvalitet som blir gjort til gjenstand for undersøkelse. Der noe bringes fram i lyset, forblir annet i mørke. Følgende problemstillinger blir nærmere undersøkt i denne artikkelen:

  • Hvordan blir kvalitetssystemet omsatt i praksis i det aktuelle emnet?

  • Hva er datamaterialets egenart og egnethet for pedagogisk utviklingsarbeid?

  • Hva blir status dersom vi skifter perspektiv fra «undervisning» til «læring»?

NTNUs kvalitetssystem skiller mellom tema som «bør adresseres» (NTNU, 2012, s. 1), «felles krav for kvalitetssikring av studieprogram» og «felles krav for kvalitetssikring av emner» (NTNU, 2012, s. 4). Kvalitetssikring på emnenivå skjer ved bruk av studentevalueringer og «referansegrupper» bestående av 3–4 studenter med skriftlig rapportering til instituttleder.

«Kvalitet» blir i noen sammenhenger tolket som noe utsøkt, spesielt og originalt, en begrepsforståelse vi gjenfinner i det førindustrielle samfunnet. Industrisamfunnet satte krav til nye, felles standarder for produksjon, idet «kvalitet» blir «det samme som at leve op til en norm. Variation bliver en uting, der skal elimineres» (Dahler-Larsen, 2013, s. 32). Idéhistorisk går det en klar linje mellom industrisamfunnets kvalitetsbegrep og de kvalitetssystemene vi nå ser vokser fram i høyere utdanning. På denne måten oppstår en parallell maktstruktur ved siden av det tradisjonelle faglig-kollegiale samarbeidet, som har lange tradisjoner i akademia. De to kvalitetsregimene opererer ut fra ulike maktbaser og manifesterer seg på ulikt vis i organisasjonene. Mens det faglig-kollegiale kvalitetsarbeidet er knyttet til fagdisiplinen eller emnet, har den nye typen kvalitetsregimer en sentral og byråkratisk organisering. Autoritet er hjemlet i lovverket, slik at kvalitetssystemene i prinsippet gjelder alle faglig tilsatte. Møtet mellom disse to ulike kulturene er ikke alltid preget av harmoni, ei heller i vårt tilfelle.

Bekymringer har vært knyttet til økt byråkratisering samt standardisering av krav og prosedyrer, uavhengig av situasjon og behov. Vektingen mellom kontroll, utvikling og læring er et evig stridstema, og forskning viser etter noens mening en utvikling i feil retning, slik følgende sitater beskriver: «While forces of accountability are strong, those devoted to improvement, including the promotion of innovation, are fragmented» (Newton, 2002, s. 3). «The agenda is managerial rather than academic, with accountability as a high priority; procedures are top-down and bureaucratic» (Biggs, 2001, s. 222).

In short, some common QA [Quality Assurance] procedures have the opposite effect to that intended. This approach […] is […] not functionally concerned with the quality of teaching and learning, but with quantifying some of the presumed indicators of good teaching and good management. (Biggs, 2001, s. 232)

Bedre dokumentasjon etterlyses:

What is surprising is that, even though ‘quality’ has had such a profound impact on academics’ lives and behaviours, […] this major transformation remains curiously under-researched and under-theorised. Indeed, if we were to stand back as an academic community and ask ‘what has been learned? and by whom?’, or ‘what has improved?’, though many would be quick to provide answers, in reality we can point to very little research into how ‘quality policy’, or other areas of strategy designed to improve learning and teaching have been used, how this has impacted on academic practice. (Newton, 2002, s. 1–2)

Bristende innsikt i kvalitetssystemets bidrag til bedre læring motiverte denne undersøkelsen. Hensikten er å etterprøve prinsipielle spørsmål med større grundighet enn det som er vanlig i det løpende kvalitetsarbeidet i emner, der et sentralt mål er å følge gitte regler og prosedyrer.

Perspektiver på kvalitet

Kvalitetsbegrepet som begrep er prinsipielt åpent, og gir rom for ulike tilnærminger eller perspektiver. Det eller de perspektiver som blir valgt, får betydning for arbeidets fokusering og progresjon. Kvalitetsperspektiv bidrar til å rette oppmerksomheten mot et aspekt ved kvalitet, samtidig som andre perspektiver får tre i bakgrunnen:

Taler man om kvaliteten, er der derfor typisk en antagelse eller forestilling om et kvalitetsobjekt. Det er mindst lige riktigt at sige, at en sådan antagelse eller forestilling manes frem gennem samtalen om kvalitet, som det er at forestille seg et kvalitetsobjekt ”derude”. (Dahler-Larsen, 2013, s. 38)

I vårt tilfelle var utfordringen «å sikre og utvikle kvaliteten på utdanningstilbudet» (NTNU, 2012, s. 1), og omfattet «alle prosesser og aktiviteter som har betydning for utdanningskvaliteten» (NTNU, 2012, s. 1). Fokus er her rettet mot utdanningstilbudet, mens andre perspektiver som læringsprosesser eller læringsresultat ikke er nevnt i beskrivelsen av kvalitetssystemet. Hensikten beskrives i en dobbelt målsetting – å sikre og utvikle kvaliteten (i bestemt form). Begrepsbruken reiser spørsmål om det ligger en antakelse om noe «absolutt», altså en forestilling om «kvalitet» som noe udiskutabelt og objektivt gitt. Et valgt kvalitetsperspektiv definerer hva som er relevant og hva som skal gis prioritet, og sier noe om «kvaliteten» ene og alene ut fra sitt eget perspektiv. Det definitoriske og det pragmatiske knyttes med dette sammen. Vi kan «sikre» og «utvikle» noe ut fra det perspektiv som er valgt, mens andre aspekter de facto blir valgt bort, kanskje uten at vi selv er oppmerksom på det.

Det finnes andre tilnærminger som berører samme tema, med litt annen språkbruk. I en kjent og betydningsfull artikkel, skriver Barr og Tagg (1995) om et perspektivskifte fra undervisning til læring. De omtaler dette skiftet som en endring av paradigmatisk karakter:

A college is an institution that exists to provide instruction. Subtly but profoundly we are shifting to a new paradigm: A college is an institution that exists to produce learning. This shift changes everything. It is both needed and wanted. (Barr & Tagg, 1995)

Fenomenet studentevaluering av undervisningen er velkjent for mange. Den underliggende modellen for denne virksomheten, som fortsatt er svært utbredt, springer ut av det tradisjonelle paradigmet. Dersom perspektivet skifter fra undervisning til læring, faller det naturlig å samle data om prosesser og resultat. Hva framstår som de viktigste forklaringsvariablene til et gitt resultat? Denne utfordringen står som utgangspunkt for denne undersøkelsen. Vi analyserer først data samlet inn i tråd med kvalitetssystemets retningslinjer. Deretter bruker vi råscorer fra vurdering av studentbesvarelsene ved eksamen som indikator på grad av måloppnåelse. Dette datamaterialet er komplett for årene 2011 og 2012.

Kvalitetssystemet i praksis

Fakultetet benyttet i vårt tilfelle to ulike datainnsamlingsinstrumenter – en «faglærerrapport» og en «emnerapport» – som sentral del av kvalitetsarbeidet. Faglærerrapporten ble generert med utgangspunkt i emnets referansegruppe, som besto av 3–4 studenter. Referansegruppen var ment å være et forum for kommunikasjon om undervisning og læring underveis i semesteret med sikte på forbedringer. Ettersom emnet faglig sett besto av to deler, ble det rapportert to ganger per semester i årene 2011 og 2012. Rapporten besto av et surveylignende skjema med mulighet til kommentarer fra studentene (se Tabell 1 og Tabell 2 med kommentarer nedenfor).

 

Tabell 1. Rapport fra referansegruppens møter, 05.10.11 (x) og 23.11.11 (o)

Assessment of: Good       Bad
Relevance (relative to objectives) x, o        
Course information o x      
Lectures o x      
Exercises x o      
Laboratories          
Counceling/follow-up o x      
Teaching assistants o x      
Literature/lecture notes   x, o      
           
Workload (put a mark): Huge   OK   Low
Absolute (relative to 12 hours a week norm)     x, o    
Relative to other subjects     x, o    

 

Tabell 2. Rapport fra referansegruppens møter, 10.10.12 (x) og 22.11.12 (o)

Assessment of: Good       Bad
Relevance (relative to objectives) x, o        
Course information   o x    
Lectures   x, o      
Exercises x, o        
Laboratories          
Counceling/follow-up x, o        
Teaching assistants x, o        
Literature/lecture notes o x      
           
Workload (put a mark): Huge   OK   Low
Absolute (relative to 12 hours a week norm)     x, o    
Relative to other subjects       o x

Kommentarer til Tabell 1 («x» er for møtet 05.10.11; «o» er for møtet 23.11.11):

  • Exercises good and relevant (x)

  • There should be a motivation/introduction before lecturing each subject (x)

  • Relevans i forhold til læringsmål er gode. Alle punkt i læringsmålet er fulgt (o)

  • Informasjon gjennom itslearning fungerer bra (o)

  • Veldig bra forelesninger med tydelig tale, god struktur, positivt at foreleser henvender seg direkte til studenter med spørsmål, lett å følge forelesningen pga. forklaringer av f.eks. betydningen av utledninger/formler (o)

  • Øvingene er relevante både i forhold til mål og forelesninger, men kan bli litt vel teoretiske med tanke på utledninger – men dette er vel meningen. Lengden og vanskelighetsgraden av øvingene er bra (o)

  • Ingen laboratorieopplegg (o)

  • God oppfølging (o)

  • Tilbakemeldinger om gode svar fra studentassistent (o)

  • Kompendier er bra. Litt vanskelig å følge kopiene av boka pga. ulik notasjon (o)

  • Arbeidsmengden er ok. Litt mye kanskje når øvingene handler utelukkende om utledninger (o)

General comments and suggestions for improvement, 2011:

  • Improve example on chi-square test (?) (x)

  • Er det mulighet å få kopier av boka i kompendieform? (o)

  • Øvingsfrister (o)

Tabell 2 gjengir referansegruppens rapportering fra samme emne på to tidspunkter i 2012.

Kommentarer til Tabell 2 («x» er for møtet 10.10.12; «o» er for møtet 22.11.12):

  • Handwriting very beautiful (x)

  • Sporadic lecture notes. Could be a bit more organized (x)

  • If we have TA-time at a dedicated room more people might come (x)

  • Reorganize compendium to prevent jumping back and forth (x)

  • Handouts in the second part should also be submitted to itslearning (o)

  • Questions to students during lectures could be more suited to the students’ abilities (not too easy or too hard) (o)

  • Overall good feedback on the lectures (o)

General comments and suggestions for improvement, 2012:

  • Three lecture hours after lunch is a bit heavy. If we have 2+2 hours with a longer break between, then people would pay more attention and we would be done with the lectures earlier in the semester.

Vi legger merke til at fokus i kvalitetsarbeidet er rettet mot ulike aspekter ved undervisningen, uten eksplisitte spørsmål knyttet til læring. Derimot blir studentene invitert til å svare på spørsmål om arbeidsmengde, absolutt i forhold til stipulert tidsbruk og relativt i forhold til andre emner. Dette evalueringsinstrumentet benytter ekstremalpunktene «good» og «bad», som ikke er reelle ekstremalpunkter. Responsspekteret begrenses av evalueringsinstrumentets fokusering, som kun inviterer til innspill i forhold til antatt vesentlige aspekter ved emnet. Ellers gis det grunn til å spørre om representativiteten i referansegruppenes rapportering, fordi sluttrapportene er basert kun på tre–fire kandidater av totalt n=30 (2011) og n=38 (2012).

Selv om datagrunnlaget er tynt og vi derfor ikke uten videre kan gå ut fra at resultatene er fullt ut dekkende for meningsnyansene blant studentene, gir rapportene et positivt inntrykk. Rapportene bærer ikke minst bud om stor grad av studenttilfredshet, noe som også støttes i de frie kommentarene. De fleste forslag til forbedringer har preg av mindre justeringer innen rammen av det eksisterende undervisningsopplegget. Studentene selv forvalter kriteriene for vurdering, og derfor er det ikke alltid lett å vite hva begrepene «good» og «bad» refererer til. Ikke usannsynlig skjer vurderingen med utgangpunkt i egne erfaringer og preferanser.

I tillegg til «faglærerrapporten» satte fakultetet også krav om utfylt «emnerapport», noe som i vårt tilfelle ble neglisjert av én av faglærerne. Vedkommende anså dette som unødvendig byråkrati, ettersom etterspurt informasjon i hovedsak var av administrativ natur. Emnerapporten etterspurte informasjon om emnenummer, emnetittel, faglærer/koordinator, antall studenter, antall stryk, middelkarakter, undervisere, karakterfordeling, forelesnings- og øvingsplan samt oversikt over referansegruppens medlemmer, antall møter, innvirkning på årets opplegg og konklusjon. Emnerapporten etterspør sluttkarakterer, mens råscorene basert på den første vurderingen uten justeringer er utelatt. Dermed vet leseren lite konkret om det reelle prestasjonsnivået. Alt i alt forteller emnerapportens innhold og organisering mye om tenkningen til den eller de som har laget den, men som redskap til å forbedre studentenes læring framstår den som utilstrekkelig. Den inviterer ikke til refleksjon over sammenhenger i undervisnings-læringssystemet, og etterspør hovedsakelig administrative tema. Det gis ingen grunn til å betvile de gode intensjonene bak dette rapporteringsregimet, men psykologisk sett er det forståelig at ikke alle ønsker å bruke tid på dette. Kanskje ville det vært bedre med en mer inviterende og deltakende innstilling til lokalt kvalitetsarbeid, slik Gibbs foreslår:

In higher education it would be unwise for leaders to produce visions and strategies as finished products and then expect others to adopt them uncritically, since academics tend to (and are expected to) adopt a sceptical stance towards matters. […] It is better to engage colleagues in a problem-solving consultation exercise in order to gain a broad measure of support for the emergent vision and strategy. (Gibbs, 1999, s. 48)

Mens «kvalitet» som begrep er prinsipielt åpent, ser vi i vårt tilfelle en konkretisering i to trinn – på institusjonsnivå og på fakultetsnivå. Retningslinjene for kvalitetsarbeidet uttrykker derfor menneskelige forestillinger om et uhåndgripelig fenomen omtalt som «kvaliteten». De to skjemaene gjør i vårt tilfelle utvalgte tema til figur, mens andre faller utenfor synsfeltet. Vi må derfor ha lov til å anta at kvalitetssystemet uttrykker menneskelige forestillinger om hva som utgjør kvalitetens kjerne. Definisjonsmakt og retten til å institusjonalisere evaluerings- og måleinstrumenter går dermed hånd i hånd, noe som lett bidrar til en form for defensiv tilpasning fra målgruppens side med minste motstands vei som aktuell strategi.

Mens målene for NTNUs kvalitetssystem uttrykker en dobbel orientering – «sikre og utvikle kvaliteten på utdanningstilbudet» og samtidig være «orientert mot kvalitetsutvikling og måloppnåelse» – er fakultetets opplegg rettet mot undervisningen og utdanningstilbudet. Dette er et eksempel på et brukeropplevd kvalitetsperspektiv basert på et relativt og relasjonelt kvalitetsbegrep. Noe har kvalitet i forhold til noen, i vårt tilfelle studentene. Kriterier for vurderingen befinner seg hos hver enkelt av dem, altså uten eksplisitt og felles referanse. Dette motiverer til å undersøke graden av «måloppnåelse», slik de sentralgitte retningslinjene faktisk legger opp til, men som metodisk ikke er videre utviklet ved det aktuelle fakultetet.

Fra undervisning til læring – med vekt på resultatene

For bedre å forstå hvilke grep som er gjort i denne undersøkelsen, benytter jeg en modell som på prinsipielt grunnlag beskriver hovedkomponentene i undervisnings-læringssystemet.

Modellen skiller mellom rammer/rammefaktorer, læringsprosesser og læringsresultat. Pilene mot høyre indikerer en sammenheng mellom rammer, prosesser og resultat. Rammebegrepet er her prinsipielt åpent i den forstand at alle variabler som påvirker læringsprosessene kan tas med. Læringsmålene forstås som overordnete rammer, som i sin tur gir føringer i forhold til valg av litteratur, undervisnings- og læringsformer, tid, øvinger/oppgaver, eksamen og en rekke andre forhold. Poenget er at dette rammeverket, som formelt blir uttrykt i emnedesign, i høy grad påvirker prosesser og læringsresultat, slik at de valg som ligger til grunn blir viktig. I et tradisjonelt paradigme, som Barr og Tagg (1995) omtaler som undervisningsparadigmet, er all oppmerksomhet rettet mot undervisningen, slik at middel blir gjort til mål. Modellen er lett gjenkjennelig i de datainnsamlingsinstrumentene som ble benyttet i det emnet vi undersøker. Poenget er nå i vårt tilfelle å skifte perspektiv, slik at perspektivet forflyttes helt til høyre i modellen foran, altså mot resultatet. Vi tolker så resultatene i lys av forutgående prosesser og rammer. Utfordringen er nå å forstå hvordan variabler i systemet henger sammen. I neste omgang reiser vi spørsmålet om hvilke variabler som bør endres for å oppnå et bedre resultat. Legg merke til at framgangsmåten er analytisk, og at vi metodisk ikke er opptatt av evaluering med tilhørende kategorier som godt og dårlig, eller tilsvarende ekstremalverdier på en skala.

Perspektivskiftet fra undervisning til læring synes trivielt, men erfaring viser at dette kan oppleves som en betydelig psykisk barriere. Når vi ser hvilke ressurser som blir brukt til svært begrenset nytte, framstår det som en fristende utfordring å se etter alternative løsninger. Når vi retter oppmerksomheten mot læringsresultatene, er den første og største utfordringen å finne et godt mål på prestasjoner. Den mest nærliggende metoden var i vårt tilfelle å benytte råscorer ved sensur, altså talldata fra den første vurderingen av besvarelsene. Emnet besto av to deler, som ble undervist henholdsvis av Professor 1 og Professor 2. Eksamen besto av sju deloppgaver i hver av de to hoveddelene, og ble besvart ved bruk av individuell, skriftlig slutteksamen. Samlet råscore ble til slutt konvertert til bokstavkarakterer fra A til F (stryk).

Hensikten med eksamen/prøve er å få et best mulig inntrykk av kandidatens prestasjon i forhold til læringsmålene. Dette setter i sin tur strenge krav til valg av oppgaver og metoder for beregning av endelig score og sluttkarakter. Spørsmål knyttet til gyldighet og pålitelighet spiller derfor en nøkkelrolle i all vurdering. Dersom vi er opptatt av prestasjoner i absolutt forstand, forutsetter det kriteriebasert vurdering som rammeverk. Formelt er nå all høyere utdanning her til lands underlagt et kriteriebasert vurderingsregime, definert på følgende vis: «Dersom en prestasjon tilfredsstiller kriteriene for en karakter, skal man gi denne karakteren uavhengig av hvordan fordelingen av de øvrige karakterene i eksamenskullet er» (Glasser, 2008). Universitets- og høgskolerådet (UHR) utdyper imidlertid ikke hvordan dette er å forstå i praksis (se f.eks. Sadler, 2005). Måloppnåelse i form av karakterfordeling avhenger derfor av hvilken tolkning av kriteriebasert vurdering som blir benyttet (Gynnild, 2013).

En samlet score for begge delene ble i vårt tilfelle lagt til grunn for karaktersettingen. I teorien kunne kandidatene bestå emnet med stryk i én av de to delene. Vi undersøkte deretter ulike scenarioer for krav til bestått i emnet med sikte på et mer nyansert bilde enn det som kommer fram gjennom sluttkarakter basert på aggregert score for de to delene. Dette må være en legitim utfordring når vi først retter oppmerksomheten mot de reelle læringsprestasjonene.

I 2011 var det 30 studenter ved eksamen, og dette året ble hver av de to delene vurdert av de respektive professorene og ekstern sensor. Endelig score ble regnet som middelverdien av faglærernes og sensors råscorer. For å bestå eksamen, måtte kandidatene oppnå minst 40 poeng samlet for de to delene av emnet. Scorene ble så konvertert til bokstavkarakterer etter en gitt, intervallbasert fordelingsnøkkel. Tabell 3 viser absolutt og relativ andel av studentene med «bestått» på Del 1, Del 2 og sammenlagt på eksamen i 2011. Med «sammenlagt» menes at studenten har fått en samlet score på 40 % eller mer for begge hoveddelene samlet. Det vi gjør er å undersøke hvordan karakterfordelingen til eksamen avhenger av beregningsmåten.

 

Tabell 3. Antall studenter som har bestått eksamen i 2011 (n=30). At studentene har «bestått», betyr at de har oppnådd minst 40 poeng samlet av 100 på Del 1 og Del 2

  Professor Sensor Samlet
≥40 % Antall Prosent Antall Prosent Antall Prosent
Del 1 29 96,7 % 26 86,7 % 28 93,3 %
Del 2 15 50,0 % 8 26,7 % 12 40,0 %
Totalt 25 83,3 % 20 66,7 % 24 80,0 %

Tabell 3 er delt opp i tre kategorier. Den første viser antall studenter som hadde stått på Del 1, Del 2 og sammenlagt på eksamen dersom det kun hadde vært professorene som hadde sensurert eksamen. Den andre bolken viser antall som hadde stått på Del 1, Del 2 og sammenlagt dersom det kun hadde vært sensoren som hadde sensurert besvarelsene. Den tredje kategorien viser det sluttresultatet som er snittet av poengsummene til professorene og ekstern sensor. Her ser vi at mens professorene hadde latt 83,3 % av studentene stå på eksamen, ville sensor bare latt 66,7 % stå. Samlet er det 80 % som står på eksamen i 2011.

Hvis vi derimot ser på Del 1 og Del 2 hver for seg, ser vi at 93,3 % av studentene står på Del 1, mens bare 40 % står på Del 2. Figur 1 and 2 viser middelverdien av faglærers og sensors scorer for Del 1 og Del 2. Scorene er gjennomgående høyere for Del 1 enn for Del 2 for nesten alle. Vi merker oss at de to grafene er parallellforskjøvet i forhold til hverandre. Faglærers tolkning av dette er at Del 2 i større grad enn Del 1 introduserer nytt og ukjent stoff for studentene.

Figur 1. Modellen viser tre ulike perspektiver på kvalitet. Pilene mot høyre indikerer mulige sammenhenger mellom de tre delene i modellen. Den nederste pila illustrerer en tilbakemeldingssløyfe fra «resultat» til «prosesser» og «rammer»
 

Figur 2. Plott av gjennomsnittlig poengsum gitt av professorene og sensor på Del 1 og Del 2 for hver av de 30 studentene (2011)

Tabell 4 viser ulike scenarioer for krav om bestått basert på gitte minimumskrav for hver av de to delene i emnet, henholdsvis 40, 50 eller 60 poeng av 100. Å kreve minimum 40 poeng i begge delene er ikke et urimelig krav, ettersom de to delene behandler to separate og hver for seg sentrale tema med betydning for videregående emner ved instituttet. Om vi legger dette kravet til grunn, ville kun 40 % av alle bestå eksamen. Dersom vi beregner resultatet ut fra faglærerne og sensor hver for seg, ville resultatet blitt respektive 50 % og 26,7 %.

 

Tabell 4. Ulike scenarioer for krav om bestått på begge hoveddelene i emnet (2011).

  Professor Sensor Samlet
≥40 % Antall Prosent Antall Prosent Antall Prosent
Bestått begge 15 50 % 8 26,7 % 12 40 %
≥50 % Antall Prosent Antall Prosent Antall Prosent
Bestått begge 10 33,3 % 3 10 % 4 13,3 %
≥60 % Antall Prosent Antall Prosent Antall Prosent
Bestått begge 4 13,3 % 1 0,03 % 3 10 %

All vurdering er beheftet med usikkerhet. Med en grense for krav til bestått på 40 poeng, sier det seg derfor selv at kandidater som befinner seg i grenselandet mellom stryk og bestått, like gjerne kan ende i den ene som i den andre kategorien på grunn av feilmarginer ved vurdering. Ulike scenarioer for nedre poenggrense for bestått (50 og 60 poeng) ble derfor undersøkt, slik at det med høyere grad av sikkerhet kan sannsynliggjøres at nødvendig kompetanse er oppnådd i begge delene. Tabell 4 viser at kun tre studenter av 30 (10 %) ville bestått eksamen med krav om 60 poeng på begge delene, og vi merker oss at resultatet ikke er mye bedre med krav om 50 poeng på begge delene. Biggs (2001) beskriver det metodisk problematiske ved å beregne endelig karakter med utgangspunkt i en samlet score, uten hensyn til delprestasjoner:

Then when results are averaged, students with a high average score in most of the course can pass a sub-section of a course in which they have failed. This makes no educational sense at all. If a topic or task is important enough to be in the curriculum, it should be passed at some minimal level of understanding. (Biggs, 2001, s. 232–233)

Vi har nå interesse av å undersøke gjennomsnittlige scorer for hver oppgave innen de to delene for å få et bedre bilde av oppgavenes innbyrdes vanskelighetsgrad sett fra studentenes side. Figur 3 viser gjennomsnittlig poengsum for hver oppgave i Del 1 og Del 2. Her ser vi for eksempel at snittet for oppgave 1 i Del 1 er over 90 poeng, mens tilsvarende for oppgave 1 i Del 2 er så vidt over 20, altså langt under grensen for bestått. En slik observasjon gir grunnlag for refleksjon over oppgavedesign, om forholdet mellom «lette» og opplevd «vanskelige» oppgaver og hvordan slike forhold kan bidra til å motivere eller demotivere studentene.

Figur 3. Plott av gjennomsnittlig score for hver av de sju oppgavene i Del 1 & Del 2 (2011)

Prinsipielt er det en mulighet for at de resultatene vi har kommet fram til for 2011 skyldes spesielle forhold dette året. Vi har derfor interesse av å gjennomføre en identisk undersøkelse for påfølgende år (2012). Det betyr selvsagt ikke at vi uten videre kan generalisere resultatene, men vi ønsker å se om det finnes fellestrekk ved datasettene for de to årene.

I 2012 var det til sammen 38 studenter ved eksamen, men dette året var det ingen ekstern sensor slik at vurdering og karaktersetting ble foretatt av de to professorene i emnet. Tabell 5 viser antall kandidater som har bestått eksamen på Del 1 & Del 2 samt sammenlagt. Tabellen viser også tilsvarende prosentandeler for 2011, som tidligere vist i Tabell 3.

 

Tabell 5. Ulike scenarioer for kandidater som har bestått eksamen i 2012 (n=38). Tre scenarioer for «bestått» forutsetter henholdsvis 40, 50 eller 60 poeng samlet på Del 1 og Del 2. Tall for 2011 (n=30) er oppført i høyre kolonne til sammenligning

  2012 2011
≥40 % Antall Prosent Prosent
Del 1 37 97,4 % 93,3 %
Del 2 21 55,3 % 40,0 %
Totalt 35 92,1 % 80,0 %
≥50 % Antall Prosent Prosent
Del 1 36 94,7 % 86,7 %
Del 2 19 50,0 % 13,3 %
Totalt 31 81,6 % 66,7 %
≥60 % Antall Prosent Prosent
Del 1 34 89,5 % 73,3 %
Del 2 14 36,8 % 10,0 %
Totalt 21 55,3 % 33,3 %

Tabell 5 viser andel av studentene som ville bestått absolutt og relativt under ulike betingelser med krav om totalt 40, 50 eller 60 poeng samlet på de to delene. Resultatene er noe bedre i 2012 sammenlignet med 2011, men fortsatt ville nær 1 av 5 ha strøket dersom det hadde vært stilt krav om minst 50 poeng. Som vist i Figur 2 var det en systematisk samvariasjon mellom råscorene for Del 1 og Del 2 i 2011 (r=0,67). Figur 4 viser tilsvarende mønster for 2012.

Figur 4. Plott av gjennomsnittlig poengsum fra professorene på Del 1 og Del 2 for hver av de 38 studentene (2012)

Poengsummene er gjennomgående høyere for Del 1 sammenlignet med Del 2, slik tilfellet var i 2011, og korrelasjonen mellom Del 1 og Del 2 er relativt høy også i 2012 (r=0,71). Fordi emnet består av faglig sett to separate deler, undersøkte vi også for året 2012 hva resultatet ville blitt ved henholdsvis krav om minimum 40, 50 eller 60 poeng for hver av delene. Resultatene er gjengitt i Tabell 6 nedenfor.

 

Tabell 6. Antall studenter som ville bestått eksamen i 2012 ved økende krav til bestått i hver av de to delene (Del 1 og Del 2). Prosentvis for 2011 er gjengitt til sammenligning.

  2012 2011
≥40 % Antall Prosent Prosent
Bestått begge 21 55,3 % 40,0 %
≥50 % Antall Prosent Prosent
Bestått begge 19 50 % 13,3 %
≥60 % Antall Prosent Prosent
Bestått begge 14 36,8 % 10,0 %

Tabell 6 viser at kun 55,3 % ville bestått eksamen i 2012 ved krav om minimum 40 poeng i hver av de to delene i emnet. Dette reduseres til 50 % ved krav om 50 poeng riktig, og ytterligere til 36,8 % ved krav om minimum 60 poeng i hver av delene.

Figur 5 viser gjennomsnittlig poengsum for hver av delene i emnet for året 2012. Ved å sammenligne resultatene i Figur 3 med tilsvarende i Figur 5, ser vi noen fellestrekk. For begge årene ligger gjennomsnittsscorene for Del 1 betydelig over tilsvarende for Del 2.

Figur 5. Plott av gjennomsnittlig score for hver av de sju oppgavene i Del 1 og Del 2 (2012)

Mens faglærer i Del 1 tilsynelatende starter med «lette» oppgaver, synes det motsatte å være tilfelle for faglærer i Del 2. Om dette er et tilfeldig sammentreff eller ei, vites ikke. Resultatet kan også tolkes slik at faglærer og studenter har ulik forståelse for hva som er lett og vanskelig, eventuelt at dette ikke er kommunisert i tilstrekkelig grad til studentene.

Mens kvalitetssystemet dokumenterer betydelig «kundetilfredshet» med utgangspunkt i referansegruppens rapportering, ser virkeligheten annerledes ut fra vårt resultatperspektiv. Her benyttes andre suksesskriterier ut fra en annen forståelse av hva som skal «sikres» og «utvikles». Vi har skiftet perspektiv fra undervisningstilbudet med studenttilfredshet som kvalitetsindikator til læringsresultat med eksamensprestasjon som referanse. Kriterier og standarder forvaltes i dette tilfellet ikke av studentene, men av faglærerne og sensor.

Diskusjon

Selv om NTNUs retningslinjer slår fast at kvalitetsarbeidet tar utgangspunkt i læringsmålene og skal være rettet mot måloppnåelse (NTNU, 2012), viser denne undersøkelsen at den lokale implementeringen fokuserer mest på undervisningsopplegget. Dette perspektivet gir føringer for respondentene, som i begge årene var mest opptatt av teknisk-administrative spørsmål med begrenset potensial for bedre læring. Det er derfor åpenbart at kvalitetssystemet, slik det ble gjennomført, ikke er rettet inn mot å dokumentere vesentlige spørsmål knyttet til læring.

Framstillingen av kvalitetssystemet framstår som ateoretisk og pragmatisk, uten noen referanser til forskningslitteraturen på feltet. I retningslinjene heter det at «kvalitetssikring av utdanningen bygger på egne erfaringer, erfaringer fra andre universitet og nasjonale kriterier og krav» (NTNU, 2012, s. 1). Gibbs beskriver dette som et tidlig trekk ved utviklingsarbeid i høyere utdanning:

Early efforts to improve teaching tended to […] provide feedback to teachers on their classroom practice. Over time, the perspective has widened […] and the teachers’ classroom behaviour is emphasised much less. (Gibbs, 2013, s. 6–7)

Denne undersøkelsen dokumenterer et fortsatt sterkt fokus på undervisning til fordel for læring, uten noen form for analyse av forholdet mellom emnedesign og læringsresultater. Fokus er rettet mot enkeltfaktorer som hver for seg blir vurdert som «god» eller «dårlig». Dermed får vi evaluering uten analyse av årsakssammenhenger, noe som hemmer en dypere forståelse av hvilke tiltak som eventuelt kan utgjøre en forskjell i forhold til studentenes læring.

Systemet manifesterer seg ut fra et bestemt kvalitetsperspektiv, eller utvalgt aspekt av kvalitet (Dahler-Larsen, 2013). Dette kan tolkes som at «nettopp det udvalgte aspekt af kvalitet er viktigt og ikke er tilgodeset i tilstrækkeligt omfang endnu» (Dahler-Larsen, 2013, s. 33). Kvalitetsperspektivets oppgave er «at medvirke til at fastholde et bestemt aspekt av kvaliteten som relevant [og at] andre kvalitetsperspektiver ikke ved samme lejlighed får tildelt en tilsvarende opmærksomhed» (Dahler-Larsen, 2013, s. 33). Dersom det underliggende kvalitetsperspektivet ikke blir eksplisitt uttrykt, skapes lett et inntrykk av at det valgte systemet måler eller dokumenterer kvalitet generelt, hvilket ikke er tilfelle. Et kvalitetsperspektiv bidrar til å adressere et aspekt av kvalitet, slik at dette kan følges opp og «forbedres» i etterkant.

Vi har sett at det valgte resultatperspektivet har gitt innsyn i en annerledes virkelighet sammenlignet med data samlet inn ved det brukerorienterte perspektivet, som fakultet hadde lagt opp til. Et litt bekymringsfullt bilde avtegner seg ved at resultatene er mye bedre i den ene delen sammenlignet med den andre. Karakterfordelingen kamuflerer realitetene, samtidig som kvalitetsinstrumentene «dokumenterer kvalitet» på et vis som ikke utfordrer, men legitimerer eksisterende praksis. Mest iøynefallende er beregningsmåten for karaktersetting, som i dette tilfellet gir svært ulike resultater. Det er altså egenskaper ved beregningsmåten for karaktersetting, ikke prestasjonene i seg selv, som gjør den store forskjellen. Med bruken av aggregert score og 40 poeng som minimumsgrense, ville 83,3 % bestått i 2011 dersom professorene hadde vurdert uten sensors bidrag, mens 66,7 % hadde bestått dersom sensor hadde vurdert alene, altså en differanse på 16,6 %. Med samme nedre poenggrense, men med krav om bestått i begge delene, ville andelen av kandidater med bestått blitt halvert.

Ved studier av læringsresultat er det viktig å få et bilde av måloppnåelse i «usminket» form, uten «justeringer». All vurdering er likevel alltid beheftet med usikkerhet og større og mindre innslag av feil. Et vanlig tiltak for å øke påliteligheten ved vurdering er bruken av ekstern sensor, som ideelt sett vil kunne fange opp både systematiske og tilfeldige feil (Sadler, 2009). I vårt tilfelle ble det benyttet ekstern sensor kun i 2011. Både Tabell 3 og Tabell 4 bekrefter systematiske avvik mellom faglærernes og sensors vurdering. Dette gir i seg selv utgangspunkt for diskusjon om hvilke vurderingskriterier og faglige krav som gjelder.

Bruken av et nytt kvalitetsperspektiv har avdekket en lang rekke utfordringer som det etablerte systemet ikke fanget opp. Dette peker mot at tiden kan være inne for en evaluering av kvalitetssystemet, inkludert den kompetansen som ligger til grunn for utviklingen av det. Dette gjelder både lokalt kvalitetsarbeid og spesielt NOKUT som nasjonal premissleverandør. I lys av hvilken vekt universiteter og høgskoler legger på forskning og dokumentasjon, er det overraskende å se at kritiske analyser av kvalitetssystemer er helt fraværende:

It is surprising therefore that, even though it is manifestly evident the case that few processes have had such a profound effect in the re-shaping of academics’ conditions of work and behaviours, this major transformation remains curiously under-researched and under-theorised. (Newton, 2001, s. 2)

Internasjonalt er dette et stort forskningsfelt, og det finnes allerede en omfattende litteratur som kunne gitt viktige bidrag til prinsipiell tenkning, slik Biggs beskriver:

QE [Quality Enhancement] is designed to improve the ongoing system, by helping teachers to teach better. There is an enormous body of scholarship of teaching that individual teachers and administrators cannot be expected to know and apply. If they want a self-improving quality system, they will probably need expert help in achieving it. (Biggs, 2001, s. 236)

Bruken av studentevalueringer står svært sentralt i det kvalitetssystemet vi har omtalt, men som vi har sett setter det valgte perspektivet rammer for hva som blir adressert og ikke. Dessuten er «evaluering» et krevende fagområde å begi seg ut på. Et godt alternativ kan være å skifte tilnærming fra evaluering til vekt på analyse og refleksjon. Teoriarbeid handler om å sannsynliggjøre hvordan resultater kan forklares med utgangspunkt i et sosialt system:

The essence of theorizing is that you start with an observation, and then imagine the observation as the outcome of a (hidden) process. (Thinking Theoretically, 2014)

Motsatt denne tankegangen, blir ikke de bedømte læringsresultatene i vårt tilfelle benyttet som referanse, idet «kvalitetssikringen» legitimeres ved gode intensjoner og ytre autoritet. Med dette skapes og opprettholdes et administrativt forankret, formalistisk og ritualistisk regime med begrenset mulighet for å avdekke og forbedre dårlige læringsprosesser og svake resultater.

Dahler-Larsen omtaler kvalitetssystemene som evalueringsmaskiner «der opererer på baggrund af guidelines, indikatorer og rutiner […] og som får et stadig mere vedvarende, omfattende og obligatorisk præg» (Dahler-Larsen, 2013, s. 36). Slike «evalueringsmaskiner» integreres stadig tettere administrativt og på ledernivå, og gir funksjonelt svar på en politisk utfordring. Systemtvangen standardiserer og normaliserer forståelsen av hvordan «kvalitet» kan undersøkes og dokumenteres. Kvalitetssystemet etablerer autoritetsforankrete rammer for håndtering av kompleksitet, og dermed for refleksjon og handling med utgangspunkt i data. I denne undersøkelsen virker det som om selve prosedyregjennomføringen er viktigere enn hvilke resultater som faktisk oppnås gjennom datainnsamlingen. Kvalitets-systemet har kanskje først og fremst symbolsk verdi, og gir legitimitet til resultater ut fra det kvalitetsbegrepet som blir benyttet. Fordi kvalitetssystemet kan oppfattes som et administrativt pålegg snarere enn et utviklingsrettet tiltak, framstår trolig studier av læringsresultatene som mindre interessante:

En evalueringsmaskine er tilbøjelig til at tilskynde til handlinger, der vil kunde skildres postivt i lyset av af det kvalitetsbegreb, som evalueringsmaskinen har indkodet. […] Mange i den pædagogiske verden ytrer i disse år stærk utilfredshed med det kvalitetsbegreb, de bliver mødt med, når de møder en evalueringsmaskine. (Dahler-Larsen, 2013, s. 37)

Mens retorikken knyttet til kvalitetssystemet retter seg mot «utdanningskvalitet» i generell betydning, viser undersøkelsen at kvalitetsarbeidet styres ut fra et undervisningsperspektiv. Tidsorienteringen er tilbakeskuende (Biggs, 2001), og kvalitetssystemet i seg selv gir ingen føringer for hvordan læring kan forbedres. Dermed knyttes «suksess» til gjennomføring av gitte prosedyrer snarere enn til resultatene systemet genererer. Faglærerne blir eksekutører av oppdrag de selv har hatt liten eller ingen innflytelse på. Frykten for «avvik» hos professorene bidrar trolig til at systemet sikrer status quo snarere enn det bidrar til endret praksis. Dette står i motstrid til EU-kommisjonens retningslinjer med vekt på utvikling av en kvalitetskultur:

QA has to become a support to creating an internal quality culture rather than a tick-box procedure. It needs to engage with all areas of an institution's activities, to keep up with change in how higher education is designed and delivered, and involve the entire institution in creating a quality culture that underpins teaching and learning. (European Commission, 2014)

Oppsummering og konklusjon

Det omtalte kvalitetssystemet er fylt av gode intensjoner, men denne undersøkelsen viser at det ikke er utviklet et rammeverk som identifiserer sentrale mekanismer i studentenes læringsatferd. Systemet ble i vårt tilfelle gjennomført nærmest som et rituelt tiltak med studentinnspill som ikke ble fulgt opp. Evalueringsopplegget foregikk med et lite utvalg på 3–4 studenter, med vekt på undervisningen og med langt mindre vekt på prosesser og læringsresultat. Evalueringen ble langt på veg frikoplet fra resultatene som referanse, slik at «kvaliteten» framsto som uttrykk for noen få studenters opplevde tilfredshet med undervisningen. En mer åpent inviterende og støttende holdning i forhold til definerte behov i fagmiljøet kunne være en strategi å prøve ut. Dersom kvalitetsarbeidet løper parallelt til etablerte faglig-kollegiale nettverk, mister aktørene eierskap til egen utvikling. Resultatet ble i vårt tilfelle en tilpasning i forhold til administrativt pålagte rutiner uten dokumenterte forbedringer, men med betydelig ressursforbruk.

Selv om undersøkelsen ble gjennomført som en kasusstudie, og resultatene dermed ikke kan generaliseres, reiser artikkelen prinsipielle spørsmål med antatt relevans for flere institusjoner. Å utvikle et velfungerende og effektivt kvalitetssystem er en krevende oppgave både praktisk, teoretisk og organisatorisk, og resultatene blir ikke bedre enn det svakeste ledd i kjeden – fra datainnsamling via analyse og tiltak. Tilgang til riktig kompetanse i ulike faser av arbeidet framstår derfor som vesentlig. Den største utfordringen er trolig å bidra til gode kvalitetskulturer, med vekt på emne- og programdesign som ivaretar vesentlige sammenhenger i undervisnings-læringssystemet. Her vil fagmiljøene ha behov for faglig, teoretisk og metodisk bistand med sikte på dokumentasjon av de resultatene som oppnås.

Litteratur

Barr, R. B. & Tagg, J. (1995). From Teaching to Learning: A New Paradigm for Undergraduate Education. Change, 27(6), 12–25. Publisher Full Text

Biggs, J. (2001). The Reflective Institution: Assuring and enhancing the quality of teaching and learning. Higher Education, 41(3), 221–238. Publisher Full Text

Dahler-Larsen, P. (2013). Kvalitetens beskaffenhed og den svage tænkning. I Y. Nordkvelle, T. Fossland & G. Netteland (Red.), Kvalitet i fleksibel høyere utdanning – nordiske perspektiver (s. 29–41). Oslo: Akademika forlag.

European Commission (2014). Report from the Commission to the European Parliament, the Council, the European and Social Committee and the Committee of the Regions. Report og Progress in Quality Assurance in Higher Education. Belgia: Brussel.

Gibbs, G. (1999). Insitutional learning and teaching strategies. A Guide to good practice. Lastet ned 05.02.2014 fra Higher Education Funding Council for England http://odtl.dcu.ie/mirror/hefce/99_55.pdf.

Gibbs, G. (2013). Reflections on the changing nature of educational development. International Journal for Academic Development, 18(1), 4–14. doi: 10.1080/1360144x.2013.751691. Publisher Full Text

Glasser, R. (2008). Generelle karakterbeskrivelser for UH-sektoren. Oslo: Universitets- og høgskolerådet.

Gynnild, V. (2013). “Kriteriebasert vurdering” - hva innebærer det i praksis? Uniped, 36(1), 1–16. Publisher Full Text

Newton, J. (2001). Views from below: academics coping with quality. Artikkel presentert ved Sixth QHE Seminar in association with EAIR and SRHE, Birmingham, UK.

Newton, J. (2002). From policy to reality: enhancing quality is a messy business. Presentert ved Sixth QHE Seminar i samarbeid med EAIR og SRHE, Birmingham, UK.

NTNU (2012). NTNUs system for kvalitetssikring av utdanning. Lastet ned 09.11.2012 fra http://www.ntnu.no/utdanningskvalitet.

Sadler, D. R. (2005). Interpretations of criteria-based assessment and grading in higher education. Assessment & Evaluation in Higher Education, 30(2), 175–194. PubMed Abstract | PubMed Central Full Text | Publisher Full Text

Sadler, D. R. (2009). Grade integrity and the representation of academic achievement. Studies in Higher Education, 34(7), 807–826. Publisher Full Text

Thinking Theoretically (2014). Lastet ned 06.03.2014 fra http://www.analytictech.com/mb870/handouts/theorizing.htm

Idunn bruker informasjonskapsler (cookies). Ved å fortsette å bruke nettsiden godtar du dette. Klikk her for mer informasjon