I dette kapitlet gir vi først en oversikt over organiseringen, rammeverket og designet til TIMSS. Deretter beskrives de analysemetoder som er benyttet i denne boka. For lesere som fortrinnsvis er interessert i den deskriptive statistikken og resultater fra analysene, kan det være tilstrekkelig å lese de øvrige kapitlene. Dersom man ønsker å vite litt mer om metodene og analysene, kan dette kapitlet være til hjelp.

11.1 Om TIMSS

TIMSS er en forkortelse for Trends in International Mathematics and Science Study. Det er en stor internasjonal undersøkelse av matematikk og naturfag i grunnskolen. TIMSS beskriver elevprestasjoner i disse fagene, så vel nasjonalt som internasjonalt, og søker å belyse og forstå forskjeller i prestasjoner ut fra andre data i undersøkelsen. Slik kan man, ved hjelp av analyser, si noe om hvilke faktorer som kan være med på å fremme læring, og hvilke som kan være med på å hemme læring.

TIMSS administreres av den internasjonale organisasjonen IEA (International Association for the Evaluation of Educational Achievement). Boston College, USA, har ansvaret for gjennomføring av undersøkelsen. I tillegg til det overordnede gjennomføringsansvaret utfører en prosjektgruppe i Boston en del analyser, og de utgir den internasjonale rapporten for for matematikk (Mullis, Martin, Foy & Hooper, 2016) og naturfag (Martin, Mullis, Foy & Hooper, 2016). I Norge er det Institutt for lærerutdanning og skoleforskning ved Universitetet i Oslo, som har gjennomføringsansvaret.

I tabell 11.1 gis punktvis og kortfattet informasjon om TIMSS-undersøkelsen. Noen av punktene blir beskrevet i mer detalj i de følgende delkapitlene.

Tabell 11.1. Kort oversikt over TIMSS-studien.

TIMSS

Internasjonal storskala sammenliknende trendstudie

Målgrupper, «target grades»

4. og 8. trinn internasjonalt, 5. og 9. trinn i Norge (f.o.m. 2015)

Hvilke fag testes

Matematikk og naturfag

Hensikt med studien

Å kartlegge faktorer som fremmer læring, følge med på utvikling i eget land (trend) og kunne sammenlikne med andre lands utdanningssystemer og gi informasjon til læreplanutvikling

Hva måles

Kompetanse i forhold til et omforent rammeverk basert på alle de deltakende landenes læreplaner i matematikk og naturfag. I tillegg måles kontekstuelle faktorer gjennom spørreskjema til elever (f.eks. motivasjon), lærere (f.eks. lærerkompetanse), rektorer (f.eks. skolemiljø) og foreldre (f.eks. barnas tidlige læring).

Hvem deltar

Elever, foresatte, lærere, skoleledere

Utvalg

Skoler trekkes først, deretter hele klasser innen skolene

Antall deltakere

Ca. 5200 elever per trinn, utgjør ca. 8 % av alle elevene per trinn

Gjennomføres

Hvert 4. år, første gang var i 1995

Antall deltakerland i 2015

57

Rammeverk og oppgaver

Utformes av eksperter på grunnlag av forslag fra deltakerlandene

Har rammeverk for

Faglige emner (inkluderer kognitive nivåer) og spørreskjema

Tidsbruk på test for elever og på spørreskjema for elever, lærere, skoleledere og foresatte

Fagtest 4. trinn: 36 minutter per fag
Fagtest 8. trinn: 45 minutter per fag
Spørreskjema elever: 30 minutter
Spørreskjema lærere: ca. 35 minutter (nettbasert)
Spørreskjema skoleledere: ca. 30 minutter (nettbasert)
Spørreskjema foresatte: ca. 35 minutter (kun 4. og 5. trinn, nettbasert)

Antall fagoppgaver i 2015

Matematikk: 179 på 4. trinn og 225 på 8. trinn
Naturfag: 207 på 4. trinn og 266 på 8. trinn

Oppgaveformat fagtester

Flervalgsoppgaver og åpne oppgaver, fordelt omtrent 50–50

Poengskala

Skalamidtpunkt 500 med standardavvik 100. Skala laget ut fra gjennomsnittet for de landene som deltok i 1995.

11.1.1 Tre læreplannivåer

TIMSS innhenter data om og analyserer læreplanen på tre nivåer. De tre nivåene omtales som den intenderte, den implementerte og den oppnådde læreplanen, se figur 11.1.

Figur 11.1. Intendert, implementert og oppnådd læreplan.

På det øverste nivået, det intenderte, handler det om utdanningssystemet slik det legges til rette av nasjonale og regionale myndigheter. På dette nivået handler det spesielt om læreplaner, lærebøker og vurderingsformer. I TIMSS rapporteres data på dette nivået i en egen Encyklopedia (Mullis, Martin, Goh, & Cotter, 2016). På nivået under handler det om hva som skjer i og rundt klasserommet, og hvordan intensjonene fra systemnivået omsettes i praksis. Det etterspørres hvordan skolen og lærerne implementerer læreplanen. På det tredje og siste nivået handler det om hva som er oppnådd. Det dreier seg om de kunnskapene, ferdighetene og holdningene elevene har utviklet. Informasjon om det andre og tredje nivået hentes inn via spørreskjema til lærere og skoleledere, og via spørreskjemaet og de faglige testene til elevene. Det er denne informasjonen som danner grunnlaget for resultatene som presenteres i denne boka.

11.1.2 TIMSS er en trendstudie

TIMSS gjennomføres hvert fjerde år og er en såkalt trendstudie. Det betyr at TIMSS er designet for å måle endringer over tid. I tillegg til å undersøke trender i eget land, kan landene også sammenlikne seg med øvrige deltakerland. Med unntak av gjennomføringen av TIMSS i 1999, har Norge deltatt hvert fjerde år siden 1995 med elever på 4. og 8. trinn. Nå, i TIMSS 2015, har Norge i tillegg deltatt med elever på 5. og 9. trinn fordi Norge fikk innvilget søknad om å endre målgruppene, eller «target grades» til 5. og 9. trinn (se kap. 1 for utdyping).

For å sikre høy pålitelighet i en trendstudie må undersøkelsen være stabil fra en runde til den neste. Med dette som krav bør studien inkludere nøyaktig de samme oppgavene og spørsmålene i hver runde. Men det er svært vanskelig, og det har heller ikke vært ønskelig. Ved å offentliggjøre omtrent halvparten av alle oppgavene etter hver runde, åpner TIMSS opp for et demokratisk innsyn i hvordan studien måler faglig kompetanse. Dette betyr at TIMSS har oppgaver som hemmeligholdes og gjenbrukes (trendoppgaver, se kap. 11.1.5) og at det må lages nye oppgaver for hver runde. De nye oppgavene lages med utgangspunkt i det faglige rammeverket til TIMSS (se kap. 11.1.4), og de gjennomgår svært omfattende kvalitetssikrings-prosedyrer, blant annet piloteres de nye oppgavene i alle land som skal delta i den neste runden av TIMSS.

Forberedelsene til en ny runde av TIMSS starter med en revisjon av studiens rammeverk. Utdanningssystemene forandrer seg. Læreplaner revideres, og nye læreplaner iverksettes. Dette må avspeiles i det faglige rammeverket. Derfor søker man å få en god balanse mellom to viktige hensyn: TIMSS-studien skal være oppdatert og relevant for den aktuelle utdanningssituasjonen i deltakerlandene. På den annen side skal endringene i rammeverket helst være små og skånsomme for å muliggjøre en pålitelig sammenlikning fra runde til runde. På tilsvarende måte og av tilsvarende grunner gjennomgår spørreskjemaene en varsom revisjon fra runde til runde.

11.1.3 Utvalg

Resultatene i TIMSS beskriver tilstanden til hvert land (ikke hver enkelt skole/klasse/elev). Derfor er det viktig å ha et representativt utvalg. For å oppnå et representativt utvalg blir offisiell skolestatistikk for hvert land sendt til Statistics Canada1, som har lang erfaring i å utføre slike tjenester for forskningsinstitusjoner som IEA. Statistics Canada foretar trekkingen av skolene som skal delta for hvert land. I trekkingen av skoler tas det hensyn til mange ulike faktorer, for eksempel geografisk beliggenhet og skolestørrelse. Når alle hensyn er ivaretatt, trekkes skolene tilfeldig på en slik måte at de utgjør et representativt utvalg. Deretter trekkes det ut en til to eller tre klasser per skole. I TIMSS 2015 deltar omtrent 5200 norske elever fra 140 til 150 skoler per trinn. Merk at 5200 elever utgjør bare åtte–ni prosent av alle elevene som går på hvert trinn.

11.1.4 Rammeverk

Når TIMSS skal lage oppgaver, tar de utgangspunkt i et overordnet rammeverk som definerer hvilke kunnskaper og ferdigheter elevene skal testes i (Mullis & Martin, 2013). Det er ett rammeverk for matematikk og ett for naturfag. Rammeverkene deles inn i faglige emneområder, og hvert emneområde defineres og beskrives. I tillegg angir rammeverkene hvor stor andel av testens totale antall oppgaver som skal høre inn under hvert av disse områdene.

Det er et mål at rammeverkene skal ligge så tett som mulig opp til læreplanene i deltakerlandene.

På grunn av de mange ulike deltakerlandene vil det alltid være noen oppgaver som ikke passer, men det er et mål at majoriteten av oppgavene skal passe godt hos alle. Derfor må alle deltakerlandene vurdere alle oppgavene og rapportere hvordan de passer i forhold til egne læreplaner. I tillegg blir lærerne spurt. Lærerne angir om klassen har fått eller skal få undervisning i de enkelte temaene som er inkludert under hvert emneområde. Lærernes rapportering omtales som dekningsgrad (se kap. 8).

Rammeverket for matematikk er vist i tabell 11.2, mens rammeverket for naturfag er vist i tabell 11.3. Tabellene viser både emneområder og den prosentvise fordelingen av oppgaver i testene.

Tabell 11.2. Faglig rammeverk for matematikk, TIMSS 2015. Algebra er ikke et eget emneområde på 4. trinn.

Emneområder

4. trinn

8. trinn

Tall

50 %

30 %

Algebra

30 %

Geometri

35 %

20 %

Statistikk

15 %

20 %

Tabell 11.3. Faglig rammeverk for naturfag, TIMSS 2015. På 4. trinn er kjemi og fysikk slått sammen. Geofag omfatter tema fra astronomi, naturgeografi, geologi og geofysikk.

Emneområder

4. trinn

Emneområder

8. trinn

Biologi

45 %

Biologi

35 %

Fysikk/Kjemi

35 %

Kjemi

20 %

Fysikk

25 %

Geofag

20 %

Geofag

20 %

I tillegg til de faglige emneområdene deles oppgavene inn i tre kognitive kategorier fordi det er et mål at oppgavene også skal stille ulike kognitive krav til elevene. I rammeverkene for matematikk og naturfag er det tre kognitive kategorier: å kunne, å anvende og å resonnere. Fra 4. til 8. trinn er det en forskyvning fra det å kunne til det å resonnere. Tabell 11.4 viser fordelingen av oppgaver i matematikk og naturfag etter kognitiv kategori på begge trinn.

Tabell 11.4. Fordeling av matematikk- og naturfagoppgaver i TIMSS 2015 etter kognitiv kategori.

 

Matematikk

Naturfag

Kognitiv kategori

4. trinn

8. trinn

4. trinn

8. trinn

Å kunne

40 %

35 %

40 %

30 %

Å anvende

40 %

40 %

35 %

35 %

Å resonnere

20 %

25 %

25 %

35 %

De tre kognitive kategoriene for matematikk beskrives slik: Å kunne innebærer å huske fakta, gjenkjenne objekter og uttrykk, beherske de fire regningsartene for heltall, brøker og desimaltall, hente informasjon fra tabeller og diagrammer, måle og klassifisere: Å anvende innebærer å bruke kunnskapene og ferdighetene sine til å velge metoder og strategier, representere informasjon, modellere situasjoner, følge instruksjoner og løse rutineproblemer: Å resonnere innebærer å tenke logisk, analysere situasjoner og sammenhenger, generalisere resultater, kombinere informasjon, begrunne påstander og løse problemer som ikke er rutinepreget.

De tre kognitive kategoriene for naturfag beskrives slik: Å kunne innebærer å huske og gjenkjenne fakta, kjenne naturfaglig terminologi og definisjoner, beskrive organismer, stoffer og prosesser, gi eksempler og bruke laboratorieutstyr. Å anvende innebærer å sammenlikne og kategorisere, å anvende naturfaglige modeller, knytte faglige begreper og forklaringer til observerte fenomener og tolke informasjon. Å resonnere innebærer å analysere naturfaglige problemer, kombinere informasjon, formulere og teste hypoteser, se mønstre i data og trekke konklusjoner, generalisere, begrunne påstander og vurdere ulike alternativer.

11.1.5 Trendoppgaver

Fordi TIMSS er en trendstudie, har den såkalte trendoppgaver. Dette er oppgaver som brukes i påfølgende gjennomføringer av undersøkelsen slik at det skal være mulig å bruke den samme måleskalaen og sammenlikne poengsummene fra gang til gang. Trendoppgavene holdes hemmelig slik at det ikke skal være mulig for noen land å øve på disse før neste gjennomføring av testen. Etter hver gjennomføring offentliggjøres omtrent halvparten av oppgavene i hvert fag, på hvert trinn. I TIMSS 2007 ble det for eksempel i etterkant av undersøkelsen offentliggjort 88 oppgaver i matematikk på 8. trinn, mens 124 oppgaver ble holdt hemmelig. De 124 oppgavene ble inkludert i TIMSS 2011 sammen med 91 nye oppgaver som da erstattet de 88 frigitte.

11.1.6 Oppgaveformat og rotasjon

Oppgavene i TIMSS er av to typer, enten flervalgsoppgaver eller åpne oppgaver. For å svare på flervalgsoppgaver må elevene velge det riktige svaret blant fire svaralternativer. Når oppgavene er åpne, må elevene selv formulere og skrive svaret. Omtrent halvparten av oppgavene i TIMSS er åpne oppgaver.

Dersom én elev skulle løst alle oppgavene i matematikk (179) og naturfag (207) på 4. trinn, er det beregnet å ta omtrent 8,5 timer. På 8. trinn er estimert tidsbruk på alle oppgavene (207 + 266) omtrent 10,5 timer. Dette er ikke praktisk mulig, derfor fordeles oppgavene i 14 hefter som til sammen inneholder alle oppgavene som er med i testen. Hver elev får ett hefte som inneholder én del med matematikkoppgaver og én del med naturfagoppgaver. Tidsbruken på de to delene i oppgaveheftet er for 4. trinnselever til sammen 72 minutter, for 8. trinn er den 90 minutter. Tiden er likt fordelt på de to fagene, og elevene får en liten pause mellom hver del.

TIMSS bruker det som kalles et rotasjonsdesign for oppgavene. Dette designet fører til at undersøkelsene dekker en mye større del av fagenes emneområder enn om alle elevene hadde besvart de samme spørsmålene. Rotasjonen kan eksemplifiseres med oppgaveblokkene: Et oppgavehefte til en elev inneholder to blokker matematikkoppgaver (M1 og M2) og to blokker naturfagoppgaver (N1 og N2). Neste oppgavehefte inneholder matematikkblokk M2 pluss en ny blokk, M3. Slik er det for naturfag også. På denne måten gjentas blokkene i alle elevheftene, helt til hefte nummer 14, som inneholder M14 og M1, og N14 og N1. I tillegg roteres det også på hvilket fag elevene møter først i et oppgavehefte. I halvparten av heftene løser elevene naturfagoppgaver først og matematikkoppgaver sist.

For å løse problemet med at ikke alle elever svarer på de samme oppgavene, blir det brukt en metode som beregner fem såkalte plausible verdier 2 for hver elev. I denne beregningen inngår både elevenes skår på oppgavene i testen og bakgrunnsinformasjon som for eksempel sosioøkonomisk status (Martin & Mullis, 2012; Rubin, 1987). Om en skal analysere data fra TIMSS, bør alle de plausible verdiene inkluderes, ellers risikerer en at standardfeilen blir for liten. Konsekvensen av dette kan være at man får signifikante resultater, som i virkeligheten ikke er det. For en beskrivelse av hvordan plausible verdier brukes i dataanalyser, se for eksempel Rutkowski, Gonzalez, Joncas og von Davier (2010).

11.1.7 Poengskalaer og kompetansenivåer

Poengskalaene for matematikk og naturfag i TIMSS ble definert av de 45 landene som deltok i 1995. Elevskårene i alle deltakerlandene ble den gangen regnet om til en ny skala slik at det internasjonale gjennomsnittet ble satt til 500 og standardavviket ble satt til 100. Det er denne skalaen som nå brukes som en fast målestokk, og nå kalles 500 for skalamidtpunktet.

For å sette alle TIMSS-undersøkelsene inn i samme skala, brukes en metode som på norsk kan oversettes med samtidig kalibrering. Metoden går ut på å skalere data fra én undersøkelse samtidig med data fra den forrige undersøkelsen og så anvende lineær transformering for å plassere resultatene fra inneværende undersøkelse på den samme skalaen som den forrige. Trendoppgavene og de landene som deltar i to påfølgende runder av TIMSS, muliggjør dette.

Prosessen med å lage kompetansenivåer ble først implementert i TIMSS 1999 (Gregory & Mullis, 2000; Kelly, 1999). I begynnelsen ble disse kompetansenivåene plassert på en prosentil-skala, men i TIMSS 2003 skjønte man at inndelingen av skalaen måtte ta hensyn til trend, og dermed brukte man i stedet poengskalaen hvor skalamidtpunktet er 500 og standardavviket er 100 (Gonzalez, Galia, Arora, Erberber & Diaconu, 2004). Skalaen for kompetansenivåer, som gjelder for både matematikk og naturfag, er vist i figur 11.2.

Figur 11.2. Kompetansenivåer for TIMSS. Hvert nivå omfatter et område som inkluderer 5 poeng over og 5 poeng under den spesifikke poengangivelsen for hvert kompetansenivå.

Prosessen med å lage kompetansenivåer starter med å identifisere elever som ligger innen fem poeng over eller under hvert kompetansenivå som vist i figur 11.2. For disse elevene kalkuleres deretter prosentandelen korrekt for alle oppgavene. Seleksjonskriterier blir brukt for å identifisere oppgaver som hører til hvert kompetansenivå. Disse kriteriene er som følger: en flervalgsoppgave tilhører et bestemt kompetansenivå dersom minst 65 prosent av elevene på dette nivået svarer riktig på oppgaven, og i tillegg må minst 50 prosent av elevene på nivået under svare riktig på oppgaven. For åpne oppgaver er kriteriet å plassere oppgaven i det laveste nivået med minst 50 prosent riktige svar.

Eksperter i TIMSS beskriver deretter den kompetansen elevene må ha for å løse disse spesifikke oppgavene, og kommer slik fram til det de mener er den beste definisjonen av de ulike kompetansenivåene. Det er viktig å poengtere at disse kompetansebeskrivelsene først og fremst har en empirisk, men også en skjønnsmessig basis. Det betyr for eksempel at beskrivelsene av disse nivåene endres noe fra én TIMSS-studie til den neste, i og med at noen nye oppgaver vil introduseres fra gang til gang. Grunnen til at man i TIMSS knytter disse beskrivelsene så tett opp mot selve oppgavene, er at man ønsker å ha beskrivelser som er nært knyttet til faget og rammeverket. Det overordnede formålet med disse beskrivelsene er å kunne rapportere kvalitativt om hvilke kompetanser elevene har, i stedet for kun å plassere dem som punkter på en poengskala. Vedlegg 1 og vedlegg 2 gir fullstendige beskrivelser av kompetansenivåene for henholdsvis matematikk og naturfag i TIMSS 2015.

I TIMSS vil det for øvrig også være noen elever med poengsum under lavt nivå (under 400 poeng), men en beskrivelse av deres kompetanse vil ikke kunne gis ut fra de prosedyrene som er beskrevet her. For en grundigere gjennomgang av kompetansenivåer i både TIMSS og PISA, se Olsen og Nilsen (In press).

11.1.8 Spørreskjema

I tillegg til de faglige prøvene hører det med et spørreskjema til elevene. Gjennom dette hentes det inn informasjon om blant annet elevenes hjemmebakgrunn, holdninger og motivasjon for fagene, deres opplevelse av skolen og undervisningen.

TIMSS har også spørreskjemaer til elevenes lærere i matematikk og naturfag, til elevenes skoleledere (rektorer) og foresatte (bare på barnetrinnet). I lærernes spørreskjema handler det om deres utdanning og erfaring, om undervisningspraksis, om motivasjon og om faglig, fagdidaktisk og pedagogisk selvtillit. Skolelederne får spørsmål om blant annet skolemiljø og skoleledelse. De foresatte får blant annet spørsmål om tidlig læring av lesing og regning, om barnets deltakelse i barnehage, om de foresattes opplevelse av skolen og holdninger til realfag.

Tabell 11.5 viser hvilke variabler og konstrukter som finnes i de forskjellige spørreskjemaene i TIMSS. Et konstrukt er et begrep som blir målt ved flere spørsmål (f.eks motivasjon), mens variabler er basert på enkeltspørsmål.

Tabell 11.5. Innhold i spørreskjemaene i TIMSS 2015.

Elever

Lærere

Sosioøkonomisk status

Karakteristika (kjønn, alder)

Minoritetsbakgrunn

Utdanning og erfaring

Karakteristika (kjønn, alder)

Skolemiljø

Ugyldig fravær

Samarbeid med kollegaer

Skoletilhørighet

Tilfredshet med læreryrket

Mobbing

Belastning på jobb

Motivasjon (indre og ytre, og selvtillit)

Undervisningskvalitet og -metoder

Forventning om fullført utdanningsnivå

Utfordringer knyttet til klassen

Tid på lekser og ekstraundervisning

Tilgang til og bruk av datamaskiner

Klasseledelse (undervisningskvalitet)

Hvilke faglige emner er undervist

Støttende undervisning (undervisningskvalitet)

Lekser og bruk av lekser

Læreren gir utfordringer (undervisningskvalitet)

Vurdering av elever og tester

Tydelig undervisning (undervisningskvalitet)

Etter- og videreutdanning

Regelmessig frokost

Læreres faglige og pedagogiske selvtillit

Bruk av datamaskin hjemme og på skolen

Antall timer i matematikk og naturfag

Internettbruk og skolearbeid

Undersøkende (inquiry-based) læring i naturfag

Karakterer siste termin (bare ungdomstrinn)

Foresatte (bare barnetrinn)

Rektorer/skoleledere

Tilrettelegging for lesing og regning

Elevers SES og minoritetsbakgrunn

Elevens lese- og regneferdigheter ved skolestart

Antall innbyggere der skolen ligger

Deltakelse i barnehage

Skole- og klassestørrelse

Alder barnehage- og skolestart

IKT-utstyr ved skolen

Lekser og hjelp til lekser

Naturfagsressurser

Privat leksehjelp

Leksehjelp på skolen

Foreldrenes inntrykk av skolen

Skoleledelse

Sosioøkonomisk bakgrunn og minoritetsbakgrunn

Differensiering av elever

Holdninger til matematikk og naturfag

Ressurser ved skolen

 

Trygghet og orden ved skolen (skolemiljø)

 

Rekruttering av lærere

 

Lærerfravær

 

Rektors utdanning

 

Læringstrykk (skolemiljø)

Ved hjelp av statistiske analyser er det mulig å undersøke sammenhenger mellom dataene fra spørreskjemaene og prestasjonene til elevene.

11.2 Statistiske metoder og analyser

Denne delen av kapittel 11 handler om statistikk og de metodene vi har brukt i denne boka. Vi starter med å gi leseren en kort innføring i noen utvalgte begreper innen statistikk i kapittel 11.2.1. Kapittel 11.2.2 forklarer hva vi mener med reversert koding. Resten av kapitlet handler om hvordan vi kan dra de slutningene vi drar, i tidligere kapitler, ved å redegjøre for hvordan vi har tatt hensyn til det hierarkiske designet i TIMSS og brukt flernivåanayser (11.2.3) og om tilrettelegging av data og metoder (11.2.4 og 11.2.5). I kapittel 11.2.6 diskuteres reliabiliteten og validiteten av våre slutninger.

11.2.1 Statistiske mål

Når et datasett skal beskrives, brukes ofte både sentralmål og spredningsmål. De mest vanlige sentralmålene er median, typetall og gjennomsnitt, og de mest vanlige spredningsmålene er variasjonsbredde, prosentiler, varians og standardavvik. I det følgende gis definisjoner og korte forklaringer til de målene som brukes i denne boka. Forklaringene eksemplifiseres med elevenes skår på naturfagtesten på barnetrinnet (se kap. 3 og Martin et al., 2016).

Gjennomsnitt. Gjennomsnitt blir ofte utrykt ved , hvor

.

Her er n antall elever som har tatt naturfagtesten og x 1, x 2, ... og x n er poengskåren til elev 1, 2, …, opp til og med elev n. På 5. trinn var det 4 329 elever som deltok, og gjennomsnittsskår for disse er 509 poeng (se tabell 3.3, kap. 3).

Prosentiler. Prosentiler angir hvor mange prosent av elevene som skårer en gitt verdi eller mindre. I Norge var det fem prosent av elevene på 5. trinn som skåret 427 poeng eller mindre på naturfagtesten, og det var nittifem prosent som fikk 636 poeng eller mindre. I tillegg til at prosentilene i seg selv brukes som mål på spredning, benyttes også differansen mellom prosentiler som et mål på spredningen i et datasett. Jo større differanse, jo større spredning er det i datasettet. For Norges del er differansen mellom den 5. prosentilen og den 95. prosentilen 636–427 = 209, hvilket er blant de minste differansene i populasjon1 (jf. tabell 3.3 i kap. 3).

Varians. Varians utrykkes ved s2, hvor

.

Varians handler om variasjonen i datasettet i forhold til gjennomsnittet, . Nærmere bestemt er varians en gjennomsnittsverdi for kvadratet av avstanden mellom hver av målingene x 1, x 2, ... og x n og gjennomsnittet. Jo større avstand det er mellom hver enkeltmåling og , jo større blir variansen og med den også spredningen.

Standardavvik. Standardavvik uttrykkes ved s, hvor .

Standardavvik kalles standard deviation på engelsk og er definert som kvadratrota av variansen. Standardavviket er kanskje det spredningsmålet som oppgis oftest fordi standardavviket får samme benevning som de målte variablene har i utgangspunktet.

I undersøkelser som TIMSS, hvor det er trukket ut store representative utvalg for hvert land, vil resultatene (av f.eks elevenes testskår) nærme seg en helt bestemt fordeling, nemlig normalfordelingen. I en normalfordeling er det slik at omtrent 68 prosent av målingene vil ha verdier i intervallet fra ett standardavvik under gjennomsnittet, til ett standardavvik over gjennomsnittet. Utvides området til to standardavvik fra gjennomsnittet i begge retninger, vil omtrent 95 prosent av alle målingene ligge her.

For eksempel, for de norske elevene på 5. trinn i naturfag, er gjennomsnittet 537 poeng og standardavviket er på 63 poeng (Martin et al., 2016). Det betyr at 68 prosent av elevene vil ha en naturfagskår som ligger mellom (537 – 63=) 474 og (537 + 63=) 600 poeng, og 95 prosent av elevene skårer mellom (537 – 2 · 63=) 411 og (537 + 2 · 63=) 663 poeng.

Et av landene som ikke skårer signifikant forskjellig fra Norge, er Bulgaria (se tabell 3.3, kap. 3). Bulgaria har en gjennomsnittsskår på barnetrinnet på 535 poeng, hvilket er to poeng under det norske snittet. Men Bulgaria har et standardavvik på 95 poeng, hvilket betyr at de har betydelig større spredning i resultatene sine enn Norge. For å inkludere 95 prosent av elevene, må intervallet gå fra 345 til 725 poeng (mot 411 til 663 i Norge).

Standardfeil. Standardfeil utrykkes ved SE, hvor .

Standardfeil kalles standard error på engelsk og avhenger av standardavviket (s) i datamaterialet og utvalgsstørrelsen (n). Alle målinger har feilmarginer, og i statistikk er det vanlig å angi feilmarginene som standardfeil, SE.

Statistisk signifikans. Statistisk signifikans handler om hvor sannsynlig det er at resultater fra statistiske analyser skyldes tilfeldigheter i utvalget. Resultatet av en statistisk analyse er signifikant dersom sannsynligheten er liten for at resultatet har oppstått tilfeldig. Signifikans uttrykkes enten som en prosentverdi (p-verdi) eller som et konfidensintervall. Uttrykket signifikansnivå angir hvor signifikant et resultat må være for å være akseptabelt.

Når signifikans uttrykkes ved p-verdier, brukes ofte 5 prosent (= 0,05) som en øvre grense. Da angis signifikansnivået som p< 0,05, og det betyr at det er mindre enn 5 prosent sannsynlighet for at resultatet skyldes tilfeldigheter i utvalget. I våre analyser er signifikansnivået satt til 5 prosent. For noen resultater har vi oppgitt p< 0,001, og det betyr at det er mindre enn 0,1 prosent sannsynlighet for at resultatet har framkommet på grunn av tilfeldigheter i utvalget. Ved å oppgi p< 0,001 ønsker vi å synliggjøre styrken på signifikansen. I kapittel 4, for eksempel, fant vi en signifikant sammenheng mellom 9. trinnelevenes selvtillit i matematikk og deres matematikkprestasjoner. Regresjonskoeffisienten var 0,65 (p< 0,05) (se tabell 4.4). Det betyr at det er mindre en 5 prosent sannsynlighet for at koeffisienten er et resultat av tilfeldigheter.

Når signifikans uttrykkes ved hjelp konfidensintervaller, brukes ofte 95 prosent konfidensintervaller. Intervallene beregnes ved hjelp av standardfeilen (SE) til variabelen vi undersøker.

Nedre grense for konfidensintervallet = variabelverdi – 1,96 · SE

Øvre grense for konfidensintervallet = variabelverdi + 1,96 · SE

For eksempel har vi i tabell 3.3 (kap. 3) markert hvilke land som skårer signifikant likt med Norge og signifikant over og under. Ved å beregne konfidensintervallet til gjennomsnittsskår for naturfag for hvert land, kan vi i de tilfellene hvor konfidensintervallene for landenes gjennomsnittsskår overlapper med Norges konfidensintervall, si at landene ikke skårer signifikant forskjellig fra Norge. I land hvor konfidensintervallene ikke overlapper med Norges konfidensintervall, kan vi si at de skårer signifikant forskjellig fra Norge (over eller under).

Standardisering. For å standardisere en variabel X, benyttes følgende transformasjon . Her er gjennomsnittsverdien til variablen X, s er standardavviket til fordelingen av X, og z er den standardiserte verdien til X. Ved å foreta tranformasjonen kan vi si hvor mange standardavvik verdien ligger over eller under gjennomsnittet. I TIMSS er skalamidtpunktet (gjennomsnittet) satt til 500, og standardavviket er satt til 100. Det betyr at Norge, som har en gjennomsnittsskår på 537 i naturfag på 5. trinn, skårer 0,37 standardavvik over skalamidtpunktet.

11.2.2 Reversert koding

I spørreskjemaene til TIMSS blir for eksempel elevene spurt om å angi grad av enighet på en firedelt skala (veldig uenig, litt uenig, litt enig, veldig enig)3. Disse gradene av enighet kodes, eller oversettes til heltallsverdier for at det skal være mulig å behandle elevenes responser i SPSS4 eller andre analyseprogrammer. Ta for eksempel det positive utsagnet «Jeg liker matematikk». Den laveste graden av enighet, veldig uenig, settes til verdien 0 og den høyeste graden, veldig enig, settes til 3. Skalaen går fra det vi anser som det dårligste, til det beste. Dersom vi nå regner ut et gjennomsnitt for alle elevene for dette utsagnet, vil en høy snittverdi antyde at elevene i gjennomsnitt er mer enig enn uenig og vi kan tolke dette som at elevene i relativt høy grad liker matematikk.

De aller fleste utsagnene som elevene må forholde seg til, er positive, slik som eksemplifisert over, men noen få ganger er de negative (f.eks «Matematikk er kjedelig» eller «Jeg er rett og slett ikke flink i naturfag»). Her brukes den samme skalaen som over, og den vil derfor gå fra det vi anser som det beste til det dårligste. Derfor reverserer vi, eller koder om skalaen for negative utsagn slik at veldig enig får verdien 0 og veldig uenig får verdien 3. Ved å reversere kodingen for negative utsagn vil vi kunne omtale og vise resultatene fra positive og negative utsagn på samme måte, begge skalaene vil gå fra dårligst til best.

11.2.3 Hierarkisk design og flernivåanalyser

TIMSS-studien har det man kaller et hierarkisk design, som reflekterer at elever tilhører klasser som hører inn under skoler, som hører inn under land. Elevene i en klasse vil ofte likne mer på hverandre enn et tilfeldig utvalg elever på tvers av, for eksempel, hele Norge. På samme måte vil elever på en skole også være likere hverandre enn et tilfeldig utvalg elever fra mange skoler. I tillegg kan det være stor forskjell mellom grupper av elever, for eksempel mellom klasser og mellom skoler. Dette er noe man må ta hensyn til når man analyserer dataene.

Forskere oppfordrer på det sterkeste til å gjøre to-nivå analyser framfor analyser på kun ett nivå for data fra internasjonale storskalaundersøkelser som TIMSS (Rutkowski et al., 2010). Dersom man ikke gjør dette, kan standardfeilen bli mindre enn den er i virkeligheten, og resultater som ser signifikante ut med analyser på ett nivå, kan i mange tilfeller bli ikke-signifikante ved flernivåanalyser. Men det er slik at dersom forskjellen mellom klasser eller skoler er forsvinnende liten, er det ikke nødvendig med flernivåanalyser. Og riktignok er forskjellen mellom klasser og mellom skoler mindre i Norge enn i mange andre land, men den er fremdeles stor nok til at man bør gjøre flernivåanalyser. Dette kan man blant annet undersøke ved å beregne intraklasse-korrelasjonen (ICC). ICC er et tall mellom 0 og 1, og er et uttrykk for hvor like individene innen en gruppe er. For eksempel kan den brukes som et mål på grad av ulikhet mellom skoler eller mellom klasser. Dersom ICC > 0,1, er det anbefalt å bruke flernivåanalyser (Heck, Thomas & Tabata, 2010). I alle våre analyser var ICC > 0,1, og dette er grunnen til at vi bruker flernivåanalyser i alle kapitler hvor vi ser på sammenhenger mellom ulike faktorer.

11.2.4 Korrelasjon og regresjon

Her vil vi gi en enkel og kort forklaring på korrelasjon og lineær regresjon. For lesere som ønsker mer informasjon, anbefaler vi Cohen et al. (2003).

Korrelasjon er et statistisk mål som beskriver sammenhengen mellom to variabler. Dersom to variabler har en positiv korrelasjon, vil det si at når den ene øker, så øker også den andre variabelen. Hvis korrelasjonen er negativ, betyr det at dersom den ene variabelen øker, så minker den andre. Korrelasjonskoeffisienter ligger mellom –1 og 1, og en sterk positiv korrelasjon vil typisk være høyere enn 0,6 eller 0,7 avhengig av datamaterialet (tilsvarende for en negativ korrelasjon).

Lineær regresjon er en statistisk metode som også beskriver sammenhengen mellom to variabler, for eksempel x og y. Imidlertid forutsettes det at den ene, y, er avhengig av den andre, x. Sammenhengen mellom disse to variablene antas å være lineær, og vi kan bruke likningen for en rett linje, y = Bx + k, som modell for sammenhengen. Stigningstallet, B, kalles i regresjonsanalyser for regresjonskoeffisienten, og k er skjæringspunktet med y-aksen. I figur 11.3 har vi tegnet inn to regresjonslinjer. Tenk at de to linjene representerer sammenhengen mellom elevenes sosioøkonomiske status (SES) og matematikkprestasjoner i TIMSS på to forskjellige skoler, skole 1 og skole 2. Skalaen for SES går fra 1 til 10, hvor 10 er det høyeste.

For skole 1 i figur 11.3 er regresjonskoeffisienten (stigningstallet) 10 og for skole 2 er regresjonskoeffisienten 5. Det betyr at det er en sterkere sammenheng mellom elevenes SES og matematikkprestasjoner på skole 1 enn det er på skole 2.

Figur 11.3. Hypotetisk eksempel på relasjonen mellom SES og matematikkprestasjoner på skolenivå.

11.2.5 SEM-metoden

I alle våre analyser har vi brukt to-nivåstrukturell likningsmodellering (SEM, Structural Equation Modelling). Modellering med SEM består av to deler. I den første delen brukes konfirmatorisk faktoranalyse (CFA, Confirmatory Factor Analysis), i den andre analyseres strukturer, eller relasjoner mellom faktorer. Slike flernivåanalyser brukes for å ta hensyn til det hierarkiske designet til TIMSS (se over). Men før det er mulig å analysere, må dataene gjøres klare for SEM-analyser. Til klargjøring benyttes et program som heter IDB Analyzer. Dette programmet preparerer dataene ved å ta hensyn til det kompliserte designet til TIMSS. For eksempel blir lærerne koblet til de elevene han eller hun underviser, og elevene grupperes i klassene sine. I en to-nivåmodell kan for eksempel elevene utgjøre det første nivået og klassen være det andre nivået.

Et konstrukt som ikke er direkte målbart, kalles en latent variabel. For eksempel er det ikke mulig å måle indre motivasjon direkte, da trenger vi mange indikatorer som til sammen kan dekke det vi mener med motivasjon. I CFA settes indikatorene som skal utgjøre den latente variabelen indre motivasjon, sammen, basert på tidligere forskning og teori. CFA utgjør målemodellen for den latente variabelen, det vil si relasjonene mellom indikatorene (Brown, 2006). CFA brukes til å validere den teoretisk konstruerte latente variabelen. Metoden tar sikte på å bestemme egenskaper ved den latente variabelen ved å beskrive korrelasjonen mellom indikatorene, eller de observerte variablene som inngår i konstruktet (Hox, Maas & Brinkhuis, 2010). Videre benytter vi CFA for å undersøke hvor godt den latente variabelen blir målt av de forskjellige observerte variablene. For eksempel blir elevenes indre motivasjon (i kapittel 4) modellert som en latent variabel. Indre motivasjon i naturfag blir målt ved hjelp av ni forskjellige observerte variabler (hva elevene svarer på spørsmålene om indre motivasjon), for eksempel Jeg liker å lære naturfag, Jeg skulle ønske at jeg ikke var nødt til å lære naturfag og Naturfag er kjedelig. For hver av de ni indikatorene vil man som resultat få en såkalt factor loading, en faktorladning, som er et tall som indikerer hvor god den observerte variabelen fungerer som mål for det ikke-målbare underliggende begrepet, indre motivasjon. Faktorladningene forteller hvor reliabel og valid den latente variabelen er, og angir både hvor godt hver indikator måler det underliggende begrepet, og om de er statistisk signifikante. Faktorladningene vil også gi en indikasjon på om den latente variabelen inneholder en eller flere aspekter eller dimensjoner.

Et eksempel: En latent variabel med flere dimensjoner er undervisningskvalitet slik det blir målt i kapittel 7. Her inneholder undervisningskvalitet fire dimensjoner. Derfor måles den latente variabelen undervisningskvalitet av fire andre latente variabler (f.eks klasseromsledelse), som igjen måles av observerte variabler. I hele rapporten er alle faktorladningene høye (typisk over 0,7) og signifikante.

Den strukturelle delen av SEM brukes til å analysere relasjonen mellom en latent eller observert variabel og en annen latent eller observert variabel. For eksempel kan man undersøke sammenhengen mellom indre motivasjon og prestasjoner. Denne sammenhengen blir målt ved regresjon, og man får da en regresjonskoeffisent som f.eks. beskriver sammenhengen mellom indre motivasjon og prestasjoner.

Det statistiske verktøyet brukt i alle våre SEM-analyser er Mplus, verson 7.3 (Muthén & Muthén, 1998–2015). Når man kjører slike SEM-modeller, får man mål på hvor godt modellen stemmer overens med dataene. Disse målene kalles «model fit» eller modelltilpasning (se Hox et al., 2010). Vi skal ikke gå nærmere inn på dette her, men alle våre modeller hadde gode modelltilpasninger. Mplus håndterer også såkalte «Missing data», data som mangler fordi en elev hoppet over et spørsmål, eller ikke deltok på testen i det hele tatt. For å håndtere dette har vi brukt Robust Maximum Likelihood (MLR) estimering (se Muthén & Muthén, 1998–2015).

I Mplus kan man modellere variabler på flere nivåer samtidig. Dette ble for eksempel gjort i kapittel 7 og 8 i analysene av undervisningskvalitet. Undervisningskvalitet rapportert av elever bør aggregeres (kobles sammen) på klassenivå fordi elevene i en klasse rapporterer om én lærer. Undervisningskvalitet er derfor et klassefenomen. Man undersøker da relasjonen mellom undervisningskvalitet og prestasjoner på elev- og klassenivå samtidig. På den måten kontrollerer man for at elevene kan ha forskjellige opppfatninger av sine læreres undervisningskvalitet.

11.2.6 Å trekke sikre slutninger

Hvor sikre forskerne kan være når de trekker slutninger, avhenger av mange faktorer: Det avhenger av kvaliteten til de innsamlede dataene (hvor gode måleinstrumentene er), designet til studien og antall deltakere (utvalgsstørrelse), metodologi, valg av analysemetode og analyseverktøy. Om alt dette holder høy kvalitet, er reliabiliteten høy (det er liten grad av målefeil) og validiteten god (at det man undersøker, faktisk er det man måler)5. Forskerne kan dermed trekke sikrere slutninger enn om noen eller alle faktorene ikke holder høy kvalitet. Om forskerne kan trekke sikre kausale slutninger, er ikke alltid like klart.

Kausalitet handler om forholdet mellom årsak (hendelse A) og virkning (hendelse B). For at en relasjon skal være kausal, må: 1) hendelse A komme før hendelse B i tid, 2) hendelse A forårsake hendelse B, og 3) hendelse A alltid etterfølges av hendelse B. Det sies ofte at kausale slutninger kun kan trekkes dersom man har en randomisert eksperimentell undersøkelse med en kontrollgruppe. Målet med et slikt eksperiment er å dokumentere effekt av en bestemt behandling (f.eks. en undervisningsmetode). Deltakerne må fordeles tilfeldig (randomiseres) til en behandlingsgruppe og en kontrollgruppe. Slike studier har ofte små utvalg, så selv om en kan trekke kausale slutninger, er det vanskelig å generalisere og si at slutningene fra en randomisert eksperimentell undersøkelse gjelder hele populasjonen.

I mange tilfeller vil det være behov for å ta endringer over tid i betraktning, og dermed utføre en longitudinell studie. Hvor kausale slutninger det er mulig å trekke avhenger av designet på studien og på kvaliteten av instrumentene (f.eks. spørreskjemaer og tester). Reliabilitet og validitet spiller altså en viktig rolle.

TIMSS er en studie som har et tverrsnittsdesign. Det vil si at samme type data blir samlet inn i mange land, på ett tidspunkt. I tillegg er TIMSS designet for å kunne undersøke trender (i f.eks prestasjoner). Dersom man inkluderer de eksakt samme landene i to forskjellige runder av TIMSS og utfører analysene på landnivå, kan TIMSS anses som en longitudinell undersøkelse (Gustafsson, 2007).

Det finnes avanserte analysemetoder hvor man utnytter det longitudinelle designet. Disse analysene setter forskerne i stand til å trekke en høyere grad av kausale slutninger (Gustafsson & Nilsen, 2015; Rosén & Gustafsson, 2016), men slike analyser har ikke blitt gjort i denne boka. Videre har ikke TIMSS et eksperimentelt design, og det betyr at vi ikke kan trekke kausale slutninger; vi kan altså ikke slå fast hva som er årsak og virkning. Ta for eksempel variabelen «antall bøker elevene har hjemme». Denne variabelen har vist seg å være sterkt relatert til elevenes prestasjoner, og vi kan derfor rapportere at antall bøker har en sterk sammenheng med elevenes prestasjoner. Vi kan ikke si at antall bøker har en sterk påvirkning på elevenes prestasjoner.

Den siste måten å uttrykke resultatet på sier noe om retningen til relasjonen, og forteller oss at flere bøker påvirker prestasjoner framfor at prestasjoner påvirker antall bøker. Tidligere forskning og logikk tilsier at det ikke vil dukke opp flere bøker i bokhyllene bare fordi elevene presterer bedre.

Vi har i denne boka valgt å bruke ordene sammenheng med framfor påvirkning på for å signalisere at vi ikke påberoper kausalitet. Likevel har vi forutsatt en retning på sammenhengen fordi vi utfører regresjonsanalyse. Denne forutsetningen er basert på tidligere forskningsresultater og teori. For eksempel sier tidligere forskning at det er skolemiljøet som påvirker elevenes prestasjoner, ikke motsatt.

Selv om forskere ikke kan trekke kausale slutninger, er det viktig å vite i hvilken grad slutningene er robuste og generaliserbare. Begge disse er avhengig av en rekke faktorer som for eksempel designet på studien, metodologi og analyse-metode, antall elever i utvalget, om utvalget er representativt og kvaliteten av dataene. Dersom man har et representativt utvalg av elever, er det mulig å trekke slutninger til hele populasjonen. I TIMSS 2015 deltar det representative utvalg av elever på 4., 5., 8. og 9.trinn i Norge, noe som gjør det mulig å trekke slutninger for alle elever på disse trinnene.

Vi har tatt hensyn til det komplekse designet til TIMSS og har brukt den mest robuste analysemetoden tilgjengelig (Hox et al., 2010) for å kunne trekke så sikre og generaliserbare slutninger som mulig. Vi vil derfor argumentere for at våre funn har høy reliabilitet og validitet.

Referanser

Brown, T. A. (2006). Confirmatory factor analysis for applied research. New York: Guilford Press.

Cohen, J., Cohen, P., West, S.G. & Aiken, L.S. (2003). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences. London: Lawrence Erlbaum Assosiates.

Crocker, L. & Algina, J. (2006). Introduction to Classical & Modern Test Theory. Mason: Cengage Learning.

Gregory, K.D. & Mullis, I.V.S. (2000). Describing International Benchmarks of Student Achievement. In M.O. Martin, K.D. Gregory & S.E. Stemler (Eds.), TIMSS 1999 technical report (pp. 265–276). Chestnut Hill, MA: International Study Center, Boston College.

Gustafsson, J.-E. (2007). Understanding causal influences on educational achievement through analysis of differences over time within countries. In T. Loveless (Ed.), Lessons Learned: What International Assessments Tell Us about Math Achievement (pp. 37–63). Washington, DC: The Brookings Institution.

Gustafsson, J.-E. & Nilsen, T. (2015). Changes in School Emphasis on Academic Success Related to Changes in Achievement at Country Level. Paper presented at the ECER, Budapest.

Heck, R., Thomas, S.L. & Tabata, L. (2010). Multilevel and longitudinal modeling with IBM SPSS: Routledge.

Hox, J.J., Maas, C.J.M. & Brinkhuis, M.J.S. (2010). The effect of estimation method and sample size in multilevel structural equation modeling. statistica neerlandica, 64(2), 157–170.

Kelly, D.L. (1999). Interpreting the Third International Mathematics and Science Study (TIMSS) achievement scales using scale anchoring. (PhD), Boston College, Boston.

Kleven, T.A., Tveit, K. & Hjardemaal, F. (2002). Innføring i pedagogisk forskningsmetode : en hjelp til kritisk tolking og vurdering (2 utg.). Oslo Unipub.

Martin, M.O. & Mullis, I.V.S. (Eds.). (2012). Methods and procedures in TIMSS and PIRLS 2011. Chestnut Hill, MA: TIMSS & PIRLS International Study Center, Boston College.

Martin, M.O., Mullis, I.V.S., Foy, P. & Hooper, M. (2016). TIMSS 2015 International Results in Science. Retrieved from http://timssandpirls.bc.edu/timss2015/international-results/

Mullis, I.V.S. & Martin, M.O. (2013). TIMSS 2015 Assessment Frameworks. Chestnut Hill, MA: TIMSS & PIRLS International Study Center, Boston College.

Mullis, I.V.S., Martin, M.O., Foy, P. & Hooper, M. (2016). TIMSS 2015 International Results in Mathematics. Retrieved from http://timssandpirls.bc.edu/timss2015/international-results/

Mullis, I.V.S., Martin, M.O., Goh, S. & Cotter, K. (2016). TIMSS 2015 Encyclopedia: Education Policy and Curriculum in Mathematics and Science. Retrieved from http://timssandpirls.bc.edu/timss2015/Encyclopedia/

Muthén, L.K. & Muthén, B.O. (1998–2015). Mplus User's Guide. Seventh Edition. Los Angeles, CA: Muthén & Muthén.

Olsen, R.V. & Nilsen, T. (In press). Standard setting in PISA and TIMSS. In S. Blömeke & J.-E. Gustafsson (Eds.), Standard Setting. Springer.

Rosén, M. & Gustafsson, J.-E. (2016). Is computer availability at home causally related to reading achievement in grade 4? A longitudinal difference in differences approach to IEA data from 1991 to 2006. Large-scale Assessments in Education, 4(1), 1.

Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley.

Rutkowski, L., Gonzalez, E., Joncas, M. & von Davier, M. (2010). International Large-Scale Assessment Data: Issues in Secondary Analysis and Reporting. Educational Researcher, 39(2), 142–151. doi:10.3102/0013189x10363170