Endelig finnes det en innføringsbok i statistikkprogrammet R på norsk! Fra å bare bli brukt på de mest avanserte metodekursene for få år siden har R nå blitt vanlig også på innføringskurs i samfunnsvitenskapelig metode. På instituttet jeg selv kjenner best – Institutt for statsvitenskap ved Universitetet i Oslo – er R nå eneste alternativ for studentene som tar innføringskursene i metode på både bachelor- og masternivå. Den økte bruken av R er etter min mening en gledelig utvikling. Fordi R er open source og tilrettelagt for at brukere verden over kan bidra med tilleggsmoduler («pakker»), er det gjerne i R at nye teknikker og analysemetoder implementeres først. Kurs som benytter R, vil dermed kunne dekke mer avanserte analyseteknikker som ikke nødvendigvis er implementert i SPSS. Studenter som vil bruke mer avanserte teknikker senere, slipper å måtte bytte statistikkprogram for å gjøre dette. Det er dessuten enkelt for undervisere å selv lage utvidelser til R og gjøre disse tilgjengelige for studentene.

R er i større grad enn Stata og SPSS er et programmeringsspråk som kan brukes til mer enn tradisjonell regresjonsanalyse. Det finnes for eksempel god funksjonalitet i R for å automatisk samle inn data fra internett eller analysere dem ved hjelp av kvantitativ innholdsanalyse. En god opplæring i R vil også være et utgangspunkt for at studenter ved behov kan lære andre programmeringsspråk senere.

Sammenliknet med både SPSS og Stata har R dessuten den klare fordel at programmet er gratis både for utdanningsinstitusjonene og for studentene. Særlig for studentene er dette viktig da det betyr at de kan fortsette å bruke programmet uten å være avhengig av at framtidige arbeidsgivere er villige til å betale for dyre lisenser. Dette er også viktig i et mer globalt perspektiv. Gjennom å bidra til Rs status som et ledende statistikkverktøy i samfunnsvitenskap bidrar vi også til at forskere og studenter ved universiteter med mindre ressurser enn hva vi er vant med i Norge, får tilgang til det siste innen statistisk programvare.

Den økte bruken av R byr imidlertid også på utfordringer. Nettopp fordi R i større grad en SPSS og Stata er et programmeringsspråk, kan programmet oppleves som vanskelig å lære seg for studenter som mangler erfaring med å skrive kode. En ytterligere utfordring har hittil vært at mange studenter sterkt har etterspurt en innføringsbok på norsk tilsvarende hva som finnes for SPSS og Stata. Så langt har ikke vi som undervisere hatt noen slik bok å henvise dem til. Mange undervisere har nok tenkt at studentene kan finne svar på alt de lurer på ute på verdensveven. For studenter uten et vokabular egnet til å beskrive hva de lurer på, kan det imidlertid være vanskelig å finne fram. For mange studenter blir derfor overgangen til R unødvendig vanskelig, og for alle dem er Lær deg R. En innføring i statistikkprogrammets muligheter av Silje Hermansen en etterlengtet utgivelse.

Lær deg R er en innføringsbok rettet mot studenter som skal lære samfunnsvitenskapelig metode og bruke R som statistikkprogram. Bokas første kapitler hjelper leseren i gang med å installere R og det integrerte utviklingsmiljøet RStudio, som gjør R mer brukervennlig (kapittel 1), bruke R som kalkulator til å gjøre enkle beregninger for enkelttall og vektorer (kapittel 2), framstille data grafisk (kapittel 3) og lagre eget arbeid og importere datafiler (kapittel 4). Det er tydelig at Hermansen har mye erfaring med å undervise i R, og hun foregriper elegant mange av problemene studenter ofte støter på, for eksempel knyttet til operasjoner med vektorer av ulik lengde (se s. 35). Studenter som følger forfatterens råd om å skrive koden sammen med henne mens de leser, vil bygge et godt grunnlag for å bruke R i arbeidet med metodene som dekkes i de påfølgende kapitlene.

Resten av boka følger gangen i de fleste innføringskurs i samfunnsvitenskapelig metode. Kapittel 5 og 6 dekker henholdsvis beskrivende statistikk og enkel databearbeiding særlig knyttet til omkodinger. I noen grad dekker også kapittel 6 noen av de problemene studenter først oppdager at de har når de går i gang med hjemmeoppgaver eller andre egne prosjekter. For eksempel lærer leseren hvordan man kan koble sammen ulike datasett ved hjelp av felles ID-variabler. Dette er informasjon som studentene raskt får bruk for i egne prosjekter, men som de erfaringsmessig ikke har lært nok om i metodeundervisningen (kanskje fordi dette er ren databearbeiding heller enn hva vi tradisjonelt forstår som «metode»). Det er derfor en styrke at boka tar opp denne tematikken, selv om mange studenter nok etter hvert vil ønske seg mer på denne fronten. Mange studenter snubler over mer kompliserte sammenkoplingsproblemer enn det som dekkes her, allerede i sin første hjemmeoppgave.

Kapitlene 7–9 gir en grundig gjennomgang av lineær regresjon i R. Bivariat regresjon introduseres i kapittel 7 før analysen kompliseres med kontrollvariabler, samspillsledd og andregradsledd i kapittel 8. I tillegg til å lære hvordan modellene estimeres, får leseren her også gode verktøy for å tolke og framstille resultatene grafisk, for eksempel ved å sette verdier på de uavhengige variablene og hente ut prediksjoner og konfidensintervall for scenariet de har laget. Dette vil hjelpe studentene med å i større grad reflektere over implikasjonene av regresjonsmodellene de estimerer, og er dessuten en framgangsmåte som de vil ha behov for når de senere skal tolke ikke-lineære modeller i mer avanserte kurs. Selv om Lær deg R først og fremst er en R-bok, er det en stor styrke at boka er med på å bygge fundamentet for god statistisk forståelse hos leseren. Kapittel 9 tar for seg modellevaluering og diagnostikk, mens kapittel 10 gir en lettfattet innføring i logistisk regresjon. Tematisk dekker boka dermed de viktigste temaene på innføringskurs på bachelornivå og en god del av hva som repeteres på masternivå.

Bokas struktur gjør at den dermed egner seg godt som parallell lesning til en ren metodebok gjennom et innføringskurs. Studentene vil da fortløpende bli i stand til å bruke R til å implementere det de lærer i kurset. Hermansen understreker flere ganger underveis at Lær deg R ikke er en metodebok, men en R-bok som bør leses parallelt med relevant metodepensum. Det er selvfølgelig en riktig anbefaling, men jeg tror likevel mange studenter vil ha et større utbytte av boka enn bare å tilegne seg R-ferdigheter. Særlig er boka god på å kortfattet, men presist gjengi sentrale poenger knyttet til blant annet målenivå, antakelsene for lineær regresjon, tolkning av regresjonskoeffisienter og utregning av predikerte verdier. Igjen er det tydelig at Hermansen har mye erfaring med metodeundervisning, og hun er flink til å understreke poenger som mange studenter misforstår eller synes er vanskelige. Dette gjør boka til et godt supplement til det vanlige metodepensumet. Jeg tror derfor Lær deg R kan bidra til å skape en tettere sammenheng mellom den mer teoretiske metodeundervisningen og den praktiske gjennomføringen i R-seminarer.

R er i stor grad et funksjonsbasert språk, og bruken av funksjoner med tilhørende obligatoriske og valgfrie argumenter vektlegges gjennom hele boka. Hermansen framstiller dette pedagogisk som en samtale mellom brukeren som stiller spørsmål gjennom å kalle på funksjoner, og R som svarer gjennom resultatene funksjonene gir. Erfaringsmessig bruker studenter ofte litt tid på å forstå logikken i hvordan funksjoner og deres argumenter fungerer, så det er en stor styrke at dette forklares på en grundig og pedagogisk måte.

Gjennom hele boka vises kode og resultat som del av den løpende teksten. Dette gjør det enkelt å koble hva som skjer i R med forklaringene som gis. Hvert kapittel inneholder også tekstbokser med mer informasjon og utdypninger samt tabeller som oppsummerer nøkkelinformasjon som operatorer, funksjoner og argumenter. Det er øvelsesoppgaver i slutten av hvert kapittel. Datasettene og løsningsforslag for disse er tilgjengelig gjennom en egen R-pakke (laerdegR).1 At løsningsforslagene er lagret som funksjoner som leseren enten kan kjøre for å få riktig løsning eller «printe» for å se en framgangsmåte som kan benyttes, er et snedig grep som er med på å understreke hvordan funksjoner brukes i R. Det er imidlertid relativt få oppgaver til hvert kapittel, og mange studenter skulle nok ønske seg flere oppgaver å bryne seg på.

Datasettene som brukes både underveis i teksten og i øvelsesoppgavene, er enkle å få oversikt over, og variablene som analyseres, vil være intuitive for de fleste lesere. Noen av oss med erfaring med å veilede og sensurere studentoppgaver i metodeemner vil kanskje likevel ønske oss en større kreativitet og variasjon hva angår valg av datasett og variabler. Det ville vært en fordel om flere studenter så at samfunnsvitenskapelig metode kan brukes til mer enn å analysere partivalg eller holdninger til innvandring basert på surveydata.

R er et åpent språk hvor det har utviklet seg ulike «dialekter» med ulike sett av funksjoner og ulike syntakser som legger opp til varierende arbeidsflyt. Særlig har en samling av pakker, kollektivt omtalt som «tidyverse»,2 blitt enormt populær de siste årene. Tidyverse omfatter blant annet egne funksjoner for å manipulere data («dplyr») og for grafisk framstilling av data («ggplot2»). Disse pakkene følger en felles filosofi og grammatikk, men skiller seg en del fra grunnleggende R. Lær deg R bruker verken «tidyverse» eller andre av «dialektene» som har kommet til de senere årene. Boka bruker isteden meget konsekvent de innebygde funksjonene i R. En fordel med å holde seg til grunnleggende R er at det blir mindre nytt for leseren å forholde seg til. En annen fordel er at alle R-brukere vil få behov for grunnleggende R, selv om de skulle foretrekke å holde seg innenfor «tidyverse»-universet. Samtidig går noen mulige forenklinger og effektiviseringer for databearbeiding og grafikk tapt. Ett eksempel er utregning av gruppegjennomsnitt (se s. 93), som mange nok vil oppfatte som lite intuitivt, selv om framgangsmåten forklares godt. Gjennomgående er imidlertid Hermansen svært dyktig til å vise hvordan også grunnleggende R kan brukes til å gjøre elegante omkodinger og lage vakre grafikker (se særlig s. 100–101). Det viktigste poenget er nok imidlertid at undervisere som bruker boka, bør ha et bevisst forhold til at den er basert på grunnleggende R, og tilpasse sitt eget opplegg etter det.

Hovedmålgruppen for boka er studenter på innføringskurs i metode på bachelornivå. Boka vil også fungere godt for studenter tidlig i et masterprogram som har behov for å friske opp statistikk- og databehandlingsferdighetene, og som kanskje bruker R for første gang. Forskere og andre mer avanserte brukere med gode statistikkferdigheter og som kjenner andre statistikkprogrammer fra før, vil også kunne ha nytte av boka for å komme i gang med R. Lær deg R er imidlertid ingen innføring i R-programmering. Her står det ingenting om hvordan man definerer egne funksjoner, gjør iterasjoner eller definerer klasser. Lesere som etterspør denne informasjonen, har imidlertid kanskje også mindre bruk for en norskspråklig lærebok, da de vil finne fram til informasjon på internett og i de mange engelskspråklige bøkene om R. For dem som trenger en norskspråklige innføringsbok mest – studenter på innføringsemner i samfunnsvitenskapelig metode – fungerer boka godt.

Jeg har allerede sett mange kopier av Lær deg R på pultene til mine egne studenter. Jeg håper boka også blir å finne på pensumlistene til innføringskurs i samfunnsvitenskapelig metode rundt om på norske universiteter og høyskoler. Det vil gi studenter en mykere innføring i både R og i samfunnsvitenskapelig metode.