Oppgrader til nyeste versjon av Internet eksplorer for best mulig visning av siden. Klikk her for for å skjule denne meldingen
Ikke pålogget
{{session.user.firstName}} {{session.user.lastName}}
Du har tilgang til Idunn gjennom , & {{sessionPartyGroup.name}}

Holdbart - utover rimelig tvil? Noen kommentarer til en enkeltstudie

professor emeritus, Institutt for kriminologi og rettssosiologi, Universitet i Oslo.

I artikkelen reiser jeg tvil om holdbarheten til uforbeholdne konklusjoner i en modellstudie som forskerne hevder gir robust grunnlag for å påstå at våre lekdommere legger til grunn lavere beviskrav om skyld enn våre fagdommere. Dette kan betviles fordi i) reelle saker med bevistvil ikke skal fremmes for retten, mens saker i modellstudien vil ha rom for tvil; ii) bevis blir utfordret i reelle saker, men ikke i modellstudien; iii) modellstudien gir fagdommere som har kjennskap til hvilke bevistema som må være dekket i en videofilm for at skyld skal være bevist, en urimelig særfordel i forhold til situasjonen i en reell rettssak; iv) det er uklart om lekfolk og fagdommere ble vist samme videofilm. Dessuten er det ukjent om modellstudiens dommere og lekfolk er representative for faktiske dommere, og studiens resultat er i strid med faktiske dissensmønstre i lavere rettsinstans. Den usikkerhet som enkeltstående studier alltid er beheftet med, er i seg selv tilstrekkelig til at studiens konklusjoner burde vært klart mer forbeholdne.

Nøkkelord: beviskrav, lekdommer, dommer, dissens, modellstudie, bevistvil, holdbarhet

1 Innledning

Siden våre kunnskaper om hvorvidt bevis i straffesaker blir bedømt forskjellig av lek- og fagdommere er svært mangelfulle, er det prisverdig at en gruppe norske psykologer og en jurist har utført undersøkelser med sikte på å redusere vår uvitenhet.1 I artikkelen der de presenterer forskningen trekker de sterke, forbeholdsløse konklusjoner. Men er de holdbare?

Leserne blir presentert for det forskerne kaller en modellstudie. I en lang serie studier har de vist studiedeltakere en fem minutters videofilm der en fornærmet eller mistenkt person gir sin versjon av et voldtektscenario i et politiavhør. Personen i videofilmen var nyutdannet fra teaterskolen, for at de som ble vist filmen, ikke skulle betvile dens ekthet. Bruken av et slikt opplegg bidrar til å sikre at alle deltakerne/forskernes respondenter kan få samme informasjon, og at de også kan gis samme oppgaver å besvare. Forskerne oppgir at informantene, til sammen mer enn 1100 personer, fra 20–70 år, besto av både norske fagdommere og lekfolk som kvalifiserer for jurytjeneste.2

I dette tilfellet skulle informantene etter å ha sett videoen «vurdere personens troverdighet (på en syvpunkts skala), anslå sannsynligheten for at den mistenkte faktisk var skyldig i voldtekt (som et tall mellom 0 og 100%), og hva de trodde de ville stemme i en tenkt rettssak, med selvsagte forbehold om andre opplysninger som ville fremkomme i en faktisk rettssak» (s. 390). «Vi ba ikke deltakerne om å si hvor de la kravet for å stemme for skyld. Hvor deltakerne faktisk legger lista for å være villig til å avgi en fellende kjennelse, kan imidlertid avleses av Figur 2.» (s. 392).3 De data som lå til grunn for denne figuren, var svar fra «tre utvalg: dommere (n=45), lekpersoner (n=964) og lekpersoner testet i en jurysituasjon med gruppediskusjoner (n=173)» (s. 392). Når det gjelder svarene fra lekpersonene, var opplegget slik, tror jeg: 964 lekfolk svarte individuelt etter å ha sett filmen, og 173 lekpersoner deltok først i gruppediskusjoner (en jurysituasjon) før de også svarte individuelt. Totalt antall respondenter blir derved 1182.

Det er beklagelig at forskerne verken gjengir ordrett hvilke spørsmål informantene tok stilling til, eller informerer om hvordan opplegget rundt gruppediskusjonene var, f.eks. gruppestørrelse, monitorering, om gruppene skulle forsøke å komme til enighet, skulle de holde avstemning (som i en jury)? Dette er viktig informasjon for å kunne vurdere i hvilken grad det er rimelig å betegne disse informantene Jury som i Figur 2.

Figur 2. Sammenhengen mellom vurdert sannsynlighet for skyld og andel som ville stemt for domfellelse i tre utvalg: dommere (n = 45), lekpersoner (n = 964), og lekpersoner testet i en jurysituasjon med gruppediskusjoner (n = 173).

Figuren viser tre relativt like kurver nokså parallelt med hverandre, med Lekfolk (n=964) til venstre, Dommere (n=45) til høyre og Jury (n= 173) i midten. Det som er fremstilt, er «forholdet mellom deltakernes bedømmelse av sannsynlighet for skyld og deres villighet til å stemme for skyld i en tenkt rettssak» (s. 392), om den mulige voldtekten som ble fremstilt i videoen forskerne viste deltakerne. Forskerne gjør ikke rede for hvilke beregninger (inklusive kurveglatting?) som ligger til grunn for hver av kurvene, men skriver at det «er flere ting å bemerke til disse resultatene» (s. 393). Så bemerker de at «ikke uventet legger et betryggende flertall av dommerne seg på et høyt nivå med en sannsynlighet for skyld på nærmere 90% for å avgi en fellende kjennelse. … Lekpersoner anvender ikke et tilsvarende høyt beviskrav.» (s. 393.) Deres krav ligger rundt 60% som betyr at potensielle jurymedlemmer i utgangspunktet anvender et krav som ikke tilsvarer kravet «utover rimelig tvil» i straffesaker. Beviskravet for lekpersoner som deltok i gruppediskusjoner («Jury») ble beregnet «på 70%-nivået». Dermed kommer denne kurven mellom kurven for Lekfolk og Dommere i Figur 2. «Det kan se ut til at beviskravet er blitt strengere [for Jury enn for Lekfolk]. Imidlertid viser det seg at deltakerne i denne gruppen [Jury] stemmer like ofte for skyld som deltakerne i de andre lekfolksgruppene. Dermed ser det ut til at de ikke er blitt mer forsiktige, men tvert om sikrere i sin sak.» (Dette må vel bety at Jury-kurvens plassering i forhold til de to andre ikke gir pålitelig informasjon?)

Ingen alternative forklaringer på kurvene i Figur 2 blir nevnt og drøftet, ikke en gang den mulighet at det vel kan forventes at fagdommere som vet at det er svært viktig for deres renommé å fremstå som svært samvittighetsfulle i sin vurdering av bevis, vil være tilbøyelige til å avgi svar deretter. Da vil sannsynligheten vært stor for et resultat som i Figur 2.

Forskerne er ikke i tvil om hvilke konklusjoner de kan trekke av studien: «For lekdommere er det åpenbart og naturlig med lavere beviskrav enn for fagdommere. … Resultatene er robuste, og må anses å representere det faktiske beviskrav som legges til grunn av den norske befolkning i rettssaker. På tross av offentlig debatt om mediekommentarer om tvilen som skal komme tiltalte til gode og kravet til fellende dommer i straffesaker, er lekfolks vurderinger binær – er det ‘markert’ mer sannsynlig at han er skyldig enn uskyldig, vil det bidra til at han dømmes.» (s. 394–395.) Og videre: «Poenget med denne artikkelen er å vise at når juryen avgir en fellende kjennelse, er det ikke åpenbart at de samtidig vil tallfeste sannsynligheten for skyld som svært høy, slik en ville vente dersom en streng definisjon av ‘utover rimelig tvil’ ble lagt til grunn» (s. 395–396).

Disse særdeles selvsikre konklusjonene fremsettes på bakgrunn av at forskerne hevder at modellstudiens økologiske validitet er høy, at undersøkelsessituasjonen er virkelighetstro (s. 391), uten å angi hvilke kriterier som skiller høy, middels og lav økologisk validitet og hvordan de har fastsatt at validiteten er høy.

2 Fire kommentarer til modellstudiens økologiske validitet

a Straffesak – i modellstudie versus domstol

En verdig straffesak i en norsk domstol er en sak der påtalemyndigheten nøye har vurdert bevisene og kommet til at aktor kan bevise for domstolen at tiltalte er skyldig. Saker der aktor er i tvil, skal ikke fremmes for retten. Domstolens straffesaker er derfor sensurerte saker som har passert en første, helt nødvendig sensur for at det skal være mulig å godta at en domstol skal kunne vurdere om skyld virkelig er bevist «utover enhver rimelig tvil». Derfor har vi en påtalemyndighet og ikke inkvisitoriske domstoler.

Jeg kjenner ingen videoinnspilling som ble brukt i modellstudien, men jeg er ganske sikker på at samtlige av dem bevisst har noe «rom for tvil» om tiltaltes skyld. Uten det vil de være ganske uegnet til formålet. Men derved vil videovoldtektene skille seg grunnleggende fra sensurerte voldtekter som påtalemyndigheten bringer inn for retten. Dette taler imot at modellstudiens validitet kan bli høy. Tvilstilfeller lik de som ble vist i videoene skal påtalemyndigheten ikke fremme for retten fordi det vil svekke rettssikkerheten.

b Bevisutfordring – modellstudie versus domstol

Det er utenkelig at en norsk domstol skulle ta stilling til skyld uten at bevis som aktor legger frem for domstolen, skal kunne bli utfordret og drøftet av tiltalte, forsvarer og av dommerne selv. Det er utenkelig fordi det ville svekke all rimelig tiltro til at bevisene virkelig holder det de skal holde, at skyld er bevist «utover enhver rimelig tvil». Dette beviskravets reelle betydning er nettopp at fremførte bevis har blitt utfordret i åpen rett.

Jeg tillater meg å betvile at modellstudien var lagt opp slik at det som ble presentert i den fem minutters videoen ble utfordret av noen som helst. Hvis jeg har rett, betyr det at modellstudien er sterkt avvikende i forhold til et helt sentralt grunnprinsipp for rettslig behandling av straffesaker, og at dette svekker modellstudiens validitet.

c Viktige bevistema – modellstudie versus domstol

I reelle rettssaker er det viktig at alle bevistema blir dekket, både når det gjelder handling og subjektive krav til skyld (forsett, grov uaktsomhet, uaktsomhet). Disse kan være vanskelige å forstå for lekfolk – ikke minst når det gjelder voldtekt – og er derfor gjennomgangstema ved bevisførsel, i prosedyrer og i rettsbelæring. De virkelige ekspertene på hva slike krav fordrer, er jurister med mye strafferettserfaring, som påtalemyndighet og dommere. Lekfolk må fortelles ganske inngående hva slike krav dreier seg om, før det kan ventes at de skal kunne ta stilling til skyld. Hva lekfolk som deltok i modellstudien eventuelt ble forklart om for eksempel hva som er tilstrekkelig «vold» (bruk/trussel?) og subjektive skyldkrav når det gjelder voldtekt, skriver forfatterne intet om, dessverre.

Når fagdommere blir vist en videopresentasjon av en mulig voldtekt, vil de uten store vansker oppfatte i hvilken grad det filmen presenterer i det hele tatt dekker det nødvendige i forhold til lovens ulike krav, mens dette ikke kan forventes av lekfolk som ikke får konkret innsikt i det gjennom bevisførsel, prosedyrer og eventuelt rettsbelæring. Det er dette som skjer i en normal rettssak, men som trolig er hoppet over i modellstudien. I så fall er modellstudiens økologiske validitet svak.

d Har dommere og lekfolk vurdert og bedømt samme videofilmer?

En forutsetning for en robust sammenligning av lekfolks og fagdommeres vurdering av sannsynlig straffeskyld i en videopresentasjon de har sett, er at de har sett samme video. Det er uavklart om dette er overholdt i modellstudien.

Forskerne gjør greit rede for (s. 390) at videofilmen om voldtekt ble lagd i mange versjoner. Noen er av en fornærmet, andre av en som er mistenkt. Dessuten var det varierende innhold i videoene når det gjelder forklaringenes emosjonelle tone, scenariets tydelighet med hensyn til vold og til rettsbelæringene (s. 391 og 393). I en meget kort redegjørelse blir det konstatert at resultatene (i Figur 2) for lekpersoner «viste seg stabile over ulike eksperimentbetingelser» (s. 393). De analyser som denne konstateringen formodentlig hviler på, blir dessverre ikke dokumentert. Det viktigste i denne sammenhengen er imidlertid at forskerne overhodet ikke opplyser noe som helst om hvilke videoversjoner resultatene for dommerne og jury hviler på. Det er forståelig at det er mulig (og tidvis hensiktsmessig) å anvende mange ulike videoversjoner når man har nærmere 1000 informanter, men med bare 45 dommere er dette ikke mulig. Derfor er jeg sterkt undrende til om dommere og lekfolk har vurdert og tatt stilling til samme videofilm. Hvis det forholder seg slik at dommere bare har blitt vist én eller noen få videoversjoner, er det grunn til å spørre om hva resultatet blir dersom analysene både for dommere og lekfolk avgrenses til bare filmer som alle har blitt vist.

Av ovennevnte fire grunner er det vanskelig å forstå at artikkelforfatterne har dekning for at modellstudien har så høy økologisk validitet at resultatene trygt kan gjøres gjeldende for lek- og fagdommeres vurderinger og konklusjoner om skyld i våre domstoler.

3 Respondentenes representativitet

Gyldige slutninger fra modellstudier til reelle domstoler forutsetter at utvalget av respondenter i modellstudiene er representative i forhold til våre fagdommere og lekdommere. Det blir dessverre ikke opplyst noe om fremgangsmåten (den er svært viktig) da respondentene ble rekruttert. Det svekker naturligvis undersøkelsens troverdighet at man ikke gis mulighet til å vurdere rekrutteringsmåte, bortfall, om deltakerne er betalt for deltakelse, etc.

Det blir hevdet at lekfolk som deltok i modellstudiene «kvalifiserer for jurytjeneste» (s. 386). I følge dl. §§67-73 skal de som inngår i utvalgene av lagrettemedlemmer og meddommere velges gjennom en nominasjons- og påfølgende offentlig og kommunal vurderingsprosess der blant annet personlig egnethet for oppgaven skal vurderes. Har lekfolk som var deltakere i modellstudiene vært gjennom denne prosessen, eller en prosess som tilsvarer den?

4 Faktiske avgjørelser i tingrettene

Hvis lekdommere faktisk er så mye mindre aktsomme enn fagdommere med hensyn til å finne tiltalte skyldig som modellstudien hevdes å dokumentere, bør det vel komme til syne i faktiske domsavsigelser. Vi har to undersøkelser å støtte oss til. Aubert4 undersøkte forekomst av dissenser i drøyt 2000 herredsrettssaker fra ni domstoler på 1950-tallet, og tilsvarende ble gjort for 963 underrettsdommer ved åtte domstoler i 2000 på initiativ av professor Ulf Stridbeck og meg. Dissens forekommer omtrent like sjelden i begge undersøkelser, og dissensmønstrene er meget like. I sistnevnte undersøkelse var det dissens om skyldspørsmålet i 4% av dommene.5 «Når det var dissens om skyldspørsmålet, sto fagdommeren alene i 21 saker, mens en legdommer dissenterte i 26 tilfeller. I 20 av de 21 tilfellene der fagdommeren dissenterte, mente han at tiltalte skulle vært funnet skyldig, mens legdommerne stemte for frifinnelse. Blant lekdommerne er det langt på vei motsatt. Av de 26 dissensene om skyldspørsmålet der en av lekdommerne var alene, gikk dissensen i hele 23 tilfeller ut på at lekdommeren mente at tiltalte burde frifinnes, mens den andre legdommeren og fagdommeren altså fant tiltalte skyldig.»6 Dette tyder ikke på at lekdommere utgjør en høyere risiko enn fagdommerne for domfellelse i straffesaker uten at beviskravet er tilstrekkelig ivaretatt. Den forskjellen som ble funnet i begge undersøkelser tyder på at fagdommerne utgjør den største risikoen, og det kan skyldes at rutinen som fagdommere får kan virke sløvende på dem slik at de kan bli for tilbøyelige til å stole på at påtalemyndigheten har vurdert bevisene tilstrekkelig godt før tiltale ble tatt ut, jfr. Andenæs.7 Dette kan også forklare en del tilfeller der fagdommerne setter juryens skyldkjennelse til side, nettopp i saker der skyldspørsmålet er beheftet med usikkerhet. Norske dommere kan heller ikke karakteriseres som ivrige forkjempere for den gjenopptakelsesordningen som ble kjempet igjennom for få år siden.

5 Avslutning

Siden den undersøkelsen jeg kommenterer er den første – og dermed eneste – norske studien på sitt felt, og som dessuten bare bygger på én eneste sakstype, burde forskerne ut fra vanlige standarder for varsomhet i generaliserende konklusjoner tatt meget tydelige forbehold. Det er velkjent at resultater fra enkeltstudier med svært gode forskningsdesign publisert i velrenommerte fagtidsskrifter svært ofte ikke gjenfinnes når studier blir replisert. I en nylig publisert rapport8 om reproduserbarheten av psykologiske studier fremgår det at bare 36 prosent av replikasjonene hadde signifikante resultater, mot 97 prosent av originalstudiene. For psykologiske studier var det knapt 40 prosent som ble ansett for å replisere de opprinnelige funn.

1Magnussen, S., D. E. Eilertsen, K. H. Teigen, U. Stridbeck og E. M. Wessel, «En kvantitativ studie av sikkerhet i bevisvurdering i straffesaker hos norske fagdommere og lekdommere» Tidsskrift for Rettsvitenskap, 2014 vol. 127, nr. 3-4, s. 384–396.
2Magnussen m.fl. 2014, s. 386.
3Figur 2 er kopiert fra Magnussen m.fl. 2014, s. 392.
4Aubert, V. Straff og lagdeling. Institutt for samfunnsforskning (Stensil), Oslo 1963.
5Den store enigheten blant fag- og lekdommere om skyldspørsmålet skyldes neppe at fagdommerne overtaler eller dominerer lekdommerne. Det fremgår av svar på spørsmål stilt til et utvalg av lekdommere av Juryutvalget, se tabell 47 og 48 s. 283 i NOU 2011:13. Juryutvalget. Når sant skal skrives.
6Olaussen, L. P., «Folks tillit til og medvirkning i domstolene» Tidsskrift for strafferett, 2005 nr. 2, s. 119–143 (s. 135–136).
7Andenæs, J., Norsk straffeprosess, bind 1. Universitetsforlaget, Oslo 1984 s. 101.
8 Estimating the Reproducibility of Psychological Science. Rapporten [RPP_SCIENCE_2015.PDF] er fritt tilgjengelig på Open Science Framwork: https://osf.io/phtye/

Idunn bruker informasjonskapsler (cookies). Ved å fortsette å bruke nettsiden godtar du dette. Klikk her for mer informasjon