Professor em. Svein Magnussen1, Psykologisk institutt, førsteamanuensis Dag Erik Eilertsen, Psykologisk institutt, professor em. Karl Halvor Teigen, Psykologisk institutt, professor Ulf Stridbeck, Institutt for offentlig rett, alle Universitetet i Oslo, og psykolog ph.d. Ellen M. Wessel, Vinderen DPS2

Det foregår en debatt om lekdommernes plass i det norske rettssystem, mer bestemt om hvorvidt det nåværende jurysystemet skal opprettholdes eller erstattes med en utvidet meddomsrett sammensatt av fagdommere og lekdommere, med lekdommere i flertall. Ikke alle moderne rettssystemer har en juryordning slik vi kjenner den. Den er på vikende front mange steder. Danmark har, for eksempel, ikke lenger en separat jury og i Sverige oppnevnes en jury bare i saker om trykke- og ytringsfrihet. Anførslene mot det norske jurysystemet er i første rekke at juryen ikke begrunner sine kjennelser (Advokatbladet 21. mai 2014). Et mindre påaktet, men like viktig poeng i denne sammenhengen, er imidlertid hvorvidt lekdommere opererer med det samme krav til bevis som angis i norsk og internasjonal juridisk teori, eller om de legger seg på et lavere – eventuelt et høyere – nivå for å avsi en fellende kjennelse. Ifølge Aftenposten (25 mars 2014) er i de siste tre år 54 juryavgjørelser satt til side av fagdommerne i lagmannsretten, hvilket kan tyde på at fagdommere og lekdommere i mange sammenhenger opererer med forskjellige krav til subjektiv sikkerhet ved bevisvurderingen. Det foreligger imidlertid lite forskning knyttet til denne problemstillingen, og den har vært lite fremme i norsk debatt. I denne artikkelen skal vi innledningsvis gjennomgå relevant nasjonal og internasjonal forskning og deretter referere og diskutere enkelte resultater fra et større norsk forskningsprosjekt, hvor vi har sett på sammenhengen mellom vurdering av sannsynlighet for skyld og villighet til å avgi en fellende dom i en realistisk modellsituasjon med fagdommere og lekdommere som deltagere.

Uttrykk for sikkerhet om skyld

Overbevisning om skyld kan uttrykkes på flere måter: (1) Verbalt: Ved språklige formuleringer, slike som «grunn til mistanke», «sannsynlighetsovervekt», og «utover rimelig tvil». (2) Numerisk: En kan be folk om å tallfeste sannsynlighet for skyld på en skala fra 0 til 100 %. (3) Faktisk handling: Endelig kan man studere folks faktiske atferd, som her vil være deres villighet til å stemme for domfellelse. Disse tre uttrykk for skyld er forsøkt anskueliggjort i Figur 1. Et strengt beviskrav vil i denne trekanten kunne innebære språklige formuleringer som tillater liten tvil og usikkerhet, et krav om høye sannsynligheter, og et lite antall fellende dommer. Et lavere beviskrav vil kunne reflekteres i mer forsiktige formuleringer («trolig skyldig», «sannsynlighetsovervekt»), lavere sannsynlighetsverdier («60 % sjanse») og lavere terskel for domfellelse. Ideelt sett skulle man vente en «likesidet» trekant hvor disse tre indikasjonene på skyld korresponderer med hverandre, slik at de i en gitt rettssak fremstår som like høye eller like lave.

Imidlertid er forholdet mellom disse tre uttrykk for tro og tvil ikke så like som det ideelt sett burde være, til tross for normative utsagn, juridisk teori og hevdvunnen praksis om forholdet mellom (1) og (3), som for eksempel at man ikke skal avsi fellende kjennelser i straffesaker uten at skyld er bevist «utover rimelig tvil». Det finnes også en omfattende litteratur omkring forholdet mellom (1) og (2), dvs. hvilke tallmessige sannsynligheter som bør svare til de verbale formuleringene på området, som vi vil kort redegjøre for nedenfor. Her kan man også reise spørsmål om lekfolk tolker slike ord og begreper i overensstemmelse med juridisk teori. Vårt hovedanliggende er imidlertid ikke å studere slike tolkninger, men å redegjøre for en serie empiriske studier hvor de samme deltagerne – norske dommere og et stort utvalg lekpersoner som kvalifiserer for jurytjeneste – både oppgir tallmessige estimater for skyld og uttrykker sin villighet til å stemme for domfellelse. Denne undersøkelsen fokuserer altså på grunnlinjen i denne figuren: forholdet mellom (2) – tallfestet sannsynlighet – og (3) – villighet til domfellelse, med utgangspunkt i et mulig voldtektscenario.

Figur 1. Tre uttrykk for subjektiv overbevisning om skyld

Tallfesting av språklige beviskrav

I norsk juridisk teori er det formulert numeriske definisjoner av beviskrav. Her forekommer ulike prosentsatser: «over 95 %»3, «mellom 95 % og 100%»4 og «må være 100 %»5. Strandbakken skriver at man kan tenke seg at 51 % svarer til sannsynlighetsovervekt, 75 % svarer til særlig styrket mistanke og 95 % svarer til hevet over rimelig tvil:

«Beviskravet for fellende dom kan imidlertid aldri angis til 100 %. Det vil alltid kunne reises en teoretisk tvil, og det er derfor ikke mulig å fastslå med absolutt visshet at den tiltalte er skyldig. Å angi beviskravet til 100 % er misvisende fordi dette kan medføre at dommens riktighet fremstår med større sikkerhet enn det er grunnlag for. Man må derfor foreta et valg på en skala fra 51 til 99 %.»6

Kolflaath skriver:

«I de fleste [sivile] saker er beviskravet ’alminnelig sannsynlighetsovervekt’, det vil si at sannsynligheten for det påståtte faktum må være høyere enn 50 prosent. Alternativt kan beviskravet for eksempel være ’kvalifisert sannsynlighetsovervekt’, hvor terskelen tenkes å ligge i området 70–80 prosent sannsynlighet. I strafferetten, hvor tiltaltes skyld skal være bevist utover enhver rimelig tvil, kreves det ifølge Johs. Andenæs ’noe så nær som 100 % sannsynlighet for domfellelse’.»7

Gitt problemet med å definere den verbale formuleringen «utover rimelig tvil» har også den internasjonale forskningen lagt seg på en linje hvor beviskravet uttrykkes tallmessig i form av estimert sannsynlighet for skyld angitt på en prosentskala. Men dette er heller ikke uten problemer.8 Eckhoff påpekte at tall er for presise når de brukes til å gjengi skjønnsmessige vurderinger av hvor sannsynlig noe er, forestillinger om saksforhold er aldri så eksakte at de svarer til bestemte tallstørrelser.9

Empiriske studier av hvordan lekfolk plasserer språklige uttrykk for sannsynligheter på en tallskala, viser betydelig variasjon, gitt den flertydighet og mangel på presisjon som karakteriserer språket.10 Disse studiene viser også at folk tror det er større konsensus om hva slike verbale sannsynligheter betyr enn hva som faktisk er tilfelle.11 Selv om man finner en formulering som gir en dekkende beskrivelse av beviskravet, er det ikke sikkert at formuleringen oppfattes likt av alle bevisbedømmere. Dette gjelder også dommere. Strandbakken viser til en studie av Klami, som gjorde en spørreundersøkelse blant finske dommere. 12 Klami tok utgangspunkt i ulike formuleringer av beviskravet: «uppenbart», «styrkt», «sannolikt» og «antagligt» og ba om uttrykkenes numeriske motsvarighet. Flertallet mente at «uppenbart» tilsvarte 95–100 %. Men noen anga 50 % som en numerisk verdi. Forsøk på verbale definisjoner av beviskravet har i internasjonale modellstudier også gitt det tilsynelatende paradoksale resultat at individuelle jurymedlemmer legger seg på et lavere subjektivt nivå etter en rettsbelæring enn når ingen er gitt.13

Beviskrav og domfellelse

Enten den ene eller andre formuleringen legges til grunn, er det tale om et mål på hvor sterk overbevisningen må være for at retten skal kunne bygge på et bestemt faktum.14 Mye taler for at det ofte praktiseres noe forskjellige beviskrav for ulike sakstyper. Lagdommer Huitfeldts erfaring, fra hans tid som statsadvokat, tilsier at domstolene krever mer av bevis i økonomisaker enn i andre saker. Med en spissformulering sier han at domstolene krever 120 % bevis i økonomisaker.15 Johs. Andenæs skriver at en dommer vil kreve en høyere grad av visshet for å domfelle for drap enn for en trafikkforseelse.16 I sakstyper som oppleves som et samfunnsproblem, senker man, bevisst eller ubevisst, beviskravet slik at det lettere blir domfellelse. Bratholm og Stridbeck hevder i sin undersøkelse om uriktige domfellelser at narkotika har samfunnsfiendestatus, og at for den typen saker er bevisterskelen for domfellelse lavere enn i andre saker.17 Undersøkelsen, som blant annet gjennomgikk beviskravene i forskjellige typer saker, bekrefter Andenæs’ påstand om forskjellige beviskrav. Også i engelsk og amerikansk litteratur vises det ofte til at beviskrav varierer med handlingens grovhet: «Åtalet ska styrkas bortom rimligt tvivel, men det kan finnas grader även inom denna standard … ju grövre brottet är desto klarare bör bevisen vara.»18

Hvilken sikkerhet krever lekfolk for å dømme?

Undersøkelser i USA hvor jurymedlemmer er spurt om å kvantifisere den grad av subjektiv sikkerhet som må foreligge for at man skal kunne avsi en fellende dom, viser en variasjon i gjennomsnittsverdier fra 79 til 92 %. Det vanligste enkeltsvar fra lekfolk er imidlertid 100 %, som overhodet ikke gir rom for tvil, så det er et spørsmål om deltagerne her gir uttrykk for sine idealer og ikke sine reelle krav. 19 Det eksisterer atskillig sosialpsykologisk forskning som viser at folks uttrykte meninger ikke nødvendigvis svarer til hva de foretar seg i praksis.20 Overført til beviskravet i straffesaker kan det godt tenkes at folk er villige til å dømme i en konkret sak uten å ha oppnådd den grad av sikkerhet de ideelt sett mener bør foreligge. Dhami har gjennomgått forskningslitteraturen og finner at beviskravet vurdert med indirekte metoder, hvor respondenter avkreves vurderinger i konkrete saker, tilsvarer bevisovervekt med en vurdert sannsynlighet på > 50 %, hvilket innebærer at de i praksis benytter det mindre strenge beviskravet «sannsynlighetsovervekt». 21, 22 Det foreligger ikke tilsvarende data for fagdommere, og vi har hittil ikke hatt en norsk undersøkelse av lekfolks oppfatninger.

Et norsk prosjekt

De fleste internasjonale studier har vært basert på skriftlige saksfremstillinger23 med forholdsvis små utvalg av bedømmere, vanligvis universitetsstudenter i psykologi eller juss. De norske studiene som danner grunnlaget for denne artikkelen, er basert på et omfattende materiale med mer enn 1100 personer, som inkluderer fagdommere og lekpersoner i et aldersspenn fra 20 til 70 år. I en lang serie studier har deltagerne/informantene fått se en fem-minutters video av en fornærmet24 eller en mistenkt25 som i fri gjenfortelling gir sin versjon av et voldtektscenario i et antatt politiavhør. Etter å ha sett videoen ble deltagerne bedt om å vurdere personens troverdighet (på en syvpunkts skala), anslå sannsynligheten for at den mistenkte faktisk var skyldig i voldtekt (som et tall mellom 0 og 100 %), og hva de trodde de ville stemme i tenkt rettssak, med selvsagte forbehold om andre opplysninger som ville fremkomme i en faktisk rettssak. I tillegg til variasjon i deltagerkarakteristika – unge og eldre lekpersoner, dommere 26 – har vi også variert faktorer som kunne antas å påvirke bedømmelsene, slik som forklaringens emosjonelle tone, scenariets tydelighet med hensyn til vold,27 bedømmelser foretatt individuelt versus i sammensatte grupper med gruppediskusjoner, 28 og informasjon til deltagerne om hva de skal legge vekt på/ikke legge vekt på i vurderingen.29 Se for øvrig Magnussen og Wessel 30 for en oppsummering av disse forsøkene. Opptakene ble gjort med unge skuespillere, ferske fra teaterskolen og således ukjente for et norsk publikum, og ytterst få av deltagerne i disse studiene stilte spørsmål om ektheten av opptakene før den obligatoriske debrifingen.

Denne form for forskning kan beskrives som modellstudier. Slike studier skiller seg fra rene spørreskjemastudier, hvor man eksplisitt ber respondenter om f.eks. å tallfeste hva et sannsynlighetsuttrykk betyr, eller hvor sikre de vil være før domfellelse. I stedet skaper man en situasjon hvor man ber dem foreta relevante bedømmelser under kontrollerte betingelser, hvor man sikrer at alle deltagere får den samme informasjon og blir utsatt for de samme oppgaver. Slike studier er det viktigste redskapet i beslutningspsykologi, som er det relevante fagfelt i denne sammenhengen. Poenget med modellstudier er ikke å gjenskape en konkret virkelighet i alle detaljer, men å simulere en situasjon hvor de vurderinger og beslutninger som vil gjøre seg gjeldende i en konkret virkelighet, viser seg. Det er prinsippene for menneskelige vurderinger og beslutninger som generaliseres fra modellstudier31, og disse er nokså stabile over situasjoner.32 Modellsituasjonen våre undersøkelser bygger på, har høy økologisk validitet33, og det er grunn til å tro at resultatene er rimelig representative for vurderinger som foretas i en rettslig virkelighet.

Figur 2. Sammenhengen mellom vurdert sannsynlighet for skyld og andel som ville stemt for domfellelse i tre utvalg: dommere (n = 45), lekpersoner (n = 964), og lekpersoner testet i en jurysituasjon med gruppediskusjoner (n = 173).

Resultater

Resultatene som er interessante i denne sammenhengen, er fremstilt i Figur 2 og angår forholdet mellom deltagernes bedømmelse av sannsynlighet for skyld og deres villighet til å stemme for skyld i en tenkt rettssak, altså forholdet mellom deres tallfesting av skyld (den horisontale aksen) og deres faktiske avgjørelser (den vertikale aksen). Bemerk at vi ikke ba deltagerne om å angi et verbalt eller tallmessig beviskrav, det vil si, vi ba ikke deltagerne om å si hvor de la kravet for å stemme for skyld. Hvor deltagerne faktisk legger lista for å være villig til å avgi en fellende kjennelse, kan imidlertid avleses av Figur 2. Den norske ordningen med en jury sammensatt av 10 personer, krever en skyldkjennelse med flere enn seks stemmer, cf. straffeprosessloven § 372. Det betyr at syv eller flere lagrettemedlemmer må ha svart ja på spørsmålet om skyld. I diagrammet tilsvarer dette en sannsynlighet for domfellelse på 0,7, og verdien på den horisontale aksen angir den vurderte sannsynlighet for skyld som ut fra dette kriteriet ville gitt en fellende kjennelse i en norsk jury.

Det er flere ting å bemerke til disse resultatene. Ikke uventet legger et betryggende flertall av dommere seg på et høyt nivå med en sannsynlighet for skyld på nærmere 90 % for å avgi en fellende kjennelse. Dette stemmer godt med internasjonal forskning og med den uformelle normen for «utover rimelig tvil». Hvorvidt dommere i praksis benytter et så strikt kriterium, kan ikke denne undersøkelsen svare på; dette var et modellforsøk med innebygde føringer for deltagere med kjennskap til strafferett og kriterier for skyldvurderinger. Dommere vet hva som forventes. Likevel, det fremgår av resultatene at ikke alle dommere er like strenge på dette kriteriet, og at rundt en fjerdedel av dem ville stemme for skyld med en bedømt sannsynlighet for skyld på litt over 70 %. Så det er mulig at dommere i enkelte avgjørelser – eksplisitt eller implisitt – legger seg på et lavere beviskrav enn den norm som angis i internasjonal og norsk faglitteratur. Alt i alt ville bare en tredjedel av dommerne stemme for skyld på bakgrunn av det fremlagte materialet.

Lekpersoner anvender ikke et tilsvarende høyt beviskrav. Resultatene for denne gruppen deltagere viste seg stabile over ulike eksperimentelle betingelser. Helt uavhengig av deltageres alder, voldtektsscenariets tydelighet med hensyn på bruk av fysisk vold, «rettsbelæring», og hvorvidt det er den fornærmede eller den antatte gjerningsmann som fremstiller handlingsforløpet, ligger beviskravet på rundt 60 %. Det betyr at potensielle jurymedlemmer i utgangspunktet anvender et krav som tilsvarer en «markert» sannsynlighetsovervekt, og ikke det betydelig strengere krav «utover rimelig tvil» i straffesaker. Nyanserte statistiske sannsynlighetsvurderinger tilligger ikke dagliglivets psykologi. Vi er mer opptatt av hva vi skal tro eller ikke tro, som i sin tur bestemmer hva vi velger å gjøre. Avgjørelser blir dermed basert på det enkle spørsmålet om hvilket av to hendelsesforløp som virker «markert» mest sannsynlig, X eller Y? Ut fra resultatene i disse studiene virker det som om dette er det krav som i utgangspunkt legges til grunn av lekpersoner i straffesaker av denne typen. Det er en massiv enighet med et meget stort og sammensatt utvalg deltagere at dersom sannsynligheten for skyld er på mer enn 50 %, så stemmer 70 % av dette utvalget for skyld, hvilket i en faktisk straffesak ville bety domfellelse med et særdeles lavt beviskrav. Ut fra en statistisk betraktning innebærer et slikt krav at ganske mange personer er villige til å avsi en fellende dom som er langt under 95–97 %-nivået. Det er gode grunner til å tro at lekdommere ikke opererer med et frekventistisk sannsynlighetsbegrep når de angir grader av sikkerhet, det ville i så fall innebære at de var villige til å akseptere risikoen for et stort antall uriktige dommer.34

Det i utgangspunktet lave beviskrav som anvendes av lekfolk, er imidlertid påvirket av den sosiale konteksten. Vi inkluderte i undersøkelsen en betingelse hvor deltagerne opererte i en tilnærmet jurysituasjon med gruppediskusjon. Argumentet her er at i en gruppe vil enkeltmedlemmer ha forskjellige oppfatninger av bevisene og beviskravene, og at resultatet av en avstemming i gruppen ikke nødvendigvis vil avspeile de enkelte medlemmers uavhengige vurdering. Resultatene for denne betingelsen ligger da også nærmere dommerne enn deltagere som vurderer individuelt, og viser et beviskrav på 70 %-nivået. Det kan se ut til at beviskravet er blitt strengere. Imidlertid viser det seg at deltagerne i denne gruppen stemmer like ofte for skyld som deltagerne i de andre lekfolksgruppene. Dermed ser det ut til at de ikke er blitt mer forsiktige, men tvert om sikrere i sin sak. Hele 83,3 % av dette utvalget oppgir en sikkerhet fra 70 % og oppover, langt flere enn i de øvrige gruppene, hvor bare 57,8 % uttrykker en tilsvarende sikkerhet. Sannsynligvis er det støtten fra andre medlemmer som gjør at en nå oppgir større sikkerhet. Det er altså lite som tilsier at en mistenkt kan vente seg større forsiktighet av deltagere som sitter i en jury og har anledning til å diskutere bevisene med hverandre.35

Hvilke konklusjoner kan vi trekke?

For lekdommere faller det åpenbart naturlig med et mye lavere beviskrav enn for fagdommere – og den numeriske standard for «utover rimelig tvil» som internasjonal litteratur og norsk teori viser til. Resultatene er robuste, og må anses å representere det faktiske beviskrav som legges til grunn av den norske befolkning i rettssaker. På tross av offentlig debatt og mediekommentarer om tvilen som skal komme tiltalte til gode og kravet til fellende dommer i straffesaker, er lekfolks vurdering binær – er det «markert» mer sannsynlig at han er skyldig enn uskyldig, vil det bidra til at han dømmes.

Som det fremgår av Fig. 2, er det noen lekpersoner – rundt 20 % – som stemmer for skyld selv om deres vurderte sannsynlighet for skyld er under 50 %, hvilket jo egentlig impliserer at de mener det er større sannsynlighet for at den anklagede er uskyldig enn at han er skyldig. Fortolkningen av dette er at vi ikke uten videre kan forutsette at personer som rekrutteres til rettslig tjeneste forstår sannsynlighetsvurderinger og hva som ligger i de tallmessige vurderingene. Kan retten forutsette at lekdommere vet at 50 % sannsynlighet betyr like stor sannsynlighet for skyld som for uskyld? Eller er det slik at enkelte lekdommere mener at 0 % sannsynlighet er utgangspunktet, og at 20 % sannsynlighet er tilstrekkelig for domfellelse? I dagens ordning må juryen gis en forståelse av hva «utover rimelig tvil» innebærer. Dette er en vanskelig oppgave for rettens administrator, for det er ikke enkelt å formidle dette, hverken verbalt – språket er ikke entydig – eller via numeriske uttrykk. Og det er, på bakgrunn av den internasjonale forskningen referert tidligere, og resultater fra norske studier,36 heller ikke sannsynlig at rettsbelæringer i faktiske saker vil være spesielt effektive. Resultatene fra denne undersøkelsen taler således for at en meddomsrett der fagdommere og lekdommere vurderer bevis i felleskap fører til en mer rettssikker prosess – strengere beviskrav – enn der lekdommere i gruppe vurderer bevis alene.

Det faktum at lekfolk opererer med et lavt beviskrav, må ikke tolkes som at juryer i sin alminnelighet vil avsi flere fellende kjennelser enn fagdommere/meddomsretter. Faktisk ser det ut til at tiltalte i voldtektssaker oftere blir frifunnet av juryen i lagmannsrettene enn i tingrettene, som ikke benytter seg av juryordning.37 Lekfolk kan selvsagt vurdere bevis annerledes, og ikke minst gjøre andre troverdighetsvurderinger, enn fagdommere. Poenget med denne artikkelen er å vise at når juryen avgir en fellende kjennelse, er det ikke åpenbart at de samtidig vil tallfeste sannsynligheten for skyld som svært høy, slik en ville vente dersom en streng definisjon av «utover rimelig tvil» ble lagt til grunn. Resultatene illustrerer også en innebygd skjevhet i trekanten (Fig 1): Direkte «oversettelser» fra verbale (1) til numeriske (2) uttrykk, eller fra verbalt formulerte krav (1) til faktisk handling (domfellelse) (3), er ikke enkle.

Resultatene fra disse undersøkelsene kan oppsummeres som følgende:

1. Norske dommeres subjektive kriterium for vurdering av skyld i straffesaker ligger nær opp til det nivå som norsk og internasjonal teori anbefaler (95–97 %), med en vurdering av opp mot 90 % for sannsynlighet for skyld. Det er et ganske betryggende resultat.

2. Lekdommeres subjektive kriterium for vurdering av skyld synes, statistisk sett, å være basert på et binært «enten-eller»-kriterium, hvor skyld avgjøres på et statistisk overvektsprinsipp (mer enn 60 %), og det er ikke uten videre klart at lekdommere – i alle fall uten presis rettledning – er innforstått med det høye beviskravet i straffesaker.

3. Når lekpersoner avgjør skyld etter gruppediskusjoner, ligger kriteriet deres nærmere kriteriet for fagdommere, men likevel et stykke fra det nasjonalt og internasjonalt aksepterte kravet om subjektiv sikkerhet for vurdering av skyld.

4. En meddomsrett der fagdommere og lekdommere vurderer bevis i felleskap, vil, ut fra denne argumentasjonen, føre til en mer rettssikker prosess – strengere beviskrav – enn der lekdommere i gruppe vurderer bevis alene.

Det er punktene 2, 3 og 4 som er spesielt relevante for den norske diskusjonen om juryordningen, og som deltagerne i denne debatten, uansett standpunkt, bør være kjent med. Men resultatene har også implikasjoner for hvordan rettsbelæringen i jurysaker bør utformes, for eksempel er det ikke like selvsagt for alle at en sikkerhet på 60 % kan innebære en 40 % risiko for en uriktig skyldavgjørelse.