Oppgrader til nyeste versjon av Internet eksplorer for best mulig visning av siden. Klikk her for for å skjule denne meldingen
Ikke pålogget
{{session.user.firstName}} {{session.user.lastName}}
Du har tilgang til Idunn gjennom , & {{sessionPartyGroup.name}}

Prediksjon i Internasjonal politikk

Ph.d., seniorforsker, Institutt for fredsforskning (PRIO), havnyg@prio.org

  • Side: 467-487
  • Publisert på Idunn: 2015-12-03
  • Publisert: 2015-12-03

Kan modeller utviklet for å forklare internasjonal politikk brukes for å predikere? Det vil si, finnes det teorier og modeller som ville ha vært i stand til å predikere, forutsi, at det kom til å bli krig i Syria før konflikten brøt ut? Eventuelt, kan internasjonal politikk teorier «fortelle» beslutningstakere hvor den neste internasjonale krisen vil bryte ut? Den allmenne oppfatningen innen faget har vært at det ikke er mulig – internasjonal politikk kan forklare, men faget kan ikke predikere. I denne artikkelen argumenterer jeg for at dette utgangspunktet er problematisk. For det første er det i de fleste tilfeller liten grunn til å skille mellom forklaring og prediksjon, og for det andre tyder mer og mer på at faget er i stand til å predikere en lang rekke politiske fenomener. Internasjonal politikk vil som fag bli både mer teoretisk interessant og mer nyttig for brukere av faget, dersom det får et mer aktivt fokus på prediksjon.

Nøkkelord: prediksjon, early warning, teoritesting, vitenskapsteori

Predicting international politics

Can models developed to explain international politics be used to predict the future? Are there theories or models that could have predicted the war in Syria? Can international relations theories inform decision-makers about where the next international crisis will occur? In general, the view within the discipline is that prediction of this kind is not possible – theories can explain, but they cannot predict. Here, I argue that this view is flawed. First, in most situations, there is little or no theoretical reason for distinguishing between explanation and prediction. Second, more and more evidence points in the direction of international relations being perfectly capable of predicting phenomena of interest to international politics scholars and practitioners. International politics as a discipline will become theoretically more interesting and more useful for decision-makers if we start more actively to pursue prediction.

Keywords: prediction, early warning, theory testing, philosophy of science

 

Kan modeller og teorier for internasjonal politikk predikere fremtidige utfall? Det vil si, finnes det teorier og modeller som ville ha vært i stand til å predikere, altså forutsi, at det kom til å bli krig i Syria før konflikten brøt ut? Eventuelt, kan teori «fortelle» beslutningstakere hvor den neste revolusjonen bryter ut, eller hvor og når den neste internasjonale krisen vil utspille seg? Den allmenne oppfatningen innenfor faget har hvert fall siden midten av 60-tallet vært at det ikke er mulig. Selv om noen dristige enkeltpersoner har prøvd å predikere politiske fenomener, har det nærmest vært konsensus om at fagfeltet internasjonal politikk kan forklare, men det kan ikke predikere. I denne artikkelen vil jeg argumentere for at dette utgangspunktet er problematisk. For det første er det liten grunn til å trekke et skarpt skille mellom forklaring og prediksjon, og for det andre tyder mer og mer på at internasjonal politikk er i stand til å predikere en lang rekke viktige politiske fenomener. Jeg vil hevde at prediksjon er et nyttig verktøy for utvikling og testing av teori, samtidig som det er empirisk mulig. Et større fokus på prediksjon vil gjøre faget mer interessant for både forskere og brukere av faget.

De siste årene har synet på prediksjon begynt å endre seg. Den som har gjort mest for å popularisere prediksjon i statsvitenskap mer generelt, er paradoksalt nok ingen statsviter.1 Statistikeren og journalisten Nate Silver ble verdensberømt da han under primærvalgkampen i USA i 2008 predikerte at Hillary Clinton kom til å vinne nominasjonsvalget i New Hampshire. På dette tidspunktet mente «alle» eksperter at Barack Obama kom til å gå seirende ut. Silver gjentok bragden i 2012 og mente gjennom hele høsten at Obama hadde seieren i boks, igjen i skarp kontrast til eksperter og kommentatorer som mente at ingenting var avgjort – resultatet var og ble en «toss up».

Allerede i 1993 argumenterte Gelman og King (1993) for at det er relativt enkelt å predikere amerikanske presidentvalgkamper. Mer overraskende er det nok at modeller utviklet for internasjonal politikk også er i stand til å predikere politiske fenomener som krigsutbrudd, kriser, regimeendring og demokratisering – for å nevne noen. Dette betyr selvfølgelig ikke at vi som fagfelt er i stand til å predikere nøyaktig når og hvor alle kriger vil bryte ut, eller nøyaktig når Kina vil bli demokratisk (eller om landet i det hele tatt vil bli det). Men mer og mer tyder på at god teori i mange tilfeller faktisk er i stand til å gi beslutningstakere verdifull informasjon om hva, hvor og når viktige hendelser vil skje i fremtiden.

Fagets evne til å predikere har ikke kun konsekvenser for fagets relevans utenfor akademia. I samme periode som enkelte har begynt å utforske teorier og modellers evne til å predikere politiske fenomener, har det også vokst frem et argument om at prediksjon bør brukes aktivt for å evaluere teorier – teoritesting bør ikke bare være et spørsmål om stjerner og statistisk signifikans, men i større grad et spørsmål om en teoris evne til å faktisk predikere de utfallene en forsker mener teorien forklarer. Alt i alt ser vi altså en aldri så liten revolusjon i emning i faget – ikke bare bør vi i økende grad benytte oss av prediksjon for å teste teoriene våre, vi bør også predikere for å utføre et av fagets viktigste oppgaver: nemlig å bidra med nyttig informasjon for beslutningstakere.

Denne artikkelen begynner med en kort historisk gjennomgang av bruk av prediksjon i internasjonal politikk, med fokus på konfliktforskning fra 60-tallet frem til i dag. Deretter diskuterer jeg mer i detalj hvorfor faget bør begynne å benytte seg mer av prediksjon som et verktøy for gjøre teoritesting. I dette er argumentet om at statsvitenskap kan forklare, men ikke predikere spesielt interessant – jeg argumenterer for at det ikke er grunn til å trekke noe skarpt skille mellom forklaring og prediksjon. Neste seksjon diskuterer hvordan vi bør predikere, før jeg så ser på et sett av aspekter ved de prosessene vi studerer som begrenser evnen til å gjøre prediksjoner. Siste seksjon konkluderer og foreslår noen konkrete endringer som bør gjøres i faget på bakgrunn av diskusjonen om prediksjon.

Prediksjon i internasjonal politikk

Selv om Nate Silver nok er den som har gjort mest for å popularisere prediksjoner i statsvitenskap, ikke minst gjennom hans bestselgende 2012-bok The Signal and the Noise (Silver 2012), er han ikke den første som har predikert utfallet av valg.2 Amerikanske valgforskere har drevet med prediksjon av valgresultater i flere tiår (se for eksempel Sigelman 1979 og Lewis-Beck & Rice 1984).3 Valgprediksjoner publiseres nå regelmessig for flere land, og i den amerikanske valgforskningen er det i dag ukontroversielt å hevde at prediksjon er en av de viktigste måtene å evaluere teorier for valg på.

Prediksjon av internasjonal politikk er derimot på ingen måte et ukontroversielt vitenskapelig mål. Flere forskere har hevdet at internasjonal politikk er karakterisert ved at hendelser som essensielt er tilfeldigheter, spiller en avgjørende rolle i å forårsake de utfallene som interesser oss. Disse tilfeldighetene kan per definisjon ikke predikeres, og følgelig kan ikke internasjonal politikk som fagfelt predikere politiske hendelser. Dette resonnementet har en stolt stamtavle. H. A. L. Fisher skrev at menn «wiser and more learned than I have discerned in history a plot, a rhythm, a predetermined pattern. These harmonies are concealed from me. I can see only one emergency following upon another as wave follows upon wave» (sitert i Fukuyama 2006: 5). Et lignende resonnement blir fremført av Beyerchen (1992/93: 73), som foregriper en kritikk senere fremført av Nassim Taleb (diskutert under). Beyerchen hevder at krigers og internasjonale krisers «very nature», spesielt det at de er karakterisert av ikke-linære årsaksmekanismer og interaksjon mellom aktørene, gjør dem upredikerbare. Andre har argumentert for at prediksjon i internasjonal politikk er umulig fordi årsakene til utfallene vi studerer endrer seg over tid. Shapiro (2009: 498) skriver: «outcomes are fundamentally uncertain because the causes of phenomena in one period are not the same causes in a later period».

Mer generelt hevder Øyvind Østerud i Aftenposten 28. januar 2015, i den såkalte Uviten-spalten, at prediksjon ofte ikke er meningsfullt. Under tittelen «Ekspertenes verdiløse glasskule» hevder han at tilfeldige hendelser er det som til syvende og sist avgjør historiens gang, og at det derfor «er liten grunn til å høre på forskere og eksperter ved inngangen til et nytt år, med mindre de kommer med forbehold og forutsetninger som ingen er interessert i.» Denne typen resonnementer blir ofte understøttet av ex post facto-argumenter om at dramatiske hendelser som Sovjetunionens fall eller 11. september-angrepene fundamentalt endret dynamikken i internasjonal politikk (Herrmann & Choi 2007).

Disse argumentene reiser to interessante spørsmål: for det første om prediksjon er et nyttig verktøy i forskning på internasjonal politikk, og for den andre om prediksjon av for eksempel konflikt er mulig. Det første er et teoretisk og vitenskapsfilosofisk spørsmål, det andre er et rent empirisk. Argumentet til Fisher er rettet utelukkende mot det empiriske spørsmålet. Det vil selvfølgelig alltid være mulig å peke på viktige enkelthendelser som modeller og teorier på det gitte tidspunktet var og muligens fremdeles er ute av stand til å predikere, men slike anekdoter er på ingen måte et argument mot muligheten av prediksjon i seg selv. Hvis de hadde vært det, ville det være et argument mot meteorologi at det ofte regner selv om meteorologene har meldt (predikert) sol.

Tre generasjoner med konfliktprediksjon

Den internasjonale konfliktforskningen har de siste årene opplevd et tidsskille. Vi ser i dag en sterk økning i antallet prosjekter som prøver å predikere forskjellige former for politisk ustabilitet. I det store og hele kan vi snakke om tre generasjoner av prediksjon i konfliktforskningen. Første generasjon kom i kjølvannet av den behavioralistiske revolusjonen og var karakterisert av en sterk tro på muligheten til å kunne gjøre treffsikker prediksjon. Begrenset tilgang spesielt til data og tilrettelagte metoder gjorde at det i det store og hele ble med ambisjonen. I andre generasjon ser vi spesielt tre viktige innovasjoner. For det første annonserer spillteori for alvor sin ankomst. Dette legger et bedre teoretisk fundament for mange prediksjonsmodeller. For det andre gjør feltet de første forsøk på å nyttiggjøre seg av de enorme mengdene nyhetsdata som etter hvert er tilgjengelige for forskere og som gjør det mulig å studere internasjonal politikk nærmest fra dag til dag. For det tredje begynner disiplinen å ta i bruk metoder utviklet innen spesielt maskinlæring. Nytten og effekten av det ser vi kanskje først når vi kommer inn i tredje generasjon. Dagens forskere, i den tredje generasjonen av konfliktprediksjon, har en enorm tilgang til data samtidig som disiplinen nå har verktøyene for å studere og analysere disse dataene. Feltet er i dag karakterisert av et bredt miljø som nyttiggjør seg forskjellige typer data og forskjellige metoder for å predikere for eksempel internasjonale kriser, borgerkrig, regimesammenbrudd eller folkemord.

Første generasjon

J. David Singer, en av grunnleggerne av den moderne statsvitenskapen og ikke minst fagfeltet konfliktstudier, sa i sin «Presidental Address» til Peace Science Society i 1972:

No matter how I turn it over in my mind, the number one task for peace research always turns out to be that of prediction: the ability to forecast, with increasing reliability, the outcomes which are most likely to emerge (Singer 1973: 1).

Sitatet fra Singer er tidstypisk for den behavioralistiske revolusjonen i statsvitenskap. Mye kan sies om denne revolusjonen, men den reflekterte et klart skille fra tidligere statsvitenskapelig forskning ved å vektlegge objektiv og kvantifiserbar vitenskap. Statsvitenskapen skulle forklare og predikere politisk utfall, den skulle fokusere på hvordan ting er og ikke på hvordan de burde være (Dahl 1961). I 1963 ble Correlates of War (COW)-prosjektet startet av J. David Singer ved University of Michigan. Prosjektet startet innsamling og kvantifisering av data på historien om krig mellom stater og på de involverte aktører. En av målsetningene med prosjektet var å bygge nok kunnskap om konflikter til å kunne predikere dem. For forskere på 60- og 70-tallet endte det dog mer eller mindre med ambisjonen. Singer selv publiserte et par artikler som diskuterte muligheten av å bruke indikatorer samlet inn av COW for å predikere konflikt (Singer & Small 1974; Singer & Wallace 1979). Singer & Small (1974) er et konseptuelt forsvar for hvordan og hvorfor faget skulle gjøre dette. I Singer & Wallace (1979) går han lenger og bruker indikatorer i COW-datasettet for å se om variabler som nasjonal styrke kan brukes som early warning (mer om det begrepet siden) -indikatorer for utbrudd av internasjonal krig. Han konkluderer med at dette kunne være mulig, men at mye arbeid gjenstod. Denne første entusiasmen døde relativt raskt ut; mot slutten av 70- og begynnelsen av 80-tallet finnes det knapt lengre artikler som søker å predikere konflikt og ustabilitet.

Andre generasjon

Med ett unntak. Allerede på begynnelsen av 80-tallet gir Bruce Bueno de Mesquita (1980, 1981, 1984) ut en rekke studier som ved hjelp av spillteoretiske modeller beveger seg i retning av å predikere konflikt og andre enkeltspesifikke utenrikspolitiske avgjørelser. Med dette setter han i gang den andre bølgen av fokus på prediksjon. I motsetning til første generasjon er denne konsentrert innenfor et mindre sub-felt av disiplinen, men i kontrast til første generasjon benytter forskere seg fremdeles og i økende grad av modellene, verktøyene og ikke minst ideene utviklet av Bueno de Mesquita. Hovedideen i Bueno de Mesquitas arbeider, klarest formulert i The War Trap (1981), er at internasjonal konflikt kan forklares, og derfor også predikeres, ved hjelp av et «expected utility» eller forventet nytte, rammeverk. Siden det har Bueno de Mesquita og hans medforfattere publisert en lang rekke studier som søker å predikere konflikt (Bueno de Mesquita et al. 2004), politisk overlevelse, altså hvem og hvordan ledere klarer å forbli ved makten (Bueno de Mesquita et al. 2005), og slutten på den kalde krigen (Bueno de Mesquita 2002). Som et resultat av dette laget den amerikanske TV-kanalen History Channel i 2008 en serie om Bueno de Mesquita med tittelen «the Next Nostradamus». Bueno de Mesquita er naturligvis på langt nær den eneste som har brukt spillteoretiske virkemidler for å predikere politiske fenomener og hendelser, men han har vært en av de sterkeste forsvarerne av synet på at nettopp å predikere bør være et hovedanliggende for faget.

I en helt annen ende av faget startet mot slutten av 1980-tallet Philip Schrodt arbeidet med å utvikle statistiske modeller som var i stand til å predikere utbrudd av konflikt. Arbeidene til Schrodt skiller seg fra første generasjons konfliktprediksjonsmodeller på spesielt to måter. For det første benytter Schrodt seg, som en av de første i feltet, av metoder fra maskinlæringslitteraturen. Schrodt (1988) bruker en metode utviklet innen kunstig intelligens for å modellere internasjonal politikk, mens Schrodt (1991) bruker «Neural Networks», som for eksempel Google nå bruker i utviklingen av sin førerløse bil, for å predikere konflikt mellom stater. For det andre benytter Schrodt og de som fulgte i hans fotspor seg av betydelig mer finkornet data enn det Singer og hans medarbeidere hadde tilgang til. Schrodt er derfor ikke bare en pioner i introduksjonen av maskinlæring i statsvitenskapen, han er også blant de aller første som virkelig nyttiggjør seg av de enorme mengdene med nyhetssaker som etter hvert er tilgjengelige for forskere.

Dette skal vise seg å være et viktig steg. Davis, Schrodt og Weddle (1984) introduserer den første algoritmen som er i stand til å (1) lese seg gjennom enorme mengder nyhetsartikler, (2) kategorisere nyhetssaker automatisk etter om de omhandler for eksempel internasjonal krig eller ikke, og (3) kan trekke ut relevant informasjon fra de kategoriserte artiklene – spesielt: hvem gjorde hva mot hvem når og hvor. Etter kodifisering kan denne informasjonen brukes mer eller mindre direkte i statistiske analyser av det den enkelte forsker studerer. Algoritmen, kalt Kansas Event Data System (KEDS), var på ingen måte perfekt, men den var starten på et arbeid som fremdeles pågår med å bygge denne typen algoritmer – et arbeid som i dag befinner seg i et interessant grenseland mellom statsvitenskap, informatikk og lingvistikk.

Sammenkoblingen av maskinlæringsmetoder med nesten sanntidstilgang på nyhetsartikler som dekket store deler av verden, la grunnlaget for ideen om at faget burde kunne varsle beslutningstakere om for eksempel at en krig var i ferd med å bryte ut. Tanken var at faget teoretisk burde være i stand til – og derfor også måtte jobbe mot – å utvikle «early warning»-systemer, det vil si systemer som kunne varsle beslutningstakere om viktige hendelser tidlig nok til at de kunne gjøre noe med dem.4 Davies og Gurr skriver: «the goal of early warning, then, is proactive engagement in the earlier stages of potential conflict or crisis, to prevent or at least alleviate their more destructive expressions» (Davies & Gurr 1998: 2).

Tredje generasjon

Ideen om early warning bar ikke de fruktene man hadde håpet på, men den hadde en uhyre viktige effekt – den gjorde beslutningstakere villige til å bla opp store beløp i håp om at man en dag ville nå målet. Tredje generasjon begynner derfor med oppstarten – på daværende visepresident Al Gores initiativ – av «the State Fragility Task Force» (SFTF) (Goldstone et al. 2000). SFTF, senere omdøpt til «Political Instability Task Force» (PITF), begynte sitt arbeid på slutten av 90-tallet og er fremdeles i full sving. PITF er drevet av forskere og fra starten av ledet og dominert av statsvitere, men fullfinansiert av amerikanske myndigheter. Ambisjonen til PITF var å predikere en lang rekke former for politisk ustabilitet som kupp, revolusjoner eller borgerkrig to år før de inntreffer. Goldstone et al. (2010: 204) konkluderer med at PITF «have substantially achieved that objective».

Utover 2000-tallet begynte en lang rekke forskere å bygge videre på arbeidet som var gjort i første og andre generasjon. I dag er prediksjon av forskjellige typer konflikt en aktiv underdisiplin av konfliktforskningen. Flere forskere har benyttet seg av den nå nærmest grenseløse tilgangen på nyhetsdata. Brandt et al. (2008) studerer hvordan «public opinion» påvirker konflikt og bygger en serie modeller som bruker meningsmålingsdata fra Israel og Palestina til å predikere om de to landene vil handle mer kooperativt eller konfliktfullt mot hverandre den neste måneden. Chadefaux (2014) bruker nyhetsdata og viser blant annet at ved bruk av den typen data er han fullt ut i stand til å predikere utbruddet av første verdenskrig.5 Det finnes i dag en liten håndfull aktive såkalte early warning-systemer som bygger på lignende metoder og data som Brandt et al. og Chadefaux benytter (O’Brien 2010). Disse og lignende studier har alle til felles at de bruker data observert på et meget finkornet nivå (dager i stedet for år) for å predikere konflikt på kort sikt (måneder eller noen få år) – både utbrudd av ny konflikt og dynamikken i pågående konflikter.

Andre studier har i stedet søkt å predikere konflikt mange år frem i tiden. Hegre et al. (2013) bygger en dynamisk modell som predikerer hvorvidt et land har konflikt, og om konflikt vil bryte ut eller avsluttes, for mesteparten av verdens land frem til 2050. De bruker autoritative fremskrivinger av variabler litteraturen har identifisert som robust korrelert med konflikt. Chenoweth og Ulfelder (2015) bruker en lignende, men ikke dynamisk modell for å predikere utbrudd av ikke-voldelige massedemonstrasjoner, mens Beger et al. (2014) predikerer ikke-regulære lederavganger for en rekke land seks måneder frem i tid. Dette settet av studier er bare ment for å illustrere bredden i feltet, og en mengde studier som burde ha blitt nevnt er utelatt.

Tredje generasjon konfliktprediksjon skiller seg spesielt fra de forutgående generasjonene ved det aktive samarbeidet som i dag foregår mellom forskere og beslutningstakere. Jeg har allerede nevnt PITF. PITFs modeller brukes regelmessig for å informere amerikanske beslutningstakere, og et sub-prosjekt fra PITF om prediksjon av folkemord blir brukt av FNs Department of Political Affairs. Kabinettkontoret i Storbritannia, som korresponderer mer eller mindre med Statsministerens kontor i Norge, har en egen avdeling for «Strategic Early Warning»: denne strategiske «early warningen» gjøres ved hjelp av (statsvitenskapelige) statistiske konfliktmodeller, etter modell av det PITF gjør for amerikanske myndigheter. Gjennom European External Action Services, som er det nærmeste man kommer et utenriksdepartement med et diplomatisk korps i EU, har EU (blant annet i samarbeid med PRIO) utviklet Global Conflict Risk Index (GCRI) – igjen er dette ganske enkelt en statistisk konfliktmodell. GCRI skal informere om risiko for konflikteskalering i de neste fire årene. Denne informasjonen brukes så direkte i prosessen hvor EEAS beslutter hvor de skal sette inn sine ressurser. Norge sitter foreløpig på sidelinjen og har ikke investert i kapabiliteter som ligner på noe av dette, på tross av at landet akademisk er ledende innen nettopp konfliktprediksjon.

Hvorfor predikere?

Som eksemplene over viser, har overgangen til prediksjon vært uhyre nyttig for å bygge broer mellom akademia og beslutningstakere. Dette er ingen tilfeldighet. Ward et al. (2010) viser at forskning som snevert fokuserer på å finne signifikante sammenhenger mellom avhengige og uavhengige variabler, ofte er totalt ute av stand til å faktisk forklare utfallene vi er interessert i å forklare. Ward et al. repliserer to av de mest siterte studiene om borgerkrig, Fearon & Laitin (2003) og Collier & Hoeffler (2004), og finner at modellene som blir spesifisert i disse to studiene ikke predikerer en eneste av borgerkrigene modellen er ment å forklare.

Mer spesifikt: begge studiene bruker logistisk regresjon for å estimere sannsynligheten for konflikt i et land i et år. Fra en slik modell er det trivielt å hente ut den predikerte sannsynligheten, gitt regresjonsmodellen, for at et land skal være i krig. En modell som skal forklare krig bør, hevder Ward et al., være i stand til å klassifisere en ikke-neglisjerbar mengde av de faktiske krigene som kriger. Mange høyt siterte modeller gjør ikke det. Fearon & Laitin (2003) predikerer ikke en eneste gang at et land har over 30 prosent sannsynlighet for krig. Dette på tross av at begge studiene fin-ner støtte for mesteparten av hypotesene sine – variablene de mener er teoretisk viktige er statistisk signifikante på konvensjonelle nivåer. Spørsmålet blir da: har disse to studiene, som er publisert i absolutte topptidsskrifter, forklart noe som helst? Og hvis de ikke har det, hvordan kan resultatene brukes som utgangspunkt for å komme med råd og informasjon til beslutningstakere? Et skifte til mer bruk av prediksjon vil altså potensielt ha den heldige – og i stor grad uintenderte – konsekvensen at modellene vi bygger for å forklare viktige fenomener som borgerkrig, blir mer meningsfulle og brukbare også for personer utenfor akademia.

Men et økende fokus på prediksjon har ikke kun heldige konsekvenser for policy-relevansen av forskning på internasjonal politikk. Enda viktigere er konsekvensen prediksjon har for utvikling og testing av teori. Et overdrevet og utelukkende fokus på statistisk signifikans og såkalt «null hypothesis significance testing» (NHST) kan være problematisk. Jeg vil ikke gå inn i den debatten her, men helt enkelt kan problemene oppsummeres med at et rent NHST-fokus: (1) skaper en situasjon hvor vi ikke bryr oss om den substansielle størrelsen på en effekt, (2) skaper uheldige incentiver for å lete etter irrelevante, men signifikante variabler (Ziliak & McCloskey 2008), (3) retter forskerens fokus mot null-hypoteser som i seg selv sjelden er av interesse og ofte ikke plausible (Gill 1999), og (4) ikke tar innover seg at forskjellen på statistisk signifikante og ikke-signifikante funn ofte ikke selv er statistisk signifikant (Gelman et al. 2014).6

Fra et rent teoritestende perspektiv gir det altså mening å gå vekk fra et ensidig fokus på statistisk signifikans for å bøte på disse problemene. Et åpenbart alternativ er da i tillegg å se på modellens evne til å predikere; i første rekke såkalt «in sample» – altså vurdere modellens evne til å predikere for eksempel de krigene modellen ble bygget på – og dernest «out of sample» – altså vurdere modellens evne til å predikere kriger som ikke ble brukt for å estimere modellen. In sample er naturligvis en mye enklere test for en teori enn out of sample. Slik in- og out of sample-prediksjonsevaluering kan enkelt gjøres med alle typer generaliserte linære modeller. En slik overgang til å fokusere på prediksjonskraft ville løse flere av problemene nevnt over. Jeg vil spesielt nevne to aspekter: et fokus på prediksjon tvinger forskeren til å fokusere på de variablene og modellene som har en substansielt interessant effekt på det hun er interessert i. Det gjør faget både vitenskapelig og anvendt mye mer interessant og nyttig. Dersom en forsker kun gjør in sample-evaluering, er det fremdeles mulig å gå i samme felle som (1) og (2) over. Det vil si: in sample-predikering skjer-mer ikke disiplinen mot incentivene for å finne enkeltvariabler som gjør modellen bedre, men som egentlig ikke er interessante. Out of sample-evalueringer gjør derimot dette. Modeller som er bygget for å maksimere in sample- prediksjonskraft (eller statistisk signifikans), også kalt overfitting, vil alltid predikere dårlig out of sample. Dette fordi slike modeller ikke fanger opp den underliggende dynamikken i det forskeren er interessert i – forskeren har ikke bygget en modell som plukker opp den underliggende prosessen som fører til for eksempel krig. I stedet har hun laget en modell som perfekt måler alle idiosynkratiske trekk ved de observerte krigene i datasettet: trekk som altså er tilfeldige og ikke forklarer hvorfor det ble krig. Når en slik modell blir bedt om å predikere out of sample for kriger den ikke har sett før, leter den etter disse idiosynkratiske trekkene i stedet for de faktorene som er systematisk viktige.7 Modellen ser ganske enkelt ikke skogen for bare trær.

Litt enkelt sagt bør internasjonal politikk i enda større grad benytte seg av prediksjon fordi den (1) gjør faget mer samfunnsnyttig, (2) gjør teoriutvikling mer transparent, og (3) gjør teoritesting mer robust.

Noen vil uansett predikere

I tillegg til dette bør internasjonal politikk predikere mer, ganske enkelt fordi mange andre aktører uansett kommer til å gjør det – og de kommer til å gjøre det på en fryktelig dårlig måte. Aviser, nyhetstidsskrifter og debatter er fulle av prediksjoner om internasjonal politikk. Vi har lenge visst at disse prediksjonene knapt er verdt papiret de er skrevet på. Tetlock (2005) samlet inn tusener av prediksjoner fra all verdens eksperter og synsere og fant at disse jevnt over predikerte dårligere enn 50 %. Dette betyr altså at du ville fått rett oftere enn disse ekspertene dersom du ganske enkelt gjorde et myntkast. Ikke desto mindre får slike prediksjoner mye oppmerksomhet i media. I tillegg blir personene bak prediksjonene hørt på av beslutningstakere og opinionsdannere. Ett av de klareste eksemplene på dette kom under det amerikanske presidentvalget i 2012. All verdens statistiske modeller hadde i månedsvis predikert at Obama enkelt kom til å vinne. Ikke desto mindre var avisene fulle av kommentatorer som mente at stemningen var i ferd med å snu og at Romney kom til å vinne. 5. november 2012, dagen før Obama overlegent vant over Romney, skrev Peggy Noonan i Wall Street Journal: «Among the wisest words spoken this cycle were by John Dickerson of CBS News and Slate, who said (…) that he thought maybe the American people were quietly cooking something up, something we don’t know about. I think they are and I think it’s this: a Romney win» (Noonan 2012).

Denne typen spektakulære feilprediksjoner får som regel få eller ingen konsekvenser for den som ytrer dem. Peggy Noonan er for eksempel fremdeles kommentator i Wall Street Journal. At folk gjør dårlige prediksjoner, er i seg selv ikke nødvendigvis et problem. Problemet er at disse prediksjonene ofte blir brukt som beslutningsgrunnlag for viktige avgjørelser eller i formulering av politikk. En viktig grunnstein i Bush-administrasjonens avgjørelse om å invadere i Irak i 2003, var prediksjonen om at det irakiske folket ville ta dem imot som helter og frigjørere. Alternativet til god teoretisk fundert prediksjon er altså ikke ingen prediksjon, men ofte fryktelig dårlige prediksjoner. På bakgrunn av dette alene er det enkelt å argumentere for at vi som forskere har et samfunnsansvar for å predikere – i hvert fall så lenge alternativet er eksperter som treffer dårligere enn et kronestykke.8

Prediksjon vs. forklaring

Men hva med argumentet om at internasjonal politikk kan forklare, men ikke predikere? Schrodt (2014) prøver uten hell å finne grunnlaget for ideen om at faget kan forklare, men ikke predikere. Klassiske vitenskapsteoretikere tenderer i motsatt retning – mot å behandle prediksjon og forklaring som synonymer. Hempel og Oppenheimer skriver:

It may be said, therefore, that an explanation of a particular event is not fully adequate unless its explanans, if taken account of in time, could have served as a basis for predicting the event in question. Consequently, whatever will be said in this article concerning the logical characteristics of explanation or prediction will be applicable to either, even if only one of them should be mentioned (sitert i Schrodt 2014: 290).

Imre Lakatos (1978: 34–35) går enda lenger og skriver: «A given fact is explained scientifically only if a new fact is predicted with it». På bakgrunn av dette konkluderer Schrodt (2014: 291): «The critical insight from Hempel … is that explanation in the absence of prediction is not scientifically superior to predictive analysis, it isn’t scientific at all! It is, instead, ‘pre-scientific’.» Argumentet her er at det er vanskelig å skille forklaring fra prediksjon. Dersom forklaringen på hvorfor første verdenskrig brøt ut er faktorene X, Y og Z, er det vanskelig å se hvordan dette ikke da vil implisere at dersom man hadde vært klar over disse faktorene før krigen brøt ut, så ville man vært i stand til å predikere utbruddet av konflikten. Dersom det ikke er tilfellet, har man i realiteten ikke forklart noe som helst.

Jeg legger her til grunn et vitenskapssyn som ikke er ukontroversielt. Det finnes eksempler på meget suksessfulle teorier som har liten evne til å predikere. Blant disse er nok evolusjonsteorien den mest berømte.9 Evolusjonsteorien forklarer hvorfor artene har utviklet seg som de har gjort, men teorien er ikke i stand til å predikere hva resultatet av neste runde med mutasjoner vil være. Med unnskyldning til biologer, kan evolusjonsteori raskt oppsummeres på følgende måte:

  • Enhetens/artenes utgangspunkt ved tid t-i

  • Aspekter ved det biologiske systemet

  • Enhetens/artenes nye utgangspunkt ved tid t

Dette oppsettet gjør oss ganske enkelt ikke i stand til å predikere hvordan fremtidige arter vil se ut. Evolusjonsteorien er altså et eksempel på en teori som forklarer, men ikke predikerer. Men merk at teorien er fullt i stand til postdikere – det vil si, evolusjonsteorien kan brukes til å «predikere» bakover i tid, til å predikere kjente i motsetning til ukjente fremtidige utfall. Teorien kan i tillegg brukes til å utlede implikasjoner; mest sentralt her har nok viktigheten av seleksjon vært, som også kan brukes for å raffinere prediksjoner. Denne seleksjonsmekanismen er jo også nettopp det som har gjort evolusjonær spillteori populært. I motsetning – så vidt jeg forstår – til i biologien, brukes seleksjonsmekanismen i evolusjonær spillteori nettopp til å predikere menneskelig adferd (Gintis 2009).

For internasjonal politikk er det allikevel et helt vesentlig aspekt ved evolusjonsteorien som bør trekkes frem som spesielt relevant og som vi ikke kommer utenom: rollen til tilfeldighet. I evolusjonsteorien er tilfeldige genmutasjoner en av hovedgrunnene til at vi ikke vet resultatet av en evolusjonær prosess. Her er det viktig å skille mellom tilfeldighet i den «folkelige» og i den statistiske forstand. På folkemunne betyr det at noe er tilfeldig at hva som helst kan skje; i statistisk forstand betyr det derimot at en serie av utfall kan inntreffe og at vi i teorien kan få vite sannsynligheten for at de forskjellige utfallene vil inntreffe. Selv om jeg mener at vi bør strebe etter å finne disse sannsynlighetene, noe jeg skriver mer om under, er den tøylende lærdommen fra evolusjonsteorien vi som samfunnsforskere bør ta med oss: at det ikke på noen som helst måte er gitt at vi vil være i stand til å avdekke disse. Det er fullt mulig at vi i mange tilfeller vil måtte ta til takke med å grovt skille mellom hva vi kan utelukke vil skje (sannsynlighet = 0) og hva vi ikke kan utelukke vil skje (sannsynlighet != 0).10

Det faktum at statsvitenskapelige forklaringer ofte bygger på empirisk uobserverbare størrelser, forsterker dette problemet. Kuran (1997), for eksempel, hevder at «preference falsifiction» – at innbyggere i autoritære stater bevisst skjuler hva de faktisk mener om styresmaktene – er helt sentralt for å forklare hvorfor revolusjoner ofte kommer overraskende på både styresmakter og innbyggere i slike land. For å kunne predikere en revolusjon må en forsker altså være i stand til å observere preference falsification. Dette vil i de aller fleste tilfeller være umulig, noe som per definisjon, dersom Kuran har rett, vil gjøre prediksjon av revolusjoner vanskelig. For internasjonal politikk vil ideer og ideologi også potensielt være eksempler på slike uobserverbare størrelser. Den kalde krigen kan for eksempel vanskelig forstås uten å forstå motsetningen mellom kommunismen og kapitalismen. Før kommunismen ble en etablert ideologi, ville det derfor være umulig å predikere den kalde krigen.11 Som jeg utdyper mer under, henger dette sammen med de ikke-linære dynamikkene som ofte finnes i internasjonal politikk. For ideer og ideologier er det sentrale måten disse størrelsene virker i interaksjon med andre – for eksempel materielle og strukturelle – størrelser, og hvordan disse i kombinasjon produserer ikke-linære utfall. Dette har implikasjoner både for hvordan vi bør bygge teori og for hvordan vi kan gå frem for å teste prediksjoner.12 Men konseptuelt har ikke dette noe som helst å si for argumentet om at en teori som ikke predikerer heller ikke forklarer. Det gjør det bare veldig mye vanskeligere å evaluere akkurat denne typen forklaringer.13

Det er altså vanskelig i de fleste tilfeller å trekke et skarpt skille mellom forklaring og prediksjon – det første impliserer rett og slett ofte det andre. Det omvendte er derimot ikke tilfellet. En modell kan være særdeles god til å predikere, uten å forklare noe som helst. I 2009 og 2010 bygget Google en modell, Google Flue Trends, som var i stand til å predikere influensautbrudd bedre enn helsemyndighetenes modeller. Googles modell tok i bruk massive mengder informasjon om folks søkevaner for å finne korrelasjoner mellom hva man søker på og når influensautbrudd kommer. Denne modellen var effektiv til å predikere influensautbrudd, men den forklarte åpenbart ikke utbruddene. Ingen vil hevde at influensautbrudd kan forklares av hva folk «googler».14

Hvordan predikere

Et fokus på prediksjon impliserer på ingen måte et argument om at internasjonal politikk-forskning, eller for den saks skyld samfunnsvitenskap mer generelt, er i stand til å finne deterministiske lover som kan predikere like nøyaktig som naturvitenskapens deterministiske lover. Menneskelig adferd er kompleks, og et gitt utfall vil alltid være influert av en serie mer eller mindre tilfeldige hendelser. Før tunisieren Mohamed Bouazizi satte fyr på seg selv i protest mot måten politiet behandlet ham på, kunne ingen forutsi at akkurat denne hendelsen ville sette i gang en prosess som til slutt ble det vi i dag kaller «den arabiske våren». Rollen til teori er ikke å forklare (predikere) denne typen idiosynkratiske hendelser. Teori er snarere ment for å forstå, i dette tilfellet, hvorfor og hvordan et land opplever anti-regimemobilisering og regimeendring. Fra god teori som gir oss dyp forståelse av hvorfor og hvordan, kan vi så utlede testbare hypoteser som kan inneholde hvor- og når-prediksjoner. Implikasjonen av det er altså at samfunnsvitenskap burde ha vært i stand til å predikere den arabiske våren. Vi burde senest i 2009/10 ha vært i stand til å slå fast at et sett av land i Midtøsten, da inkludert Tunisia, hadde en høy risiko for å se sivilsamfunnsmobilisering mot regimet, og gitt informasjon om for eksempel sikkerhetsapparatets handlinger etter at mobiliseringen startet, burde vi ha vært i stand til å predikere, i ordets rette forstand, at Ben-Alis dager var talte. Den svært forenklede analogien her er til skogbranner. Som et minimum bør vi etterstrebe evnen til å predikere risikoen for skogbrann, uten at det betyr at vi kan predikere hvor noen vil bestemme seg for å tenne bål.

Dette synet på teori impliserer at menneskelig adferd er stokastisk. Det vil si at den typen utfall vi er interessert i å forklare, ikke er tilfeldige i den betydning at alt kan skje, men at utfall inntreffer med en kjent eller ukjent, men estimerbar sannsynlighet. Dette betyr at utfallene som interesserer oss – som utbrudd av krig eller regimeendring – har sannsynlighetsfordelinger, og jobben til teori er å avdekke disse fordelingene. Mer konkret betyr det at teori skal fokusere på den underliggende prosessen som har generert dataene – teori skal avdekke den såkalte datagenere-ringsprosessen.15 For å være nyttig bør teoritesting fokusere på det samme. En god test av en teori er en oppsummering av i hvor stor grad den teoretisk utledede modellen er i stand til å identifisere og reprodusere datagenereringsmekanismen som produserte de observerte dataene. En mengde statistiske verktøy finnes som gjør nettopp dette. Goodness-of-fit -tester, for eksempel, måler eksplisitt i hvor stor grad en modell passer med dataene.

For rene teoritestingsformål er prediksjon ganske enkelt et slikt verktøy. Det er et nyttig verktøy fordi prediksjon går rett til kjernen av spørsmålet om hvorvidt modellen har fanget opp datagenereringsmekanismen. En god modell vil gi gode prediksjoner, en dårlig modell vil gi dårlige prediksjoner. Prediksjon er altså en intuitivt enkel og ikke minst robust måte å teste en teori på. Hvordan du spesifikt evaluerer hvor godt du har predikert, er ikke nødvendigvis trivielt og vil avhenge spesielt av karakteristikker ved det utfallet du ønsker å predikere. For konfliktforskning er en hovedutfordring at det vi søker å forklare er en (heldigvis) uvanlig hendelse (rare event). Andelen land med borgerkrig – det vil si en intern konflikt som dreper mer enn 1000 i året – i 2014 var mindre enn 5 %, ifølge UCDP-PRIO Armed Conflict Database (Gleditsch et al. 2002; Themnèr & Wallensteen 2015). Det betyr at en modell som kun predikerer fred og som ikke gir noe som helst interessant innsikt om krig, vil stemme 95 prosent av tiden. For en slik studie betyr dette at en forsker må bestemme hvordan hun skal veie viktigheten av falske og rette, positive og negative. For tiden er spørsmålet om hvordan prediksjoner bør evalueres et aktivt forskningsfelt (se for eksempel Brandt et al. 2014), og en full diskusjon av dette er det ikke plass til her.

Beware Zealots!

Det er selvfølgelig ikke slik at et økt fokus på prediksjon vil løse alle fagets problemer. Det er også åpenbart tilfellet at det finnes en lang rekke fenomener vi kanskje rett og slett ikke er i stand til å predikere. Taleb (2010) argumenterer overbevisende for at det finnes mer eller mindre upredikerbare fenomener som potensielt kan ha dramatiske konsekvenser for de utfallene vi er interessert i – det han kaller «svarte svaner». Litt lettvint oppsummert er det generelt sett slik at mange av de vitenskapelige verktøyene vi har, er dårlige til å estimere sannsynligheten for at ting som har svært lav sannsynlighet vil inntreffe. Statistisk innebærer dette at vi har problemer med å behandle fenomener som befinner seg langt ute i halene på statistiske fordelinger. Dette er noe vi absolutt må ta innover oss og arbeide videre med, både for å forstå mekanismene som styrer slike lav-sannsynlighets-fenomener og ikke minst for å forbedre verktøyene vi har for å studere dem.

Et viktig aspekt her er at mange av verktøyene vi bruker, både i kvalitative og kvantitative studier, er best posisjonert til å studere linære fenomener. En typisk regresjonsstudie eller komparativ casestudie tar en serie av faktorer og viser hvordan en av disse alene eller et sett av dem, gjerne i interaksjon med hverandre, produserer et gitt utfall. I alle tilfeller er utfallet en linær sammensetting av inputfaktorer – de uavhengige variablene, om du vil. Ikke-lineære systemer (ofte kalte komplekse systemer) derimot, er karakterisert ved at utfallet ikke er proporsjonalt med inputfaktorene. Over diskuterte jeg resultatet fra Ward et al.s (2010) studie som viste at borgerkrigsmodellen til Fearon og Laitin (2003) ikke predikerte en eneste krig. Det er fullt mulig at borgerkrig nettopp er et eksempel på et fenomen hvor utfallet, utbruddet av krig, ikke er proporsjonalt med inputfaktorene vi kan observere og estimere effekten av. Taleb og Blyth (2011: 36) oppsummer elegant en slik kritisk innsikt som burde være allment kjent for samfunnsvitere:

Engineering, architecture, astronomy, most of physics, and much of common science are linear domains. The complex domain is the realm of the social world, epidemics, and economics. Crucially, the linear domain delivers mild variations without large shocks, whereas the complex domain delivers massive jumps and gaps. Complex systems are misunderstood, mostly because humans’ sophistication, obtained over the history of human knowledge in the linear domain, does not transfer properly to the complex domain.

Men dette er ikke et argument mot å bruke prediksjon som et verktøy for teoritesting. Snarere tvert imot. Som eksempelet med Ward et al.s (2010) replikasjon av Fearon & Laitin (2003) viser: bare ved å utfordre modellene våre til å gi klare og konsise prediksjoner, kan vi faktisk skaffe til veie kunnskap om hva som er (potensielt) ikke-lineært og hva som ikke er det. Det er heller ikke slik at det ikke finnes verktøy for å studere ikke-linære fenomener. Dette er nå et aktivt forskningsfelt innen matematikk og informatikk. Enkelte av disse verktøyene har allerede blitt tatt i bruk i faget. Neural networks, nevnt over, har vært et viktig verktøy i studiet av komplekse systemer, og er allerede brukt i faget for å studere internasjonal konflikt (Beck et al. 2000).

Det er en klar parallell her til skillet vitenskapsteoretikere har gjort mellom åpne og lukkede systemer (for en diskusjon spesielt relevant for IP, se Wight 2004 og Patomäki & Wight 2000).16 Et lukket system er det naturvitere kan oppnå i en eksperimentsetting; her har forskeren full kontroll over alle årsaksfaktorer. I åpne systemer er dynamikker komplekse og uforutsigbare (Patomäki & Wight 2000) – det vi over kalte ikke-linære sammenhenger. Dette er systemer hvor forskeren ikke kan isolere årsaksfaktorene, hvor årsaksfaktorene er interaktive og endrer seg over tid, og hvor prediksjon derfor – ifølge teoretikere som Colin Wight – ikke er mulig. Igjen er denne kompleksiteten noe internasjonal politikk-forskere må ta på alvor. Spørsmålet er om implikasjonen av at vi lever i åpne komplekse systemer nødvendigvis er at prediksjon er umulig eller meningsløst. I stedet for å sette punktum for prediksjon etter at vi har tatt innover oss at internasjonal politikk som regel er karakterisert av komplekse systemer, bør vi i større grad nyttiggjøre oss av de analyseverktøyene som allerede finnes for å studere nettopp slike systemer, samtidig som vi anerkjenner at det spesielt på dette området gjenstår mye arbeid. Miller og Page (2007) viser for eksempel hvordan komputasjonelle/numeriske modeller, utviklet spesielt innen informatikkfaget og ofte tungt inspirert av nettopp biologi og evolusjonære prosesser, kan nyttiggjøres i statsvitenskap og internasjonal politikk. Miller og Page (2007) viser også hvordan disse metodene lar oss bruke nettopp kompleksiteten til å gjøre bedre og mer presise prediksjoner. Dette forskningsfeltet utgjør i dag den absolutte «cutting edge» av moderne samfunnsforskning, og nøyaktig hvor store fruktene fra dette arbeidet vil være, er derfor fremdeles uvisst.

Det er viktig at vi forblir edruelige med hensyn til hva vi er i stand til å predikere og hvor flinke vi er til det. Dette er selvfølgelig ikke noe annet enn hva vi burde forvente av vitenskap i alle tilfeller – det handler bare om å være åpne og ærlige om grensene for vår kunnskap. Slik etterrettelighet er spesielt viktig når vi som forskere ønsker å informere offentlig debatt samt influere beslutningstakere med våre prediksjoner. Men merk at argumentet ikke gjelder for bruk av prediksjon som et verktøy for å teste teorier. Hvor gode eller dårlige vi er til å predikere, har ingen videre implikasjoner for nytten av prediksjon for det formålet. Det faktum at Fearon og Laitins (2003) modell ikke predikerer de borgerkrigene forfatterne mener den forklarer, betyr at vi må være forsiktige med å gi beslutningstakere råd på bakgrunn av denne modellen, men det betyr på ingen som helst måte at vi ikke bør bruke prediksjon for å evaluere modellen. Det vi ønsker er bedre teori og bedre modeller, og for nettopp dette formålet er det avgjørende å predikere.17

Konklusjon

Forskning på internasjonal politikk har sett en renessanse i bruk av prediksjon som et verktøy for å teste teorier og som et virkemiddel for å gjøre faget mer direkte relevant for beslutningstakere. Denne endringen bør applauderes og forsterkes. Det innebærer spesielt to ting: for det første må prediksjon som metrikk for å teste teorier introduseres som en standarddel av studenters delte metodeopplæring. I forlengelsen av dette bør også prediksjon eksplisitt inngå i den (meget begrensede) vitenskapsteoretiske kursingen de fleste studentene våre får. I stedet for et mer eller mindre ensidig fokus på signifikanstesting av hypoteser, bør metoder for å (1) predikere og (2) evaluere prediksjon, i tillegg til signifikanstesting, bli introdusert som en grunnstein i metodeutdannelsen.

I tillegg må faget gjøre en jobb for å avmystifisere begrepet prediksjon. Blant forskere, studenter og brukere av faget i både privat og offentlig sektor skal det ofte ikke mer til enn at du tar ordet prediksjon i bruk før folk trekker paralleller til orakler og kaffegrut. Få har gjort mer enn Nate Silver for å bidra til akkurat denne avmystifiseringen, men det er fremdeles mye arbeid som gjenstår. Spesielt er dette tilfellet når vi går fra innenrikspolitikk til utenrikspolitikk. Motstanden mot prediksjon er i seg selv ganske vanskelig å forstå. Dersom vi som forskere tror på de kvalitative eller kvantitative modellene vi publiserer i (mer eller mindre) ledende tidsskrifter, må vi også tro på prediksjonene fra disse modellene – kondisjonalt, selvfølgelig, på alle de spesifikke kontekstfaktorer og «scope conditions» spesifisert i modellen. Dersom dette ikke er tilfellet, er det vanskelig å se noen som helst nytte av denne forskningen i det hele tatt.

En spesiell utfordring her er at beslutningstakere generelt har liten kunnskap om og liten tillit til prediksjonsmodeller.18 I stedet for å fatte avgjørelser på grunnlag av tillit til en bestemt metode eller større vitenskapelig litteratur, er beslutningstakere ofte mye mer komfortable med å støtte seg på råd fra et snevert sett av anerkjente eksperter (Meyer et al. under utgivelse). Kredibiliteten til slike eksperter er ofte en funksjon av senioritet – hvor ofte eksperten blir brukt av media, og hvor mye eksperten er brukt som rådgiver tidligere. Problemet er at denne typen eksperter er akkurat den Tetlock (2005) finner er dårligst til å predikere. Beslutningstakere på flere nivåer i både offentlig og privat sektor må altså sosialiseres til å bruke ekspertise på en helt annen måte enn det de gjør i dag. Dette er en jobb internasjonal politikk som faglig disiplin ikke kan gjøre alene – på akkurat dette området gjenstår det frustrerende mye arbeid.

Internasjonal politikk spesielt, og statsvitenskap mer generelt, vil som fag bli både mer teoretisk interessant og mer interessant for brukere av faget, dersom vi som fagfellesskap tar enda flere skritt i retning av mer bruk av prediksjon. Vi vil ofte finne at modellene våre er svært dårlige til å predikere, og enkelte forskere vil måtte tåle å miste litt ansikt her og der når prediksjonene ikke slår til.19 Dette er en pris vi bør være mer enn villige til å betale for å oppnå et mye mer teoretisk rikt og relevant fag.

Litteratur

Beck, Nathaniel, Gary King & Langche Zeng (2000) Improving Quantitative Studies of International Conflict: A Conjecture. American Political Science Review, 94(1): 21–35.

Beger, Andreas, Cassy L. Dorff & Michael D. Ward (2014) Ensemble Forecasting of Irregular Leadership Change. Research & Politics, 1(3): 1–7.

Beyerchen, Alan (1992/93) Clausewitz, Nonlinearity, and the Unpredictability of War. International Security, 17(3): 59–90.

Brandt, Patrick T., Michael Colaresi & John R. Freeman (2008) The Dynamics of Reciprocity, Accountability, and Credibility. Journal of Conflict Resolution, 52(3): 343–374.

Brandt, Patrick T., John R. Freeman & Philip A. Schrodt (2014) Evaluating Forecasts of Political Conflict Dynamics. International Journal of Forecasting, 30(4): 944–962.

Bueno de Mesquita, Bruce (1980) An Expected Utility Theory of International Conflict: An Exploratory Study. American Political Science Review, 74(4): 917–931.

Bueno de Mesquita, Bruce (1981) The War Trap. New Haven: Yale University Press.

Bueno de Mesquita, Bruce (1984) Forecasting Policy Decisions: An Expected Utility Approach to Post-Khomeini Iran. PS Political Science & Politics, 17(2): 226–236.

Bueno de Mesquita, Bruce (2002) Predicting Politics. Columbus: Ohio State University Press.

Bueno de Mesquita, Bruce, James D. Morrow, Randolph M. Siverson & Alastair Smith (2004) Testing Novel Implications from the Selectorate Theory of War. World Politics, 56(3): 363–388.

Bueno de Mesquita, Bruce, James D. Morrow, Randolph M. Siverson & Alastair Smith (2005) The Logic of Political Survival. Cambridge, MA: MIT Press.

Cartwright, Nancy (1999) The Dappled World: A Study of the Boundaries of Science. Cambridge, UK: Cambridge University Press.

Chadefaux, Thomas (2014) Early Warning Signals for War in the News. Journal of Peace Research, 51(1): 5–18.

Chenoweth, Erica & Jay Ulfelder (2015) Can Structural Conditions Explain the Onset of Nonviolent Uprisings? Journal of Conflict Resolution. DOI 0022002715576574.

Clark, Christopher (2012) The Sleepwalkers: How Europe Went to War in 1914. London: Penguin.

Collier, Paul & Anke Hoeffler (2004) Greed and Grievance in Civil War. Oxford Economic Papers, 5(4): 563–595.

Dahl, Robert A. (1961) The Behavioral Approach in Political Science: Epitaph for a Monument to a Successful Protest. American Political Science Review, 55(4): 763–772.

Davis, Shannon, Philip A. Schrodt & Judith L. Weddle (1984) Political Science: KEDS – A Program for the Machine Coding of Event Data. Social Science Computer Review, 12(3): 561–588.

Davies, J. L. & Ted Robert Gurr (1998) Preventive Measures: Building Risk Assessment and Crisis Early Warning Systems. New York: Rowman & Littlefield.

Fearon, James D. & David D. Laitin (2003) Ethnicity, Insurgency, and Civil War. American Political Science Review, 97(1): 75–90.

Fukuyama, Francis (2006) The End of History and the Last Man. New York: Free Press.

Gartzke, Erik (1999) War is in the Error Term. International Organization, 53(3): 567–587.

Gelman, Andrew & Gary King (1993) Why are American Presidential Election Campaign Polls so Variable when Votes are so Predictable? British Journal of Political Science, 23(4): 409–451.

Gelman, Andrew, J. B. Carlin, H. S. Stern & D. B. Rubin (2014). Bayesian Data Analysis. New York: Chapman & Hall/CRC.

Gill, Jeff (1999) The Insignificance of Null Hypothesis Significance Testing. Political Research Quarterly, 52(3): 647–674.

Gintis, Herbert (2009) Game Theory Evolving. Princeton: Princeton University Press.

Gleditsch, Nils Petter, Peter Wallensteen, Mikael Eriksson, Margareta Sollenberg & Håvard Strand (2002) Armed Conflict 1946–2001: A New Dataset. Journal of Peace Research, 39(5): 615–637.

Goldstone, Jack A., Ted R. Gurr, B. Harff, M. A. Levy, M. G. Marshall, R. H. Bates & A. N. Unger (2000) State Failure Task Force Report: Phase III Findings. McLean, VA: Science Applications International Corporation, 30.

Goldstone, Jack A. et al. (2010) A Global Model for Forecasting Political Instability. American Journal of Political Science, 54(1): 190–208.

Hastie, Trevor, Robert Tibshirani & Jeffrey Friedman (2009) The Elements of Statistical Learning. New York: Springer.

Hegre, Håvard, Joakim Karlsen, Håvard Mokleiv Nygård, Henrik Urdal & Håvard Strand (2013) Predicting Armed Conflict, 2010–2050. International Studies Quarterly, 57(2): 250–270.

Herrmann, Richard & Jong Kun Choi (2007) From Prediction to Learning: Opening Experts’ Minds to Unfolding History. International Security, 31(4): 132–161.

King, Gary (1989) Unifying Political Methodology: The Likelihood Theory of Statistical Inference. Ann Arbor: University of Michigan Press.

Kuran, Timur (1997) Private Truths, Public Lies: The Social Consequences of Preference Falsification. Cambridge, MA: Harvard University Press.

Lakatos, Imre (1978) Philosophical Papers, Volume 1: The Methodology of Scientific Research Programmes. Cambridge, UK: Cambridge University Press.

Lazer, David, Ryan Kennedy, Gary King & Alessandro Vespignani (2014) The Parable of Google Flu: Traps in Big Data Analysis. Science, 343 (6176): 1203–1205.

Lewis-Beck, Michael S. & Tom W. Rice (1984) Forecasting Presidential Elections: A Comparison of Naive Models. Political Behavior, 6(1): 9–21.

Meyer, Christoph, Chiara de Franco, John Brante & Florian Otto (under utgivelse) Re-assessing and Closing the Warning-Response-Gap. I Meyer, Christoph (red.) Heeding Warnings about War. Cambridge, UK: Cambridge University Press.

Miller, John H. & Scott E. Page (2007) Complex Adaptive Systems. Princeton: Princeton University Press.

Noonan, Peggy (2012) Monday Morning. Tilgjengelig på http://blogs.wsj.com/peggynoonan/2012/11/05/monday-morning/. Lesedato 20.09.2015.

O’Brien, Sean P. (2010) Crisis Early Warning and Decision Support: Contemporary Approaches and Thoughts on Future Research. International Studies Review, 12(1): 87–104.

Patomäki, Heikki & Colin Wight (2000) After Positivism? The Promises of Critical Realism. International Studies Quarterly, 44(2): 212–237.

Savage, Leonard J. (1972) The Foundation of Statistics. New York: Dover Publications.

Schrodt, Philip A. (1988) Artificial Intelligence and the Study of International Politics. American Sociologist, 19(1): 71–85.

Schrodt, Philip A. (1991) Prediction of International Conflict Using a Neural Network. Social Science Computer Review, 9(4): 359–380.

Schrodt, Philip A. (2014) Seven Deadly Sins of Contemporary Quantitative Political Analysis. Journal of Peace Research, 51(2): 287–300.

Shapiro, Ian (2009) The Flight from Reality in the Human Sciences. Princeton: Princeton University Press.

Sigelman, Lee (1979) Presidential Popularity and Presidential Elections. Public Opinion Quarterly, 43(4): 532–534.

Silver, Nate (2012) The Signal and the Noise: Why so Many Predictions Fail – but Some Don't. New York: Penguin.

Singer, J. David (1973) The Peace Researcher and Foreign Policy Prediction. The Papers of the Peace Science Society (International), 21(1): 1–13.

Singer, J. David & Melvin Small (1974) Foreign Policy Indicators: Predictors of War in History and in the State of the World Message. Policy Sciences, 5(3): 271–296.

Singer, J. David & Michael Wallace (1979) To Augur Well – Early Warning Indicators in World Politics. Beverly Hills, CA: Sage.

Stoltenberg, Emil Aas (2013) Bayesian Forecasting of Election Results in Multiparty Systems. Masteroppgave. Oslo: Universitetet i Oslo.

Taleb, Nassim Nicholas (2010) The Black Swan: The Impact of the Highly Improbable Fragility. New York: Random House.

Taleb, Nassim Nicholas & Mark Blyth (2011) The Black Swan of Cairo: How Suppressing Volatility Makes the World Less Predictable and More Dangerous. Foreign Affairs, 90(3): 33–39.

Taleb, Nassim Nicholas & Constantine Sandis (2014) The Skin in the Game Heuristic for Protection against Tail Events. Review of Behavioral Economics, 1(1): 1–21.

Tetlock, Philip (2005) Expert Political Judgment: How Good Is It? How Can We Know? Princeton: Princeton University Press.

Themnér, Lotta & Peter Wallensteen (2015) Armed Conflicts, 1946–2014. Journal of Peace Research, 52(4): 536–550.

Ward, Michael D., Brian D. Greenhill & Kristin M. Bakke (2010) The Perils of Policy by P-Value: Predicting Civil Conflicts. Journal of Peace Research, 47(4): 363–375.

Wight, Colin (2004) Theorizing the Mechanisms of Conceptual and Semiotic Space. Philosophy of the Social Sciences, 34(2): 283–299.

Ziliak, Stephan T. & Deirdre N. McCloskey (2008) The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives. Ann Arbor: University of Michigan Press.

1For å kunne komme med et konsist og koherent argument om nytten av prediksjon, definerer jeg i denne artikkelen internasjonal politikk som en underdisiplin av statsvitenskap. Jeg kommer ikke til å drøfte prediksjon i lys av andre fagfelt som historie og sosialantropologi, som også, selvfølgelig, studerer internasjonal politikk.
2Valgprediksjonsmodeller finnes nå også i Norge. Se for eksempel Stoltenberg (2013).
3Den litteraturen er for stor til at jeg kan gå igjennom hele her.
4Early warning er selvfølgelig på ingen måte et konsept som kun tilhører den kvantitative delen av forskningsfeltet. Early warning blir også gjort på bakgrunn av kvalitativ forskning.
5Første verdenskrig er et «spesielt» case for internasjonal politikk-forskere. «For international relations theorists the events of 1914 remain the political crisis par excellence», skriver Clark (2012: xix). Det faktum at Chadefaux (2014) bruker nyhetsdata fra før 1914 for å predikere utbruddet av konflikten, er kanskje derfor spesielt interessant.
6Som sagt er dette en veldig rask og overfladisk oversikt over argumentene. Disse argumentene impliserer heller ikke på noen måte at nullhypotese signifikanstesting aldri er nyttig, eller at det ikke finnes flere positive sider ved slik signifikanstesting – iblant er det åpenbart et gode for forskermiljøet å ha en slik delt heuristikk som alle er enige i.
7Dette er velkjent i statistikken. Se for eksempel Hastie et al. (2009).
8En av grunnene til at kommentatorer gjør dårlige prediksjoner er at det ikke har konsekvenser for dem, de har ikke «skin in the game» (Taleb & Sandis 2014). Hvorvidt forskere har mer «skin in the game» er dog usikkert.
9Takk til fagfelle II for å ideen om å drøfte akkurat dette eksempelet.
10Et viktig moment som jeg her dessverre må sette parentes rundt, er spørsmål om disse sannsynlighetene representerer en sann sannsynlighet generert av «naturen», et syn Cartwright (1999: 154) omtaler som «crazy», eller om de snarere representerer «the confidence that a particular individual has in the truth of a particular proposition» (Savage 1972: 3). Spørsmålet er altså om du anlegger en objektiv (frekvensiansk) forståelse av sannsynlighet, eller en subjektiv (bayesiansk). Personlig foretrekker jeg sterkt den bayesianske forståelsen, men det har få implikasjoner for diskusjonen her.
11Jeg takker fagfelle II for dette eksempelet.
12Den bredere diskusjon om ideers, ideologiers og normers rolle i internasjonal politikk generelt lar jeg ligge i denne diskusjonen.
13Erik Gartzkes (1999) argument om viktigheten av usikkerhet for å forklare utbrudd av krig er et annet eksempel på dette.
14Google Flue Trends har heller ikke klart å gjenta suksessen. Lazer et al. (2014) finner at Google de siste årene har overpredikert intensiteten på influensautbrudd.
15Hvorvidt teori blir testet kvalitativt eller kvantitativt er irrelevant og uten implikasjoner for denne diskusjonen, men jeg fokuserer her utelukkende på kvantitativ teoritesting. Dette argumentet har likhetstrekk med King (1989).
16Igjen vil jeg takke fagfelle II for ideen om å diskutere dette.
17Argumentet at prediksjon i samfunnsvitenskap er vanskelig fordi aktører er strategiske og ganske enkelt vil ta innover seg informasjonen i prediksjonene og slik gjøre prediksjon ugyldig, er på samme måte ikke relevant for prediksjon som teoritesting.
18Denne kunnskapen stammer fra USA. Hvorvidt Norge skiller seg vesentlig fra dette er usikkert.
19Dette er ikke bare tomme ord fra min side. I Hegre et al. (2013) presenterer vi prediksjoner for hvor det vil være intern væpnet konflikt i verden opp til 2050.

Idunn bruker informasjonskapsler (cookies). Ved å fortsette å bruke nettsiden godtar du dette. Klikk her for mer informasjon