Hvordan forstår du metodeutvikling?

Metodeutvikling henger i min erfaring ofte sammen med metodeproblemer. Særlig når du ikke vet hvordan du med sikkerhet kan svare på forskningsspørsmålet. Metodeutvikling handler om nye måter å finne ut av ting på. Dette har jeg først og fremst lært av å jobbe interdisiplinært, med folk som kommer fra andre forskningstradisjoner, særlig fra informasjonsvitenskapen. Forskeropplæringen har en tendens til å låse oss inn i hva som anses som «den rette måten» å gjøre ting på. Når man jobber med forskere fra andre disipliner, blir disse forståelsene gjerne utfordret. Man har ikke nødvendigvis samme oppfatning om hva som er riktig vei til målet. Slikt kan skape misforståelser og frustrasjon. Dette er ofte en god ting. Misforståelser krever at man skjerper kommunikasjonen. Man er nødt til å forklare presist og i detalj hva man vil frem til. Du blir også stilt overfor dine egne antakelser. Dette gir ny innsikt i egen metode, man oppdager svakheter man ikke var fullt klar over, og styrker og fordeler blir forsterket. Metodeutvikling krever altså at man omfavner det som er vanskelig med metode, og at man ønsker kritikk mot egen metode velkommen. Sånt skjerper det metodiske arbeidet.

Hvordan jobber du med metodeutvikling?

Dette produktive ubehaget jobber jeg ofte under. I mitt bidrag til denne seksjonen av medietidsskriftet vil jeg derfor fokusere nettopp på spenningsforholdet mellom uvissheten som ligger i metodeutvikling (da man ikke helt vet om ting vil virke), hva som gjør at metodeutvikling er vanskelig (i min erfaring i møtet mellom medievitenskap og informasjonsvitenskap), og hvordan det også er givende (og viktig).

Jeg var med i den første bølgen av medieforskere som begynte å ta i bruk datastøttede metoder for analyser av store, digitale datamengder i analyser av medieinnhold. De forskerne som lyktes her, jobbet interdisiplinært i teams med både medievitere og informasjonsvitere. Dette var, og er, ressurskrevende prosesser. I tillegg var det svært tidkrevende i starten, fordi det ikke forelå etablerte fremgangsmåter for hvordan man gjorde ting. Det vokste frem en «hybrid» tilnærming (Lewis & Zamith, 2013; Sjøvaag & Stavelin, 2012) som tok høyde for behovet for å kombinere kvalitative, medievitenskapelige metoder med data-assisterte metoder. Det forelå en bevissthet om svakheten med store datamengder (boyd & Crawford, 2012). Store data gjør at man kan trekke brede slutninger, men detaljene går ofte tapt. Samtidig var det metodiske utfordringer forbundet med digitale mediers egenart (Karlsson & Sjøvaag, 2016) som etablerte metodebøker (som Krippendorff, 2018; Neuendorf, 2016; Riffe, Lacy, Ficy & Watson, 2019) i sine daværende versjoner ga få innganger til.

I dag er automatiske metoder for innholdsanalyse, sentimentanalyse og entitetsanalyse relativt etablerte, og utbredte, i medieforskningen, men fremdeles foreligger det ingen metodologisk gullstandard. Det er få lærebøker som beskriver metodiske fremgangsmåter rettet spesifikt mot digitalt medieinnhold, og tilpasset opplæring er vanskelig å finne. Det finnes kurs (etablerte sommer og vinterskoler) designet av og for informatikere, økonomer og statistikere, men terskelen her blir gjerne i overkant høy for en medieviter uten programmeringsevner. Medieforskerne som driver i dette feltet er ofte selv-studerte, noe som vanskeliggjør standardisering. Etableringen av en egen Computational Methods divisjon ved International Communication Association (ICA) burde bidra til å øke overføringsverdien mellom forskergrupper som utvikler digitale metoder (denne ble opprettet i 2020), og skape faste møtepunkter hvor metodene blir formidlet og fagfellevurdert. Et relativt nyetablert tidsskrift, Computational Communication Research, bidrar og til å rette oppmerksomheten mot denne typen metodeutvikling. Men metodene blir mer og mer sofistikerte, og terskelen for å henge seg på blir stadig høyere. Det haster med å få til opplæring i digitale metoder ved Master- og Ph.D.-programmer.

Jeg har jobbet i flere år med å etablere et formelt nettverk av forskere som driver med utvikling av data-assisterte metoder for analyse av digitalt medieinnhold. Målet med et slikt nettverk er ikke bare å standardisere metoder, reliabilitetsprosedyrer og testdata. En viktig ambisjon er og å samle læremiddelressurser for bruk av programvare, datasett og analyser. Utfordringen er knyttet til flere faktorer som gjenspeiler hvor fragmentert dette feltet er. For det første er det en «ung» tilnærmingsmåte. Det er få seniorer som kan digitale metoder, og da det ofte er seniorene som bestemmer på instituttene rundt omkring, er det lite fokus på digitale metoder i forskerutdanningen. I tillegg er dette et ganske mannsdominert felt. Flere og flere prosjekter trenger denne kompetansen, men noen få, ledende institutter i USA, Nederland og Tyskland tiltrekker seg de beste talentene. I tillegg har medieindustriene stort behov for denne kompetansen, noe som trekker kunnskapen ut av forskningssektoren. Analysebyråer, sosiale medier og nyhetsmedier øker hele tiden forspranget innen data-assistert metodeutvikling, og samarbeid med bransjen er ofte vanskelig, da deres metoder og data er proprietære. For at forskningen skal holde tritt med utviklingen, er samarbeid på tvers av forskningsteam viktig, ikke minst for å sikre reliabiliteten i metodene. Metodeutvikling handler om åpenhet. Foreløpig er det imidlertid sterke, institusjonelle hindringer i veien som utfordrer medieforskningens stilling etter hvert som metodekravene vender seg mer og mer mot det digitale.

Fordi analytisk og teoretisk utvikling også handler om metodeutvikling, er de institusjonelle hindringene for data-assisterte, hybride metoder i medievitenskapen i ferd med å bli et empirisk problem. Data-assisterte analyser av nyhetsinnhold handler om språk. Derfor er også utveksling av metoder på tvers av landegrenser vanskelig. De fleste forskningsgruppene som driver med denne typen analyser må utvikle sitt eget metodesett for hvert prosjekt, og overføringsverdien er liten. Dette skaper en skjevhet i det empiriske fokuset, da metoder designet for engelsk er de mest utviklede. Det blir flere og flere analyser av engelske og amerikanske medier. I et mediesystemperspektiv er dette relativt problematisk, da amerikanske og britiske forhold er svært ulike de fleste europeiske land. Men komparativ forskning på tvers av språkgrupper er vanskelig. Ikke minst fordi ressursene er skjevt fordelt. De ledende institusjonene har et betydelig forsprang på resten av feltet, mens mindre språkgrupper sliter med å henge med. I en tid med økende polarisering, propaganda og falske nyheter utgjør dette et stort problem. Dette handler ofte om nettbasert kommunikasjon, som krever store datamengder og data-assisterte metoder for analyse. Slike problematiske kommunikasjonskulturer beveger seg på tvers av landegrenser, og krever samarbeid på tvers av institusjoner. Utvikling innen data-støttede metoder for medievitenskapelig forskning er nødvendig for å kunne svare på nye, kompliserte forskningsspørsmål. For å sikre god forskning på slike problematiske områder, er det behov for en bredere standardisering av metoder.

Har du noen eksempler på hvordan du har tenkt nytt og kreativt metodisk?

I min erfaring er det ofte når jeg må finne nye veier til målet at den største teoretiske innsikten finner sted. For eksempel har automatiske innholdsanalyser en tendens til å produsere store «annet» kategorier. Det er fordi mange nyhetssaker er vanskelige å kategorisere, særlig som sosiale spørsmål. Disse sakene inneholder ofte litt av alt – samfunnsproblemer, helsespørsmål, interesseorganisasjoner og politiske standpunkt. I tillegg er det mye beredskapssaker i norske medier, som handler om trafikk, kriminalitet, vær og ulykker, hvor både etater, politi og kommuner uttaler seg. Dette er vanskelige saker å kategorisere også ved hjelp av manuelle metoder. Slike annet-kategorier er derfor ofte et problem i innholdsanalyser, men når man har store nok data, og ser detaljert nok på fordelingen innad i store kategorier, for eksempel ved å skru opp topic model-analysen til flere hundre tema, dannes nye bilder. Da jeg sammen med kollega Truls Pedersen ved Universitetet i Bergen analyserte tre år med nyhetsinnhold i 189 norske nyhetsmedier i henhold til fordeling over 200 tema (Sjøvaag & Pedersen, 2018), fant vi nettopp dette – en slags ryggrad av samfunnsrelevant journalistikk (beredskap og sosiale spørsmål), som alle medier dekker. Dermed kunne vi konkludere at alle medier i Norge er med på å oppfylle journalistikkens samfunnsoppdrag. I tillegg kunne vi argumentere at dette ikke bør være grunnlag for å snakke om urettferdig konkurranse eller homogenitetstendenser i nyhetslandskapet. Mye i den norske journalistikken er likt på tvers av organisasjoner, men denne likheten bunner i samfunnsoppdraget.

Detaljnivået som en slik topic model-analyse tillot, ga et fasinerende bilde av mangfoldet som eksisterer parallelt med «ryggraden» i norsk nyhetsjournalistikken. Analysen inneholdt i overkant av 800.000 artikler publisert i disse medienes nettutgaver mellom 2015 og 2018. En LDA topic model tillater forskeren å bestemme på forhånd hvor mange tema analysen skal trekke ut av datasettet. I etterkant går man manuelt gjennom de mest brukte ordene i hvert tema og klassifiserer dem i henhold til nyhetstema. Grovt sett (med 10-20 tema) fant vi at det er massive mengder med sportsjournalistikk i norske medier. Dette stemmer godt overens med alle manuelle innholdsanalyser jeg har gjort av nyhetsinnhold, hvor sportsinnholdet står for omtrent en fjerdedel av stoffet, om ikke mer. I de tilfeller hvor jeg har kodet nyhetsinnhold manuelt har jeg stort sett operert med én felles sportskategori. Politikk kan relativt enkelt deles inn i forvaltning, utenriks, partipolitikk, valg og stortingsforhandlinger. Men sport er utfordrende å kode manuelt på underkategorier, fordi det er vanskelig å begrense nyanseringen. Skal man kode på sportsgren (håndball, fotball, langrenn), eller på prosess (resultater, ledelse, økonomi)? Det blir fort alt for mange underkategorier til at de gir analytisk mening. Men med en fordeling over 200 tema så vi at sportsjournalistikken er mer nyansert enn det jeg tidligere har antatt. Selv om LDA topic model-analysen inneholdt flere titalls sportstema, er det en forskjell på det journalistiske språket som dekker trenerspørsmål, spilleroverganger, sportsresultater og spillerprofiler. En topic model baserer seg nemlig på språklig likhet. Slik fant vi også ut at kongefamilien og Justin Bieber dekkes i samme språkdrakt, da de havnet i samme topic. Om det skyldes at Justin Bieber behandles som kongelig i mediene, eller om kongefamilien behandles som selebriteter, er imidlertid vanskelig å si. Ikke minst var det fasinerende å se hvordan klare, sesongbestemte tema dukket opp i alle medier, og over hele perioden. Hvert år er det et eget tema for julehandelen, ett for dekkskifte i overgangen til vintersesongen, ett for brannforhindring i hjemmet, ett for jaktsesongen, og ett for skattemeldingen. Slik trer det journalistiske mangfoldet frem. Og det bidrar til å nyansere hva norsk journalistikk handler om.

Vi opplevde mange metodeproblemer i gjennomføringen av dette prosjektet. Bare det å designe automatiske skraperutiner for 50–60 ulike publiseringstemplater tok over et år. Vi måtte komme inn bak betalingsmuren, og automatisk innlogging var en krevende teknisk operasjon, som også feilet mange ganger. Deretter måtte vi manuelt undersøke om hver kodeenhet for hver avis ga riktig resultat. Dersom analysen ikke fanget opp byline, bildetekst eller hyperlenker i en av avisene, måtte vi gå tilbake og rette opp koden. Jeg sjekket personlig flere tusen slike kombinasjoner. Prosedyren krevde også kontinuerlig overvåking, noe som gjorde at prosjektet fikk mer og mer feildata etter hvert som tiden gikk. Ved prosjektets slutt var det klart at datainnsamlingsmetoden i seg selv hadde lite overføringsverdi til videre monitorering av det norske medielandskapet. Utviklingen på metodefronten går så fort at vårt fire år gamle design var utdatert. Ved fremtidige forskningsprosjekt kommer jeg til å jobbe hardt for å involvere aktuelle stakeholders, som industriaktører eller Medietilsynet, i design og implementering av slike systemer. Målet bør være å sikre at metodeutviklingen har en verdi utover prosjektets rammer. Dette er også grunnen til at jeg jobber med å etablere et formelt nettverk for data-støttet medieforskning, for å sikre at slike ressurskrevende prosesser har en overføringsverdi og kan bidra til å lette arbeidet i fremtidige prosjekter.

Apropos stakeholders, så har jeg innsett av bruken av data-støttede metoder for analyser av medieinnhold også krever en større grad av metodisk klarhet og transparens. I min forskning på innhold i norske nyhetsmedier, beveger jeg meg ofte i et landskap hvor både industriaktører og reguleringsmyndigheter har sterke interesser. Forskningen min har blitt brukt i utforming av mediepolitikk, og jeg har gjennomført flere oppdrag på vegne av Medietilsynet. Resultatene har blitt brukt både i debatter om pressestøtten, journalistiske blindsoner, og NRKs rolle i medielandskapet. Her er det ofte sterke meninger, og ikke minst politiske interesser. Oppdragsforskning er heller ikke alltid like forenelig med publiseringskulturen. Når akademisk «contribution» møter industriinteresser, fører det gjerne til misforståelser, hoderisting og himling med øynene fra aktørene som studien omhandler. Dette opplever jeg som ubehagelig. Jeg har blitt ringt opp og skjelt ut av representanter for bransjen, og jeg har blitt beskylt i mediene for å være «en venn av NRK». Jeg er ikke alene om sånne opplevelser. Medieforskere må i det hele tatt relativt jevnlig ut i bransjepressen og utdype eller avklare metodespørsmål knyttet til deres forskningsrapporter. Når metodene som brukes er basert på automatiserte prosedyrer for datainnsamling og analyse, er det desto viktigere at metodegjennomgangen er så «folkelig» som mulig. Metodisk transparens bør være et sentralt ledd i forskningsformidlingen, og det bør også være en debatt vi er villige til å ta også i den allmenne offentligheten, uansett hvor ubehagelig eller vanskelig det måtte være. Samtidig opplever jeg at store data er med på å styrke representativiteten i slike analyser. Norge har et mangfoldig medielandskap, hvor mange av mediene våre aldri blir gjenstand for analyse. Generelle antakelser om økende tabloidisering og kjendiseri i norsk presse, samt påstander om eierskapets påvirkning på innholdet, stemmer ikke. Data-støttede analyser av store mengder medieinnhold gjør det mulig å trekke slike konklusjoner.

Som Lars Nyre (2020) påpekte i sitt bidrag til denne spalten: utviklingen går fort og vi må tilpasse oss. Samfunnsvitenskapelig metode må i det hele tatt være fleksibel for å fange opp og forstå den kontinuerlige samfunnsutviklingen. Mange av de digitale, algoritmiske og automatiserte prosessene i medieproduksjon og mediebruk er vanskelig tilgjengelig uten en teknologisk dimensjon til metodesettet. Dette er ressurskrevende metodeprosesser som forutsetter opplæring, transparens og samarbeid på tvers av disipliner. Min erfaring er at sånne prosjekter er spennende og givende nettopp fordi de er vanskelige. Når man skal gjøre vanskelige ting hjelper det å ha gode folk på laget som er innstilt på åpenhet, dialog og gjensidig respekt i å finne ut hva som er riktig vei til målet.

Referanser

Boyd, D., & Crawford, K. (2012). Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon. Information, communication & society, 15(5), 662–679.

Karlsson, M., & Sjøvaag, H. (2016). Content analysis and online news: epistemologies of analysing the ephemeral Web. Digital journalism, 4(1), 177–192.

Krippendorff, K. (2018). Content analysis: An introduction to its methodology. Fjerde utgave. Los Angeles: Sage.

Lewis, S. C., Zamith, R., & Hermida, A. (2013). Content analysis in an era of big data: A hybrid approach to computational and manual methods. Journal of broadcasting & electronic media, 57(1), 34–52.

Neuendorf, K. A. (2016). The content analysis guidebook. Andre utgave. Los Angeles: Sage.

Nyre, L. (2020). Tre spørsmål om metodeutvikling i medievitenskapen. Norsk medietidsskrift, 27(1), 1–5.

Riffe, D., Lacy, S., Fico, F., & Watson, B. (2019). Analyzing media messages: Using quantitative content analysis in research. New York: Routledge.

Sjøvaag, H., & Stavelin, E. (2012). Web media and the quantitative content analysis: Methodological challenges in measuring online news content. Convergence, 18(2), 215–229.

Sjøvaag, H. & Pedersen, T. A. (2018) NRKs bidrag til mediemangfoldet. Rapport til Medietilsynet. Bergen: Universitetet i Bergen.