Oppgrader til nyeste versjon av Internet eksplorer for best mulig visning av siden. Klikk her for for å skjule denne meldingen
Ikke pålogget
{{session.user.firstName}} {{session.user.lastName}}
Du har tilgang til Idunn gjennom , & {{sessionPartyGroup.name}}

Anvendelser av Norges historiske befolkningsregister

Interfaces to Norway's Historical Population Register
Professor emeritus og prosjektleder, UiT – Norges arktiske universitet og Historisk befolkningsregister
Administrerende direktør, Norsk Regnesentral
Professor og faglig leder ved Registreringssentral for historiske data, UiT – Norges arktiske universitet

Norge har et sentralt landsdekkende folkeregister som ble startet opp i 1964, og for mange personer inneholder data som går lenger tilbake. For tida bygger vi et Historisk befolkningsregister (HBR) tilbake til 1801. Målet er å konstruere en nasjonal database for også å håndtere innenlandsk migrasjon, som er dårlig dekket i de nominative kildene til langt ut på 1900-tallet. HBR bygger primært på folketellingene og kirkebøkene i perioden, siden det har vært for arbeidskrevende å utnytte de kommunale folkeregistrene som ble ført for et økende antall steder til de ble landsdekkende etter krigen. For den åpne perioden fram til 1920-tallet er HBR tilgjengelig via tre nettbaserte grensesnitt. For det ene, par av lenkede folketellinger, hvor data om samme person på to ulike tidspunkt er sammenstilt, for det andre «Tidslinjer», der innførsler fra flere folketellinger og kirkebøker er lenket sammen, og histreg.no, der brukerne selv kan bidra i lenkingen basert på alle kildene i Digitalarkivet. Disse er godt egnet for genealogi og lokalhistoriske studier. HBR gjøres òg tilgjengelig som datafiler gjennom Intermediate Data Structure (IDS), som gir datagrunnlag for kvantitative studier. Denne artikkelen vil beskrive hovedpunkter i disse fire grensesnittene til det historiske befolkningsregistret, som er åpne for alle typer brukere.

Nøkkelord: befolkningsregister, databaser, folketellinger, kirkebøker, brukergrensesnitt

Norway has a nationwide Central Population Register that was started in 1964, and which for many persons contains data extending backwards in time. Currently, we are building a Historical Population Register (HPR) back to 1801. The goal is to construct a national database which also handles domestic migration, an aspect poorly covered in the nominative sources well into the 20th century. We base the HPR primarily on the censuses and church books during the period, since it has been too laborious to utilize the municipal population registers that were kept for an increasing number of municipalities until they became nationwide after World War II. This article presents the user interfaces to the Historical Population Register and how they are used for quantitative and qualitative purposes.

Keywords: Population register, databases, censuses, church records, user interfaces

Innledning

Longitudinelle datasett beskriver personer over tid og er kompliserte nettopp fordi de ikke bare dekker et enkelt punkt i menneskelivet, men gjenspeiler deler av eller hele livssykluser gjennom den aktuelle perioden. Her inngår relasjoner mellom mennesker og en rekke kjennetegn på individer, grupper og deres omgivelser. Tradisjonelle prosedyrer for uttak av individdata til spesifikke forskningsformål har vanligvis blitt skreddersydd, noe som gjør utdragene kostbare og tidkrevende, og har dermed redusert antall brukere og prosjekter som utnytter datasettene. Lokalhistorisk forskning bruker i stor grad digitaliserte, nominative enkeltkilder som folketellinger og kirkebøker, ofte via Internett. Imidlertid har de i liten grad brukt longitudinelle databaser til annet enn gårds- og slektshistorie.1 Det har lenge vært en målsetting i det faghistoriske miljøet i Norge å aktivere denne informasjonen i den allmenne lokalhistoria,2 og vi mener Historisk befolkningsregister vil fremme dette.

Når vi lager datasystemer for å distribuere deler av HBR til forskere, er det mye å lære fra prosedyrene i de internasjonale miljøene spesielt ved Umeå og Lund universiteter samt Historical Sample of the Netherlands og Minnesota Population Center (IPUMS).3 For statistiske formål er det generelle rådet å bruke Intermediate Data Structure (IDS), som ble spesifisert av forskere og dataleverandører som trenger å overføre registre mellom samarbeidspartnere.4 De forsto at deres tilbud om longitudinelle data hadde et handikap i konkurranse med leverandører av folketellinger og andre tverrsnittsdatasett med en enklere struktur. De sistnevnte blir mer brukt i forskning, ikke minst fordi de er tilgjengelige i standardiserte, internasjonale formater som følger de facto-standarder, noe som letter både sammenlignende studier og annen bruk. Det er spesielt tilfellet med tilbudene av folketellinger fra Minnesota Population Center (MPC). Hos MPC finnes det også datasett der par av amerikanske og norske folketellinger er lenket på individnivå og er lett tilgjengelig for nedlasting via Internett, slik det er beskrevet nedenfor.

Histreg.no

Histreg.no er et nettsted tilknyttet Historisk befolkningsregister spesielt designet for slektsgranskere. Systemet har direkte tilgang til folketellinger, kirkebøker og andre kilder i Digitalarkivet. I tillegg har Histreg.no importert lenker mellom dataposter som er opprettet med programvare ved Registreringssentral for historiske data og fra Norsk Regnesentral. Hovedideen er at innloggede brukere kan korrigere og supplere informasjon på grunnlag av egen slektsforskning, noe som kan være spesielt nyttig når man sporer livsløpene til dem som flyttet.5 Nettstedet muliggjør manuell lenking av informasjon om samme person så vel som kobling av informasjon om personer som tilhørte samme familie. Av personvernhensyn tillater vi ikke lenking av nålevende. Enkelte av kildene kan ha informasjon om nålevende, men disse skal ikke lenkes eller kobles.

For å unngå at informasjon om samme individ blir gjentatt på grunnlag av den samme kilden (såkalt redundans), må alle transkriberte kildeposter være unike og speile originalkilden, dvs. hva som står i kirkeboka, folketellinga osv.6 Det vil si at databasen bare skal inneholde personposter som er transkribert i henhold til originalkilden. Det er mulig å standardisere navn i overskriften på personsiden og når og hvor personen ble født og døde og å legge til nye personer ved å registrere dødsfall, merkedager og ekteskap som er funnet i den tilknyttede avisdatabasen. Funksjonaliteten er begrenset og visuelt enkel siden systemet er under utvikling. Bare brukere som er logget inn, kan redigere, mens andre kan bla gjennom databasen.

Histreg.nos søkeside er et grensesnitt for å søke i de åpne delene av Digitalarkivet (og avisdatabasen) med nesten de samme funksjonene som i Digitalarkivet. I tillegg til personopplysningsfelt som navn og alder, kan brukeren avgrense søket basert på geografi, type hendelse, rolle og år eller periode. Geografi er vanligvis fylke og kommune eller prestegjeld – enten som fødested eller bosted. Søket kan være begrenset til personens rolle i hendelsen (barn, mor, far, brud, brudgom osv.). År eller periode angir hvilken tid kilden dekker, for eksempel klokkerbok for perioden 1915 til 1925. Det er også mulig å vise partnere og foreldre som er koblet til personen for hver person i søket.

Resultatene fra søket gir en linje for hver enkelt kildepost som samsvarer med spørringen, for eksempel data fra en begravelse eller andre innførsler i kirkeboka. I folketellingene er det samsvar mellom kildepost og personpost, mens en kildepost i kirkeboka kan gi opphav til flere personposter (barn, mor, far osv.). I tillegg til kobling til Personsiden (fornavn og etternavn), er klikkbare koblinger til kildeposten i Digitalarkivet inkludert, samt informasjon om den opprinnelige kilden. Skrivemåten for person- og bostedsnavn er ikke standardisert. Hvis man er usikker på stavemåte, avsluttes søket med en stjerne sist i søkeordet. På den måten vil Thorval* også finne Thorvald og Thorvaldsen. For komplekse spørsmål kan det være nyttig å forberede seg til Histreg-søket ved å søke direkte i Digitalarkivet eller det avanserte brukergrensesnittet til Registreringssentral for historiske data. Sistnevnte gir også muligheter for standardiserte søk ved å bruke kommunenummer for fødested og periode for fødselsår.

Histreg.no kan sortere søkeresultatet etter fornavn, etternavn og fødselsår. Søket viser også antall personposter som er lenket sammen. Det er mulig å se søkeresultatene listet per individ i stedet for som personposter fra ulike kilder, dvs. uten ekstra linjer for de personoppføringene fra ulike kilder som allerede er lenket sammen.

Histreg.no kan beregne en poengsum mellom 0 og 10 for kvaliteten på lenkingen. Lenkingen er nærmere beskrevet i andre publikasjoner.7 Poengsummen beregnes ut fra likhet i fødselsår, navn, fødselssted, yrke eller sosial status samt partners og foreldres navn. Poengsum 10 indikerer fullstendig samsvar mellom alle lenkingskriteriene. Brukeren kan velge en person og deretter beregne lenkingspoeng fra vedkommende til alle andre i søkeresultatet. Dette gjøres ved å klikke på «Vis poengsumberegning», velge en person og trykke på «Beregn poengsum». Det er også mulig å finne lignende personer når du søker, dvs. grupper av personer med så like opplysninger i kildene at programmet åpner for at disse kan lenkes sammen ved et museklikk per gruppe. Dette er nyttig ved søk etter alle fra en bestemt gård, med samme yrke eller etternavn. Man kan justere kravet for hvor like egenskapene til individene i gruppen skal være til poengsummer mellom 0 og 10. Innloggede brukere kan dermed lenke direkte fra søkesiden.

Jobbe videre med individuelle personsider i Histreg.no

Ofte er det aktuelt å hente inn flere personopplysninger fra kildene. Da klikker man på den personen man vil jobbe videre med og får fram Personsiden (figur 1). Denne siden har personens for- og etternavn som overskrift. Her velger man de kildeinnførslene som skal lenkes sammen til deler av personens livsløp. I den øvre delen av Personsiden står hovedinformasjonen om den aktuelle personen, og eventuelt foreldre, søsken, partner og barn, som er koblet til denne personen. Deretter følger en oversikt over kilder som allerede er knyttet til personen. Nederst på siden fins et fritekstfelt for å redigere en kort biografi og andre notater, samt referanser. Feltet biografi og notater brukes hovedsakelig til dokumentasjon av endringer og familieforbindelser og for korte biografier. Lengre eller mer forseggjorte biografier skal skrives i lokalhistoriewiki.no.

Figur 1

Personside med 3 personposter lenket. LK for «lenkingskandidat» på den siste linjen betyr at lenken mellom kildeinnførslene er usikker. Man kan også redigere hovedinformasjonen om personen øverst på Personsiden (f.eks. endre Ane H. Andersen til Anne Helmine Nilsdatter for å få fram hennes pikenavn). Dette og redigering av det nederste feltet «Biografi og notater» vil ikke endre avskriften av originalkilden. Som navn på fødested og dødssted foretrekker vi prestegjeld og kommune i 1947, som var den mest detaljerte inndelingen med maksimalt antall kommuner. Fylket bør med, siden det er flere kommuner med samme navn: Bø, Nes, Hof osv.

Hvis man oppdager at to personsider i virkeligheten omhandler samme person, kan disse slås sammen. Man uthever da hvilken kildeoppføring som er den viktigste, såkalt «Hovedforekomst». Prioriteringen er folketellinger med den nyeste først, deretter dåp, død og andre oppføringer i kirkebøker.8 Feilaktige lenker kan fjernes, og manuelt registrerte familiekoblinger kan løses opp. Det er mulig å koble sammen familiemedlemmer, for eksempel relaterte personer i en folketelling som de automatiske koblingsmetodene ikke har fanget opp. Partnerskap registreres ved å merke to personer som foreldre uten barn. Familiekoblinger er mer omfattende: mellom foreldre og barn, mellom partnere og mellom søsken. Familieforhold kan òg omfatte foster-, adoptiv- og steforeldre; familieforhold kan være vanskelig å definere presist. Mennesker som er oppført som barn, er egne barn, adoptiv-, foster- eller stebarn både til personen på personsiden og til partnere som står øverst på listen. Det er bare på personens egen hovedside at man kan se hvordan forholdet er til ulike typer foreldre.

I tillegg til kildeinnførsler fra Digitalarkivet oppfordres brukerne til å inkludere referanser som kan gi tilleggsinformasjon i fritekstfeltet, f.eks. fra leksika, artikler og genealogier. Både en beskrivelse av referansen og en nettreferanse (URL) er påkrevd. En statistikkfunksjon gir oversikt over antall bidragsytere og de siste lenkede og koblede personene. Funksjonen Autolenking gjør det mulig å importere lenker opprettet i andre programmer etter spesiell avtale med administratoren, men lenkene må inneholde identitetsnumre (PFID) fra Digitalarkivet.

Hovedfordelen med Histreg.no er at den store mengden informasjon som er samlet inn av slektsforskere og lokalhistorikere, kan gjøres tilgjengelig i det historiske befolkningsregisteret. Feil i kildene og feil lenking av poster med vanlige egenskaper, for eksempel hyppig forekommende navn, kan korrigeres. Histreg.no bygges av mange slektsforskere som et supplement til de automatiske, algoritmebaserte lenkene som dominerer i antall. Det er ikke realistisk å beskrive de manuelle lenkene i detalj, og en riktig lenke kan fjernes manuelt uten at det gis en tilstrekkelig begrunnelse. En genealogisk basert database kan gi et lite statistisk representativt bilde av befolkningen, siden slektsgransking handler om mennesker som etterlot seg avkom de som døde barnløse, blir ofte utelatt. Ytterligere skjevheter kan oppstå ved at noen sosiale grupper og distrikter er mer engasjert i slektsforskning enn andre. Derfor er det viktig at både manuelle og andre typer lenker markeres i databasen. Til gjengjeld vil man kunne finne flere lenker i databaser der man ikke krever at alle lenker er statistisk representative.

Lenkede par av folketellinger

Den enkleste måten for å følge personer over tid er å lenke sammen to punkter i livsløpet, for eksempel dåp og folketelling eller to folketellinger. Sistnevnte er gjort med opplysninger om menn og par mellom folketellingene 1865, 1875 og 1900 – det viser seg dessverre at enslige kvinner var vanskeligere å lenke. Disse kildene er lenket og gjort tilgjengelig fra Minnesota Population Center som del av North Atlantic Population Project (NAPP). Nettstedet nappdata.org inneholder datafiler for Norge med lenker mellom folketellingene 1865 og 1875, 1865 og 1900 samt 1875 og 1900. Kodede versjoner av våre folketellinger fra 1801 og 1910 finnes også i NAPP, men bare som enkeltstående tverrsnitt uten lenker.9 I tillegg inkluderer NAPP lenkede filer om USA som knytter sammen data om individer i den fullstendige folketellingen 1880 til syv andre folketellingsår 1850-1930. For øyeblikket inneholder de lenkede datasettene fra NAPP informasjon om nesten 600 000 mennesker på to tidspunkter (180 000 i USA og 400 000 i Norge). De sistnevnte er importert til Historisk befolkningsregister. De norske og amerikanske lenkede folketellingene har vært brukt sammen i forskning, se nedenfor. Ytterligere informasjon er tilgjengelig fra nettstedet nappdata.org, hvor de lenkede folketellingene kan lastes ned i tverrsnittslignende dataformater, dvs. en linje per lenket datapost. En så vidt enkel struktur er mulig siden kun to tidspunkter er dekket i hvert livsløp. Vi sier gjerne at datasettene er bitudinelle, mens datasett hvor flere hendelser dekkes, er longitudinelle.

For å unngå å konstruere feilaktige biografier ved å lenke poster som i virkeligheten hørte til forskjellige personer, ble en konservativ lenkingsstrategi valgt, noe som resulterte i lave lenkingsrater.10 Lenkingsstrategien for de norske folketellingene 18651875, 18751900 og 18651900 er avhengig av fire variabler som i teorien ikke skal endres over tid: fødselsår, firesifret kommunekode for fødested, standardisert fornavn og standardisert etternavn. Fødselsår fikk lov til å avvike med opptil tre år for de mannlige lenkene, og opptil fem år for parlenkene. Noen kommuneendringer ble nøytralisert ved å inkludere nabokommunen. For å unngå å skape skjeve utvalg ved å underprioritere lenking av single personer, ble informasjon om familiemedlemmer ikke brukt bortsett fra når man koblet sammen ektepar. Hvis den samme dataposten var knyttet til to forskjellige poster i folketellingene 1875 eller 1900 (med kombinert de facto-/de jure-telling av både hjemmehørende og tilstedeværende befolkning), ble informasjon om fast bosatte innbyggere foretrukket framfor midlertidig fraværende eller tilstedeværende personer.11 Det er viktig for å unngå at samme person blir representert med to dataposter i samme folketelling, for da risikerer vi å introdusere feil i de statistiske resultatene. Den transkriberte utgaven av folketellingen fra 1875 er nå fullstendig, men inkluderte på tidspunktet for sammenkoblingen 100 % av husholdningene i store byer og de nordligste fylkene og et representativt utvalg av husholdninger på 2 % i resten av landet.

De lenkede dataene er ikke statistisk representative, ettersom det generelt sett er større sannsynlighet for at vi lenker poster fra de mindre kommunene, og det er mer sannsynlig at vi lenker poster med mindre vanlige navn. Dette nødvendiggjorde konstruksjon av vekter for de lenkede postene, slik gitt at andre faktorer var like, ville lenkede individer født på Røros ha lavere vekt enn de som er født i Oslo og var vanskeligere å lenke. Ved å bruke vektene i analyse kan brukerne kompensere for under- og overrepresentasjon av lenkede personforekomster, og i det minste teoretisk produsere befolkningsanslag for alle personer som var til stede i de to folketellingsårene. Vektene er basert på et estimat av den populasjonen som kan lenkes, så f.eks. i utvalget 18651875 er dette befolkningen som var 10 år eller eldre i folketellingen fra 1875. Variabelen LINKWT viser hvor mange personer som er representert av hvert lenket tilfelle.12

De lenkede folketellingsfilene fra NAPP er godt egnet for statistiske forskningsspørsmål som sammenligner individers situasjon på to forskjellige tidspunkter, som før og etter flytting. Lenkingsratene er imidlertid lave, og det er ingen garanti for at bruk av vektvariabelen vil korrigere mer enn en del av den manglende representativiteten i det lenkede utvalget av personoppføringer. Anvendelse av de lenkede filene vil òg forutsette at de overføres til egen datamaskin, og noen brukere vil foretrekke å simpelthen få informasjonen fram på dataskjermen, slik vi skal se med tidslinjene nedenfor.

Ved å kombinere de lenkede folketellingsdataene fra Norge og USA har en gruppe økonomer publisert interessant forskning om motivene bak emigrasjonen fra Europa til USA og hvorvidt det lønner seg å emigrere. I massemigrasjonens periode opprettholdt USA en nesten åpen grense, noe som gjør det lettere å studere migrasjonsforløpet uhindret av innreisebegrensninger. Ved å anvende lenkede data om 50 000 norske menn studerte de for det ene effekten av rikdom på sannsynligheten for intern eller internasjonal migrasjon i perioden 1850–1913. Her utnyttet de variasjon i foreldrenes formue og i forventet arv ifølge fødselsrekkefølge, kjønnssammensetning av søsken og bostedsregion. De konkluderte med at relativ velstand gjorde beslutning om migrasjon mindre sannsynlig i denne tidsepoken, antyder at fattige kunne ha større sannsynlighet for å flytte hvis migrasjonsrestriksjonene ble opphevet i dag, og diskuterer implikasjonene av slike historiske funn for utviklingsland. For det andre estimerte de samme forskerne i hvilken grad emigrasjon lønte seg ved å sammenligne emigranter fra Norge til USA med brødre som bodde i Norge på slutten av 1800-tallet. Sammenligningen antyder at avkastningen ved emigrasjon var relativt lav og ser det i sammenheng med at de relativt fattige fra urbane områder emigrerte hyppigere.13 Resultater fra Ullensakerprosjektet indikerer at det sistnevnte funnet ikke gjelder for norske rurale områder.14 Vi trenger altså nærmere undersøkelser med longitudinelle data for å teste økonomenes konklusjoner om at relativ velstand motvirket utvandring og at det bare i mindre grad lønte seg å emigrere.

Tidslinjer for å følge individer og familier

En annen tilgang til longitudinelle data fra Historisk befolkningsregister er «tidslinjene» hos Registreringssentral for historiske data (RHD), et system som raskt viser mye informasjon på dataskjermen. Hensikten er å søke fram allerede lenkede livsløp heller enn å skape og redigere lenkene slik vi så ovenfor. RHD har anledning til å motta lenker og koblinger fra histreg.no og sende sine lenker og koblinger dit. Dette vil sikre at de to databasene inneholder de samme dataene. Folketellingene 1865, 1875, 1900 og 1910 er tilgjengelige for søk på RHDs nettsted via både et enkelt og et avansert brukergrensesnitt, se http://rhd.uit.no. Etter å ha funnet en aktuell person i en av tellingene, kan brukeren klikke på hus-symbolet for å vise informasjon om hele husholdningen. Der er noen individer utstyrt med en lenkingsmarkør ( ) slik som lengst til venstre i figur 2. Det betyr at ytterligere informasjon om personen er tilgjengelig fra andre kilder. Kildereferansene til høyre i figur 3 er generert hos Arkivverket, og er unike slik at de kan brukes til å slå opp i Digitalarkivet.

Figur 2

Utdrag fra folketellinga 1865 for gården Sjuvestok i Stokke.

Ved å klikke på lenkingsmarkøren vil en oversikt over de lenkede datapostene vises, ikke bare innførsler fra andre folketellinger, men også kirkeboksposter som har blitt lenket til personen. Brukere blir advart om at lenkene genereres automatisk, og det kan ikke utelukkes at programvaren har introdusert feilaktige lenker og at noen mangler. Thorvald Mikkelsen er identifisert i folketellingene både i 1865, 1900 og 1910, men ble ikke knyttet til sin oppføring i folketellingen i 1875 fordi han på den tiden ble adoptert som fosterbarn av den barnløse bonden som hadde kjøpt gården av foreldrene hans, og navnet ble skrevet «Thorval», nok en påminnelse om at noen personer er vanskeligere å lenke enn andre. Ved å klikke på +-tegnet i kolonnen til venstre vises informasjon om hele husstanden som personen tilhørte i det aktuelle folketellingsåret.

Figur 3

Tidslinje for Thorvald Mikkelsen

Tidslinjefunksjonen utvider søkesystemet ved RHD, og gjør det mindre tidkrevende å følge grupper av personer over tid. Kohorter av personer som deler de samme egenskapene, kan defineres i det avanserte brukergrensesnittet, slik at søkeresultatene blir mer tilpasset statistiske formål. Der er imidlertid ingen innebygde statistiske prosedyrer, og brukeren må skape kategoriene selv og passe på representativiteten. Etter som lenkingen av postene i Historisk personregister fortsetter, vil nye lenker først bli tilgjengelige for eksterne brukere som utvidelser av tidslinjene. Som allerede nevnt, har mange relevante lenker ennå ikke blitt konstruert, og brukerne kan ikke selv endre eller legge til nye lenker til dette systemet. Nedenfor vises et eksempel på en mer kompleks tidslinje, som også inneholder informasjon fra kirkebøkene om Halldor Hansen født 1841.

Figur 4

Tidslinje for gårdbruker og fisker Halldor Hansen, Balsfjord

Historisk befolkningsregister inneholder 5000 komplette livsløp for Troms, det vil si individer som følges fra dåp til vielse og grav. I gjennomsnitt har hvert av de 5000 individene i denne databasen 11,5 lenker til andre kilder. Når vi har mottatt og fått behandlet de nasjonale seriene med kirkebøker som Arkivverket får transkribert i utlandet i løpet av 2020, regner vi med tilsvarende dekning for resten av landet. De fire første innførslene om Halldor Hansen i figur 4 er kurante; de gjelder hans dåp, vielsen med Thea Andrine Mikalsen og innførsler i folketellingene 1865 og 1875. Kurante er også innførslene om ham i folketellingene 1900 og 1910 samt begravelsen etter dødsfallet hans i 1922. Kirkebokspostene fra 1897, 1900 og 1902 trenger mer inngående forklaring. Dåpen i 1897 gjelder datteren Olufine Petrine som var født 29. november 1896. Begravelsen i 1900 gjelder imidlertid en annen datter, Marie Sofie Haldorsdatter, som var født 1. oktober 1898, men som ikke ble døpt før 22. april 1900 – vi må tro i all hast samme dag som hun døde. Dog ble hun ikke begravd før fem måneder seinere, og familien jordfestet altså ikke et spedbarn født i år 1900 slik vi overfladisk kunne få inntrykk av, men en nær to år gammel datter. Kildekritisk sett er det interessant at Maren Sofies utsatte dåp typer på at hun kunne forblitt uregistrert i kirkebøkene helt fram til konfirmasjonsalderen om hun hadde vokst opp – noe som muligens kan skyldes at gården Svendborg lå perifert i Balsfjord. Det er interessant at dåpen av sønnen Hans Georg i 1902 er riktig lenket til familien selv om farens navn er skrevet Halvor. Det skyldes at programvaren tar hensyn til ulike stavemåter av navn og hadde tilgang også til informasjon om morens navn.

Den mellomliggende datastruktur The Intermediate Data Structure (IDS)

IDS er det internasjonale datalagring- og utleveringsformatet for longitudinelle individdata. De historiske databasene bruker IDS for å sende slike data til kvantitativt orienterte brukere. Fordelene er mange. For det første kan brukerne gjennomføre internasjonale sammenlikninger ut fra samme statistiske modell, i og med at dataene er standardiserte til et felles format på tvers av landegrenser. For det andre; brukerne får tilgang til et bibliotek med programvare for å studere ulike demografiske fenomen, som fertilitet, mortalitet og migrasjon. For det tredje; en slik løsning er både tids- og kostnadsbesparende. Initiativet til å lage IDS ble tatt av Kees Mandemakers ved Det internasjonale instituttet for sosialhistorie i Amsterdam på vegne av The Historical Sample of the Netherlands og George Alter ved Universitetet i Michigan.15 IT-eksperter definerte et fleksibelt format der ikke en person eller hendelse, men et attributt (dvs. egenskap) er definert i hver datapost, noe som er rasjonelt når det fins mye og varierende informasjon om hver person.16 IDS er dokumentert gjennom artikler i det åpne tidsskriftet Historical Life Course Studies, og forbedres kontinuerlig. Dette gjelder især hjelperutiner for å konvertere longitudinelle datasett til IDS-format, grensesnitt til de statistiske pakkene R og Stata og rutiner for å trekke ut data fra IDS-formaterte datasett for spesifikke formål,17 for eksempel for studier av fruktbarhet eller yrkesstruktur. I Skandinavia implementeres IDS av Demografiska databasen (CEDAR) i Umeå, Scanian Economic Demographic Database i Lund og RHD i Tromsø. En rekke artikler som bruker IDS, er tilgjengelige, se spesielt studiene av overføring av spedbarnsdødelighet mellom generasjonene.18

Kravet for å kunne anvende IDS er at dataregistrene allerede er lenket og koblet, dvs. at det er laget pekere både mellom de viktige kildeinnførslene om samme individ og mellom individer i samme familie. For eksempel må dåpsinnførslene og begravelsene være lenket sammen familievis dersom vi skal studere spedbarndødelighet slik vi kommer tilbake til nedenfor.

IDS: individ og kontekst

IDS definerer to typer enheter, individer og kontekster. Konteksten blir beskrevet som både et geografisk og sosialt rom. Individuelle attributter (kjønn, alder, yrke osv.) og kontekster (husholdning, bosted osv.) har ulike egenskaper, som enten er konstante i tid (f.eks. kjønn) eller kan endres over tid (f.eks. yrke eller bosted). En internasjonal komité, der RHDs Hilde Sommerseth er norsk representant, vedlikeholder en oversikt som definerer felles internasjonale attributter på tvers av databaser, samt attributter som er særegne for hver database. Attributter og relasjoner mellom disse er knyttet sammen i 6 tabeller: INDIVID, INDIVID_INDIVID, KONTEKST, INDIVID_KONTEKST, KONTEKST_KONTEKST og META. I det følgende vil en kort beskrivelse av de viktigste av disse tabellene bli gitt jfr. artiklene i Historical Life Course Studies for mer informasjon.

INDIVID-tabellen består av individuelle attributter (navn, kjønn, sivilstand, yrke, etc.) og individuelle hendelser (egen fødsel, ekteskap, flytting, død, osv.). Tabellen består av 21 felt, hvorav mange beskriver datoen for hendelsen eller datogrensene for observasjonsperioden.

Figur 5

Eksempel på INDIVID-tabell med nøkkelord oversatt til norsk

Figur 5 viser utvalgte felt fra Historisk befolkningsregister. Felt som er utelatt i tabellen er henvisninger og felt som refererer til observasjonsperioder for hendelser og attributter. Tid (TimeStamp) kan nemlig angis på to forskjellige formater; tidspunkt eller observasjonsperiode. Datotype refererer til egenskaper ved hver dato, og gir grunnlag for kildekritiske vurderinger siden den skiller mellom hendelsestyper: Hendelse, rapporterte, erklærte og tildelte. Hendelse (Event) brukes hvis registreringen av en hendelse i originalkilden falt sammen med selve hendelsen. Ekteskapsdato er et typisk eksempel. Rapportert (Reported) brukes om hendelsen hvis datoen for hendelsen hentes fra en kilde som oppstod på et senere tidspunkt. Når fødselsdatoen hentes fra dåpslista, vil fødselsdatoen bli rapportert, dvs. hentet fra en senere hendelse, nemlig dåp. Erklært (Declared) brukes hvis datoen refererer til en udefinerbar periode hvor egenskapen kan ha eksistert i lang tid. Sivilstand i en folketelling er et typisk eksempel. Tildelt (Assigned) er en dato eller periode tildelt etter dataadministratorens skjønn. Kodene i verdi-kolonnen er G for gift, mens Gm og 61110 er yrkeskoder.

Tabellen INDIVID_INDIVID viser hvordan individer er relatert til hverandre, der de typiske relasjonene er mor, far og barn, og de mindre vanlige er halvsøsken, fosterbarn, dødfødte osv. Til forskjell fra i INDIVID-tabellen har FORHOLD erstattet TYPE-feltet, og to identitetsfelt er lagt til for de relaterte individene.

Kontekst

Historisk befolkningsregister består av et komplekst hierarki med pekere mellom individer og deres omgivelser, her kalt kontekster. Det kan være familie / husholdning eller geografiske og administrative kontekster, basert på grenser eller punkter i landskapet. Et individ er med i flere sammenhenger eller kontekster; gjennom livet beveger han eller hun seg inn og ut av forskjellige kontekster av ulik varighet. IDS-formatet skiller mellom geografiske og sosiale kontekster. Typiske eksempler på en sosial kontekst vil være familie og husholdning, mens geografiske kontekster typisk er administrative nivåer som kommune eller fylke. For å kunne analysere kontekstene, har IDS-utviklerne valgt å legge forholdet mellom individ og kontekst og forholdet mellom ulike kontekster i to separate tabeller, henholdsvis INDIVID_KONTEKST og KONTEKST_KONTEKST. Den sistnevnte tabellen definerer forholdet mellom kontekster som en hierarkisk struktur. Da behøver man bare definere det laveste kontekstnivået for et individ i INDIVID_KONTEKST-tabellen, og la de høyere kontekstuelle nivåene automatisk knyttes til hierarkiet som allerede er definert i KONTEKST_KONTEKST-tabellen. Det er mulig å definere mer enn ett konteksthierarki, gjerne en sosial kontekst for slekt og en administrativ for bosted. I HBRs åpne periode vil det for eksempel være mulig å definere fire forskjellige hierarkier: 1) individ og kontekst i kirkebøker, 2) individ og kontekst i folketellinger, 3) kildespesifikk kontekst i kirkebøker og 4) kildespesifikk kontekst i folketellinger. Det historiske gårds- og eiendomsregisteret HISTMAT vil utvilsomt bli et viktig kontekstuelt hierarki for bosteder. 

Fra IDS til episodefil

Fra IDS vil neste trinn være å konstruere datafiler for analyse, og for dette formålet kan et dataprogram konvertere IDS-filene til rektangulære episodefiler, som regel med en linje eller datapost for hver person. Denne programvaren er gratis å laste ned for de statistiske analyseprogrammene STATA og R.19 For å gjøre HBR tilgjengelig for samarbeidspartnere og forskere, vil RHD lage forskningsfiler i det mellomliggende datastrukturformatet (IDS). Også når befolkningsregistret oppdateres, kan nye versjoner utveksles mellom ulike institusjoner og brukerne via IDS-formatet. Formatet på de episodefilene som brukes i de statistiske analysene, velges av hver enkelt bruker.

Fordelene med IDS er at det er en veldefinert standard som er utviklet og vedlikeholdt av et bredt sammensatt utvalg av forskningsmiljøer. Det er en internasjonal standard, den er tilpasset til Historisk befolkningsregister og definerer data på individnivå med sosiale relasjoner og kontekster. IDS definerer variabler over samme lest tilsvarende standardene for folketellinger slik at standardiserte utdrag kan leveres raskt og med små kostnader. Enklere tilgang til dokumentasjon har òg gjort det lettere å lage analysefiler slik at selvbetjening blir realistisk for erfarne brukere. Tilgang til programvare for uttrekk av data for spesifikke analyser er tilgjengelig, noe som forenkler sammenligning i tid og rom.

Som nevnt over, har IDS-formatet blitt testet gjennom en internasjonal studie av intergenerasjonell ulikhet i spedbarnsdødelighet, hvor forskerteam fra Nederland, Belgia, Sverige og Norge deltok. I første del av prosjektet ble det gjennomført separate analyser, men med et felles teoretisk og metodologisk design. Den norske studien anvendte et longitudinelt datasett som dekker 1800- og 1900-tallet i Troms fylke.20 Resultatene viser at det var overføring mellom generasjonene når det gjelder mødres risiko for å oppleve at et eller flere spedbarn døde. En kvinnes barn hadde større risiko for å dø før den første bursdagen dersom deres mormor hadde hatt mange spedbarnsdødsfall. Risikoen for spedbarnsdød blant barn til døtre fra slike høyrisikofamilier, var minst 30 prosent høyere enn blant spedbarn født av døtrene til mødre som hadde opplevd null døde spedbarn. I motsatt ende finner vi majoriteten, der 6070 prosent av familiene på tvers av generasjoner, aldri opplevde å miste ett spedbarn. Tilsvarende funn ble også gjort i de andre landenes analyser, og samlet sett peker disse funnene i retning av en annen forståelse av hvordan dødeligheten rammet de aller yngste. Spedbarnsdødeligheten i historiske befolkninger var ikke noe som rammet hvert et hus og familie.21 Det neste steget i prosjektet har vært å samle alle lands datasett inn i en felles database og gjennomføre en felles statistisk analyse. Resultatene bekrefter funn fra første runde, og representerer et banebrytende arbeid for ytterligere internasjonalisering innen historisk demografi. Levde liv, som er grunnlinjen i dette fagfeltet, er både lokale, regionale og globale i sin natur!

Utfordringen ved IDS er først og fremst at en datamodell basert på attributter er voluminøs og virker fremmed for brukere som er vant til personorienterte formater. De fleste forskere vil helst fortsette å bruke formater de er kjent med, og ikke et nytt hvor formatet og dokumentasjonen er ganske teknisk. Dessuten er IDS-standarden ikke frosset, men åpen for endringer som kan være vanskelige å følge. Det er behov for konverteringsprogrammer for å konstruere rektangulære filer for dataanalyse, og bare et begrenset utvalg av disse er tilgjengelige. Det fins ingen sentral servicepartner som er klar til å spre IDS-data og dokumentasjon, slik Minnesota Population Center fungerer for folketellingsdatafiler hjelp med prosedyrene er generelt sett bare tilgjengelig på ad hoc-basis.

Konklusjoner

Hovedkonklusjonen er at vi ikke kan tilfredsstille de fleste potensielle brukere av Historisk befolkningsregister med ett og samme brukergrensesnitt. Intermediate Data Structure (IDS) dekker behovene til statistisk orienterte brukere som har en kildekritisk holdning til alle hendelsene om en person, men krever at de er mer datakyndige enn den gjennomsnittlige historikeren, og nødvendige støttetjenester er ikke til stede i tilstrekkelig grad. Histreg.no sine websider tjener behovene til de som vil bla i stamtavler over forfedrene og gjør det mulig å importere resultater basert på genealogers ekspertise. Men det er opp til brukerne å eventuelt produsere representative statistiske resultater uten særskilt støtte for dette. Dette er noe bedre i tidslinjesystemet fordi kohorter kan konstrueres ganske fleksibelt, men systemet er designet for å spore individers livsløp heller enn å følge store grupper av mennesker. NAPP-filene med lenkede folketellinger inkluderer vekter som tillater justering av statistiske skjevheter i de lenkede filene, men dekker bare to tidspunkter i livsløpet.

En videre mulighet kunne være å gi eksterne brukere direkte tilgang til den interne databasen hos RHD i Tromsø. Dette vil imidlertid kreve tøffe databeskyttelsestiltak slik at ingen endring av data er mulig via nettet og at eksterne brukere ikke får tilgang til datasett med opprinnelse etter 1920-tallet. For denne mellomperioden med data kan databasesystemet EUTRO utviklet for sosialmedisinsk forskning ved UiT tilby en sikker løsning,22 som har blitt testet for deler av HBR med positive resultater, og kan også utvides til den eldre delen av HBR. På lengre sikt er det elementer i systemene utviklet av våre søsterinstitusjoner i Umeå, Lund, Amsterdam, Salt Lake City og Chicoutimi som kan importeres og inspirere fremtidige grensesnittløsninger.

For mer begrensede forskningsformål kan spesielle lenkede datafiler, slik som de folketellingene som er tilgjengelige fra NAPPdata i Minnesota, være nyttige. Spesielt kan flere lenkede folketellinger konstrueres, noe som er realistisk med utgangspunkt i folketellingen fra 1910, som inneholder fødselsdato som lenkingskriterium. Den kan knyttes til dødsregisteret fra 1951 og fremover og til begravelses- og dødsregister når disse nå blir tilgjengelige. Siden de fleste dåpsposter inneholder fødselsdato, kan disse også kobles til folketellingen fra 1910 og til senere folketellinger. Folketellingen fra 1950 er knyttet til det sentrale folkeregisteret fra 1964 som en del av transkripsjonsprosessen. Det er også et spørsmål i hvilken grad vi kan rekonstruere de numeriske folketellingene fra 1815 til 1855 på individnivå med nominative data.

Referanser

Abramitzky, R., Boustan, L.P. & Eriksson, K. (2012). Europe’s Tired, Poor, Huddled Masses: Self-Selection and Economic Outcomes in the Age of Mass Migration. American Economic Review, 102(5), 1832–1856. https://doi.org/10.1257/aer.102.5.1832

Abramitzky, R., Boustan, L.P. & Eriksson, K. (2013). Have the poor always been less likely to migrate? Evidence from inheritance practices during the age of mass migration. Journal of Development Economics, 102, 2–14. https://doi.org/10.1016/j.jdeveco.2012.08.004 Hentet fra https://europepmc.org/backend/ptpmcrender.fcgi?accid=PMC4655887&blobtype=pdf

Alter, G. & Mandemakers, K. (2014). The Intermediate Data Structure (IDS) for Longitudinal Historical Microdata, version 4. Historical Life Course Studies, (1), 1–26. Hentet fra https://ehps-net.eu/article/intermediate-data-structure-ids-longitudinal-historical-microdata-version-4

Holden, L. & Boudko, S. (2018). The Norwegian Historic Population Register and Migration. Journal of Migration History, 4(2), 249–263. https://doi.org/10.1163/23519924-00402002 Hentet fra https://www.nr.no/en/nrpublication?query=/file/1548857259/HBR-Holden-Migration2018.pd

Holden, L., Thorvaldsen, G. & Bråthen, T.R. (2012). Historisk befolkningsregister og DNF 1814. Heimen, 49(4), 399–414. Hentet fra https://www.idunn.no/heimen/2012/04/historisk_befolkningsregister_og_dnf_1814

Hovland, E. (1977). Folket, bygda og historia. Oslo: Universitetsforlaget.

Kjelland, A. (2018). Mapping and Analysing Remigration Based upon Norwegian Farm- and Genealogical History Projects. Journal of Migration History, 4(2), 314. https://doi.org/10.1163/23519924-00402005

Koren, E. (1979). Utvandringen fra Ullensaker 1867-99. En sosialhistorisk undersøkelse (Hovedfagsoppgave i historie). Historisk institutt, Universitetet i Oslo.

Quaranta, L. & Sommerseth, H.L. (2018). Introduction: Intergenerational Transmissions of Infant Mortality using the Intermediate Data Structure (IDS) 7, 1-1. Historical Life Course Studies, 1(1). Hentet fra http://hdl.handle.net/10622/23526343-2018-00014?locatt=view:master.

Quaranta, L., Broström, G., van Dijk, I., Zonrovich, D., Edvinsson, S., Engberg, E., Mandemakers, K., Matthijs, K., Puschmann, P. & Sommerseth, H.L. (2017). «Intergenerational transfers of infant mortality in historical contexts: a comparative study of five European populations», session: «Cohort Perspectives on Changing Health and Mortality», Population Association of America (PAA), April 27-29, Chicago, USA. Hentet fra https://paa.confex.com/paa/2017/meetingapp.cgi/Paper/15094

Ruggles, S., Fitch, C.A. & Roberts, E. (2018). Historical Census Record Linkage. Annual Review of Sociology, 44(1), 19–37. https://doi.org/10.1080/01615440.2020.1707445

Sommerseth, H.L. (2018). The Intergenerational Transfer of Infant Mortality in Northern Norway during the 19th and Early 20th Centuries. Historical Life Course Studies, 1(1). Hentet fra http://hdl.handle.net/10622/23526343-2018-0008?locatt=view:master.

Thorvaldsen, G. (1996). Håndbok i registrering og bruk av historiske persondata. Oslo: Tano Aschehoug.

Thorvaldsen, G. (2004). Borte fra heimen. Om midlertidig fraværende og tilstedeværende i seint 1800-tall. Heimen, XLI(4), 287–300.

Thorvaldsen, G. (2008). Fra folketellinger og kirkebøker til norsk befolkningsregister. Heimen, 45(4), 341–359.

Thorvaldsen, G. (2011). Using NAPP Census Data to Construct the Historical Population Register for Norway. Historical Methods, 44(1), 37–47. https://doi.org/10.1080/01615440.2010.517470

Thorvaldsen, G., Andersen, T. & Sommerseth, H.L. (2015). Record Linkage in the Historical Population Register for Norway. G. Bloothooft, P. Christen, K. Mandemakers & M. Schraagen (Red.), Population Reconstruction (s. 155–170). Heidelberg: Springer. https://doi.org/10.1007/978-3-319-19884-2_8 Hentet fra https://link.springer.com/chapter/10.1007%2F978-3-319-19884-2_8

Thorvaldsen, G. & Østrem, N.O. (2018). Migration and the Historical Population Register of Norway. Journal of Migration History, 4(2), 237. https://doi.org/10.1163/23519924-00402001 Hentet fra https://munin.uit.no/bitstream/handle/10037/14766/article.pdf?sequence=4&isAllowed=y

1Kjelland 2018.
2Hovland 1977.
3Nettadresser til disse institusjonene er henholdsvis https://www.umu.se/enheten-for-demografi-och-aldrandeforskning/, https://www.lu.se/lucat/group/v1000018, https://iisg.amsterdam/en/hsn, http://ipums.org.
4Alter & Mandemakers 2014.
5Holden & Boudko 2018.
6Thorvaldsen 1996.
7Thorvaldsen et al. 2015. Se også artikkel i denne utgaven av Heimen.
8Holden, Thorvaldsen & Bråthen 2012.
9Thorvaldsen 2011.
10Ruggles, Fitch & Roberts 2018. De lenkede datasettene for USA ble konstruert med superdatamaskin ved hjelp av dataprogrammet FEBRL ved Universitetet i Minnesota, mens lenkene for Norge ble konstruert med Perl-skript, et moderne programmeringsspråk.
11Thorvaldsen 2004.
12Goeken, Huynh, Lynch & Vick 2011. LINKWT-variabelen justerer verdien av hvert lenket tilfelle basert på personenes relasjon til husholdningens overhode, 5-års aldersgrupper, befolkningsstørrelse på fødestedet og yrke.
13Abramitzky, Boustan & Eriksson 2012; Abramitzky, Boustan & Eriksson 2013.
14Koren 1979.
15Alter & Mandemakers 2014.
16IDS er bygget ved hjelp av en såkalt «Entity Attribute Value» datamodell, der hver linje eller datapost bare refererer til ett attributt – dvs. egenskap. Det samme prinsippet brukes i BeReg – Statistisk sentralbyrås versjon av Det sentrale folkeregisteret.
17 https://github.com/goranbrostrom/idsr/ og (http://disseminate.objectrepository.org/file/master/10622/23526343-2016-0001)
18Quaranta & Sommerseth 2018.
19For STATA http://disseminate.objectrepository.org/file/master/10622/23526343-2015-0007 og for R https://github.com/goranbrostrom/idsr/
20Sommerseth 2018; Quaranta & Sommerseth 2018; Quaranta et al. 2017.
21Artiklene med de fem studiene er tilgjengelige i det åpne tidsskriftet Historical Life Course Studies nr. 3 2018: https://ehps-net.eu/volume/volume-7-special-issue-2
22 https://uit.no/forskning/forskningsgrupper/gruppe?p_document_id=525017

Idunn bruker informasjonskapsler (cookies). Ved å fortsette å bruke nettsiden godtar du dette. Klikk her for mer informasjon