Østgulen: – Norske språkmodeller blir en infrastruktur for KI i Norge

Produsent: Torbjørn Vinje

En språkmodellseksjon som startup

Wilfred Østgulen åpnet foredraget med å beskrive jobben sin som en av de mest spennende teknologijobbene i Norge. Som IT-direktør i Nasjonalbiblioteket har han ansvar for utviklingen av språkmodeller for norsk og samisk.

Regjeringen bevilget i statsbudsjettet for 2025 midler til Nasjonalbiblioteket for å etablere en enhet for trening, oppdatering og tilgjengeliggjøring av norske og samiske språkmodeller. I tillegg fikk Sigma2 midler til regnekraft.

– For alle praktiske formål har vi en startup i IT-avdelinga, en språkmodellseksjon, sa Østgulen.

Han beskrev arbeidet som nybrottsarbeid. Det finnes få ferdige oppskrifter for hvordan en statlig institusjon skal bygge en lab for å trene og levere språkmodeller. De store teknologiselskapene deler lite om hvordan de organiserer arbeidet.

– Det er ingen spørsmål vi stiller som har et klart svar. Alt må testes og prøves, sa han.

Nasjonalbiblioteket som datagrunnlag

Østgulen minnet om Nasjonalbibliotekets samfunnsoppdrag: å sikre avlevering og bevaring av publisert materiale fra alle publiseringsplattformer og være en fremste kilde til kunnskap.

Men for stadig flere er det ikke biblioteket som er første stopp når de søker kunnskap. Det er språkmodeller, tjenester og chatboter.

– For stadig flere er det ikke Nasjonalbiblioteket som er den fremste og første kilden vi tyr til. Det er i stadig større grad en språkmodell, sa Østgulen.

Derfor blir spørsmålet hvilke språk, kulturer og samfunn disse modellene faktisk forstår. Globale språkmodeller utvikles i hovedsak av store selskaper i store språksamfunn. Norsk og samisk utgjør en svært liten del av treningsgrunnlaget.

– Modellene er og vil være dominert av innhold og innretning som gjenspeiler andre samfunn enn vårt, sa han.

Artikkelen fortsetter etter annonsen:

Service- og tjenestekonferansen 2026, 05.-06.11.: Det skal være enkelt å møte det offentlige!

En unik norsk posisjon

Siden 2005 har Nasjonalbiblioteket digitalisert store deler av norsk kulturarv. Det omfatter blant annet rundt 700 000 bøker, 4,5 millioner aviser og en halv million tidsskrift. Materialet er ikke bare skannet som bilder, men tekst er hentet ut gjennom OCR.

I Mo i Rana har Nasjonalbiblioteket bygget det Østgulen beskrev som en digitaliseringsfabrikk uten sidestykke. Materiale kommer både fysisk og digitalt fra utgivere, digitaliseres med egne ansatte, eget utstyr og egne løsninger, og bevares i datasentre med flere kopier og teknologier.

– Dette er det jeg kaller demokratisikring i praksis, sa Østgulen.

Han understreket at samlingen gjør det mulig å sjekke hva som faktisk er sagt og skrevet i Norge, og gjør Norge unikt posisjonert til å utvikle egne språkmodeller.

– Denne digitale samlingen gjør at Norge står i en unik posisjon når det kommer til å utvikle egne nasjonale språkmodeller, sa han.

Språkdata viste seg å være gull

Nasjonalbibliotekets samling er ikke bare stor. Den er også katalogisert, med metadata og dyp kunnskap om innholdet. Det gjør det mulig å lage spesialiserte datasett for ulike formål.

Østgulen pekte på at dette skiller seg fra mye av treningsgrunnlaget til store internasjonale modeller, som ofte er høstet fra internett og der innsikten i datagrunnlaget er mer begrenset.

– Vi har veldig god kunnskap om samlinga vår og kan bygge veldig spesialiserte datasett for å trene spesielle modeller, sa han.

Han trakk også fram at språkdata tidligere ble undervurdert sammenlignet med andre typer offentlige data. I ettertid har det vist seg at språkdata nettopp er grunnlaget for nasjonale språkmodeller.

– Det viste seg noen år senere at det faktisk er språkdata som er grunnlaget for å lage nasjonale språkmodeller, sa Østgulen.

Avtaler i stedet for rettssaker

Mye av det beste språkmaterialet er beskyttet av opphavsrett. Østgulen understreket at Norge har valgt en annen vei enn å bruke materialet først og møtes i retten etterpå.

– I Norge kjører vi ikke bare på som man gjør i USA og møtes i rettssalen hvis det er noen som har noe å si. Vi har en litt annen tilnærming, sa han.

Nasjonalbiblioteket har på vegne av regjeringen forhandlet med rettighetshaverorganisasjoner om kollektive lisensavtaler. Målet er at rettighetshaverne skal kompenseres, samtidig som Norge kan dele språkmodeller trent på materialet deres.

Han viste til at det er satt av midler til å kompensere avisene, og at det også er fremforhandlet en avtale med forfatterne om skjønnlitteratur.

Artikkelen fortsetter etter annonsen:

Service- og tjenestekonferansen 2026 - spor A, 05.11.: Digital inkludering i praksis – tiltak, samarbeid og effekt

Fire typer modeller

Nasjonalbiblioteket arbeider nå med fire typer språkmodeller. Først er GPT-modeller, som mange forbinder med chatboter som ChatGPT og Claude. Her er Borealis-modellene sentrale, med en ny versjon under utvikling.

– Vi har nettopp lansert versjon 1.0 av det vi kaller Borealis-modellene våre, sa Østgulen.

I tillegg utvikles tale-til-tekst-modeller, tekst-til-tale-modeller og embedding-modeller, som gjør tekst om til tallrepresentasjoner som KI-systemer kan bruke. Det siste er særlig viktig for norske dokumenter og norske kunnskapsgrunnlag.

Østgulen beskrev hvordan disse modelltypene sammen kan danne et komplett apparat for løsninger der brukere snakker inn, systemet slår opp i egne dokumenter, genererer svar og leser svaret opp igjen.

Norske modeller som byggesteiner

Østgulen var tydelig på at Nasjonalbiblioteket ikke forsøker å erstatte de store internasjonale modellene. Det Norge gjør, er komplementært.

– Vi har ingen ambisjon om å erstatte dem, sa han.

De norske modellene skal i stedet være bedre på norsk språk, norsk kultur og norske forhold. De skal kunne brukes fritt, både offentlig og kommersielt, med en lisens som reduserer risikoen for opphavsrettslige problemer.

– Vi deler disse modellene fritt tilgjengelig for alle, med en lisens som gjør at du faktisk kan bruke det til noe, sa Østgulen.

Modellene krever heller ikke nødvendigvis stor prosesseringskraft for å brukes. De kan kjøres på egne plattformer, også sikkerhetsgraderte plattformer, og uten internettilgang.

– Disse modellene blir en infrastruktur for KI i Norge, sa han.

Offentlig sektor må bygge på toppen

Østgulen understreket at Nasjonalbiblioteket leverer grunnmodeller, ikke ferdige løsninger for alle sektorer. Virksomhetene må selv bygge funksjonalitet på toppen og koble modellene til egne fagsystemer, prosesser og kunnskapsgrunnlag.

– Dere må bygge funksjonalitet på toppen av disse modellene, sa han.

Han pekte også på behovet for å finne riktig arkitektur. Noe kan trenes inn i modellene, mens annet bør ligge i rammeverk, regelverksoppslag eller deterministisk kode utenfor språkmodellen.

Dette må utvikles i samarbeid med brukerne.

– Sammen må vi finne ut hvilke data, i tillegg til Nasjonalbibliotekets, som bør trenes inn mot disse modellene, sa Østgulen.

En sikkerhetspolitisk dimensjon

Bak oppdraget ligger behovet for modeller som offentlige og private virksomheter kan ta i bruk, og som bygger på norsk språk, norsk kultur og kunnskap om Norge. Men Østgulen pekte også på at den internasjonale utviklingen gjør arbeidet viktigere av sikkerhetspolitiske grunner.

– Den siste tidens internasjonale utvikling viser at det også er sentrale sikkerhetspolitiske årsaker til å trene nasjonale språkmodeller, sa han.

Avslutningsvis oppfordret han deltakerne til å laste ned modellene, teste dem i egne utviklingsmiljøer og gi tilbakemeldinger.

– Vi trenger tilbakemelding fra dere. Sammen skal vi finne ut hvordan vi kan bruke dette, sa Østgulen.

Anbefalinger:

Ta i bruk norske språkmodeller aktivt
Offentlig sektor og næringsliv bør laste ned, teste og bruke Nasjonalbibliotekets modeller i egne utviklingsmiljøer.
Bygg KI-løsninger på norsk språk og kultur
Virksomheter bør velge modeller som forstår norsk, samisk, norske samfunnsforhold og norske begreper når løsningene skal brukes i Norge.
Bruk norske modeller som supplement til globale modeller
Norske språkmodeller skal ikke nødvendigvis erstatte de store internasjonale modellene, men gi mer kontroll, bedre lokal tilpasning og større robusthet.
Styrk digital suverenitet gjennom egne grunnmodeller
Norge bør videreutvikle nasjonale språkmodeller som kan kjøres på egne plattformer, også uten internettilgang og i sikkerhetsgraderte miljøer.
Utnytt Nasjonalbibliotekets unike datagrunnlag
Den digitaliserte norske kulturarven bør brukes strategisk som treningsgrunnlag for modeller som bedre forstår norsk språk, historie og samfunn.
Sikre ryddige rettighetsavtaler
Videre utvikling av språkmodeller bør bygge på kollektive lisensavtaler og kompensasjon til rettighetshavere, ikke på uavklarte datafangstmodeller.
Test modellene i reelle brukssituasjoner
Virksomheter bør evaluere norske språkmodeller i egne tjenester, fagsystemer, RAG-løsninger og brukergrensesnitt før de skaleres.
Bygg funksjonalitet på toppen av grunnmodellene
Offentlig og privat sektor må selv koble modellene til egne data, regelverk, saksbehandlingssystemer og arbeidsprosesser.
Utvikle samiske språkmodeller videre
Norge bør prioritere tilgang til samiske data og tett samarbeid med samiske miljøer for å sikre at KI også styrker samisk språk og kultur.
Gi tilbakemeldinger til Nasjonalbiblioteket
Brukere av modellene bør dele erfaringer, feil, behov og forbedringsforslag, slik at modellene kan videreutvikles som felles KI-infrastruktur for Norge.

Digitaliseringskonferansen 2026, 16.-17.j uni: Balansekunst

Verden står i et radikalt skifte drevet frem av kunstig intelligens. Med kloke valg kan Norge sikre digital suverenitet og verne om våre demokratiske verdier. Som et lite land med høye KI-ambisjoner går vi på en stram line. Vi må finne balansen mellom å handle raskt og klokt, samtidig som vi må samarbeide tett og prioritere skarpt for å lykkes.

Kilde: digdir.no

Om artikkelen

Transkripsjon fra tale til tekst med JoJo / NB Whisper
Råfil bearbeidet med en språkmodell
Endelig tekst utarbeidet av Torbjørn Vinje