Produsent: Torbjørn Vinje


 

Kraftigere modeller, større usikkerhet

Michael Riegler åpnet foredraget med å vise til hvor raskt KI-modeller nå utvikler seg. De presterer stadig bedre på områder som programvareutvikling, matematikk og biologi. Samtidig kommer det stadig nye eksempler på usikkerhet, maktforskyvning og begrenset tilgang til avanserte modeller.

 

Han viste blant annet til diskusjonene rundt Project Glasswing, Anthropics Mythos-modell og hendelsene der brukere plutselig mistet tilgang til en nedskalert modell.

 

– Det er masse ting som skjer hele tiden, og så vet en ikke hva en skal stole på, sa Riegler.

 

Spørsmålet er derfor ikke bare hva modellene kan gjøre, men om vi faktisk kan stole på dem når de brukes i praksis.

 

Et system er mer enn én modell

Riegler understreket at dagens KI-systemer ofte er langt mer komplekse enn én enkelt modell. De består av flere komponenter som virker sammen, med sikkerhetsmekanismer, støttefunksjoner og ulike former for styring rundt modellen.

 

– De KI-systemene vi har i dag, er ikke bare en modell lenger. Det er et veldig komplekst system, sa han.

 

Det betyr at en forbedring i et system ikke nødvendigvis skyldes at selve modellen er blitt bedre. Det kan også skyldes at man har bygget inn bedre rekkverk, filtre eller andre mekanismer. Dermed blir det vanskeligere å vite hva systemet faktisk gjør, og hvorfor det gjør det.

 


Artikkelen fortsetter etter annonsen:

 

Service- og tjenestekonferansen 2026, 05.-06.11.: Det skal være enkelt å møte det offentlige!

 


 

 

Standardtester gir ikke hele bildet

Riegler advarte mot å stole for mye på generelle benchmarker. Slike tester kan gi inntrykk av at en modell er svært god, men sier ikke nødvendigvis noe om hvordan den fungerer i en norsk kontekst, i en bestemt tjeneste eller overfor en bestemt brukergruppe.

 

– Når de lanserer en modell, sier de: Nå er vår den mest intelligente modellen i hele verden. Hva det betyr, vet ingen så riktig, sa han.

 

Han sammenlignet det med å evaluere en medarbeider bare basert på de to siste ukene – og tilfeldigvis var medarbeideren på ferie i perioden. Testgrunnlaget kan være for snevert til å gi et riktig bilde.

 

Kritiske feil i helserådgivning

For å vise hva evaluering betyr i praksis, trakk Riegler fram et prosjekt gjort sammen med Helse-IKT-miljøer. Systemet skulle gi råd til ungdom om seksuell helse.

 

I de første testene fant de kritiske feil i 51 prosent av tilfellene. Ytterligere 45 prosent inneholdt alvorlige feil, selv om de var mindre kritiske. Bare en liten andel gikk gjennom uten vesentlige problemer.

 

– Som system vil du kanskje si: OK, det kan vi ikke ta i bruk, sa Riegler.

 

Men gjennom kontinuerlig samarbeid mellom testing og forbedring ble systemet betydelig bedre. Etter hvert kunne 55 prosent gå gjennom testene. Det var fortsatt feil, men nivået var redusert til et punkt der systemet kunne vurderes som mer forsvarlig.

 

– KI-system har aldri gitt null feil, det vet vi, men det er mye bedre, sa han.

 

Test i norsk og lokal kontekst

Riegler mente den viktigste lærdommen er at virksomheter må lage egne tester. Det holder ikke å lene seg på tall fra modellleverandører eller internasjonale benchmarker.

 

– Da må du lage dine egne tester, det er veldig viktig, sa han.

 

Han understreket at testing ofte må ned på det han kalte hyperkontekst: en bestemt kommune, et direktorat, en tjeneste, et språk eller en brukergruppe. Først da kan man vite om systemet fungerer i den virkeligheten det faktisk skal brukes i.

 

– Spør alltid først om den har blitt testa på vår bruker, om den har blitt testa på vår kontekst, har den blitt testa på vårt språk, sa Riegler.

 

Norske modeller kan gi mer kontroll

Riegler viste også til tester med Nasjonalbibliotekets språkmodell. Ifølge ham kan norske modeller, bygget på norske data og verdier, i noen tilfeller ha ferdigheter som nærmer seg de store internasjonale modellene.

 

Fordelen er ikke bare ytelse, men også kontroll, innsikt og påvirkningsmulighet.

 

– Da har man plutselig mer kontroll, mer innsikt, kan påvirke mer hvordan det blir felt opp, sa han.

 

Han pekte også på at norske institusjoner gir en annen type forutsigbarhet enn globale teknologiselskaper.

 

– Jeg tror det er ganske liten sjanse for at Nasjonalbiblioteket sier: Nå kan dere ikke bruke våre modeller lenger, sa Riegler.

 


Artikkelen fortsetter etter annonsen:

 

Service- og tjenestekonferansen 2026 - spor A, 05.11.: Digital inkludering i praksis – tiltak, samarbeid og effekt

 


 

Evaluering er ikke en brems

Et hovedpoeng i foredraget var at evaluering ikke bør ses som noe som bremser innovasjon. Tvert imot kan god evaluering gjøre innovasjon tryggere og raskere.

 

– Evaluering kan gjøre innovasjon mer trygg, og så raskere, sa han.

 

Han sammenlignet evaluering med ratt og styring, ikke med brems. Når man vet hvor man kjører, kan man justere kursen underveis. Hvis testing bygges inn fra starten av et prosjekt, blir det også lettere å bytte modell eller endre komponenter senere.

 

– Det gjør det også mye mer fleksibelt i etterkant, sa han.

 

Norge må bygge evalueringskompetanse

Riegler avsluttet med å understreke at Norge må bygge egen kompetanse på evaluering av KI-systemer. Modeller, teknologi og kunnskap kan importeres, men tillit må bygges nasjonalt og lokalt.

 

– Vi kan kanskje importere modeller, vi kan importere masse kunnskap og mennesker, men vi kan ikke importere tillit, sa Riegler.

 

Han advarte om at tilliten til KI kan gå tapt dersom systemer tas i bruk før de er godt nok testet, særlig i kritiske områder som helse og offentlig sektor.

 

– Hvis vi har tapt denne tilliten, er det vanskelig å få den tilbake, sa han.

 

Budskapet var derfor tydelig: Trygg KI-bruk krever ikke bare gode modeller, men gode evalueringssystemer, lokal kompetanse og kontinuerlig testing i den virkeligheten teknologien faktisk skal brukes i.

 


 

 

Anbefalinger:

  1. Evaluer KI i egen kontekst
    Ikke stol blindt på generelle tester fra leverandører. KI-systemer må testes på egne brukere, eget språk, egne tjenester og egne risikosituasjoner.
  2. Bygg testing inn fra starten
    Evaluering bør være en del av prosjektet fra første dag, ikke noe som legges på rett før lansering.
  3. Se evaluering som styring, ikke brems
    God testing gjør det lettere å innovere trygt og raskt, fordi virksomheten vet hva som fungerer, hva som feiler og hvor grensene går.
  4. Test hele KI-systemet, ikke bare modellen
    Dagens KI-løsninger består ofte av modeller, grensesnitt, sikkerhetsmekanismer, datakilder og arbeidsprosesser. Hele systemet må vurderes samlet.
  5. Lag egne testsett for kritiske tjenester
    Helse, velferd, forvaltning og andre samfunnskritiske områder trenger realistiske scenarioer som speiler faktisk bruk.
  6. Gjennomfør kontinuerlig testing og forbedring
    KI-systemer bør evalueres løpende, slik at feil avdekkes, rettes og testes på nytt før løsningen skaleres.
  7. Vær særlig varsom med sårbare brukergrupper
    Der KI brukes overfor barn, unge, pasienter eller andre sårbare grupper, må kravene til kvalitet, sikkerhet og oppfølging være ekstra høye.
  8. Bygg norsk evalueringskompetanse
    Norge må utvikle egne fagmiljøer, metoder og standarder for å vurdere om KI-systemer er trygge nok i norsk sammenheng.
  9. Bruk norske modeller der det gir mer kontroll
    Norske eller europeiske modeller kan gi bedre innsikt, påvirkningsmulighet og forutsigbarhet enn globale modeller i enkelte bruksområder.
  10. Beskytt tilliten før den går tapt
    Tillit til KI må bygges gjennom åpenhet, dokumentert testing og ansvarlig bruk. Når tilliten først er svekket, er den vanskelig å vinne tilbake.

 


 

Digitaliseringskonferansen 2026, 16.-17. juni: Balansekunst

Verden står i et radikalt skifte drevet frem av kunstig intelligens. Med kloke valg kan Norge sikre digital suverenitet og verne om våre demokratiske verdier. Som et lite land med høye KI-ambisjoner går vi på en stram line. Vi må finne balansen mellom å handle raskt og klokt, samtidig som vi må samarbeide tett og prioritere skarpt for å lykkes.

 

Kilde: digdir.no

 


 

Om artikkelen

  • Transkripsjon fra tale til tekst med JoJo / NB Whisper
  • Råfil bearbeidet med en språkmodell
  • Endelig tekst utarbeidet av Torbjørn Vinje