Vi bruker informasjonskapsler for analyse og markedsføring. Les mer
Tilbake til Lab
AI LabApril 2026 · 10 min

Mindre modell, bedre resultat: Slik bygde vi NorskGemma4-31B

83,6% på NorEval, den høyeste publiserte scoren for en norsk modell.

Vi hadde knapt rukket å publisere m51Lab-NorskMistral-119B, #1 på NorEval med 76.8%, før Google slapp Gemma 4. En ny generasjon modeller med støtte for 140+ språk allerede fra start.

Les om NorskMistral-119B: Slik bygde vi Norges beste open-source AI

Vi måtte teste.

m51Lab-NorskGemma4-31B scorer 83.6% på NorEval. Det er 6.8 prosentpoeng over vår egen Mistral-modell og nesten 11pp over den tidligere beste publiserte modellen. Med 4x færre parametere og en fjerdedel av treningsdataene.

Hør AI-podcasten om denne artikkelen

Bakgrunn: NorEval og utgangspunktet

NorEval er den norske standarden for evaluering av språkmodeller, utviklet av Universitetet i Oslo og publisert ved ACL 2025. Benchmarken dekker 24 datasett fordelt på 9 kategorier, fra commonsense-resonnering og faktakunnskap til truthfulness og leseforståelse. Den tester både bokmål og nynorsk.

Vår Mistral-modell hadde nettopp satt ny rekord med 76.8% snitt, opp fra NorMistral-11B-thinkings 73.1%. Med Gemma 4 på bordet var spørsmålet: kan vi gjøre det igjen, med en mye mindre modell?

Vi testet tre Gemma 4-varianter. To av dem feilet.

Tre forsøk, to blindveier

E4B (4B dense): For liten

Den minste varianten hadde rett og slett ikke kapasitet. SFT ga -8.7 prosentpoeng. Modellen mistet logikk og resonnering i forsøket på å lære mer norsk. Vi prøvde to ganger med ulike konfigurasjoner. Catastrophic forgetting begge gangene. En 4B-modell kan ikke absorbere et nytt språkdomene uten å miste det den allerede kan.

26B MoE: Delvis beskyttet, men ikke nok

MoE-varianten var lovende. Ekspert-vektene (22.84B av parameterne) forble automatisk frosne, da standard LoRA kan ikke target 3D-parametertensorer. Kun 0.23% av modellen ble modifisert.

Det holdt ikke. SFT ga -4.2 prosentpoeng. Bedre enn E4B, men fortsatt negativt. Attention-lagene, de eneste LoRA faktisk modifiserer, viste seg å være kritiske for truthfulness. Modellen mistet 10 prosentpoeng på NorTruthfulQA. Å endre hvordan modellen tenker er farligere enn å endre hva den vet.

31B Dense: Gjennombruddet

Så testet vi den dense 31B-varianten, alle 31 milliarder parametere aktive hele tiden. Vi byttet strategi fullstendig: PiSSA-initialisering i stedet for random LoRA, kirurgisk lag-seleksjon, og et minimalt datasett.

Resultatet: 83.6% snitt på NorEval. Ingen kapasitet skadet. Første gang SFT faktisk hjalp.

Tilnærmingen: Kirurgisk presisjon

Etter fem mislykkede forsøk på tvers av tre modeller hadde vi et klart bilde av hva som ikke fungerer. Den vellykkede tilnærmingen var bygget på tre innsikter:

PiSSA-initialisering. Standard LoRA starter trening fra tilfeldige retninger i vektrommet. PiSSA (Principal Singular values and Singular vectors Adaptation) bruker SVD-dekomponering for å starte fra de viktigste retningene i modellens eksisterende vekter. Forskjellen er dramatisk: i stedet for å overskrive kunnskap, foredler du den.

Lag-selektiv trening. Gemma 4 31B har 60 lag: 50 sliding attention-lag og 10 globale attention-lag. De globale lagene håndterer langtrekksresonnering og truthfulness. Vi frøs dem helt og trente kun de 50 sliding-lagene, og kun q_proj og v_proj. Totalt 9.2 millioner trenbare parametere, 0.03% av modellen.

Kvalitet over kvantitet. 3.230 kuraterte eksempler slo 96.804 brede eksempler. Nøkkelen var komposisjonen: 67% bokmål, 31% nynorsk, 2% engelsk anti-forgetting, og, kritisk, 0% oversettelsesdata. I de mislykkede forsøkene utgjorde BM→NN-oversettelse 44% av dataene og overskrev resonneringsevne.

Modell: Google Gemma 4 31B Dense (50 sliding + 10 globale lag)
Adapter: PiSSA r=8, alpha=16 (q_proj + v_proj, kun sliding lag)
Trenbare params: 9.2M (0.03% av 31.3B)
Treningsdata: 3.230 kuraterte eksempler
Hardware: 2x NVIDIA H100 80 GB
LR: 5e-6, NEFTune alpha 5, weight decay 0.01

Resultatene

OppgaveNorskGemma4-31BNorskMistral-119BNorEval beste*
Commonsense BM85.4%75.7%72.2%
Commonsense NN73.7%63.2%52.6%
Open-book QA BM96.5%95.7%87.4%
Open-book QA NN94.4%93.3%88.9%
Truthfulness BM85.7%77.9%74.6%
Truthfulness NN93.0%82.5%73.7%
Norsk kunnskap BM70.9%66.5%63.7%
Norsk kunnskap NN69.6%65.1%71.9%
Gjennomsnitt83.6%76.8%73.1%

*Beste publiserte modell i NorEval-paperen (UiO, ACL 2025)

NorskGemma4 slår NorskMistral på alle 8 oppgaver. De største marginene er på truthfulness (+10-11pp) og commonsense-resonnering (+10pp). Modellen er eksepsjonelt sterk på nynorsk. 93.0% på truthfulness er det høyeste resultatet i hele benchmarken.

Kontaminasjonssjekk

Vi verifiserte formelt at treningsdataene ikke overlapper med NorEval test-sett. 6.445 treningssegmenter ble sjekket mot 18.124 test-tekster fra alle 8 oppgaver, med tre metoder: eksakt matching, substring-matching og karakter-nivå n-gram-overlapp (50-gram og 30-gram).

Resultatet: null kontaminering. Ingen eksakte treff, ingen substring-treff, ingen mistenkelige n-gram-overlapp. Benchmark-resultatene reflekterer modellens reelle kapasitet.

Hva fungerte og hva fungerte ikke

Fungerte

  • PiSSA-initialisering: SVD-basert LoRA-init bevarte kunnskap der random init ødela den.
  • Lag-selektiv trening: å fryse de 10 globale attention-lagene beskyttet truthfulness og langtrekksresonnering.
  • Minimalt, kurert datasett: 3.230 eksempler med riktig komposisjon slo 96.804 brede eksempler.
  • Multi-prompt evaluering: å teste 5 prompt-varianter per oppgave forhindrer at én dårlig formulering gir misvisende resultater.
  • NEFTune noise-regularisering: alpha=5 ga jevnere generalisering uten overfitting.

Fungerte ikke

  • SFT på små modeller (E4B 4B): catastrophic forgetting uansett konfigurasjon. Modellen hadde ikke plass.
  • SFT på MoE attention-lag (26B): selv med frosne eksperter kollapset truthfulness. Attention-endringer er for risikable.
  • Preference-optimalisering (IPO/DPO): null effekt med syntetisk preference-data. Ekte menneskelige preferanser er trolig nødvendig.
  • Store oversettelsesdatasett: 44% BM→NN-oversettelse overskrev resonneringsevne. 0% fungerte bedre.

Hva vi lærte

1. Moderne modeller kan allerede norsk. Googles multilingvale trening på 140+ språk betyr at Gemma 4 allerede forstår norsk godt. Jobben vår var å foredle, ikke lære. Det endrer hele tilnærmingen: minimal intervensjon med kirurgisk presisjon, ikke massiv omskolering.

2. Mindre data, bedre resultater. 3.230 kuraterte eksempler slo 96.804 brede eksempler. Komposisjon og kvalitet trumfer volum. Spesielt destruktivt var oversettelsesdata, som overskrev modellens resonneringsevne.

3. Arkitektur bestemmer treningsstrategien. Dense-modeller responderte på kirurgisk SFT. MoE-modellenes delte attention-lag var for skjøre. 4B-modellen var rett og slett for liten. Hver arkitektur krever sin egen tilnærming. Det finnes ingen universell oppskrift.

4. Tilgjengelighet er en feature. I Q4_K_M-kvantisering veier modellen 18 GB, nok til å kjøre på en MacBook Pro med 32 GB RAM, eller en enkelt gaming-GPU. En modell ingen kan kjøre er en modell ingen bruker.

Prøv modellen selv

m51Lab-NorskGemma4-31B er open source under Apache 2.0-lisens. Last ned og kjør den lokalt med Ollama, LM Studio eller llama.cpp.

Full modell: m51Lab-NorskGemma4-31B på HuggingFace

GGUF (lokal bruk): m51Lab-NorskGemma4-31B-GGUF

Q4_K_M (18 GB) anbefales for de fleste. Q8_0 (31 GB) for høyere kvalitet.

Om m51

m51.ai bygger AI-løsninger for norske virksomheter. NorskGemma4 og NorskMistral viser hva et lite, fokusert team kan oppnå med riktig tilnærming og moderne verktøy. Den samme kompetansen ligger bak M51 AI OS, plattformen som gir markedsføringsteam og byråer tilgang til spesialiserte AI-agenter for innholdsproduksjon, SEO, annonsering og kampanjeoptimalisering.

Har du et AI-prosjekt du vil diskutere? Ta kontakt på [email protected].

Book demo

Tekniske detaljer, fullstendig build-log og alle treningsscripts finnes i prosjektets GitHub-repository.

Vil du se hvordan modellene presterer på ekte norske bedriftsspørsmål?

Les markedstesten: Kan norsktrente AI-modeller konkurrere med GPT og Gemini?

Relatert forskning: Vi pruned MiniMax-M2.7, første offentlige REAP-variant

NorskutvikletGDPR-compliantClaude Opus 4.6
Personvern