Vi bygde Norges beste open-source språkmodeller. m51Lab-NorskMistral-119B topper NorEval-benchmarken på 7 av 8 oppgaver. m51Lab-NorskGemma4-31B scorer 83,6%, høyere enn noen publisert norsk modell.
Men vet de noe om norske bedrifter?
Vi tok begge modellene og satte dem opp mot GPT 5.4, Claude Opus 4.6 og Gemini 3.1 Pro, på de samme 66 spørsmålene om det norske markedet som vi brukte i del 1 av denne serien. Uten internett. Uten verktøy. Kun basert på hva modellene har lært.
Les del 1: Hvor godt kjenner AI det norske markedet?
Resultatene overrasket oss.
Bakgrunn: To modeller, to tilnærminger
I april 2026 lanserte m51.ai Lab to open-source språkmodeller trent spesifikt for norsk:
m51Lab-NorskMistral-119B er basert på Mistral Small 4, en Mixture-of-Experts-modell med 119 milliarder parametere (6 milliarder aktive per token). Finjustert med LoRA på 13 375 norske eksempler fordelt over 7 NVIDIA H100-GPUer. Scorer 76,8% gjennomsnitt på NorEval og slår alle publiserte modeller på 7 av 8 oppgaver.
Les hele historien: Slik bygde vi Norges beste open-source AI
m51Lab-NorskGemma4-31B er basert på Googles Gemma 4 31B-it, en tett (dense) modell med 31 milliarder parametere. Finjustert med PiSSA og kirurgisk LoRA på kun 3 230 nøye kuraterte norske eksempler, på 2 H100-GPUer. Scorer 83,6% på NorEval, den høyeste publiserte scoren for en norsk modell.
Les hele historien: Mindre modell, bedre resultat. NorskGemma4-31B
Begge er open source under Apache 2.0-lisens.
Spørsmålet vi ville besvare: Betyr god score på akademiske benchmarks at modellene faktisk forstår det norske næringslivet?
Slik testet vi
Samme metode som i del 1: 66 spørsmål delt i to tester.
Test 1: 41 generelle spørsmål om det norske markedet: store bedrifter, mellomstore selskaper, norske produkter, merkedager, markedsføringsbransjen og tre målrettede «hallusinasjonsfeller».
Test 2: 25 spørsmål om ekte norske bedrifter fra en reell kundeliste. Fra Tufte Wear til Accountflow. Ingen hint til verifikatoren.
Alle svar ble verifisert av Claude Opus 4.6 med web-søk og scoret fra 0 (helt feil) til 3 (helt korrekt). Alle fem modeller fikk identisk system-prompt og temperature 0.
Resultatene: Totalbildet
| Modell | Snitt | Prosent | Hallusinasjoner |
|---|---|---|---|
| GPT 5.4 | 2.11/3 | 70% | 1 |
| Claude Opus 4.6 | 1.91/3 | 64% | 13 |
| Gemini 3.1 Pro | 1.88/3 | 63% | 0 |
| NorskGemma4 31B | 1.50/3 | 50% | 7 |
| Norsk Mistral 119B | 0.79/3 | 26% | 51 |
Totalbildet er tydelig: de kommersielle modellene er klart bedre på markedskunnskap. Men tallene skjuler en mer nyansert historie.
Test 1: Generelle spørsmål. Gemma overrasker
På de 41 generelle spørsmålene, ting som Equinor, Vipps og 17. mai, skjer noe interessant:
| Modell | Snitt | Prosent | Hallusinasjoner |
|---|---|---|---|
| GPT 5.4 | 2.27/3 | 76% | 0 |
| Claude Opus 4.6 | 2.07/3 | 69% | 9 |
| NorskGemma4 31B | 1.88/3 | 62% | 5 |
| Gemini 3.1 Pro | 1.78/3 | 59% | 0 |
| Norsk Mistral 119B | 1.12/3 | 37% | 27 |
NorskGemma4 slår Gemini 3.1 Pro. En 31B open-source modell finjustert på 3 230 eksempler scorer høyere på norsk markedskunnskap enn Googles flaggskipmodell.
Hvor Gemma briljerer
| Kategori | GPT 5.4 | Claude | Gemini | Gemma | Mistral |
|---|---|---|---|---|---|
| Store bedrifter | 2.3 | 2.4 | 1.9 | 2.1 | 1.4 |
| Mellomstore | 2.5 | 2.2 | 2.0 | 2.2 | 1.5 |
| Produkter & merker | 2.2 | 1.8 | 1.5 | 2.2 | 1.2 |
| Merkedager & kultur | 2.5 | 2.3 | 1.7 | 2.3 | 1.7 |
| Markedsføring | 2.4 | 2.2 | 1.8 | 1.4 | 0.6 |
| Egne spørsmål | 1.3 | 0.7 | 1.3 | 1.0 | 0.3 |
Gemma matcher eller slår Gemini i fem av seks kategorier. På norske produkter og merkedager scorer den på nivå med Claude. Det er en bemerkelsesverdig prestasjon for en modell med en brøkdel av parametrene og treningsdataene til de kommersielle alternativene.
Her er et eksempel, spørsmålet «Hvordan feires 17. mai i Norge?»:
NorskGemma4 31B (score 3/3): «17. mai, Norges grunnlovsdag, feires med en kombinasjon av offisielle seremonier og folkelige tradisjoner. (...) Barnetog er kjernen i feiringen, lange tog av skolebarn som marsjerer gjennom byens gater. (...) Bunad, Norges tradisjonelle folkedrakt, er det foretrukne antrekket.»
Korrekt, detaljert og nyansert. Full score.
Test 2: Ekte bedrifter. Alle kollapser
Så kom bedriftstesten. Og her bryter bildet sammen.
| Modell | Snitt | Prosent | Hallusinasjoner |
|---|---|---|---|
| Gemini 3.1 Pro | 2.04/3 | 68% | 0 |
| GPT 5.4 | 1.84/3 | 61% | 1 |
| Claude Opus 4.6 | 1.64/3 | 55% | 4 |
| NorskGemma4 31B | 0.56/3 | 19% | 2 |
| Norsk Mistral 119B | 0.24/3 | 8% | 24 |
NorskGemma4 faller fra 62% til 19%. Norsk Mistral faller fra 37% til 8%.
Fallet fra generell til spesifikk kunnskap
| Modell | Generell test | Kundetest | Endring |
|---|---|---|---|
| Gemini 3.1 Pro | 59% | 68% | +9 pp |
| GPT 5.4 | 76% | 61% | -15 pp |
| Claude Opus 4.6 | 69% | 55% | -14 pp |
| NorskGemma4 31B | 62% | 19% | -43 pp |
| Norsk Mistral 119B | 37% | 8% | -29 pp |
De open-source modellene faller dramatisk mer enn de kommersielle. Gemma taper 43 prosentpoeng. Det er et fundamentalt gap, ikke en gradvis nedgang.
Forklaringen er enkel: de kommersielle modellene er trent på enorme mengder webdata som inkluderer bedriftsregistre, nyhetsartikler og bransjeoversikter. Våre modeller ble finjustert for norsk språkforståelse, ikke for bedriftskunnskap.
Hallusinering: Når modellen finner opp virkeligheten
Norsk Mistral 119B hallusinerte i 51 av 66 svar. 77% av alle svar inneholdt oppdiktet informasjon. På bedriftstesten var tallet 24 av 25, hele 96%.
Her er noen eksempler som illustrerer mønsteret:
Swims → badetøy
Spørsmål: Hva er Swims AS, og hva er de kjent for?
Norsk Mistral (score 0/3): «Swims AS er et norsk selskap som er kjent for å produsere og selge badetøy for menn. Selskapet ble grunnlagt i 2010 og har sitt hovedkontor i Oslo.»
Helt feil. Swims lager moderne kalosjer (overshoe), ikke badetøy. Navnet «Swims» har tilsynelatende trigget en assosiasjon til «swimwear» i modellens trening.
Drytech → byggtørking
Spørsmål: Hva er Drytech AS?
Norsk Mistral (score 0/3): «Drytech AS er et norsk selskap som spesialiserer seg på tørketeknikk og tørking av bygninger.»
Drytech lager frysetørket turmat (REAL Turmat). Modellen tolket «Dry» + «tech» som tørketeknikk, og konstruerte en hel bedriftsbeskrivelse basert på denne feiltolkningen.
M51 → funksjonalistisk arkitektur
Spørsmål: Hva vet du om M51 i Oslo?
Norsk Mistral (score 0/3): «M51 er en av Oslos mest kjente bygninger. Den ligger i Munkedamsveien 51 og er et av de få eksemplene på norsk funksjonalisme fra mellomkrigstiden. Bygningen ble tegnet av arkitekt Georg Greve i 1936.»
Fullstendig oppdiktet. M51 er et digitalt markedsføringsbyrå (m51.ai). Modellen har konstruert en detaljert arkitekturhistorie ved å kombinere adresseformatet «M51» med «Munkedamsveien 51», en kobling som ikke eksisterer.
Restaurant Kontrast → feil kokk, feil adresse, feil årstall
Norsk Mistral (score 1/3): «Restaurant Kontrast ble etablert i 2010 av Eyvind Hellstrøm og ligger i Akersgata. Interiøret er designet av Snøhetta.»
Nesten alt er feil. Kontrast ble åpnet i 2013, av Mikael Svensson, i Vulkan-området. Eyvind Hellstrøm driver Bagatelle. Modellen har byttet ut den faktiske kokken med en mer kjent norsk kokk, et klassisk hallusinasjonsmønster.
Mønsteret
Hallusinasjonene er ikke tilfeldige. De følger tre konsistente mønstre:
- Navneassosiasjon: Modellen tolker bedriftsnavnet bokstavelig (Swims → svømming, Drytech → tørking)
- Kjendissubstitusjon: Ukjente personer erstattes med kjente (Mikael Svensson → Eyvind Hellstrøm)
- Plausibel konstruksjon: Modellen bygger en overbevisende, men helt oppdiktet historie med årstall, adresser og detaljer
NorskGemma4 oppfører seg annerledes. Den hallusinerer sjeldnere (7 vs 51), og når den ikke vet svaret, sier den oftere «jeg vet ikke», en langt tryggere atferd.
Paradokset: NorEval vs. markedskunnskap
Her er det sentrale funnet: akademiske benchmarks måler ikke det bedrifter bryr seg om.
| Modell | NorEval | Markedstest (generell) | Markedstest (bedrifter) |
|---|---|---|---|
| NorskGemma4 31B | 83,6% | 62% | 19% |
| Norsk Mistral 119B | 76,8% | 37% | 8% |
NorskGemma4 scorer 83,6% på NorEval, som måler norsk grammatikk, sunn fornuft, sannferdighet og generell kunnskap. Det er den høyeste publiserte scoren for en norsk modell. Men på spørsmål om ekte norske bedrifter kollapser den til 19%.
NorEval måler språkforståelse. Markedstesten måler kunnskapsbredde. Det er to fundamentalt forskjellige ting.
Våre modeller er eksepsjonelt gode til å forstå norsk. De vet hva brunost er, hvordan 17. mai feires, og hva Equinor het tidligere. Men de vet ikke hva Swims lager, hvem som grunnla Restaurant Kontrast, eller hva Drytech driver med, fordi den informasjonen rett og slett ikke var i treningsdataene.
Hva betyr dette for GEO?
1. Selv spesialiserte norskmodeller trenger web-søk
Hvis modeller trent spesifikt for norsk ikke kjenner norske bedrifter, er det ingen modell som gjør det pålitelig uten verktøy. Alle modeller er avhengige av web-søk for bedriftsspesifikk kunnskap. GEO-synlighet er ikke valgfritt.
2. Hallusinasjonsfaren er reell, og forsterkes av open-source
Norsk Mistral hallusinerte i 77% av svarene. I en verden der open-source modeller brukes i stadig flere applikasjoner som chatbots, kundestøtte og interne systemer, betyr dette at bedrifter kan bli feilrepresentert i stor skala, uten at brukeren vet det.
3. Språkforståelse ≠ markedskunnskap
En modell som scorer 83,6% på NorEval kan fortsatt score 19% på ekte bedriftsspørsmål. Ikke la akademiske benchmarks gi falsk trygghet. Test modellen på det du faktisk trenger den til.
4. Gemma viser at open-source har potensial
NorskGemma4 slo Gemini på generelle spørsmål. Den er ærligere enn Mistral (sier «vet ikke» i stedet for å hallusinere). Med riktig data, for eksempel strukturert bedriftsinformasjon via llms.txt, kan open-source modeller bli sterke alternativer for norsk markedskunnskap.
5. Det du legger på nett er det AI finner
Ingen modell, kommersiell eller open-source, hadde pålitelig kunnskap om norske nisje-bedrifter. Forskjellen er at kommersielle modeller med web-søk kan finne det hvis det eksisterer. Sørg for at bedriften din er synlig, korrekt beskrevet og godt strukturert der AI-modeller søker.
Oppsummering
| Kommersielle | NorskGemma4 | Norsk Mistral | |
|---|---|---|---|
| Generell norsk kunnskap | God (59-76%) | Overraskende god (62%) | Svak (37%) |
| Bedriftskunnskap | Middels (55-68%) | Svak (19%) | Kollapser (8%) |
| Hallusinering | Lav-middels | Lav | Svært høy |
| NorEval | Ikke testet | 83,6% (best) | 76,8% (nest best) |
| Ærlig ved uvitenhet | Varierer | Ja, ofte | Nei, dikter opp |
NorskGemma4 er en imponerende modell for norsk språkforståelse, og den overgår Gemini på generelle spørsmål om Norge. Men for bedriftsspesifikk kunnskap er den, som alle modeller uten web-søk, utilstrekkelig.
Norsk Mistral 119B, til tross for toppscoren på NorEval, har et alvorlig hallusinasjonsproblem som gjør den upålitelig for faktabaserte spørsmål om norsk næringsliv.
Konklusjonen er den samme som i del 1, men sterkere: Uansett hvilken modell brukerne dine bruker, kommersiell eller open-source, er det hva de finner på nettet om deg som avgjør svaret de får.
GEO er ikke en teknisk kuriositet. Det er en nødvendighet.
Det er denne innsikten som driver utviklingen av M51 AI OS, plattformen der spesialiserte AI-agenter gjør GEO og SEO til en integrert del av markedsføringsarbeidet. Agentene forstår begrensningene vi avdekket i denne testen og kompenserer med kontekst fra kundens egne data, sanntids webinformasjon og dyp kunnskap om norsk næringsliv.
Metodikk
- Modeller: GPT 5.4 (OpenAI), Claude Opus 4.6 (Anthropic), Gemini 3.1 Pro (Google), m51Lab-NorskMistral-119B (m51.ai Lab), m51Lab-NorskGemma4-31B (m51.ai Lab)
- Open-source modeller ble kjørt via Ollama og llama-server på NVIDIA H100 80GB GPU via RunPod, med GGUF Q4_K_M-kvantisering
- 66 spørsmål delt i 41 generelle + 25 bedriftsspesifikke
- Verifisering: Claude Opus 4.6 med web-søk, scoring 0-3
- Temperature: 0 for alle modeller
- System-prompt: Identisk for alle, kun egen kunnskap, ingen verktøy
- NorskGemma4 besvarte 56 av 66 spørsmål (9 kundetestspørsmål mangler pga. avbrutt kjøring)
- Begrensning: Verifikatoren er selv en AI-modell og kan ha systematiske feil. Et utvalg svar ble kontrollert manuelt.
Begge open-source modeller er tilgjengelige på HuggingFace under Apache 2.0-lisens.
Last ned NorskMistral-119B fra HuggingFace
Last ned NorskGemma4-31B fra HuggingFace
Testet utført april 2026 av m51.ai Lab.
Denne artikkelen er del 2 av GEO-serien fra m51.ai Lab, der vi undersøker hvordan generativ AI påvirker synlighet, markedsføring og forretning i Norge.
Les del 1: Hvor godt kjenner AI det norske markedet?
Relatert forskning: Vi pruned MiniMax-M2.7, første offentlige REAP-variant