Et komplett AI-operativsystem for markedsføringsteam. 17 spesialiserte agenter som samarbeider med dine data og din merkevare, ikke en generisk chatbot.

Hvordan er dette forskjellig fra ChatGPT?

ChatGPT er en generell assistent. m51.ai har live tilkobling til GA4, Google Ads, Meta Ads og Search Console, kjenner din merkevare gjennom M51 Cortex (vår lærende intelligens-kjerne med sporbare påstander og kausalmodell), og kjører automatiserte workflows. Det er forskjellen på en assistent og et helt team.

Fra 2 450 kr/mnd med intropris de 3 første månedene (ordinær pris 4 900 kr/mnd). Pro koster 7 450 kr/mnd (ordinær pris 14 900 kr/mnd) og gir tilgang til alle 17 agenter. Nye kunder får 50 % rabatt i 3 måneder.

Er dataene mine sikre?

GDPR-compliant, norskutviklet, dedikert infrastruktur. Dine data deles aldri. Du eier alt.

Trenger jeg teknisk kompetanse?

Nei. Du snakker med agentene på norsk. Onboarding tar 30 minutter. Vi kobler integrasjoner og setter opp M51 Cortex med merkevaredataene dine.

Vil innholdet høres ut som AI?

Nei. Hver agent jobber fra M51 Cortex, intelligens-kjernen som inneholder tone of voice, nøkkelbudskap, forbudte ord og kampanjehistorikk — sporbart til kilde og dato. Alt innhold tilpasses din merkevare. Du har alltid full kontroll til å redigere og godkjenne før noe publiseres.

Hva skjer hvis noe går galt?

Ingenting publiseres uten din godkjenning. Guardian-agenten kjører automatisk kvalitetskontroll på alle leveranser. Alle forslag går gjennom en godkjenningsflyt der du bestemmer hva som tas videre.

Hvem står bak m51.ai?

m51.ai er bygget av teamet bak M51 Marketing, et norsk performance-byrå med 9 års erfaring og over 300 kunder. Systemet er utviklet i Norge, kjører på norsk infrastruktur, og støttes av et dedikert team.

Er jeg bundet til en kontrakt?

Nei. m51.ai er månedlig fakturering uten bindingstid. Du kan oppgradere, nedgradere eller avslutte når du vil. Nye kunder får 50 % intropris-rabatt de 3 første månedene, uten krav om forlengelse.

Hva om jeg ikke bruker alle kanalene?

Du kobler bare til de plattformene du faktisk bruker. Kjører du bare Google Ads og GA4? Da jobber agentene med de dataene. Legger du til Meta Ads senere, er det bare å koble til. Systemet tilpasser seg ditt oppsett.

Hvor lang tid tar det før det er oppe og kjører?

Oppsett tar vanligvis 1–2 virkedager. Vi kobler integrasjonene dine, laster opp merkevaredata og fyller M51 Cortex med kontekst-laget agentene bruker. AI-agentene begynner å levere analyser og forslag fra dag én etter oppsett. Du trenger ikke sette av IT-ressurser.

GEO-serien, del 2

Kan norsktrente AI-modeller konkurrere med GPT og Gemini?

Vi testet våre egne open-source modeller mot de kommersielle gigantene. Resultatene overrasket oss.

m51.ai Lab

April 20268 min lesing

Vi bygde Norges beste open-source språkmodeller. m51Lab-NorskMistral-119B topper NorEval-benchmarken på 7 av 8 oppgaver. m51Lab-NorskGemma4-31B scorer 83,6%, høyere enn noen publisert norsk modell.

Men vet de noe om norske bedrifter?

Vi tok begge modellene og satte dem opp mot GPT 5.4, Claude Opus 4.6 og Gemini 3.1 Pro, på de samme 66 spørsmålene om det norske markedet som vi brukte i del 1 av denne serien. Uten internett. Uten verktøy. Kun basert på hva modellene har lært.

Les del 1: Hvor godt kjenner AI det norske markedet?

Resultatene overrasket oss.

Bakgrunn: To modeller, to tilnærminger

I april 2026 lanserte m51.ai Lab to open-source språkmodeller trent spesifikt for norsk:

m51Lab-NorskMistral-119B er basert på Mistral Small 4, en Mixture-of-Experts-modell med 119 milliarder parametere (6 milliarder aktive per token). Finjustert med LoRA på 13 375 norske eksempler fordelt over 7 NVIDIA H100-GPUer. Scorer 76,8% gjennomsnitt på NorEval og slår alle publiserte modeller på 7 av 8 oppgaver.

Les hele historien: Slik bygde vi Norges beste open-source AI

m51Lab-NorskGemma4-31B er basert på Googles Gemma 4 31B-it, en tett (dense) modell med 31 milliarder parametere. Finjustert med PiSSA og kirurgisk LoRA på kun 3 230 nøye kuraterte norske eksempler, på 2 H100-GPUer. Scorer 83,6% på NorEval, den høyeste publiserte scoren for en norsk modell.

Les hele historien: Mindre modell, bedre resultat. NorskGemma4-31B

Begge er open source under Apache 2.0-lisens.

Spørsmålet vi ville besvare: Betyr god score på akademiske benchmarks at modellene faktisk forstår det norske næringslivet?

Slik testet vi

Samme metode som i del 1: 66 spørsmål delt i to tester.

Test 1: 41 generelle spørsmål om det norske markedet: store bedrifter, mellomstore selskaper, norske produkter, merkedager, markedsføringsbransjen og tre målrettede «hallusinasjonsfeller».

Test 2: 25 spørsmål om ekte norske bedrifter fra en reell kundeliste. Fra Tufte Wear til Accountflow. Ingen hint til verifikatoren.

Alle svar ble verifisert av Claude Opus 4.6 med web-søk og scoret fra 0 (helt feil) til 3 (helt korrekt). Alle fem modeller fikk identisk system-prompt og temperature 0.

Resultatene: Totalbildet

Modell	Snitt	Prosent	Hallusinasjoner
GPT 5.4	2.11/3	70%	1
Claude Opus 4.6	1.91/3	64%	13
Gemini 3.1 Pro	1.88/3	63%	0
NorskGemma4 31B	1.50/3	50%	7
Norsk Mistral 119B	0.79/3	26%	51

Totalbildet er tydelig: de kommersielle modellene er klart bedre på markedskunnskap. Men tallene skjuler en mer nyansert historie.

Test 1: Generelle spørsmål. Gemma overrasker

På de 41 generelle spørsmålene, ting som Equinor, Vipps og 17. mai, skjer noe interessant:

Modell	Snitt	Prosent	Hallusinasjoner
GPT 5.4	2.27/3	76%	0
Claude Opus 4.6	2.07/3	69%	9
NorskGemma4 31B	1.88/3	62%	5
Gemini 3.1 Pro	1.78/3	59%	0
Norsk Mistral 119B	1.12/3	37%	27

NorskGemma4 slår Gemini 3.1 Pro. En 31B open-source modell finjustert på 3 230 eksempler scorer høyere på norsk markedskunnskap enn Googles flaggskipmodell.

Hvor Gemma briljerer

Kategori	GPT 5.4	Claude	Gemini	Gemma	Mistral
Store bedrifter	2.3	2.4	1.9	2.1	1.4
Mellomstore	2.5	2.2	2.0	2.2	1.5
Produkter & merker	2.2	1.8	1.5	2.2	1.2
Merkedager & kultur	2.5	2.3	1.7	2.3	1.7
Markedsføring	2.4	2.2	1.8	1.4	0.6
Egne spørsmål	1.3	0.7	1.3	1.0	0.3

Gemma matcher eller slår Gemini i fem av seks kategorier. På norske produkter og merkedager scorer den på nivå med Claude. Det er en bemerkelsesverdig prestasjon for en modell med en brøkdel av parametrene og treningsdataene til de kommersielle alternativene.

Her er et eksempel, spørsmålet «Hvordan feires 17. mai i Norge?»:

NorskGemma4 31B (score 3/3): «17. mai, Norges grunnlovsdag, feires med en kombinasjon av offisielle seremonier og folkelige tradisjoner. (...) Barnetog er kjernen i feiringen, lange tog av skolebarn som marsjerer gjennom byens gater. (...) Bunad, Norges tradisjonelle folkedrakt, er det foretrukne antrekket.»

Korrekt, detaljert og nyansert. Full score.

Test 2: Ekte bedrifter. Alle kollapser

Så kom bedriftstesten. Og her bryter bildet sammen.

Modell	Snitt	Prosent	Hallusinasjoner
Gemini 3.1 Pro	2.04/3	68%	0
GPT 5.4	1.84/3	61%	1
Claude Opus 4.6	1.64/3	55%	4
NorskGemma4 31B	0.56/3	19%	2
Norsk Mistral 119B	0.24/3	8%	24

NorskGemma4 faller fra 62% til 19%. Norsk Mistral faller fra 37% til 8%.

Fallet fra generell til spesifikk kunnskap

Modell	Generell test	Kundetest	Endring
Gemini 3.1 Pro	59%	68%	+9 pp
GPT 5.4	76%	61%	-15 pp
Claude Opus 4.6	69%	55%	-14 pp
NorskGemma4 31B	62%	19%	-43 pp
Norsk Mistral 119B	37%	8%	-29 pp

De open-source modellene faller dramatisk mer enn de kommersielle. Gemma taper 43 prosentpoeng. Det er et fundamentalt gap, ikke en gradvis nedgang.

Forklaringen er enkel: de kommersielle modellene er trent på enorme mengder webdata som inkluderer bedriftsregistre, nyhetsartikler og bransjeoversikter. Våre modeller ble finjustert for norsk språkforståelse, ikke for bedriftskunnskap.

Hallusinering: Når modellen finner opp virkeligheten

Norsk Mistral 119B hallusinerte i 51 av 66 svar. 77% av alle svar inneholdt oppdiktet informasjon. På bedriftstesten var tallet 24 av 25, hele 96%.

Her er noen eksempler som illustrerer mønsteret:

Swims → badetøy

Spørsmål: Hva er Swims AS, og hva er de kjent for?

Norsk Mistral (score 0/3): «Swims AS er et norsk selskap som er kjent for å produsere og selge badetøy for menn. Selskapet ble grunnlagt i 2010 og har sitt hovedkontor i Oslo.»

Helt feil. Swims lager moderne kalosjer (overshoe), ikke badetøy. Navnet «Swims» har tilsynelatende trigget en assosiasjon til «swimwear» i modellens trening.

Drytech → byggtørking

Spørsmål: Hva er Drytech AS?

Norsk Mistral (score 0/3): «Drytech AS er et norsk selskap som spesialiserer seg på tørketeknikk og tørking av bygninger.»

Drytech lager frysetørket turmat (REAL Turmat). Modellen tolket «Dry» + «tech» som tørketeknikk, og konstruerte en hel bedriftsbeskrivelse basert på denne feiltolkningen.

M51 → funksjonalistisk arkitektur

Spørsmål: Hva vet du om M51 i Oslo?

Norsk Mistral (score 0/3): «M51 er en av Oslos mest kjente bygninger. Den ligger i Munkedamsveien 51 og er et av de få eksemplene på norsk funksjonalisme fra mellomkrigstiden. Bygningen ble tegnet av arkitekt Georg Greve i 1936.»

Fullstendig oppdiktet. M51 er et digitalt markedsføringsbyrå (m51.ai). Modellen har konstruert en detaljert arkitekturhistorie ved å kombinere adresseformatet «M51» med «Munkedamsveien 51», en kobling som ikke eksisterer.

Restaurant Kontrast → feil kokk, feil adresse, feil årstall

Norsk Mistral (score 1/3): «Restaurant Kontrast ble etablert i 2010 av Eyvind Hellstrøm og ligger i Akersgata. Interiøret er designet av Snøhetta.»

Nesten alt er feil. Kontrast ble åpnet i 2013, av Mikael Svensson, i Vulkan-området. Eyvind Hellstrøm driver Bagatelle. Modellen har byttet ut den faktiske kokken med en mer kjent norsk kokk, et klassisk hallusinasjonsmønster.

Mønsteret

Hallusinasjonene er ikke tilfeldige. De følger tre konsistente mønstre:

Navneassosiasjon: Modellen tolker bedriftsnavnet bokstavelig (Swims → svømming, Drytech → tørking)
Kjendissubstitusjon: Ukjente personer erstattes med kjente (Mikael Svensson → Eyvind Hellstrøm)
Plausibel konstruksjon: Modellen bygger en overbevisende, men helt oppdiktet historie med årstall, adresser og detaljer

NorskGemma4 oppfører seg annerledes. Den hallusinerer sjeldnere (7 vs 51), og når den ikke vet svaret, sier den oftere «jeg vet ikke», en langt tryggere atferd.

Paradokset: NorEval vs. markedskunnskap

Her er det sentrale funnet: akademiske benchmarks måler ikke det bedrifter bryr seg om.

Modell	NorEval	Markedstest (generell)	Markedstest (bedrifter)
NorskGemma4 31B	83,6%	62%	19%
Norsk Mistral 119B	76,8%	37%	8%

NorskGemma4 scorer 83,6% på NorEval, som måler norsk grammatikk, sunn fornuft, sannferdighet og generell kunnskap. Det er den høyeste publiserte scoren for en norsk modell. Men på spørsmål om ekte norske bedrifter kollapser den til 19%.

NorEval måler språkforståelse. Markedstesten måler kunnskapsbredde. Det er to fundamentalt forskjellige ting.

Våre modeller er eksepsjonelt gode til å forstå norsk. De vet hva brunost er, hvordan 17. mai feires, og hva Equinor het tidligere. Men de vet ikke hva Swims lager, hvem som grunnla Restaurant Kontrast, eller hva Drytech driver med, fordi den informasjonen rett og slett ikke var i treningsdataene.

Hva betyr dette for GEO?

1. Selv spesialiserte norskmodeller trenger web-søk

Hvis modeller trent spesifikt for norsk ikke kjenner norske bedrifter, er det ingen modell som gjør det pålitelig uten verktøy. Alle modeller er avhengige av web-søk for bedriftsspesifikk kunnskap. GEO-synlighet er ikke valgfritt.

2. Hallusinasjonsfaren er reell, og forsterkes av open-source

Norsk Mistral hallusinerte i 77% av svarene. I en verden der open-source modeller brukes i stadig flere applikasjoner som chatbots, kundestøtte og interne systemer, betyr dette at bedrifter kan bli feilrepresentert i stor skala, uten at brukeren vet det.

3. Språkforståelse ≠ markedskunnskap

En modell som scorer 83,6% på NorEval kan fortsatt score 19% på ekte bedriftsspørsmål. Ikke la akademiske benchmarks gi falsk trygghet. Test modellen på det du faktisk trenger den til.

4. Gemma viser at open-source har potensial

NorskGemma4 slo Gemini på generelle spørsmål. Den er ærligere enn Mistral (sier «vet ikke» i stedet for å hallusinere). Med riktig data, for eksempel strukturert bedriftsinformasjon via llms.txt, kan open-source modeller bli sterke alternativer for norsk markedskunnskap.

5. Det du legger på nett er det AI finner

Ingen modell, kommersiell eller open-source, hadde pålitelig kunnskap om norske nisje-bedrifter. Forskjellen er at kommersielle modeller med web-søk kan finne det hvis det eksisterer. Sørg for at bedriften din er synlig, korrekt beskrevet og godt strukturert der AI-modeller søker.

Oppsummering

	Kommersielle	NorskGemma4	Norsk Mistral
Generell norsk kunnskap	God (59-76%)	Overraskende god (62%)	Svak (37%)
Bedriftskunnskap	Middels (55-68%)	Svak (19%)	Kollapser (8%)
Hallusinering	Lav-middels	Lav	Svært høy
NorEval	Ikke testet	83,6% (best)	76,8% (nest best)
Ærlig ved uvitenhet	Varierer	Ja, ofte	Nei, dikter opp

NorskGemma4 er en imponerende modell for norsk språkforståelse, og den overgår Gemini på generelle spørsmål om Norge. Men for bedriftsspesifikk kunnskap er den, som alle modeller uten web-søk, utilstrekkelig.

Norsk Mistral 119B, til tross for toppscoren på NorEval, har et alvorlig hallusinasjonsproblem som gjør den upålitelig for faktabaserte spørsmål om norsk næringsliv.

Konklusjonen er den samme som i del 1, men sterkere: Uansett hvilken modell brukerne dine bruker, kommersiell eller open-source, er det hva de finner på nettet om deg som avgjør svaret de får.

GEO er ikke en teknisk kuriositet. Det er en nødvendighet.

Det er denne innsikten som driver utviklingen av m51.ai, plattformen der spesialiserte AI-agenter gjør GEO og SEO til en integrert del av markedsføringsarbeidet. Agentene forstår begrensningene vi avdekket i denne testen og kompenserer med kontekst fra kundens egne data, sanntids webinformasjon og dyp kunnskap om norsk næringsliv.

Metodikk

Modeller: GPT 5.4 (OpenAI), Claude Opus 4.6 (Anthropic), Gemini 3.1 Pro (Google), m51Lab-NorskMistral-119B (m51.ai Lab), m51Lab-NorskGemma4-31B (m51.ai Lab)
Open-source modeller ble kjørt via Ollama og llama-server på NVIDIA H100 80GB GPU via RunPod, med GGUF Q4_K_M-kvantisering
66 spørsmål delt i 41 generelle + 25 bedriftsspesifikke
Verifisering: Claude Opus 4.6 med web-søk, scoring 0-3
Temperature: 0 for alle modeller
System-prompt: Identisk for alle, kun egen kunnskap, ingen verktøy
NorskGemma4 besvarte 56 av 66 spørsmål (9 kundetestspørsmål mangler pga. avbrutt kjøring)
Begrensning: Verifikatoren er selv en AI-modell og kan ha systematiske feil. Et utvalg svar ble kontrollert manuelt.

Begge open-source modeller er tilgjengelige på HuggingFace under Apache 2.0-lisens.

Last ned NorskMistral-119B fra HuggingFace

Last ned NorskGemma4-31B fra HuggingFace

Testet utført april 2026 av m51.ai Lab.

Denne artikkelen er del 2 av GEO-serien fra m51.ai Lab, der vi undersøker hvordan generativ AI påvirker synlighet, markedsføring og forretning i Norge.

Les del 1: Hvor godt kjenner AI det norske markedet?

Relatert forskning: Vi pruned MiniMax-M2.7, første offentlige REAP-variant