Et komplett AI-operativsystem for markedsføringsteam. 17 spesialiserte agenter som samarbeider med dine data og din merkevare, ikke en generisk chatbot.

Hvordan er dette forskjellig fra ChatGPT?

ChatGPT er en generell assistent. m51.ai har live tilkobling til GA4, Google Ads, Meta Ads og Search Console, kjenner din merkevare gjennom M51 Cortex (vår lærende intelligens-kjerne med sporbare påstander og kausalmodell), og kjører automatiserte workflows. Det er forskjellen på en assistent og et helt team.

Fra 2 450 kr/mnd med intropris de 3 første månedene (ordinær pris 4 900 kr/mnd). Pro koster 7 450 kr/mnd (ordinær pris 14 900 kr/mnd) og gir tilgang til alle 17 agenter. Nye kunder får 50 % rabatt i 3 måneder.

Er dataene mine sikre?

GDPR-compliant, norskutviklet, dedikert infrastruktur. Dine data deles aldri. Du eier alt.

Trenger jeg teknisk kompetanse?

Nei. Du snakker med agentene på norsk. Onboarding tar 30 minutter. Vi kobler integrasjoner og setter opp M51 Cortex med merkevaredataene dine.

Vil innholdet høres ut som AI?

Nei. Hver agent jobber fra M51 Cortex, intelligens-kjernen som inneholder tone of voice, nøkkelbudskap, forbudte ord og kampanjehistorikk — sporbart til kilde og dato. Alt innhold tilpasses din merkevare. Du har alltid full kontroll til å redigere og godkjenne før noe publiseres.

Hva skjer hvis noe går galt?

Ingenting publiseres uten din godkjenning. Guardian-agenten kjører automatisk kvalitetskontroll på alle leveranser. Alle forslag går gjennom en godkjenningsflyt der du bestemmer hva som tas videre.

Hvem står bak m51.ai?

m51.ai er bygget av teamet bak M51 Marketing, et norsk performance-byrå med 9 års erfaring og over 300 kunder. Systemet er utviklet i Norge, kjører på norsk infrastruktur, og støttes av et dedikert team.

Er jeg bundet til en kontrakt?

Nei. m51.ai er månedlig fakturering uten bindingstid. Du kan oppgradere, nedgradere eller avslutte når du vil. Nye kunder får 50 % intropris-rabatt de 3 første månedene, uten krav om forlengelse.

Hva om jeg ikke bruker alle kanalene?

Du kobler bare til de plattformene du faktisk bruker. Kjører du bare Google Ads og GA4? Da jobber agentene med de dataene. Legger du til Meta Ads senere, er det bare å koble til. Systemet tilpasser seg ditt oppsett.

Hvor lang tid tar det før det er oppe og kjører?

Oppsett tar vanligvis 1–2 virkedager. Vi kobler integrasjonene dine, laster opp merkevaredata og fyller M51 Cortex med kontekst-laget agentene bruker. AI-agentene begynner å levere analyser og forslag fra dag én etter oppsett. Du trenger ikke sette av IT-ressurser.

AI Lab

Mindre modell, bedre resultat: Slik bygde vi NorskGemma4-31B

83,6% på NorEval, den høyeste publiserte scoren for en norsk modell.

m51.ai Lab

April 20265 min lesing

Vi hadde knapt rukket å publisere m51Lab-NorskMistral-119B, #1 på NorEval med 76.8%, før Google slapp Gemma 4. En ny generasjon modeller med støtte for 140+ språk allerede fra start.

Les om NorskMistral-119B: Slik bygde vi Norges beste open-source AI

Vi måtte teste.

m51Lab-NorskGemma4-31B scorer 83.6% på NorEval. Det er 6.8 prosentpoeng over vår egen Mistral-modell og nesten 11pp over den tidligere beste publiserte modellen. Med 4x færre parametere og en fjerdedel av treningsdataene.

Hør AI-podcasten om denne artikkelen

Bakgrunn: NorEval og utgangspunktet

NorEval er den norske standarden for evaluering av språkmodeller, utviklet av Universitetet i Oslo og publisert ved ACL 2025. Benchmarken dekker 24 datasett fordelt på 9 kategorier, fra commonsense-resonnering og faktakunnskap til truthfulness og leseforståelse. Den tester både bokmål og nynorsk.

Vår Mistral-modell hadde nettopp satt ny rekord med 76.8% snitt, opp fra NorMistral-11B-thinkings 73.1%. Med Gemma 4 på bordet var spørsmålet: kan vi gjøre det igjen, med en mye mindre modell?

Vi testet tre Gemma 4-varianter. To av dem feilet.

Tre forsøk, to blindveier

E4B (4B dense): For liten

Den minste varianten hadde rett og slett ikke kapasitet. SFT ga -8.7 prosentpoeng. Modellen mistet logikk og resonnering i forsøket på å lære mer norsk. Vi prøvde to ganger med ulike konfigurasjoner. Catastrophic forgetting begge gangene. En 4B-modell kan ikke absorbere et nytt språkdomene uten å miste det den allerede kan.

26B MoE: Delvis beskyttet, men ikke nok

MoE-varianten var lovende. Ekspert-vektene (22.84B av parameterne) forble automatisk frosne, da standard LoRA kan ikke target 3D-parametertensorer. Kun 0.23% av modellen ble modifisert.

Det holdt ikke. SFT ga -4.2 prosentpoeng. Bedre enn E4B, men fortsatt negativt. Attention-lagene, de eneste LoRA faktisk modifiserer, viste seg å være kritiske for truthfulness. Modellen mistet 10 prosentpoeng på NorTruthfulQA. Å endre hvordan modellen tenker er farligere enn å endre hva den vet.

31B Dense: Gjennombruddet

Så testet vi den dense 31B-varianten, alle 31 milliarder parametere aktive hele tiden. Vi byttet strategi fullstendig: PiSSA-initialisering i stedet for random LoRA, kirurgisk lag-seleksjon, og et minimalt datasett.

Resultatet: 83.6% snitt på NorEval. Ingen kapasitet skadet. Første gang SFT faktisk hjalp.

Tilnærmingen: Kirurgisk presisjon

Etter fem mislykkede forsøk på tvers av tre modeller hadde vi et klart bilde av hva som ikke fungerer. Den vellykkede tilnærmingen var bygget på tre innsikter:

PiSSA-initialisering. Standard LoRA starter trening fra tilfeldige retninger i vektrommet. PiSSA (Principal Singular values and Singular vectors Adaptation) bruker SVD-dekomponering for å starte fra de viktigste retningene i modellens eksisterende vekter. Forskjellen er dramatisk: i stedet for å overskrive kunnskap, foredler du den.

Lag-selektiv trening. Gemma 4 31B har 60 lag: 50 sliding attention-lag og 10 globale attention-lag. De globale lagene håndterer langtrekksresonnering og truthfulness. Vi frøs dem helt og trente kun de 50 sliding-lagene, og kun q_proj og v_proj. Totalt 9.2 millioner trenbare parametere, 0.03% av modellen.

Kvalitet over kvantitet. 3.230 kuraterte eksempler slo 96.804 brede eksempler. Nøkkelen var komposisjonen: 67% bokmål, 31% nynorsk, 2% engelsk anti-forgetting, og, kritisk, 0% oversettelsesdata. I de mislykkede forsøkene utgjorde BM→NN-oversettelse 44% av dataene og overskrev resonneringsevne.

Modell: Google Gemma 4 31B Dense (50 sliding + 10 globale lag)
Adapter: PiSSA r=8, alpha=16 (q_proj + v_proj, kun sliding lag)
Trenbare params: 9.2M (0.03% av 31.3B)
Treningsdata: 3.230 kuraterte eksempler
Hardware: 2x NVIDIA H100 80 GB
LR: 5e-6, NEFTune alpha 5, weight decay 0.01

Resultatene

Oppgave	NorskGemma4-31B	NorskMistral-119B	NorEval beste*
Commonsense BM	85.4%	75.7%	72.2%
Commonsense NN	73.7%	63.2%	52.6%
Open-book QA BM	96.5%	95.7%	87.4%
Open-book QA NN	94.4%	93.3%	88.9%
Truthfulness BM	85.7%	77.9%	74.6%
Truthfulness NN	93.0%	82.5%	73.7%
Norsk kunnskap BM	70.9%	66.5%	63.7%
Norsk kunnskap NN	69.6%	65.1%	71.9%
Gjennomsnitt	83.6%	76.8%	73.1%

*Beste publiserte modell i NorEval-paperen (UiO, ACL 2025)

NorskGemma4 slår NorskMistral på alle 8 oppgaver. De største marginene er på truthfulness (+10-11pp) og commonsense-resonnering (+10pp). Modellen er eksepsjonelt sterk på nynorsk. 93.0% på truthfulness er det høyeste resultatet i hele benchmarken.

Kontaminasjonssjekk

Vi verifiserte formelt at treningsdataene ikke overlapper med NorEval test-sett. 6.445 treningssegmenter ble sjekket mot 18.124 test-tekster fra alle 8 oppgaver, med tre metoder: eksakt matching, substring-matching og karakter-nivå n-gram-overlapp (50-gram og 30-gram).

Resultatet: null kontaminering. Ingen eksakte treff, ingen substring-treff, ingen mistenkelige n-gram-overlapp. Benchmark-resultatene reflekterer modellens reelle kapasitet.

Hva fungerte og hva fungerte ikke

Fungerte

PiSSA-initialisering: SVD-basert LoRA-init bevarte kunnskap der random init ødela den.
Lag-selektiv trening: å fryse de 10 globale attention-lagene beskyttet truthfulness og langtrekksresonnering.
Minimalt, kurert datasett: 3.230 eksempler med riktig komposisjon slo 96.804 brede eksempler.
Multi-prompt evaluering: å teste 5 prompt-varianter per oppgave forhindrer at én dårlig formulering gir misvisende resultater.
NEFTune noise-regularisering: alpha=5 ga jevnere generalisering uten overfitting.

Fungerte ikke

SFT på små modeller (E4B 4B): catastrophic forgetting uansett konfigurasjon. Modellen hadde ikke plass.
SFT på MoE attention-lag (26B): selv med frosne eksperter kollapset truthfulness. Attention-endringer er for risikable.
Preference-optimalisering (IPO/DPO): null effekt med syntetisk preference-data. Ekte menneskelige preferanser er trolig nødvendig.
Store oversettelsesdatasett: 44% BM→NN-oversettelse overskrev resonneringsevne. 0% fungerte bedre.

Hva vi lærte

1. Moderne modeller kan allerede norsk. Googles multilingvale trening på 140+ språk betyr at Gemma 4 allerede forstår norsk godt. Jobben vår var å foredle, ikke lære. Det endrer hele tilnærmingen: minimal intervensjon med kirurgisk presisjon, ikke massiv omskolering.

2. Mindre data, bedre resultater. 3.230 kuraterte eksempler slo 96.804 brede eksempler. Komposisjon og kvalitet trumfer volum. Spesielt destruktivt var oversettelsesdata, som overskrev modellens resonneringsevne.

3. Arkitektur bestemmer treningsstrategien. Dense-modeller responderte på kirurgisk SFT. MoE-modellenes delte attention-lag var for skjøre. 4B-modellen var rett og slett for liten. Hver arkitektur krever sin egen tilnærming. Det finnes ingen universell oppskrift.

4. Tilgjengelighet er en feature. I Q4_K_M-kvantisering veier modellen 18 GB, nok til å kjøre på en MacBook Pro med 32 GB RAM, eller en enkelt gaming-GPU. En modell ingen kan kjøre er en modell ingen bruker.

Prøv modellen selv

m51Lab-NorskGemma4-31B er open source under Apache 2.0-lisens. Last ned og kjør den lokalt med Ollama, LM Studio eller llama.cpp.

Full modell: m51Lab-NorskGemma4-31B på HuggingFace

GGUF (lokal bruk): m51Lab-NorskGemma4-31B-GGUF

Q4_K_M (18 GB) anbefales for de fleste. Q8_0 (31 GB) for høyere kvalitet.

Om m51

m51.ai bygger AI-løsninger for norske virksomheter. NorskGemma4 og NorskMistral viser hva et lite, fokusert team kan oppnå med riktig tilnærming og moderne verktøy. Den samme kompetansen ligger bak m51.ai, plattformen som gir markedsføringsteam og byråer tilgang til spesialiserte AI-agenter for innholdsproduksjon, SEO, annonsering og kampanjeoptimalisering.

Har du et AI-prosjekt du vil diskutere? Ta kontakt på [email protected].

Book demo

Tekniske detaljer, fullstendig build-log og alle treningsscripts finnes i prosjektets GitHub-repository.

Vil du se hvordan modellene presterer på ekte norske bedriftsspørsmål?

Les markedstesten: Kan norsktrente AI-modeller konkurrere med GPT og Gemini?

Relatert forskning: Vi pruned MiniMax-M2.7, første offentlige REAP-variant