Vi bruker informasjonskapsler for analyse og markedsføring. Les mer
Tilbake til Lab
m51 Lab ForskningApril 2026 · 20 min

Vi trente en open-source AI til å skrive SEO-auditer - og testet den mot Claude Sonnet

805 treningseksempler. 1 epoke. Fra 13% til 50% win rate. Men vi valgte likevel å beholde Claude Opus i produksjon.

Hovedfunn (TL;DR)

  • En 31B open-source modell (finjustert med 805 eksempler) oppnår 40-60% win rate mot Claude Sonnet 4.6 på norske SEO-auditer
  • Open-source-modellen vinner på struktur og handlingsretting; Sonnet vinner på strategisk dybde og finansiell kvantifisering
  • Hvem som "vinner" avhenger av sluttbrukeren: analytikere foretrekker Sonnet, markedssjefer foretrekker v2
  • 805 eksempler og 1 epoke trening er nok for 100% format-compliance på 10-seksjons SEO-auditer
  • Arkitekturforståelse (data-first vs. tool-use) var viktigere enn datamengde eller modellstørrelse

En 31B open-source modell finjustert med kun 805 eksempler (~2.5 millioner tokens) og 1 epoke trening oppnår 100% format-compliance på 10-seksjons SEO-auditer og 40-60% win rate mot Claude Sonnet 4.6.

Hvorfor trene en open-source modell for SEO-auditer?

M51 AI OS er en AI-drevet markedsføringsplattform som genererer profesjonelle SEO-auditer for norske bedrifter. Plattformen samler data fra Google Search Console, PageSpeed Insights, Moz, GA4, og interne systemer, og bruker en LLM til å syntetisere dette til strukturerte rapporter som rendres til PDF.

Les mer om M51 AI OS-plattformen

Fram til april 2026 brukte workflowen Claude Opus og Sonnet 4.6 som primærmodell. Motivasjonen for å utforske en open-source-erstatning var tredelt:

  • Kostnad: Hver audit bruker ~$0.50-2.00 i API-kall
  • Avhengighet: Ingen fallback ved Anthropic nedetid
  • Kontroll: Begrenset mulighet for format-spesialisering

Første forsøk: v1

SeoGemma4 v1 ble trent fra m51Lab-NorskGemma4-31B (en norsk-optimalisert Gemma 4 med 83.6% NorEval). Med 2 590 treningseksempler oppnådde v1 en SEO Quality-score på 4.08/5, men kun 13.3% win rate mot Claude Sonnet i pairwise-sammenligning.

Hovedårsaken: v1 produserte narrativ prosa uten det strukturerte formatet (Impact/Effort-scoring, tabeller, handlingsplaner) som kjennetegner profesjonelle SEO-auditer.

Les hele historien: Mindre modell, bedre resultat. NorskGemma4-31B

Utfordringer med v1

  • Maskin-krasj under datagenerering ved 1 475 av 3 060 eksempler - krevde crash-recovery med 14 parallelle agenter
  • PyTorch 2.4 kompatibilitetsfeil - krevde oppgradering til 2.8 med spesifikt CUDA 12.8-image
  • Gemma4ForConditionalGeneration returnerer ikke loss fra labels - krevde custom training_step med manuell CrossEntropyLoss
  • Flash Attention inkompatibelt med Gemma 4 (head_dim > 256) - må bruke eager attention
  • NorskGemma4-basen tapte native thinking-adferd - modellen resonerte aldri før den svarte
  • packing=True krasjer Gemma 4 - et ikke-forhandlingsbart constraint

Hva er forskjellen mellom v1 og v2-arkitekturen?

Basemodell-pivot

Den viktigste beslutningen i v2 var å droppe NorskGemma4 som base og gå rett til google/gemma-4-31B-it. Tre grunner:

  • Thinking-bevaring: NorskGemma4s fine-tuning hadde vasket ut Gemma 4s native thinking-tokens. v2 trengte denne kapasiteten.
  • Native function calling: Gemma 4 har offisielt function calling-støtte som potensielt ble degradert i NorskGemma4.
  • Norsk er allerede god nok: NorEval-tester bekreftet at base Gemma 4 scorer nest høyest av alle testede modeller på norsk.

Arkitektur-oppdagelse: Data-first workflow

En dyptgaende analyse av M51 AI OS-workflowen avslørte at den opprinnelige v2-planen var fundamentalt feil. Vi antok en multi-turn tool-use-arkitektur, men fant at workflowen er data-first:

  • 20 datakilder hentes parallelt (Search Console, PageSpeed, GA4, Moz, historiske auditer, AI-synlighetsdata, mm.) - FØR modellen kalles
  • Alt serialiseres til kompakt markdown (~12 KB) av en DataPackage-builder
  • Modellen kalles EN GANG med et system prompt som spesifiserer nøyaktig 10 seksjoner
  • Output er ren markdown - ingen JSON, ingen tool-calls under audit

Denne oppdagelsen endret treningsstrategien fundamentalt: i stedet for 600 multi-turn tool-use-eksempler, fokuserte vi på audit-syntese - evnen til å ta en stor datapakke og produsere en strukturert rapport.

Hvor mye treningsdata trengs for domenespesialisert fine-tuning?

Datapipeline

KildeEksemplerBeskrivelse
Produksjons-rekonstruksjoner13Ekte audit-runs med reverse-engineered DataPackage-input
Hand-crafted gold standards4Claude Opus-generert, dekker rich/sparse/anomali/competitor-scenarier
Syntetisk bulk (Sonnet 4.6)788Generert av opptil 14 parallelle agenter over 5 runder

Token-statistikk

MetrikkVerdi
Totalt eksempler805
Totalt tokens~2.5 millioner
Snitt tokens/eksempel~3 100
audit_synthesis-andel57.3% av alle tokens

Bransjedekning

audit_synthesis-eksemplene dekker 14+ norske bransje-vertikaler med domenespesifikk regulatorisk kompetanse:

  • Fintech: Finanstilsynet-lisens, MiFID II, PSD2, AML
  • Healthcare: GDPR art. 9, helsepersonelloven, bioteknologiloven
  • Food & Beverage: Alkoholloven, EU Helsepåstandsforordningen 1924/2006
  • Construction: Sentral godkjenning (DiBK), Startbank, BREEAM, EPD-Norge
  • Legal: Advokatbevilling, CSRD, DORA
  • Real Estate: Aggregator-DA-gap-strategi mot dominerende portaler
  • Manufacturing: Hreflang (NO/EN/DE), subsea ISO/API sertifiseringer
  • Pluss e-commerce, SaaS, automotive, education, nonprofit, media, travel

Tekniske detaljer

LoRA-konfigurasjon

ParameterVerdi
MetodePiSSA (SVD-basert LoRA-initialisering)
r8
alpha16
Target modulesq_proj, v_proj (kun sliding attention layers)
Frosne lag10 globale attention lag
Trenbare parametre9,216,000 / 31,282,302,512 (0.0295%)

Hyperparametre

ParameterVerdi
Epoker1
Learning rate5.0e-6 (cosine schedule)
Effektiv batch16
Max length4096
Presisjonbfloat16
RegulariseringNEFTune alpha=5, weight_decay=0.01

Maskinvare

GPU: 1x NVIDIA H100 NVL (94 GB VRAM). Software: PyTorch 2.8 + CUDA 12.8 + transformers 5.5.3 + trl 1.0 + peft 0.18.

Loss-kurve

Step 10 (epoch 0.20): loss = 5.723
Step 20 (epoch 0.40): loss = 5.051
Step 30 (epoch 0.60): loss = 4.483
Step 40 (epoch 0.80): loss = 4.225
Step 51 (epoch 1.00): loss = 4.076

Monotonisk synkende uten tegn til overfitting.

Tekniske utfordringer under v2-utvikling

  • OOM ved max_length=6144: 94 GB VRAM er for lite for 31B BF16 + LoRA + gradients ved 6144 tokens. Løst med reduksjon til 4096.
  • Gemma 4 chat template inkompatibilitet: trls assistant_only_loss=True krasjer fordi template returnerer 0 assistant tokens.
  • Thinking-token-format: Gemma 4 bruker <|channel>thought, IKKE <think>. Parameter enable_thinking (ikke thinking) er påkrevd og defaulter til False.
  • llama-server reasoning-format: --reasoning-format deepseek-legacy er nødvendig - plain deepseek tømmer content-feltet.

Kan en finjustert open-source modell matche Claude Sonnet på SEO-auditer?

Vi gjennomførte fire separate evalueringer med økende dybde for å unngå å overvurdere resultatene.

Nivå 1: Batch format-compliance (5 audits)

MetrikkResultat
Seksjoner tilstede10/10 (100%)
Funn med komplett 7-felt format100% (18/18)
Tabeller per audit (snitt)33.6
Thinking-blokk produsert5/5 (100%)
Norsk bokmål markører12/12 (100%)

Nivå 2: Rettferdig AB-test (lik lengde, to dommere)

5 pairwise-sammenligninger med tilnærmet lik output-lengde (~9-10K chars begge). Randomisert A/B-tilordning. To uavhengige dommere fra Anthropic.

MetrikkHaiku som dommerOpus som dommer
v2 win rate60% (3/5)40% (2/5)
Avg v2 score8.0/107.4/10
Avg Sonnet score8.1/108.0/10

Per-dimensjon (konsistent på tvers av begge dommere):

Dimensjonv2 fordel?Kommentar
PrioriteringJa (+0.4)Impact/Effort-scoring, NÅ/NESTE/SENERE
InnsiktNei (-0.2 til -1.0)Sonnet har dypere strategisk analyse
StrukturJevntBegge følger 10-seksjonsformat
OverallJevnt~50% win rate

Nivå 3: Kvalitativ ekspertvurdering (Opus 4.6)

Alle 10 filer ble vurdert helhetlig av Claude Opus 4.6 som en uavhengig SEO-konsulent.

Jeg ville valgt Sonnet-settet, men med en klar anbefaling om å stramme det inn. V2 ser penere ut og er lettere å skumme, men den mister for mye substans. En CEO som leser V2s funn om "Katastrofal Mobil LCP" får en setning om tiltak. I Sonnet-versjonen får de en steg-for-steg-plan de faktisk kan sende til utvikleren sin. Det ideelle ville vært en hybrid: V2s konsistente struktur og kompakte handlingsplan, kombinert med Sonnets prognosedybde, økonomisk kvantifisering og detaljerte tiltaksbeskrivelser.

Nivå 4: Markedssjef-perspektivet (Gemini 3.1 Pro)

Den kanskje mest avslørende evalueringen kom fra Gemini 3.1 Pro, som vurderte rapportene fra perspektivet til en markedssjef - altså den faktiske sluttbrukeren av SEO-auditer.

Om Sonnet:

Den analytiske dybderapporten. Finansiell oversettelse er Sonnets absolutte superkraft - den oversetter tekniske SEO-feil til tapte kroner og øre. Dette er gull verdt når en markedssjef skal argumentere for utviklerressurser overfor en CFO. Men: "Wall of text"-syndromet. Tunglest. Svak delegering - tiltakene er bakt inn i lengre avsnitt. Vanskelig å ta rett inn i et mandagsmøte uten å skrive om til en oppgaveliste.

Om v2:

Det operative styringsverktøyet. Ekstremt handlingsorientert - hvert funn er merket med Impact og Effort, akkurat det språket en markedssjef trenger for å prioritere backloggen med IT/utvikling. Oppdelingen i "NÅ (< 1 uke)", "NESTE (1-4 uker)" og "SENERE (> 4 uker)" med tydelig ansvarlig er briljant. Den eliminerer friksjonen mellom rapport og handling. Du kan klippe ut tabellen og lime den rett inn i Trello/Jira. Svakheten: Mangler den harde finansielle knaggen.

Gemini-dommerens konklusjon:

Som markedssjef ville jeg uten tvil valgt v2 som min standardrapportering. Hvorfor? Fordi en markedssjefs største flaskehals sjelden er mangel på data, men gjennomføringsevne. Sonnet er utmerket for å bygge et business case en gang i året, men i hverdagen trenger jeg et verktøy som driver prosjektet fremover. Det ideelle kompromisset? Velg v2 som mal, men krev at det inkluderes ett kulepunkt i Executive Summary som oversetter de tekniske feilene til estimert tap i kroner.

Samlet evaluering

DommerPerspektivVinnerBegrunnelse
Claude HaikuMekanisk format-scoringv2 (60%)Bedre prioritering og struktur
Claude OpusStrategisk SEO-konsulentSonnet (60%)Dypere innsikt og tiltaksbeskrivelser
Claude Opus (kvalitativ)Helhetlig ekspertSonnetSteg-for-steg-plan du kan sende til utvikleren
Gemini 3.1 ProMarkedssjef (sluttbruker)v2Eliminerer friksjonen mellom rapport og handling

Den avgjørende innsikten: Hvem du spør avgjør hvem som vinner. En SEO-analytiker foretrekker Sonnets dybde. En markedssjef foretrekker v2s handlingsretting. Den ideelle rapporten kombinerer begge.

Hva beviser dette eksperimentet - og hva beviser det ikke?

Beviser

  • Domenespesialisert fine-tuning fungerer: Fra 13.3% til ~50% win rate med 805 eksempler. En 31B open-source modell kan spille jevnt mot en av verdens sterkeste kommersielle LLM-er på et format-drevet domene.
  • Format-compliance kan læres med minimalt data: 10/10 seksjoner, 100% funn-format, 33 tabeller per audit - etter bare 1 epoke trening.
  • Arkitekturforståelse er viktigere enn datamengde: Å oppdage at workflowen er data-first (ikke tool-use) endret hele treningsstrategien og var den viktigste enkeltstående beslutningen i prosjektet.
  • Ulike brukere verdsetter ulike ting: En markedssjef foretrekker v2s operative format. En analytiker foretrekker Sonnets dybde.

Beviser ikke

  • At v2 kan erstatte Sonnet i produksjon: Ekspertvurderingen er klar - Sonnet leverer dypere innsikt, bedre scenarioprognoser, og mer handlingsbare tiltak for teknisk implementering.
  • At format-compliance = kvalitet: v2 produserer perfekt format men mangler substans. Impact-tall er tilstede, men uten de 3-5 implementeringsstegene og kronebeløpene som gjør dem handlingsbare.
  • Statistisk signifikans: 5 sammenligninger gir ikke p<0.05. Resultatet er retningsgivende, ikke bevisende.

Hvorfor vi likevel valgte å beholde Claude Opus i produksjon

Basert på evalueringsresultatene har vi besluttet å ikke bytte til SeoGemma4 v2 i produksjon. Her er begrunnelsen:

Kvalitetsgap på innsikt

Ekspertvurderingen er utvetydig: Sonnet (og i enda større grad Opus) leverer dypere strategisk analyse. I en betalt SEO-tjeneste der kundene er norske bedrifter med reelle markedsbudsjetter, er forskjellen mellom "Optimaliser mobil checkout" og en steg-for-steg implementeringsplan med kroneestimater forskjellen mellom en rapport og et implementeringsgrunnlag.

En CEO som leser v2 får en Impact-score. En CEO som leser Sonnet får et kronebeløp hun kan ta med til styremøtet. Men v2s handlingsplan er det som faktisk driver gjennomføring.

Stabilitet og pålitelighet

Claude Opus 4.6 via API har 99.9%+ oppetid, deterministisk output-kvalitet, automatisk skalering, og ingen GPU-infrastruktur å vedlikeholde. SeoGemma4 v2 krever dedicated GPU-pod, spesifikke server-flagg, manuell GGUF-konvertering ved hver modelloppdatering, og ingen automatisk fallback ved OOM eller krasj.

Kost-nytte ved nåværende volum

Ved M51 AI OS' nåværende auditer-volum er API-kostnaden lavere enn en dedicated GPU-pod. Self-hosting blir først kostnadseffektivt ved vesentlig høyere volum.

Kontinuerlig forbedring gratis

Anthropic forbedrer Claude kontinuerlig. Enhver modelloppgradering gir kvalitetsløft uten arbeid. En self-hosted modell krever aktiv vedlikehold og re-trening for å forbli konkurransedyktig.

Hvordan kan v3 kombinere det beste fra begge?

v3 = v2s format + Sonnets dybde + finansiell oversettelse

Alle tre ekspertvurderinger peker mot samme oppskrift. Konkret betyr dette:

  • Finansiell oversettelse per funn: Hvert funn trenger et kronebeløp. Fra "Optimaliser JavaScript" til "Estimert tap: ~85 000 NOK/mnd".
  • Detaljerte implementeringssteg: Hvert funn trenger 3-5 konkrete steg som en utvikler kan handle på uten oppfølgingsmøte.
  • Scenarioprognoser: Anomalier og prognose-seksjonen trenger best/base/worst-modellering med kvantifiserte utfall.
  • Ærlig rapportering: v2 cherry-picker positive data. v3 må inkludere negative trender like prominent.
  • Korrekt loss masking: v2 ble trent uten rolle-basert loss masking. v3 implementerer manuell token-level masking.
  • Ekte produksjonsdata: Logging av input-DataPackage i produksjon for å samle 50+ ekte (input, output)-par fra Opus-genererte auditer.

Tilgjengelige modeller

ModellStørrelseBruk
m51Lab-SeoGemma4-v2-31B (safetensors)59 GBInference, videre fine-tuning
m51Lab-SeoGemma4-v2-31B-F16.gguf58 GBllama-server full precision
m51Lab-SeoGemma4-v2-31B-Q8_0.gguf31 GBAnbefalt for inference (H200/A100)
m51Lab-SeoGemma4-v2-31B-Q4_K_M.gguf14 GBLavkost-deploy (A40, RTX 4090+)

Lisens: Apache 2.0 (arvet fra Google Gemma 4).


Ofte stilte spørsmål om AI-drevne SEO-auditer

Kan en open-source modell erstatte Claude for SEO-auditer?

Per i dag, nei. Vår finjusterte 31B-modell matcher Claude Sonnet 4.6 på format og struktur, men Sonnet leverer dypere strategisk analyse og finansiell kvantifisering. For produksjons-SEO-auditer der kvalitet er kritisk, er Claude Opus fortsatt det beste valget.

Hvor mye treningsdata trengs for domenespesialisert fine-tuning?

Overraskende lite. 805 eksempler (~2.5 millioner tokens) og 1 epoke trening var nok for 100% format-compliance. Men å lukke det analytiske gapet mot frontier-modeller vil kreve mer sofistikerte treningsdata og teknikker.

Hva er forskjellen mellom format-compliance og analytisk kvalitet?

Format-compliance betyr at modellen produserer korrekt struktur: riktige seksjoner, tabeller, Impact/Effort-scoring. Analytisk kvalitet handler om innholdet: dybden i innsiktene, kvaliteten på anbefalingene, og evnen til å oversette tekniske funn til forretningsverdi.

Er open-source eller kommersiell AI best for SEO-rapportering?

Det avhenger av brukeren. Vår evaluering viser at en markedssjef foretrekker open-source-modellens handlingsorienterte format, mens en SEO-analytiker foretrekker Sonnets dybde. Det ideelle er en hybrid som kombinerer begge styrkene.


Referanser og ressurser

Google Gemma 4 modellside

PiSSA: Principal Singular Values and Singular Vectors Adaptation (paper)

Les mer: Hvor godt kjenner AI det norske markedet?


m51 Lab er forsknings- og utviklingsavdelingen til M51 AI OS. Modellen og komplett forskningslogg er tilgjengelig som open source.

M51 AI OS bruker Claude Opus 4.6 for å generere profesjonelle SEO-auditer. Vil du se hva AI-drevne auditer kan gjøre for din bedrift?

Book en demo
NorskutvikletGDPR-compliantClaude Opus 4.6
Personvern