Vi bruker informasjonskapsler for analyse og markedsføring. Les mer
Tilbake til Lab
GEO-serien, del 1April 2026 · 12 min

Hvor godt kjenner AI det norske markedet?

Vi testet de tre beste modellene. Uten internett, uten verktøy. Her er resultatene.

Når du spør ChatGPT om en anbefaling, eller Gemini om hjelp med research: vet modellen egentlig svaret? Eller søker den det opp for deg, akkurat der og da?

Vi tok de tre ledende AI-modellene (OpenAIs GPT 5.4, Anthropics Claude Opus 4.6 og Googles Gemini 3.1 Pro) og testet dem på 66 spørsmål om det norske markedet. Uten internett. Uten verktøy. Kun basert på hva de har lært i treningen.

Resultatene er viktige for alle som jobber med synlighet i en AI-drevet verden.

Hør AI-podcasten om denne artikkelen

Hvorfor dette er relevant for GEO

Moderne AI-modeller har tilgang til verktøy. ChatGPT søker på Bing. Gemini bruker Google Search. Claude har web-søk.

Men her er det sentrale poenget: Modellene søker fordi de er usikre. De vet at de ikke vet nok. Når en bruker spør «Hvilket performance-byrå bør jeg velge i Oslo?», vil modellen typisk:

  • Sjekke sin egen kunnskap (treningsdata)
  • Innse at den er usikker
  • Søke på nettet for å bekrefte eller finne svaret

Det betyr at hva modellen finner på nettet avgjør svaret brukeren får. Og det er her GEO (Generative Engine Optimization) kommer inn: Er bedriften din synlig, korrekt beskrevet og godt representert på de stedene AI-modeller søker?

For markedsføringsteam innebærer dette en fundamental endring. Innhold må produseres og struktureres ikke bare for mennesker og søkemotorer, men også for AI-modeller som tolker og videreformidler det. Det er blant annet dette M51 AI OS er designet for: AI-agenter som kontinuerlig optimaliserer innhold for både tradisjonelle søkemotorer og generative AI-modeller.

For å forstå omfanget av dette problemet, testet vi hvor mye modellene faktisk vet uten nettet.

Slik testet vi

Vi bygde et automatisert benchmark-system i Python som:

  • Sendte 66 spørsmål til alle tre modeller via API, med eksplisitt beskjed om å kun bruke egen kunnskap, uten verktøy
  • Verifiserte hvert svar med Claude Opus 4.6 med web-søk, som faktasjekket svarene mot faktiske kilder på nettet
  • Scoret svarene på en skala fra 0 (helt feil/hallusinert) til 3 (helt korrekt)

Vi kjørte to separate tester:

Test 1: 41 spørsmål om det norske markedet generelt. Store bedrifter (Equinor, DNB), mellomstore (Kahoot, Oda), merkedager (morsdag i februar, russetid), norske produkter (Kvikk Lunsj, Grandiosa), og markedsføringsbransjen.

Test 2: 25 spørsmål om ekte norske bedrifter hentet fra en reell kundeliste. Alt fra Tufte Wear og Swims til Permakem, Geonor og Klubbkoppen. Ingen hint ble gitt til verifikatoren. Den måtte selv søke opp og vurdere.

Resultatene: Generelle spørsmål

Når vi spurte om ting som Equinor, Vipps og 17. mai, presterte modellene rimelig godt:

ModellSnittProsentHallusinasjoner
GPT 5.42.24/375%0
Claude Opus 4.62.05/368%10
Gemini 3.1 Pro1.85/362%0

75% for den beste modellen høres kanskje greit ut. Men se hva som skjer når vi graver dypere.

Score per kategori

KategoriGPT 5.4Claude Opus 4.6Gemini 3.1 Pro
Store bedrifter2.12.32.1
Mellomstore bedrifter2.52.32.0
Norske produkter2.31.81.5
Merkedager & kultur2.32.31.7
Markedsføring & bransje2.42.02.0
Egne spørsmål1.71.01.7

Kategorien «Egne spørsmål» inneholdt tre målrettede tester: en liste over performance-byråer i Oslo, et spørsmål om M51, og et om Try. Selv for et av Norges mest kjente byråer (Try) fikk ingen modell mer enn 2 av 3.

Resultatene: Ekte norske bedrifter

Her ble det virkelig interessant. Vi ga modellene 25 bedriftsnavn fra en reell kundeliste, en blanding av alt fra Tufte Wear til Klubbkoppen, og spurte hva de visste.

ModellSnittProsentHallusinasjoner
GPT 5.41.84/361%1
Claude Opus 4.61.64/355%4
Gemini 3.1 Pro2.04/368%0

Fallet fra generell til spesifikk kunnskap

Generell testKundetestEndring
GPT 5.475%61%-14 pp
Claude Opus 4.668%55%-13 pp
Gemini 3.1 Pro62%68%+6 pp

GPT og Claude falt 13-14 prosentpoeng når de ble testet på ekte bedrifter. Gemini gikk faktisk opp, noe som kan tyde på at Googles treningsdata har bedre dekning av norske bedriftsregistre.

Noen eksempler fra testen

Bedrifter modellene kjente godt (score 2-3): Tufte Wear, Swims, Drytech, Hamax, Smartcraft, Restaurant Kontrast, Semine, Geodata

Bedrifter modellene slet med (score 0-1): Nordlandskaia, Tangelo, Accountflow, Klubbkoppen, Permakem

Bedrifter modellene diktet opp informasjon om: Claude påsto at Aidn AS driver med «digitale bookingløsninger for tannlegekontorer» og at Depend Norge selger inkontinensprodukter for Essity. Begge deler feil. Claude hallusinerte i 16% av kundetestens svar.

Case: Hva vet modellene om M51?

Vi spurte alle tre modeller «Hva vet du om M51 i Oslo?» og fikk tre svært forskjellige svar:

GPT 5.4 (score 1/3). Ærlig, men visste ingenting:

«Jeg er usikker på hva du mener med M51 i Oslo, fordi det kan vise til flere ting. (...) Jeg har ikke nok sikker kunnskap til å si konkret hva M51 er uten å risikere å gjette.»

Claude Opus 4.6 (score 0/3). Hallusinerte:

«M51 er en adresse/lokasjon i Maridalsveien 51 i Oslo, som er kjent som et kreativt nærings- og kulturhus.»

Helt oppdiktet. M51 har ingenting med Maridalsveien å gjøre.

Gemini 3.1 Pro (score 2/3). Visste det riktige:

«M51 (ofte kjent som M51 Marketing) er et digitalt markedsføringsbyrå basert i Oslo.»

Korrekt. Men ufullstendig. Ingen modell nevnte m51.ai, AI-satsingen, eller spesialiseringen innen performance marketing.

Hallusinerings-problemet

Et av de viktigste funnene: Når modellene ikke vet svaret, oppfører de seg svært forskjellig.

AdferdGPT 5.4Claude Opus 4.6Gemini 3.1 Pro
Sier «vet ikke»OfteSjeldenNoen ganger
Hallusinerer1 tilfelle14 tilfeller0 tilfeller
Dikter opp bedriftsnavnNeiJaNei

Claude er den modellen som oftest dikter opp informasjon i stedet for å innrømme uvitenhet. I byrå-testen diktet Claude opp tre byråer som ikke eksisterer: «Performance Group», «Novus Media» og «Blis Digital».

For GEO betyr dette: Hvis bedriften din ikke har tydelig digital tilstedeværelse, risikerer du at AI-modeller enten ignorerer deg, eller enda verre, dikter opp feil informasjon om deg.

Hva betyr dette for GEO?

1. Modellene vet lite om norsk næringsliv

Selv de beste modellene scorer bare 55-68% på ekte norske bedrifter. De er usikre, og de vet at de er usikre. Derfor bruker de verktøy og web-søk aktivt.

2. Web-søk er standard, ikke unntak

Når ChatGPT, Gemini eller Claude i praksis brukes av folk, har de nesten alltid tilgang til søk. Det betyr at det som ligger på nettet om bedriften din er det som blir svaret. Ikke det modellen «vet», men det den finner.

3. Synlighet handler ikke lenger bare om Google-søk

Tradisjonell SEO optimaliserer for Googles rangering. GEO handler om å optimalisere for hvordan AI-modeller forstår og presenterer informasjonen din. Det er en forskjell:

  • SEO: Bli funnet i søkeresultatene
  • GEO: Bli korrekt forstått og anbefalt av AI-modeller

4. Strukturert informasjon er avgjørende

Bedrifter som hadde tydelig, strukturert informasjon på sine nettsider, i Brønnøysundregistrene, på LinkedIn og i bransjemedier, ble oftere korrekt identifisert. De som manglet dette, ble enten oversett eller hallusinert om.

5. Feil informasjon sprer seg

Når Claude hallusinerer at bedriften din driver med noe annet enn det dere faktisk gjør, kan det spre seg videre til brukere som stoler på AI-assistenten sin. Feil i treningsdata eller mangelfull nettilstedeværelse kan bli til feilaktige anbefalinger.

Praktiske GEO-tiltak basert på funnene

  • Sjekk hva AI-modellene sier om deg. Spør ChatGPT, Gemini og Claude om bedriften din, uten verktøy aktivert. Er svaret korrekt?
  • Sørg for strukturerte data. Oppdater bedriftsinformasjon i Brønnøysundregistrene, Google Business Profile, LinkedIn, og på egne nettsider. AI-modeller trekker fra disse kildene.
  • Skriv tydelige «Om oss»-sider. En klar, faktabasert beskrivelse av hva bedriften gjør, for hvem, og hvor. Det gjør det lettere for AI-modeller å forstå og gjengi korrekt.
  • Vær synlig i bransjemedier. Bedrifter nevnt i Kampanje, Shifter, E24 eller lignende ble oftere korrekt identifisert. Presseomtale er treningsdata.
  • Monitorer over tid. Nye modellversjoner kommer stadig. Det modellen vet i dag er ikke det samme som neste versjon vet. GEO er en løpende prosess.
  • Vurder llms.txt. Les mer om dette under.

GEO-tiltak krever kontinuerlig arbeid med innhold, strukturerte data og digital synlighet. Det er derfor vi bygde M51 AI OS: en plattform der AI-agenter automatiserer innholdsproduksjon, SEO-optimalisering og kampanjestyring, slik at markedsføringsteam kan fokusere på strategi i stedet for manuelt arbeid.

Se hvordan det fungerer

llms.txt: En ny standard for AI-synlighet?

Det finnes et konkret tiltak som adresserer problemet vi avdekket i testen: en fil kalt llms.txt.

Hva er llms.txt?

Tenk på det som robots.txt for AI-modeller. Mens robots.txt forteller søkemotorer hva de kan og ikke kan crawle, forteller llms.txt AI-modeller hva nettsiden din handler om, i et format de faktisk forstår.

Filen legges i rotmappen på nettsiden (f.eks. dittselskap.no/llms.txt) og er skrevet i Markdown. Lesbart for både mennesker og maskiner. Den ble foreslått av Jeremy Howard (grunnlegger av Answer.AI) i september 2024, og spesifikasjonen er tilgjengelig på llmstxt.org.

Hvordan ser det ut?

# Bedriftsnavn > Kort beskrivelse av hva bedriften gjør, for hvem. ## Tjenester
- [Tjeneste A](https://dittselskap.no/tjeneste-a): Beskrivelse
- [Tjeneste B](https://dittselskap.no/tjeneste-b): Beskrivelse ## Om oss
- [Om bedriften](https://dittselskap.no/om-oss): Hvem vi er og hva vi gjør

Det finnes også en variant kalt llms-full.txt, en komplett Markdown-eksport av hele nettsidens innhold i én fil. Data viser at AI-agenter besøker llms-full.txt dobbelt så ofte som llms.txt.

Hvorfor er dette relevant for det vi fant?

Tenk tilbake på M51-eksempelet. Claude hallusinerte at M51 var et kreativt kulturhus. GPT visste ingenting. Hadde m51.ai hatt en llms.txt-fil med:

# M51 Marketing > Digitalt markedsføringsbyrå i Oslo. Spesialisert på performance
> marketing, innholdsproduksjon og AI-drevet markedsføring. ## Tjenester
- [Performance Marketing](https://m51.ai/tjenester): Betalt annonsering, SEO, SEM
- [AI Lab](https://m51.ai/lab): Forskning og artikler om AI og markedsføring

...ville enhver AI-modell med web-søk kunne hente denne informasjonen direkte. Strukturert, korrekt, og i et format modellen enkelt kan bruke i svaret til brukeren.

Hvem har implementert det?

Blant tidlige adoptører finner vi Anthropic (selskapet bak Claude), Cloudflare, Stripe, Zapier og Hugging Face. Per mars 2026 har 7,4% av Fortune 500-selskapene implementert llms.txt.

Den ærlige vurderingen

Vi må være transparente: llms.txt er ikke en dokumentert sølvkule ennå.

  • Ingen av de store LLM-leverandørene (OpenAI, Google, Anthropic) har offisielt bekreftet at de bruker llms.txt i sine modeller
  • En analyse av 300 000 domener viste ingen klar korrelasjon mellom å ha llms.txt og å bli sitert av AI-modeller
  • Google har uttalt at de ikke vil basere AI Overviews på llms.txt
  • Standarden mangler W3C-standardisering og formell validering

Men her er poenget: llms.txt koster nesten ingenting å implementere. Det tar 15 minutter å skrive en fil som gir AI-agenter med web-søk en ren, strukturert kilde å hente fra. Selv om ingen LLM bruker filen direkte i treningsdataene i dag, vil enhver AI-agent som søker på nettsiden din finne og lese den.

Og som testen vår viste: AI-modeller søker aktivt, fordi de vet at de ikke vet nok.

Vår anbefaling

llms.txt er et lavkost, lavrisiko tiltak som kan bli viktigere over tid. Vi anbefaler det som en del av en bredere GEO-strategi. Ikke som eneste tiltak, men som et praktisk supplement til god innholdsstrategi, strukturerte data og bransjesynlighet.

Metodikk

  • Modeller testet: GPT 5.4 (OpenAI), Claude Opus 4.6 (Anthropic), Gemini 3.1 Pro (Google)
  • Totalt 66 spørsmål fordelt på 8 kategorier, alle på norsk
  • Offline-test: Ingen modell hadde tilgang til verktøy eller internett, verifisert via API-responsen
  • Verifisering: Claude Opus 4.6 med web-søk faktasjekket hvert svar
  • Scoring: 0 (helt feil/hallusinert) til 3 (helt korrekt og utfyllende)
  • Kode: Benchmark-systemet er open source og tilgjengelig for replikering

Testet utført april 2026 av m51.ai Lab.


Denne artikkelen er del 1 av GEO-serien fra m51.ai Lab, der vi undersøker hvordan generativ AI påvirker synlighet, markedsføring og forretning i Norge.

Les del 2: Kan norsktrente AI-modeller konkurrere med GPT og Gemini?

NorskutvikletGDPR-compliantClaude Opus 4.6
Personvern