Hoe AI-modellen je content crawlen en indexeren: het volledige proces

Wanneer ChatGPT je website citeert in een antwoord, is daar een heel proces aan voorafgegaan. Van het eerste bezoek door een crawler tot het moment dat je content wordt geselecteerd als bron — er zitten meerdere stappen tussen, elk met eigen regels en optimalisatiemogelijkheden.

In dit artikel leggen we het volledige proces uit: van crawling tot citatie. Als je begrijpt hoe dit werkt, kun je gericht optimaliseren voor elke stap.

Het proces in acht stappen

Stap 1: Crawling — de bot bezoekt je site

Alles begint met een crawler. AI-bedrijven sturen geautomatiseerde programma's (bots) naar websites om content op te halen. De belangrijkste:

De crawler stuurt een HTTP-request naar je server en ontvangt de HTML-response. Belangrijk: de meeste AI-crawlers voeren geen JavaScript uit. Ze zien alleen de HTML die je server direct retourneert.

Wat je kunt beïnvloeden:

Lees meer over crawler-specifieke details in Crawler logs en AI-zichtbaarheid.

Stap 2: Parsing — de content wordt verwerkt

Nadat de crawler de HTML heeft opgehaald, wordt de ruwe content "geparsed" — ontdaan van opmaak, navigatie, footers en advertenties. Het systeem probeert de kerninhoud van de pagina te isoleren.

Dit proces lijkt op wat je ziet als je "Reader mode" in je browser activeert: alleen de hoofdtekst, koppen en afbeeldingen blijven over.

Wat je kunt beïnvloeden:

Stap 3: Chunking — het document wordt opgesplitst

Een volledig artikel van 2.000 woorden is te groot voor een AI-model om als één geheel te verwerken in een zoekcontext. Daarom wordt het opgesplitst in kleinere stukken: chunks.

Typische chunk-groottes variëren van 500 tot 1.500 tokens (ruwweg 375 tot 1.125 woorden). De manier van opsplitsen verschilt per systeem:

Wat je kunt beïnvloeden:

Lees de uitgebreide gids in Content chunking voor AI-citaties.

Stap 4: Embedding — tekst wordt een vector

Elk chunk wordt omgezet in een wiskundige representatie: een embedding (ook wel vector genoemd). Dit is een reeks van honderden of duizenden getallen die de "betekenis" van de tekst vastleggen.

Het bijzondere: teksten met een vergelijkbare betekenis krijgen vergelijkbare vectors, ongeacht de exacte woorden. "Wat kost een CRM?" en "Prijs van klantbeheersoftware" liggen als vectors dicht bij elkaar, omdat de betekenis overeenkomt.

Wat je kunt beïnvloeden:

Stap 5: Indexering — opslag in een vector database

De embeddings worden opgeslagen in een vector database — een gespecialiseerde database die is geoptimaliseerd voor het snel vinden van vergelijkbare vectors. Bekende vector databases zijn Pinecone, Weaviate en Chroma.

Samen met de embedding wordt metadata opgeslagen: de bron-URL, publicatiedatum, auteur, en soms de originele tekst van het chunk.

Wat je kunt beïnvloeden:

Stap 6: Retrieval — de juiste chunks worden opgehaald

Wanneer een gebruiker een vraag stelt aan een AI-zoekmachine, wordt die vraag ook omgezet in een embedding. Het retrieval-systeem zoekt vervolgens in de vector database naar chunks waarvan de embedding het meest lijkt op de vraag-embedding.

Dit is het RAG-proces: Retrieval-Augmented Generation. Het model haalt (retrieves) eerst relevante bronnen op, en gebruikt die vervolgens om een antwoord te genereren.

Het retrieval-systeem retourneert doorgaans de top 5-20 meest relevante chunks. Niet al deze chunks worden in het uiteindelijke antwoord geciteerd — het model maakt een verdere selectie.

Wat je kunt beïnvloeden:

Stap 7: Generatie — het antwoord wordt samengesteld

Het AI-model ontvangt de vraag van de gebruiker samen met de opgehaalde chunks als context. Op basis hiervan genereert het een antwoord.

Het model:

  1. Leest alle opgehaalde chunks
  2. Selecteert de meest relevante informatie
  3. Combineert informatie uit meerdere bronnen
  4. Formuleert een samenhangend antwoord
  5. Bepaalt welke bronnen geciteerd worden

Wat je kunt beïnvloeden:

Stap 8: Citatie — je wordt als bron vermeld

Tot slot bepaalt het model welke bronnen het citeert. Dit verschilt per platform:

Niet elke bron die is opgehaald in stap 6 wordt geciteerd. Het model maakt een selectie op basis van relevantie, betrouwbaarheid en directheid.

Wat je kunt beïnvloeden:

Het verschil tussen training en retrieval

Een veelvoorkomend misverstand: er zijn twee verschillende manieren waarop je content in een AI-model terechtkomt.

Trainingskennis

Tijdens de training leest het model miljarden webpagina's. Deze kennis wordt "ingebakken" in de gewichten van het model. Je kunt dit niet direct beïnvloeden (behalve door GPTBot toe te laten). De trainingsdata heeft doorgaans een knowledge cutoff — een datum waarna het model geen nieuwe informatie meer heeft.

Retrieval (RAG)

Bij retrieval haalt het model in real-time informatie op bij elke vraag. Dit is wat ChatGPT Search, Perplexity en Google AI Overviews doen. Dit kun je wel direct beïnvloeden door je content te optimaliseren voor crawling, chunking en retrieval.

Voor GEO is retrieval het belangrijkst. Het is het proces waar je actief invloed op kunt uitoefenen.

Waar de meeste optimalisatie-winst zit

Van de acht stappen is je invloed het grootst bij:

  1. Crawling (stap 1): technische toegankelijkheid — zonder crawl geen citatie
  2. Chunking (stap 3): contentstructuur bepaalt hoe goed je content wordt opgesplitst
  3. Retrieval (stap 6): semantische relevantie bepaalt of je content wordt opgehaald
  4. Citatie (stap 8): citeerbare, feitelijke content vergroot de kans op vermelding

De stappen ertussen (parsing, embedding, indexering, generatie) worden grotendeels bepaald door de AI-provider en zijn minder direct te beïnvloeden.

Samenvatting

Het proces van content naar AI-citatie is een pipeline van acht stappen. Op elk punt kan je content afvallen: geblokkeerd bij crawling, slecht gechunkt door onduidelijke structuur, niet gevonden bij retrieval, of niet geciteerd vanwege gebrek aan specificiteit.

De sleutel is om op elk punt zo min mogelijk weerstand te bieden:

Lees de technische GEO-checklist om punt voor punt te controleren of je site is geoptimaliseerd, of leer meer over robots.txt configuratie voor AI-bots.

Meet je AI-zichtbaarheid

Ontdek waar jouw bedrijf verschijnt in ChatGPT, Perplexity en andere AI-zoekmachines.

Probeer Briljant 7 dagen gratis

Hoe AI-modellen je content crawlen en indexeren: het volledige proces

Wanneer ChatGPT je website citeert in een antwoord, is daar een heel proces aan voorafgegaan. Van het eerste bezoek door een crawler tot het moment dat je content wordt geselecteerd als bron — er zitten meerdere stappen tussen, elk met eigen regels en optimalisatiemogelijkheden.

In dit artikel leggen we het volledige proces uit: van crawling tot citatie. Als je begrijpt hoe dit werkt, kun je gericht optimaliseren voor elke stap.

Het proces in acht stappen

Stap 1: Crawling — de bot bezoekt je site

Alles begint met een crawler. AI-bedrijven sturen geautomatiseerde programma's (bots) naar websites om content op te halen. De belangrijkste:

  • GPTBot / OAI-SearchBot (OpenAI): voor training respectievelijk zoekresultaten
  • PerplexityBot (Perplexity): voor indexatie en real-time zoeken
  • ClaudeBot (Anthropic): voor content-toegang
  • Googlebot (Google): voor de zoekindex die AI Overviews voedt
  • Bingbot (Microsoft): voor Bing, dat ChatGPT en Copilot voedt

De crawler stuurt een HTTP-request naar je server en ontvangt de HTML-response. Belangrijk: de meeste AI-crawlers voeren geen JavaScript uit. Ze zien alleen de HTML die je server direct retourneert.

Wat je kunt beïnvloeden:

  • Zorg dat je robots.txt AI-crawlers toelaat
  • Server-side render je content (geen client-side only rendering)
  • Houd je laadtijd onder 3 seconden

Lees meer over crawler-specifieke details in Crawler logs en AI-zichtbaarheid.

Stap 2: Parsing — de content wordt verwerkt

Nadat de crawler de HTML heeft opgehaald, wordt de ruwe content "geparsed" — ontdaan van opmaak, navigatie, footers en advertenties. Het systeem probeert de kerninhoud van de pagina te isoleren.

Dit proces lijkt op wat je ziet als je "Reader mode" in je browser activeert: alleen de hoofdtekst, koppen en afbeeldingen blijven over.

Wat je kunt beïnvloeden:

  • Gebruik semantische HTML (
    ,
    ,
    )
  • Houd je content gescheiden van navigatie en sidebar-elementen
  • Vermijd content in iframes of complexe JavaScript-widgets

Stap 3: Chunking — het document wordt opgesplitst

Een volledig artikel van 2.000 woorden is te groot voor een AI-model om als één geheel te verwerken in een zoekcontext. Daarom wordt het opgesplitst in kleinere stukken: chunks.

Typische chunk-groottes variëren van 500 tot 1.500 tokens (ruwweg 375 tot 1.125 woorden). De manier van opsplitsen verschilt per systeem:

  • Op basis van headers: H2/H3-headers worden als natuurlijke grenzen gebruikt
  • Op basis van paragrafen: nieuwe paragrafen markeren chunk-grenzen
  • Op basis van tokens: een vast aantal tokens per chunk, met overlap tussen chunks
  • Semantisch: op basis van onderwerp-veranderingen in de tekst

Wat je kunt beïnvloeden:

  • Gebruik duidelijke H2/H3-headers die als natuurlijke chunk-grenzen fungeren
  • Maak elke sectie zelfstandig begrijpelijk
  • Houd secties tussen 150 en 400 woorden
  • Begin elke sectie met de kernboodschap

Lees de uitgebreide gids in Content chunking voor AI-citaties.

Stap 4: Embedding — tekst wordt een vector

Elk chunk wordt omgezet in een wiskundige representatie: een embedding (ook wel vector genoemd). Dit is een reeks van honderden of duizenden getallen die de "betekenis" van de tekst vastleggen.

Het bijzondere: teksten met een vergelijkbare betekenis krijgen vergelijkbare vectors, ongeacht de exacte woorden. "Wat kost een CRM?" en "Prijs van klantbeheersoftware" liggen als vectors dicht bij elkaar, omdat de betekenis overeenkomt.

Wat je kunt beïnvloeden:

  • Indirect: schrijf helder en eenduidig. Ambigue tekst krijgt een minder duidelijke vector
  • Gebruik de termen die je doelgroep gebruikt — maar geforceerde keyword-stuffing helpt niet
  • Semantische relevantie is belangrijker dan exacte woordkeuze

Stap 5: Indexering — opslag in een vector database

De embeddings worden opgeslagen in een vector database — een gespecialiseerde database die is geoptimaliseerd voor het snel vinden van vergelijkbare vectors. Bekende vector databases zijn Pinecone, Weaviate en Chroma.

Samen met de embedding wordt metadata opgeslagen: de bron-URL, publicatiedatum, auteur, en soms de originele tekst van het chunk.

Wat je kunt beïnvloeden:

  • Zorg voor correcte metadata: juiste publicatiedatums, auteursinformatie en URL's
  • Schema markup helpt AI-systemen om metadata te extraheren
  • Consistente URL-structuur voorkomt duplicaten in de index

Stap 6: Retrieval — de juiste chunks worden opgehaald

Wanneer een gebruiker een vraag stelt aan een AI-zoekmachine, wordt die vraag ook omgezet in een embedding. Het retrieval-systeem zoekt vervolgens in de vector database naar chunks waarvan de embedding het meest lijkt op de vraag-embedding.

Dit is het RAG-proces: Retrieval-Augmented Generation. Het model haalt (retrieves) eerst relevante bronnen op, en gebruikt die vervolgens om een antwoord te genereren.

Het retrieval-systeem retourneert doorgaans de top 5-20 meest relevante chunks. Niet al deze chunks worden in het uiteindelijke antwoord geciteerd — het model maakt een verdere selectie.

Wat je kunt beïnvloeden:

  • Schrijf content die semantisch aansluit bij de vragen van je doelgroep
  • Begin secties met directe antwoorden op veelgestelde vragen
  • Voeg specifieke, unieke informatie toe die je onderscheidt van concurrenten

Stap 7: Generatie — het antwoord wordt samengesteld

Het AI-model ontvangt de vraag van de gebruiker samen met de opgehaalde chunks als context. Op basis hiervan genereert het een antwoord.

Het model:

  1. Leest alle opgehaalde chunks
  2. Selecteert de meest relevante informatie
  3. Combineert informatie uit meerdere bronnen
  4. Formuleert een samenhangend antwoord
  5. Bepaalt welke bronnen geciteerd worden

Wat je kunt beïnvloeden:

  • Content die een directe, feitelijke claim maakt, wordt vaker geciteerd
  • Unieke informatie (eigen onderzoek, unieke data) heeft een hogere kans
  • Goed gestructureerde content is makkelijker voor het model om te verwerken

Stap 8: Citatie — je wordt als bron vermeld

Tot slot bepaalt het model welke bronnen het citeert. Dit verschilt per platform:

  • Perplexity: inline citaties bij elke bewering (transparant)
  • ChatGPT: bronverwijzingen aan het einde van het antwoord of inline
  • Google AI Overviews: links naar bronpagina's onder het antwoord
  • Claude: bronvermeldingen wanneer het model het web raadpleegt

Niet elke bron die is opgehaald in stap 6 wordt geciteerd. Het model maakt een selectie op basis van relevantie, betrouwbaarheid en directheid.

Wat je kunt beïnvloeden:

  • Maak claims specifiek en citeerbaar
  • Zorg voor duidelijke auteursinformatie en expertise-signalen
  • Bied unieke waarde die andere bronnen niet bieden

Het verschil tussen training en retrieval

Een veelvoorkomend misverstand: er zijn twee verschillende manieren waarop je content in een AI-model terechtkomt.

Trainingskennis

Tijdens de training leest het model miljarden webpagina's. Deze kennis wordt "ingebakken" in de gewichten van het model. Je kunt dit niet direct beïnvloeden (behalve door GPTBot toe te laten). De trainingsdata heeft doorgaans een knowledge cutoff — een datum waarna het model geen nieuwe informatie meer heeft.

Retrieval (RAG)

Bij retrieval haalt het model in real-time informatie op bij elke vraag. Dit is wat ChatGPT Search, Perplexity en Google AI Overviews doen. Dit kun je wel direct beïnvloeden door je content te optimaliseren voor crawling, chunking en retrieval.

Voor GEO is retrieval het belangrijkst. Het is het proces waar je actief invloed op kunt uitoefenen.

Waar de meeste optimalisatie-winst zit

Van de acht stappen is je invloed het grootst bij:

  1. Crawling (stap 1): technische toegankelijkheid — zonder crawl geen citatie
  2. Chunking (stap 3): contentstructuur bepaalt hoe goed je content wordt opgesplitst
  3. Retrieval (stap 6): semantische relevantie bepaalt of je content wordt opgehaald
  4. Citatie (stap 8): citeerbare, feitelijke content vergroot de kans op vermelding

De stappen ertussen (parsing, embedding, indexering, generatie) worden grotendeels bepaald door de AI-provider en zijn minder direct te beïnvloeden.

Samenvatting

Het proces van content naar AI-citatie is een pipeline van acht stappen. Op elk punt kan je content afvallen: geblokkeerd bij crawling, slecht gechunkt door onduidelijke structuur, niet gevonden bij retrieval, of niet geciteerd vanwege gebrek aan specificiteit.

De sleutel is om op elk punt zo min mogelijk weerstand te bieden:

  • Maak je site technisch toegankelijk voor crawlers
  • Structureer je content met duidelijke headers en zelfstandige secties
  • Schrijf content die semantisch aansluit bij de vragen van je doelgroep
  • Maak claims specifiek, feitelijk en citeerbaar

Lees de technische GEO-checklist om punt voor punt te controleren of je site is geoptimaliseerd, of leer meer over robots.txt configuratie voor AI-bots.

Meet je AI-zichtbaarheid

Ontdek waar jouw bedrijf verschijnt in ChatGPT, Perplexity en andere AI-zoekmachines.

Probeer Briljant 7 dagen gratis