, , )Wanneer ChatGPT je website citeert in een antwoord, is daar een heel proces aan voorafgegaan. Van het eerste bezoek door een crawler tot het moment dat je content wordt geselecteerd als bron — er zitten meerdere stappen tussen, elk met eigen regels en optimalisatiemogelijkheden.
In dit artikel leggen we het volledige proces uit: van crawling tot citatie. Als je begrijpt hoe dit werkt, kun je gericht optimaliseren voor elke stap.
Alles begint met een crawler. AI-bedrijven sturen geautomatiseerde programma's (bots) naar websites om content op te halen. De belangrijkste:
De crawler stuurt een HTTP-request naar je server en ontvangt de HTML-response. Belangrijk: de meeste AI-crawlers voeren geen JavaScript uit. Ze zien alleen de HTML die je server direct retourneert.
Wat je kunt beïnvloeden:
Lees meer over crawler-specifieke details in Crawler logs en AI-zichtbaarheid.
Nadat de crawler de HTML heeft opgehaald, wordt de ruwe content "geparsed" — ontdaan van opmaak, navigatie, footers en advertenties. Het systeem probeert de kerninhoud van de pagina te isoleren.
Dit proces lijkt op wat je ziet als je "Reader mode" in je browser activeert: alleen de hoofdtekst, koppen en afbeeldingen blijven over.
Wat je kunt beïnvloeden:
, , )Een volledig artikel van 2.000 woorden is te groot voor een AI-model om als één geheel te verwerken in een zoekcontext. Daarom wordt het opgesplitst in kleinere stukken: chunks.
Typische chunk-groottes variëren van 500 tot 1.500 tokens (ruwweg 375 tot 1.125 woorden). De manier van opsplitsen verschilt per systeem:
Wat je kunt beïnvloeden:
Lees de uitgebreide gids in Content chunking voor AI-citaties.
Elk chunk wordt omgezet in een wiskundige representatie: een embedding (ook wel vector genoemd). Dit is een reeks van honderden of duizenden getallen die de "betekenis" van de tekst vastleggen.
Het bijzondere: teksten met een vergelijkbare betekenis krijgen vergelijkbare vectors, ongeacht de exacte woorden. "Wat kost een CRM?" en "Prijs van klantbeheersoftware" liggen als vectors dicht bij elkaar, omdat de betekenis overeenkomt.
Wat je kunt beïnvloeden:
De embeddings worden opgeslagen in een vector database — een gespecialiseerde database die is geoptimaliseerd voor het snel vinden van vergelijkbare vectors. Bekende vector databases zijn Pinecone, Weaviate en Chroma.
Samen met de embedding wordt metadata opgeslagen: de bron-URL, publicatiedatum, auteur, en soms de originele tekst van het chunk.
Wat je kunt beïnvloeden:
Wanneer een gebruiker een vraag stelt aan een AI-zoekmachine, wordt die vraag ook omgezet in een embedding. Het retrieval-systeem zoekt vervolgens in de vector database naar chunks waarvan de embedding het meest lijkt op de vraag-embedding.
Dit is het RAG-proces: Retrieval-Augmented Generation. Het model haalt (retrieves) eerst relevante bronnen op, en gebruikt die vervolgens om een antwoord te genereren.
Het retrieval-systeem retourneert doorgaans de top 5-20 meest relevante chunks. Niet al deze chunks worden in het uiteindelijke antwoord geciteerd — het model maakt een verdere selectie.
Wat je kunt beïnvloeden:
Het AI-model ontvangt de vraag van de gebruiker samen met de opgehaalde chunks als context. Op basis hiervan genereert het een antwoord.
Het model:
Wat je kunt beïnvloeden:
Tot slot bepaalt het model welke bronnen het citeert. Dit verschilt per platform:
Niet elke bron die is opgehaald in stap 6 wordt geciteerd. Het model maakt een selectie op basis van relevantie, betrouwbaarheid en directheid.
Wat je kunt beïnvloeden:
Een veelvoorkomend misverstand: er zijn twee verschillende manieren waarop je content in een AI-model terechtkomt.
Tijdens de training leest het model miljarden webpagina's. Deze kennis wordt "ingebakken" in de gewichten van het model. Je kunt dit niet direct beïnvloeden (behalve door GPTBot toe te laten). De trainingsdata heeft doorgaans een knowledge cutoff — een datum waarna het model geen nieuwe informatie meer heeft.
Bij retrieval haalt het model in real-time informatie op bij elke vraag. Dit is wat ChatGPT Search, Perplexity en Google AI Overviews doen. Dit kun je wel direct beïnvloeden door je content te optimaliseren voor crawling, chunking en retrieval.
Voor GEO is retrieval het belangrijkst. Het is het proces waar je actief invloed op kunt uitoefenen.
Van de acht stappen is je invloed het grootst bij:
De stappen ertussen (parsing, embedding, indexering, generatie) worden grotendeels bepaald door de AI-provider en zijn minder direct te beïnvloeden.
Het proces van content naar AI-citatie is een pipeline van acht stappen. Op elk punt kan je content afvallen: geblokkeerd bij crawling, slecht gechunkt door onduidelijke structuur, niet gevonden bij retrieval, of niet geciteerd vanwege gebrek aan specificiteit.
De sleutel is om op elk punt zo min mogelijk weerstand te bieden:
Lees de technische GEO-checklist om punt voor punt te controleren of je site is geoptimaliseerd, of leer meer over robots.txt configuratie voor AI-bots.
Ontdek waar jouw bedrijf verschijnt in ChatGPT, Perplexity en andere AI-zoekmachines.
Probeer Briljant 7 dagen gratis