Robots.txt en AI-bots: GPTBot, PerplexityBot en ClaudeBot toelaten of blokkeren

Je robots.txt is het eerste bestand dat een AI-bot leest wanneer het je website bezoekt. Het bepaalt welke delen van je site de bot mag crawlen — en welke niet. Met de opkomst van AI-zoekmachines zijn er nieuwe bots bijgekomen, elk met een ander doel.

In dit artikel geven we een compleet overzicht van alle relevante AI-bots, wat ze doen, en hoe je je robots.txt configureert. Inclusief code-voorbeelden voor de meest voorkomende scenario's.

Overzicht: welke AI-bots bestaan er?

Er zijn twee categorieën AI-bots die je website kunnen bezoeken:

Training-bots

Deze bots verzamelen content om AI-modellen mee te trainen. Ze zijn niet direct verbonden aan zoekresultaten.

Bot Eigenaar Doel
GPTBot OpenAI Content verzamelen voor training van GPT-modellen
Google-Extended Google Content voor training van Gemini en andere modellen
ClaudeBot Anthropic Content voor training van Claude-modellen
Applebot-Extended Apple Content voor training van Apple Intelligence
CCBot Common Crawl Open dataset voor AI-training
Meta-ExternalAgent Meta Content voor training van Llama-modellen

Zoek-bots (real-time retrieval)

Deze bots halen content op om te gebruiken in AI-zoekresultaten. Blokkeren betekent dat je niet in hun antwoorden kunt verschijnen.

Bot Eigenaar Doel
OAI-SearchBot OpenAI Content ophalen voor ChatGPT Search
ChatGPT-User OpenAI Real-time ophalen tijdens ChatGPT-gesprekken
PerplexityBot Perplexity Indexeren en ophalen voor Perplexity Search
Bingbot Microsoft Indexeren voor Bing (voedt ook Copilot en ChatGPT)
Googlebot Google Indexeren voor Google Search (voedt ook AI Overviews)

Het verschil is cruciaal: training-bots blokkeren heeft geen directe impact op je zichtbaarheid in AI-antwoorden. Zoek-bots blokkeren wel — dat kan je onzichtbaar maken.

Meer over de functie van deze crawlers lees je in Crawler logs en AI-zichtbaarheid.

De beslisboom: wat moet je toelaten?

De keuze om een bot toe te laten of te blokkeren hangt af van je situatie. Gebruik deze beslisboom:

Vraag 1: Wil je zichtbaar zijn in AI-antwoorden?

Ja → Laat alle zoek-bots toe (OAI-SearchBot, ChatGPT-User, PerplexityBot, Bingbot, Googlebot)

Nee → Je kunt zoek-bots blokkeren, maar realiseer je dat je dan ook niet in die platforms verschijnt

Vraag 2: Wil je dat je content gebruikt wordt voor AI-training?

Geen bezwaar → Laat training-bots toe (GPTBot, Google-Extended, ClaudeBot, etc.)

Liever niet → Blokkeer de training-bots. Dit heeft geen invloed op je zichtbaarheid in zoekresultaten.

Deels → Blokkeer selectief. Bijvoorbeeld: alleen GPTBot blokkeren maar Google-Extended toelaten.

Vraag 3: Heb je gevoelige content die niet geïndexeerd mag worden?

Ja → Blokkeer specifieke paden voor alle bots (inclusief Googlebot en Bingbot) via Disallow-regels voor die paden.

Robots.txt configuratie: code-voorbeelden

Scenario 1: Alles toelaten (maximale zichtbaarheid)

Dit is de aanbevolen configuratie voor bedrijven die maximale AI-zichtbaarheid willen:

# Alle bots toelaten
User-agent: *
Allow: /

# Sitemap
Sitemap: https://www.jouwsite.nl/sitemap.xml

Met deze configuratie kunnen alle bots — zowel training als zoek — je volledige site crawlen.

Scenario 2: Zoek-bots toelaten, training-bots blokkeren

De meest gekozen configuratie: je bent zichtbaar in AI-antwoorden, maar je content wordt niet gebruikt voor training.

# Standaard: alles toelaten
User-agent: *
Allow: /

# Training-bots blokkeren
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Zoek-bots expliciet toelaten
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Sitemap
Sitemap: https://www.jouwsite.nl/sitemap.xml

Belangrijk: de volgorde en specificiteit van regels is relevant. Meer specifieke user-agent-regels hebben voorrang boven de wildcard (*).

Scenario 3: Selectief per platform

Stel je wilt alleen zichtbaar zijn in Google-producten en niet in ChatGPT of Perplexity:

# Standaard: alles blokkeren
User-agent: *
Disallow: /

# Google toelaten
User-agent: Googlebot
Allow: /

User-agent: Google-Extended
Allow: /

# Bing toelaten (voor Copilot)
User-agent: Bingbot
Allow: /

# OpenAI en Perplexity blokkeren
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

# Sitemap
Sitemap: https://www.jouwsite.nl/sitemap.xml

Scenario 4: Alles blokkeren

Voor sites die niet in AI-antwoorden willen verschijnen en niet voor training gebruikt willen worden:

# Alle AI-bots blokkeren
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Googlebot en Bingbot WEL toelaten (voor reguliere zoekresultaten)
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Sitemap
Sitemap: https://www.jouwsite.nl/sitemap.xml

Let op: Googlebot en Bingbot blokkeren betekent dat je ook uit reguliere zoekresultaten verdwijnt. Dat wil je vrijwel nooit.

Veelgemaakte fouten

Fout 1: Per ongeluk zoek-bots blokkeren

De meest voorkomende fout: je blokkeert GPTBot (training) maar beseft niet dat OAI-SearchBot (zoek) een andere bot is. Resultaat: je content wordt niet voor training gebruikt (wat je wilde) maar verschijnt ook niet meer in ChatGPT Search (wat je niet wilde).

Oplossing: blokkeer GPTBot en laat OAI-SearchBot expliciet toe.

Fout 2: WAF blokkeert AI-bots

Veel Web Application Firewalls (WAF) en beveiligingsplugins blokkeren onbekende bots automatisch. Cloudflare, Sucuri en Wordfence kunnen AI-crawlers blokkeren zonder dat je het weet.

Oplossing: controleer je WAF-configuratie en whitelist de user agents van AI-bots die je wilt toelaten.

Fout 3: Vergeten van de sitemap

Een sitemap vertelt bots welke pagina's ze moeten crawlen en wanneer ze voor het laatst zijn bijgewerkt. Zonder sitemap moeten bots je hele site zelf ontdekken, wat minder efficiënt is.

Oplossing: voeg altijd een sitemap-referentie toe aan je robots.txt.

Fout 4: Robots.txt niet testen na wijzigingen

Een typfout of verkeerde indentatie kan ervoor zorgen dat je per ongeluk hele secties van je site blokkeert.

Oplossing: test je robots.txt na elke wijziging met Google's robots.txt-tester in Search Console en met Bing Webmaster Tools.

Bot-identiteit verifiëren

Niet elke crawler die beweert GPTBot of PerplexityBot te zijn, is dat ook. Kwaadwillende bots kunnen de user agent string vervalsen. Zo verifieer je de echte identiteit:

IP-verificatie

Elke AI-provider publiceert de IP-ranges van hun crawlers:

Je kunt in je server logs de IP-adressen van botbezoeken controleren tegen deze ranges. Als het IP-adres niet overeenkomt, is het waarschijnlijk een nep-bot.

Reverse DNS lookup

Voor Googlebot en Bingbot kun je een reverse DNS lookup doen om te verifiëren dat de bot echt van Google of Microsoft komt:

host 66.249.66.1
# Verwacht resultaat: crawl-66-249-66-1.googlebot.com

Na het instellen: monitoren

Het instellen van robots.txt is stap 1. Stap 2 is monitoren of het werkt:

Een goede monitoring-routine helpt je om problemen vroeg te ontdekken en op te lossen.

Samenvatting: de aanbevolen configuratie

Voor de meeste bedrijven die AI-zichtbaarheid willen, is de aanbevolen configuratie:

  1. Laat alle zoek-bots toe (OAI-SearchBot, ChatGPT-User, PerplexityBot, Googlebot, Bingbot)
  2. Maak een bewuste keuze over training-bots (GPTBot, Google-Extended, ClaudeBot)
  3. Controleer je WAF op onbedoelde bot-blokkades
  4. Voeg altijd een sitemap toe aan je robots.txt
  5. Monitor of bots je site daadwerkelijk bereiken

De configuratie die de beste balans biedt tussen zichtbaarheid en controle is Scenario 2: zoek-bots toelaten, training-bots blokkeren.

Lees de complete gids voor AI-zoekmachines voor de overkoepelende strategie.

Lees ook

Meet je AI-zichtbaarheid

Ontdek waar jouw bedrijf verschijnt in ChatGPT, Perplexity en andere AI-zoekmachines.

Probeer Briljant 7 dagen gratis

Robots.txt en AI-bots: GPTBot, PerplexityBot en ClaudeBot toelaten of blokkeren

Je robots.txt is het eerste bestand dat een AI-bot leest wanneer het je website bezoekt. Het bepaalt welke delen van je site de bot mag crawlen — en welke niet. Met de opkomst van AI-zoekmachines zijn er nieuwe bots bijgekomen, elk met een ander doel.

In dit artikel geven we een compleet overzicht van alle relevante AI-bots, wat ze doen, en hoe je je robots.txt configureert. Inclusief code-voorbeelden voor de meest voorkomende scenario's.

Overzicht: welke AI-bots bestaan er?

Er zijn twee categorieën AI-bots die je website kunnen bezoeken:

Training-bots

Deze bots verzamelen content om AI-modellen mee te trainen. Ze zijn niet direct verbonden aan zoekresultaten.

Bot Eigenaar Doel
GPTBot OpenAI Content verzamelen voor training van GPT-modellen
Google-Extended Google Content voor training van Gemini en andere modellen
ClaudeBot Anthropic Content voor training van Claude-modellen
Applebot-Extended Apple Content voor training van Apple Intelligence
CCBot Common Crawl Open dataset voor AI-training
Meta-ExternalAgent Meta Content voor training van Llama-modellen

Zoek-bots (real-time retrieval)

Deze bots halen content op om te gebruiken in AI-zoekresultaten. Blokkeren betekent dat je niet in hun antwoorden kunt verschijnen.

Bot Eigenaar Doel
OAI-SearchBot OpenAI Content ophalen voor ChatGPT Search
ChatGPT-User OpenAI Real-time ophalen tijdens ChatGPT-gesprekken
PerplexityBot Perplexity Indexeren en ophalen voor Perplexity Search
Bingbot Microsoft Indexeren voor Bing (voedt ook Copilot en ChatGPT)
Googlebot Google Indexeren voor Google Search (voedt ook AI Overviews)

Het verschil is cruciaal: training-bots blokkeren heeft geen directe impact op je zichtbaarheid in AI-antwoorden. Zoek-bots blokkeren wel — dat kan je onzichtbaar maken.

Meer over de functie van deze crawlers lees je in Crawler logs en AI-zichtbaarheid.

De beslisboom: wat moet je toelaten?

De keuze om een bot toe te laten of te blokkeren hangt af van je situatie. Gebruik deze beslisboom:

Vraag 1: Wil je zichtbaar zijn in AI-antwoorden?

Ja → Laat alle zoek-bots toe (OAI-SearchBot, ChatGPT-User, PerplexityBot, Bingbot, Googlebot)

Nee → Je kunt zoek-bots blokkeren, maar realiseer je dat je dan ook niet in die platforms verschijnt

Vraag 2: Wil je dat je content gebruikt wordt voor AI-training?

Geen bezwaar → Laat training-bots toe (GPTBot, Google-Extended, ClaudeBot, etc.)

Liever niet → Blokkeer de training-bots. Dit heeft geen invloed op je zichtbaarheid in zoekresultaten.

Deels → Blokkeer selectief. Bijvoorbeeld: alleen GPTBot blokkeren maar Google-Extended toelaten.

Vraag 3: Heb je gevoelige content die niet geïndexeerd mag worden?

Ja → Blokkeer specifieke paden voor alle bots (inclusief Googlebot en Bingbot) via Disallow-regels voor die paden.

Robots.txt configuratie: code-voorbeelden

Scenario 1: Alles toelaten (maximale zichtbaarheid)

Dit is de aanbevolen configuratie voor bedrijven die maximale AI-zichtbaarheid willen:

# Alle bots toelaten
User-agent: *
Allow: /

# Sitemap
Sitemap: https://www.jouwsite.nl/sitemap.xml

Met deze configuratie kunnen alle bots — zowel training als zoek — je volledige site crawlen.

Scenario 2: Zoek-bots toelaten, training-bots blokkeren

De meest gekozen configuratie: je bent zichtbaar in AI-antwoorden, maar je content wordt niet gebruikt voor training.

# Standaard: alles toelaten
User-agent: *
Allow: /

# Training-bots blokkeren
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Zoek-bots expliciet toelaten
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Sitemap
Sitemap: https://www.jouwsite.nl/sitemap.xml

Belangrijk: de volgorde en specificiteit van regels is relevant. Meer specifieke user-agent-regels hebben voorrang boven de wildcard (*).

Scenario 3: Selectief per platform

Stel je wilt alleen zichtbaar zijn in Google-producten en niet in ChatGPT of Perplexity:

# Standaard: alles blokkeren
User-agent: *
Disallow: /

# Google toelaten
User-agent: Googlebot
Allow: /

User-agent: Google-Extended
Allow: /

# Bing toelaten (voor Copilot)
User-agent: Bingbot
Allow: /

# OpenAI en Perplexity blokkeren
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

# Sitemap
Sitemap: https://www.jouwsite.nl/sitemap.xml

Scenario 4: Alles blokkeren

Voor sites die niet in AI-antwoorden willen verschijnen en niet voor training gebruikt willen worden:

# Alle AI-bots blokkeren
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Googlebot en Bingbot WEL toelaten (voor reguliere zoekresultaten)
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Sitemap
Sitemap: https://www.jouwsite.nl/sitemap.xml

Let op: Googlebot en Bingbot blokkeren betekent dat je ook uit reguliere zoekresultaten verdwijnt. Dat wil je vrijwel nooit.

Veelgemaakte fouten

Fout 1: Per ongeluk zoek-bots blokkeren

De meest voorkomende fout: je blokkeert GPTBot (training) maar beseft niet dat OAI-SearchBot (zoek) een andere bot is. Resultaat: je content wordt niet voor training gebruikt (wat je wilde) maar verschijnt ook niet meer in ChatGPT Search (wat je niet wilde).

Oplossing: blokkeer GPTBot en laat OAI-SearchBot expliciet toe.

Fout 2: WAF blokkeert AI-bots

Veel Web Application Firewalls (WAF) en beveiligingsplugins blokkeren onbekende bots automatisch. Cloudflare, Sucuri en Wordfence kunnen AI-crawlers blokkeren zonder dat je het weet.

Oplossing: controleer je WAF-configuratie en whitelist de user agents van AI-bots die je wilt toelaten.

Fout 3: Vergeten van de sitemap

Een sitemap vertelt bots welke pagina's ze moeten crawlen en wanneer ze voor het laatst zijn bijgewerkt. Zonder sitemap moeten bots je hele site zelf ontdekken, wat minder efficiënt is.

Oplossing: voeg altijd een sitemap-referentie toe aan je robots.txt.

Fout 4: Robots.txt niet testen na wijzigingen

Een typfout of verkeerde indentatie kan ervoor zorgen dat je per ongeluk hele secties van je site blokkeert.

Oplossing: test je robots.txt na elke wijziging met Google's robots.txt-tester in Search Console en met Bing Webmaster Tools.

Bot-identiteit verifiëren

Niet elke crawler die beweert GPTBot of PerplexityBot te zijn, is dat ook. Kwaadwillende bots kunnen de user agent string vervalsen. Zo verifieer je de echte identiteit:

IP-verificatie

Elke AI-provider publiceert de IP-ranges van hun crawlers:

  • OpenAI (GPTBot, OAI-SearchBot, ChatGPT-User): gepubliceerd op platform.openai.com
  • Perplexity (PerplexityBot): gepubliceerd in hun documentatie
  • Google (Googlebot, Google-Extended): reverse DNS-verificatie op .googlebot.com

Je kunt in je server logs de IP-adressen van botbezoeken controleren tegen deze ranges. Als het IP-adres niet overeenkomt, is het waarschijnlijk een nep-bot.

Reverse DNS lookup

Voor Googlebot en Bingbot kun je een reverse DNS lookup doen om te verifiëren dat de bot echt van Google of Microsoft komt:

host 66.249.66.1
# Verwacht resultaat: crawl-66-249-66-1.googlebot.com

Na het instellen: monitoren

Het instellen van robots.txt is stap 1. Stap 2 is monitoren of het werkt:

  • Server logs: controleer of de gewenste bots je site bezoeken
  • Crawl-frequentie: hoe vaak bezoeken AI-bots je site?
  • Responstijden: laden je pagina's snel genoeg voor de bots?
  • Foutmeldingen: krijgen bots 4xx- of 5xx-fouten?

Een goede monitoring-routine helpt je om problemen vroeg te ontdekken en op te lossen.

Samenvatting: de aanbevolen configuratie

Voor de meeste bedrijven die AI-zichtbaarheid willen, is de aanbevolen configuratie:

  1. Laat alle zoek-bots toe (OAI-SearchBot, ChatGPT-User, PerplexityBot, Googlebot, Bingbot)
  2. Maak een bewuste keuze over training-bots (GPTBot, Google-Extended, ClaudeBot)
  3. Controleer je WAF op onbedoelde bot-blokkades
  4. Voeg altijd een sitemap toe aan je robots.txt
  5. Monitor of bots je site daadwerkelijk bereiken

De configuratie die de beste balans biedt tussen zichtbaarheid en controle is Scenario 2: zoek-bots toelaten, training-bots blokkeren.

Lees de complete gids voor AI-zoekmachines voor de overkoepelende strategie.

Lees ook

Meet je AI-zichtbaarheid

Ontdek waar jouw bedrijf verschijnt in ChatGPT, Perplexity en andere AI-zoekmachines.

Probeer Briljant 7 dagen gratis