Aller au contenu principal
Mis à jour le

Vérifier si les bots IA peuvent accéder à ton site

4 étapes simples pour confirmer que ChatGPT, Claude, Perplexity et Gemini peuvent lire ton site. Avec curl, sans outil payant.

Pourquoi ce diagnostic ?

Vérifier l'accès des bots IA à un site prend 5 minutes et ne demande aucun outil payant : un navigateur et la commande curl suffisent.

Avant de réfléchir au contenu, à la structure ou aux schemas, il faut s'assurer d'une chose : les bots IA peuvent-ils techniquement accéder à ton site ? Si la réponse est non, tout le reste est inutile.

Deux niveaux de blocage sont possibles :

  1. Blocage robots.txt

    ton site dit explicitement aux bots "vous n'avez pas le droit de me crawler". C'est volontaire (rare) ou hérité d'un template (fréquent).

  2. Blocage réseau

    ton hébergeur, ton CDN ou ton WAF (Cloudflare, Sucuri, Wordfence…) refuse la requête avant même qu'elle n'atteigne le site. Les bots ne reçoivent ni 200 ni 403, juste un timeout ou une erreur.

Les bots IA à connaître

Voici les 10 user-agents les plus importants à autoriser pour la visibilité IA. Liste tenue à jour avec ce qu'on observe en prod sur les scans.

User-agentÉditeurRôle
GPTBotOpenAIEntraînement des modèles GPT
OAI-SearchBotOpenAIRecherche live ChatGPT (résultats web)
ChatGPT-UserOpenAIRequêtes utilisateur live (quand l'utilisateur partage une URL)
ClaudeBotAnthropicEntraînement des modèles Claude
Claude-UserAnthropicRequêtes utilisateur live
Claude-SearchBotAnthropicRecherche live Claude (search)
PerplexityBotPerplexityCrawl pour les réponses Perplexity
Perplexity-UserPerplexityRequêtes utilisateur live
Google-ExtendedGoogleEntraînement Gemini et AI Overviews
GrokBotxAICrawl pour Grok (note : xAI utilise aussi des IPs résidentielles rotatives non identifiables comme bots)

Note importante : autoriser `GoogleBot` ne suffit pas pour Google AI. Il faut explicitement autoriser `Google-Extended`, qui est le user-agent dédié à l'entraînement IA.

Un site peut bloquer les bots IA à deux niveaux : le robots.txt (règle volontaire que les bots respectent) ou le firewall (blocage réseau qui empêche même la requête).

Lecture rapide du robots.txt

La méthode la plus simple. Ouvre directement `https://tonsite.fr/robots.txt` dans ton navigateur.

Cherche les lignes qui mentionnent les bots IA listés ci-dessus. Trois cas possibles :

  • Aucune mention : par défaut, les bots peuvent accéder. C'est OK, mais idéalement on veut l'autorisation explicite (signal de bonne pratique).
  • `Disallow: /` sous un bot IA : le bot est explicitement bloqué. À corriger immédiatement.
  • `Allow: /` sous un bot IA : le bot est explicitement autorisé. C'est le bon signal.
Temps
2 minutes pour parcourir le fichier.
Vérification
Le fichier doit lister au minimum GPTBot, ClaudeBot et PerplexityBot avec Allow: /.

Test curl avec user-agent simulé

Pour vérifier qu'au-delà du robots.txt, ton site répond bien aux bots, simule une requête avec l'user-agent d'un bot IA via curl.

Ouvre un terminal et lance :

bash
curl -A "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)" -I https://tonsite.fr

Le résultat doit commencer par `HTTP/2 200` (ou `HTTP/1.1 200 OK`). Si tu vois 403, 404 ou 429, ton site bloque les bots IA au niveau réseau (firewall, WAF). Répète avec les autres bots en remplaçant l'user-agent. Liste complète des UAs officiels pour copier-coller : ClaudeBot : Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com) PerplexityBot : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot) Google-Extended : pas un crawler distinct, partage les User-Agents de GoogleBot

Temps
5 minutes pour tester les 4 principaux bots.
Vérification
Tous les tests doivent renvoyer 200. Un 403 isolé sur un seul bot indique souvent un blocage WAF spécifique à filtrer.

Vérification du WAF / firewall

Si l'étape 2 renvoie 403 ou un timeout, le blocage vient probablement de ton firewall ou WAF, pas de ton robots.txt. Voici où chercher selon ton stack :

  • Cloudflare : dashboard Security → WAF → Custom rules. Cherche une règle qui bloque les User-Agents contenant "bot", "crawler" ou des noms spécifiques.
  • Sucuri : settings → Security → Bot Mitigation. Désactive le blocage générique des "AI scrapers".
  • Wordfence (WordPress) : Wordfence → Firewall → Blocking. Vérifier la liste des User-Agents bloqués.
  • AWS WAF : règles managées Bot Control. Désactiver le blocage des bots "Generative AI".

Important : ces outils ont souvent des règles "AI scrapers" activées par défaut depuis 2024. Désactive-les explicitement.

Temps
10 à 30 minutes selon la complexité de ta stack.
Vérification
Refait l'étape 2 après désactivation. Tu dois passer de 403 à 200.

Tester avec un scan automatisé

Si les 3 étapes précédentes te paraissent trop techniques, ou si tu veux un rapport global sans manipulation manuelle, un scan automatisé fait le travail en 30 secondes.

Trakora.ai teste l'accès des 10 bots IA principaux et te dit lesquels sont bloqués (robots.txt ou réseau), avec la cause précise pour chacun.

Temps
30 secondes.
Vérification
Aucune, le rapport te donne directement le verdict.

Que faire après avoir détecté un blocage

La grande majorité des blocages IA sont des erreurs de configuration robots.txt, pas des choix délibérés. Quelques minutes de vérification permettent d'écarter ce diagnostic.

3 cas possibles :

  1. Blocage robots.txt

    modifier le fichier pour ajouter `Allow: /` sous chaque bot. Procédure complète sur /optimiser-site-pour-ia étape 1.

  2. Blocage WAF / firewall

    aller dans la console de ton WAF et désactiver les règles "AI scrapers" ou "GenAI bots". Voir étape 3 ci-dessus.

  3. Blocage hébergeur

    certains hébergeurs mutualisés bloquent les bots IA au niveau infrastructure pour économiser de la bande passante. Contacter le support pour demander le whitelist, ou changer d'hébergeur si refus.

Une fois le blocage corrigé, les bots IA mettent 1 à 7 jours à recrawler ton site et à mettre à jour leur cache. Tu peux accélérer en soumettant ton sitemap à Bing Webmaster Tools (qui alimente l'index de ChatGPT) et à Google Search Console (qui alimente Gemini).

Tester l'accès des bots à mon site

Questions fréquentes

Est-ce que je dois vraiment autoriser tous les bots IA ?
Pour maximiser la visibilité, oui. Si tu vends du contenu sous paywall ou si ton modèle économique repose sur la fréquentation directe (presse, médias), tu peux choisir de bloquer certains bots, mais c'est un choix qui coûte de la visibilité IA. Pour 99 % des sites de TPE/PME, autoriser tous les bots est le bon défaut.
Quelle différence entre GPTBot et OAI-SearchBot ?
GPTBot crawle le web pour entraîner les futurs modèles GPT (l'effet est lent, plusieurs mois). OAI-SearchBot crawle pour la recherche live de ChatGPT, c'est-à-dire ce que ChatGPT fait quand un utilisateur active "Search" ou pose une question d'actualité. Tu veux les deux. ChatGPT-User est utilisé quand un utilisateur partage explicitement une URL dans une conversation.
Google-Extended bloque-t-il aussi le SEO Google classique ?
Non. Google-Extended ne contrôle que l'usage du contenu pour entraîner Gemini. Ton SEO classique reste géré par GoogleBot, indépendamment. Tu peux autoriser GoogleBot et bloquer Google-Extended (ou inversement), ce sont deux décisions séparées.
Pourquoi mon test curl renvoie 200 mais le bot ne crawle pas ?
Plusieurs causes possibles : (1) le bot a peut-être déjà crawlé récemment et son cache n'est pas encore expiré, (2) ton sitemap n'est pas à jour ou pas soumis, (3) le bot considère ton contenu comme peu pertinent par rapport aux requêtes utilisateur. Le test curl confirme l'accès technique, pas la décision éditoriale du bot.
Les bots IA respectent-ils vraiment robots.txt ?
Les bots officiels (OpenAI, Anthropic, Perplexity, Google) le respectent. Quelques scrapers IA non-officiels et certains crawlers de startups l'ignorent, mais ce ne sont pas eux qui alimentent ChatGPT, Claude ou Perplexity. Pour les 4 grands, robots.txt est respecté.
Est-ce qu'autoriser les bots IA va consommer beaucoup de bande passante ?
Pas vraiment. Les bots IA crawlent moins fréquemment et moins agressivement que GoogleBot. Sur un site de TPE moyen, la consommation supplémentaire est négligeable (quelques Mo par jour). Si tu vois un pic, c'est probablement un autre bot moins respectueux qui n'a rien à voir avec l'IA.
Faut-il bloquer les bots après avoir été crawlé ?
Non. Les bots crawlent en continu pour mettre à jour leur compréhension de ton site. Si tu bloques après le premier crawl, ton contenu se "fige" dans la version qu'ils ont vue, et toute mise à jour devient invisible.
Et si je n'ai aucun accès au robots.txt ni au WAF ?
Tu es probablement sur un hébergeur ou un CMS très fermé (Wix gratuit, certaines plateformes de templates). Les options sont : (1) passer à une formule payante qui ouvre l'accès, (2) migrer vers une plateforme moderne (Webflow, Framer, WordPress géré), (3) utiliser un proxy avec configuration personnalisée (complexe).
Gratuit · Sans compte · 60 secondes

Alors, pourquoi pas
toi ?

Une URL. Soixante secondes. Tu sors avec tes 2 scores, le problème qui bloque le plus, puis tu peux débloquer le parcours complet pour corriger.

https://
Sans carte bancaire 1 problème critique révélé Parcours complet après achat