Vérifier si les bots IA peuvent accéder à ton site
4 étapes simples pour confirmer que ChatGPT, Claude, Perplexity et Gemini peuvent lire ton site. Avec curl, sans outil payant.
Pourquoi ce diagnostic ?
Vérifier l'accès des bots IA à un site prend 5 minutes et ne demande aucun outil payant : un navigateur et la commande curl suffisent.
Avant de réfléchir au contenu, à la structure ou aux schemas, il faut s'assurer d'une chose : les bots IA peuvent-ils techniquement accéder à ton site ? Si la réponse est non, tout le reste est inutile.
Deux niveaux de blocage sont possibles :
- Blocage robots.txt
ton site dit explicitement aux bots "vous n'avez pas le droit de me crawler". C'est volontaire (rare) ou hérité d'un template (fréquent).
- Blocage réseau
ton hébergeur, ton CDN ou ton WAF (Cloudflare, Sucuri, Wordfence…) refuse la requête avant même qu'elle n'atteigne le site. Les bots ne reçoivent ni 200 ni 403, juste un timeout ou une erreur.
Les bots IA à connaître
Voici les 10 user-agents les plus importants à autoriser pour la visibilité IA. Liste tenue à jour avec ce qu'on observe en prod sur les scans.
| User-agent | Éditeur | Rôle |
|---|---|---|
| GPTBot | OpenAI | Entraînement des modèles GPT |
| OAI-SearchBot | OpenAI | Recherche live ChatGPT (résultats web) |
| ChatGPT-User | OpenAI | Requêtes utilisateur live (quand l'utilisateur partage une URL) |
| ClaudeBot | Anthropic | Entraînement des modèles Claude |
| Claude-User | Anthropic | Requêtes utilisateur live |
| Claude-SearchBot | Anthropic | Recherche live Claude (search) |
| PerplexityBot | Perplexity | Crawl pour les réponses Perplexity |
| Perplexity-User | Perplexity | Requêtes utilisateur live |
| Google-Extended | Entraînement Gemini et AI Overviews | |
| GrokBot | xAI | Crawl pour Grok (note : xAI utilise aussi des IPs résidentielles rotatives non identifiables comme bots) |
Note importante : autoriser `GoogleBot` ne suffit pas pour Google AI. Il faut explicitement autoriser `Google-Extended`, qui est le user-agent dédié à l'entraînement IA.
Un site peut bloquer les bots IA à deux niveaux : le robots.txt (règle volontaire que les bots respectent) ou le firewall (blocage réseau qui empêche même la requête).
Lecture rapide du robots.txt
La méthode la plus simple. Ouvre directement `https://tonsite.fr/robots.txt` dans ton navigateur.
Cherche les lignes qui mentionnent les bots IA listés ci-dessus. Trois cas possibles :
- Aucune mention : par défaut, les bots peuvent accéder. C'est OK, mais idéalement on veut l'autorisation explicite (signal de bonne pratique).
- `Disallow: /` sous un bot IA : le bot est explicitement bloqué. À corriger immédiatement.
- `Allow: /` sous un bot IA : le bot est explicitement autorisé. C'est le bon signal.
Test curl avec user-agent simulé
Pour vérifier qu'au-delà du robots.txt, ton site répond bien aux bots, simule une requête avec l'user-agent d'un bot IA via curl.
Ouvre un terminal et lance :
curl -A "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)" -I https://tonsite.frLe résultat doit commencer par `HTTP/2 200` (ou `HTTP/1.1 200 OK`). Si tu vois 403, 404 ou 429, ton site bloque les bots IA au niveau réseau (firewall, WAF). Répète avec les autres bots en remplaçant l'user-agent. Liste complète des UAs officiels pour copier-coller : ClaudeBot : Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com) PerplexityBot : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot) Google-Extended : pas un crawler distinct, partage les User-Agents de GoogleBot
Vérification du WAF / firewall
Si l'étape 2 renvoie 403 ou un timeout, le blocage vient probablement de ton firewall ou WAF, pas de ton robots.txt. Voici où chercher selon ton stack :
- Cloudflare : dashboard Security → WAF → Custom rules. Cherche une règle qui bloque les User-Agents contenant "bot", "crawler" ou des noms spécifiques.
- Sucuri : settings → Security → Bot Mitigation. Désactive le blocage générique des "AI scrapers".
- Wordfence (WordPress) : Wordfence → Firewall → Blocking. Vérifier la liste des User-Agents bloqués.
- AWS WAF : règles managées Bot Control. Désactiver le blocage des bots "Generative AI".
Important : ces outils ont souvent des règles "AI scrapers" activées par défaut depuis 2024. Désactive-les explicitement.
Tester avec un scan automatisé
Si les 3 étapes précédentes te paraissent trop techniques, ou si tu veux un rapport global sans manipulation manuelle, un scan automatisé fait le travail en 30 secondes.
Trakora.ai teste l'accès des 10 bots IA principaux et te dit lesquels sont bloqués (robots.txt ou réseau), avec la cause précise pour chacun.
Que faire après avoir détecté un blocage
La grande majorité des blocages IA sont des erreurs de configuration robots.txt, pas des choix délibérés. Quelques minutes de vérification permettent d'écarter ce diagnostic.
3 cas possibles :
- Blocage robots.txt
modifier le fichier pour ajouter `Allow: /` sous chaque bot. Procédure complète sur /optimiser-site-pour-ia étape 1.
- Blocage WAF / firewall
aller dans la console de ton WAF et désactiver les règles "AI scrapers" ou "GenAI bots". Voir étape 3 ci-dessus.
- Blocage hébergeur
certains hébergeurs mutualisés bloquent les bots IA au niveau infrastructure pour économiser de la bande passante. Contacter le support pour demander le whitelist, ou changer d'hébergeur si refus.
Une fois le blocage corrigé, les bots IA mettent 1 à 7 jours à recrawler ton site et à mettre à jour leur cache. Tu peux accélérer en soumettant ton sitemap à Bing Webmaster Tools (qui alimente l'index de ChatGPT) et à Google Search Console (qui alimente Gemini).
Questions fréquentes
- Est-ce que je dois vraiment autoriser tous les bots IA ?
- Pour maximiser la visibilité, oui. Si tu vends du contenu sous paywall ou si ton modèle économique repose sur la fréquentation directe (presse, médias), tu peux choisir de bloquer certains bots, mais c'est un choix qui coûte de la visibilité IA. Pour 99 % des sites de TPE/PME, autoriser tous les bots est le bon défaut.
- Quelle différence entre GPTBot et OAI-SearchBot ?
- GPTBot crawle le web pour entraîner les futurs modèles GPT (l'effet est lent, plusieurs mois). OAI-SearchBot crawle pour la recherche live de ChatGPT, c'est-à-dire ce que ChatGPT fait quand un utilisateur active "Search" ou pose une question d'actualité. Tu veux les deux. ChatGPT-User est utilisé quand un utilisateur partage explicitement une URL dans une conversation.
- Google-Extended bloque-t-il aussi le SEO Google classique ?
- Non. Google-Extended ne contrôle que l'usage du contenu pour entraîner Gemini. Ton SEO classique reste géré par GoogleBot, indépendamment. Tu peux autoriser GoogleBot et bloquer Google-Extended (ou inversement), ce sont deux décisions séparées.
- Pourquoi mon test curl renvoie 200 mais le bot ne crawle pas ?
- Plusieurs causes possibles : (1) le bot a peut-être déjà crawlé récemment et son cache n'est pas encore expiré, (2) ton sitemap n'est pas à jour ou pas soumis, (3) le bot considère ton contenu comme peu pertinent par rapport aux requêtes utilisateur. Le test curl confirme l'accès technique, pas la décision éditoriale du bot.
- Les bots IA respectent-ils vraiment robots.txt ?
- Les bots officiels (OpenAI, Anthropic, Perplexity, Google) le respectent. Quelques scrapers IA non-officiels et certains crawlers de startups l'ignorent, mais ce ne sont pas eux qui alimentent ChatGPT, Claude ou Perplexity. Pour les 4 grands, robots.txt est respecté.
- Est-ce qu'autoriser les bots IA va consommer beaucoup de bande passante ?
- Pas vraiment. Les bots IA crawlent moins fréquemment et moins agressivement que GoogleBot. Sur un site de TPE moyen, la consommation supplémentaire est négligeable (quelques Mo par jour). Si tu vois un pic, c'est probablement un autre bot moins respectueux qui n'a rien à voir avec l'IA.
- Faut-il bloquer les bots après avoir été crawlé ?
- Non. Les bots crawlent en continu pour mettre à jour leur compréhension de ton site. Si tu bloques après le premier crawl, ton contenu se "fige" dans la version qu'ils ont vue, et toute mise à jour devient invisible.
- Et si je n'ai aucun accès au robots.txt ni au WAF ?
- Tu es probablement sur un hébergeur ou un CMS très fermé (Wix gratuit, certaines plateformes de templates). Les options sont : (1) passer à une formule payante qui ouvre l'accès, (2) migrer vers une plateforme moderne (Webflow, Framer, WordPress géré), (3) utiliser un proxy avec configuration personnalisée (complexe).
Alors, pourquoi pas
toi ?
Une URL. Soixante secondes. Tu sors avec tes 2 scores, le problème qui bloque le plus, puis tu peux débloquer le parcours complet pour corriger.