Ce qui bloque vraiment ChatGPT sur un site web
ChatGPT a beau être puissant, il dépend d'un crawler basique qui peut être bloqué par des erreurs très simples. Voici l'inventaire des blocages concrets, classés par famille, avec la méthode pour les diagnostiquer. Aucune promesse de ranking, juste un constat technique honnête.
Pourquoi distinguer les familles de blocages
Quand ChatGPT ne cite pas un site, ce n'est presque jamais une question de qualité humaine. C'est qu'un bloc précis empêche le bot d'entrer, de parser ou de comprendre la page.
Tous les blocages n'ont pas le même coût ni la même urgence. Un Disallow agressif dans robots.txt désindexe une page complète en quelques jours. Un témoignage en image bloque seulement la preuve, pas la page entière. Comprendre la famille du blocage évite de tout corriger en parallèle et de ne rien voir bouger.
Famille 1, blocages réseau et accès
Ces blocages empêchent ChatGPT et son crawler associé (OAI-SearchBot, GPTBot) d'atteindre l'URL. C'est de loin la famille la plus critique parce qu'aucune autre correction ne sera prise en compte tant qu'elle persiste.
- robots.txt qui interdit GPTBot ou OAI-SearchBot
Beaucoup de CMS, templates et hébergeurs ajoutent par défaut un `Disallow: /` sous `User-agent: GPTBot` sans prévenir. Vérifie à l'oeil dans `/robots.txt`. Si le bot est bloqué, aucun signal éditorial ne compte. Voir vérifier l'accès des bots IA.
- Wall de connexion sur les pages publiques
Une page protégée par un login (intranet, dashboard, page produit privée) renvoie un statut 401 ou redirige vers la connexion. ChatGPT ne s'authentifie pas. Toute page que tu veux faire indexer doit être accessible sans compte.
- Codes HTTP cassés (503, soft 404, redirections en boucle)
Un serveur qui répond souvent en 503 (overload) sort temporairement la page du crawl. Un soft 404 (page d'erreur servie en 200) déclasse l'URL plus durablement. Les chaînes de redirection multiples sont parfois abandonnées par le crawler.
- Blocage par WAF ou anti-bot
Cloudflare, Akamai, AWS Shield ou un anti-bot interne peuvent identifier GPTBot et OAI-SearchBot comme du trafic non humain et les filtrer. Vérifie les règles WAF, la rate-limit par IP et les éventuelles règles bot-fight-mode activées par défaut.
ChatGPT ne devine pas. Si un crawler ne peut pas atteindre l'URL ou lire le HTML brut, le contenu n'existe pas pour l'IA, même s'il est parfait pour un humain.
Famille 2, contenu non rendu
Le bot atteint l'URL mais ne voit pas le contenu utile. Cas typique des sites en framework JavaScript sans rendu serveur ou des contenus injectés après hydratation.
- Contenu rendu uniquement côté client
Si ta page est un SPA pur (React Router, Vue Router sans SSR), le HTML servi initialement est presque vide. Le crawler ne voit ni titres, ni texte, ni liens. La solution : SSR, SSG, ISR ou pré-rendu (Prerender.io, Rendertron).
- Texte dans des images ou dans des PDF embarqués
Les chiffres, citations, comparatifs et témoignages mis en image ne sont pas (encore) lus par ChatGPT sans alt explicite. Les PDF en iframe sont rarement parsés. Recopie l'information clé en texte HTML, même si tu gardes l'image en visuel.
- Contenu chargé après interaction utilisateur
Onglets, accordéons, modales ou contenu visible seulement après un clic sont parfois invisibles au crawler. Vérifie en désactivant JavaScript que l'information utile reste accessible ou apparaît bien dans le HTML initial.
- Sitemap manquant ou incohérent
Sans sitemap.xml, le crawler dépend uniquement des liens internes. Si ton site est jeune ou peu maillé, certaines pages ne sont jamais découvertes. Publie un sitemap propre référencé dans robots.txt.
Famille 3, sémantique floue
Le bot lit le contenu mais ne comprend pas le sujet. ChatGPT n'extrapole pas : si la page ne nomme pas explicitement l'entité, le produit ou le sujet dans les premiers paragraphes, l'IA passe.
- Hiérarchie de titres incohérente
Plusieurs H1 par page, sauts H1 vers H4, H2 utilisés comme effet visuel : tout cela brouille la structure que ChatGPT utilise pour résumer la page. Un H1 unique et des H2 alignés sur les sections règlent 80 % du problème.
- Sujet non nommé dans les 200 premiers mots
Si tu attends la deuxième section pour annoncer ce que fait l'entreprise ou ce que traite la page, le crawler peut couper avant. La règle simple : un humain pressé doit comprendre le sujet en lisant les 5 premières lignes.
- Termes brandés sans définition générique
Ton produit s'appelle ZetaLens et toute la page utilise ZetaLens. ChatGPT n'a aucun moyen de relier ZetaLens à des requêtes utilisateurs comme outil de monitoring. Mentionne toujours la catégorie générique en complément du nom de marque.
- Pas de schemas JSON-LD pertinents
Organization, Product, Article, FAQPage, LocalBusiness ou Course donnent un coup de pouce à la compréhension automatique. Ils n'apportent rien si le HTML est déjà clair, mais ils réduisent l'ambiguïté quand le contenu est dense.
Les blocages qui empêchent ChatGPT de citer un site se regroupent en quatre familles : accès réseau, contenu non rendu, sémantique floue, preuves invisibles. Trois sont corrigeables en moins d'une heure.
Famille 4, preuves invisibles
La page est lisible, mais ChatGPT n'a aucun signal de crédibilité pour décider s'il peut te citer plutôt qu'un concurrent. Les blocages de cette famille sont moins critiques que les trois autres mais déterminent la recommandation entre deux candidats équivalents.
- Aucun avis, témoignage ou cas client en texte
Un site sans preuve sociale lisible est moins facilement recommandé qu'un site équivalent qui expose des verbatims, des études de cas anonymisées ou des certifications. Si tu en as, écris-les en texte HTML, pas seulement en capture d'écran.
- Date de publication ou de mise à jour absente
ChatGPT favorise les pages récentes. Sans date visible, le crawler tombe sur la date de modification du fichier ou rien. Affiche `Publié le` et `Mise à jour le` en clair, et garde-les à jour quand tu touches le contenu.
- Présence externe incohérente
Si ton site dit X et que LinkedIn, presse ou annuaires officiels disent Y, ChatGPT croise les sources et perd confiance. Aligne le nom de marque, la description, les coordonnées et les fondateurs entre toutes les surfaces externes.
- Chiffres non sourçables
Une stat dans un encart visuel sans source est un signal faible pour ChatGPT. Soit tu cites la source en texte avec lien sortant, soit tu décris qualitativement sans chiffrer. Mieux vaut une phrase honnête qu'une statistique invérifiable.
Comment savoir quelle famille te bloque vraiment
Les 4 familles ne pèsent pas du même poids. Sans corriger la famille 1, les trois autres ne servent à rien. Le scan Trakora regarde les 4 et te dit laquelle est ton vrai goulot.
Questions fréquentes
- Comment savoir si ChatGPT est bloqué sur mon site ?
- Charge `https://tonsite.fr/robots.txt` et cherche `User-agent: GPTBot` puis `User-agent: OAI-SearchBot`. Si tu vois `Disallow: /` sous l'un des deux, tu es bloqué. Pour aller plus loin, désactive JavaScript et vérifie que le contenu principal reste visible dans le HTML servi.
- Si je débloque GPTBot, à quelle vitesse ChatGPT revient ?
- Le recrawl côté OpenAI peut prendre quelques jours à quelques semaines selon la popularité du site et le volume de mises à jour. Les effets sur les citations dans les réponses ChatGPT prennent souvent plus de temps, car ils dépendent aussi du recrawl des sources tierces qui parlent de ton site.
- Mon site est un SPA React pur, suis-je condamné ?
- Non. Tu peux soit migrer vers Next.js, Remix ou Astro pour passer en SSR ou SSG, soit ajouter un pré-rendu (Prerender.io, Rendertron) qui sert du HTML statique aux bots. Tu peux aussi imposer un rendu serveur uniquement sur les pages indexables.
- Les images en alt suffisent-elles pour ChatGPT ?
- Un alt explicite aide pour l'accessibilité et pour les moteurs, mais ChatGPT ne lit pas (encore) le contenu d'une image à la volée. Si l'information clé est dans une infographie, recopie-la en texte HTML à côté ou en dessous. Le texte est toujours plus citable que l'image.
- Faut-il publier un fichier llms.txt pour débloquer ChatGPT ?
- Non. Le llms.txt n'est pas un débloqueur, c'est un index curé pour pointer les bots IA vers tes pages prioritaires. Si GPTBot est bloqué dans robots.txt, le llms.txt ne change rien. Voir llms.txt pour la spec.
- Cloudflare bloque-t-il GPTBot par défaut ?
- Cloudflare propose une option `Bot Fight Mode` qui peut bloquer ou ralentir certains bots IA. Vérifie dans le dashboard Cloudflare (Security > Bots) et autorise explicitement les user-agents IA si nécessaire. Cloudflare met aussi à disposition des options de gestion des crawlers IA pour autoriser ou bloquer ces bots finement, dont l'intitulé exact évolue selon les versions du dashboard.
- Mon site est rapide mais ChatGPT ne le cite pas. Pourquoi ?
- La vitesse aide, mais ne suffit pas. Vérifie dans l'ordre les 4 familles : accès (robots.txt, WAF, codes HTTP), contenu rendu, sémantique claire, preuves sociales lisibles. Le scan Trakora identifie laquelle des 4 est la plus bloquante pour ton site.
- Le blocage est-il toujours volontaire de la part du site ?
- Non, et c'est la mauvaise nouvelle. Beaucoup de sites bloquent ChatGPT sans le savoir, à cause d'un template par défaut, d'un plugin SEO trop conservateur ou d'une règle WAF activée à l'installation. Un audit régulier est le seul moyen de détecter ces blocages silencieux.
Alors, pourquoi pas
toi ?
Une URL. Soixante secondes. Tu sors avec tes 2 scores, le problème qui bloque le plus, puis tu peux débloquer le parcours complet pour corriger.