Aller au contenu principal
Mis à jour le

Le fichier llms.txt

Un format Markdown léger pour dire aux IA de quoi parle ton site et où trouver les pages qui comptent. Définition, structure, exemple commenté, mode d'emploi.

Qu'est-ce que llms.txt ?

Le fichier llms.txt est l'équivalent positif du robots.txt pour les IA : il ne dit pas ce qui est bloqué, il dit où trouver l'information importante d'un site.

`llms.txt` est un fichier texte au format Markdown, déposé à la racine d'un site (`https://tonsite.fr/llms.txt`), qui résume ce que ton site fait et liste ses pages les plus importantes. Il est conçu pour être lu par les assistants IA (ChatGPT, Perplexity, Claude, Gemini) plutôt que par les humains.

Le format a été proposé en septembre 2024 par Jeremy Howard (fondateur de Answer.AI). Il est volontairement minimaliste : un H1 avec le nom du site, un blockquote avec une description courte, des H2 qui regroupent des liens vers les pages clés. Pas de standard officiel encore, mais un consensus rapide dans l'industrie : Anthropic, Cloudflare, Vercel, Stripe et beaucoup d'autres ont publié le leur en quelques mois.

Le fichier ne remplace ni ton `robots.txt` (qui contrôle l'accès des bots), ni ton `sitemap.xml` (qui liste exhaustivement tes URLs). Il les complète en donnant aux IA une vue éditoriale curatée de ton site.

Pourquoi les LLMs s'en servent

Les assistants IA ont une fenêtre de contexte limitée. Quand un utilisateur leur demande "résume ce que fait Trakora.ai", ils ne peuvent pas crawler toutes les pages du site. Ils doivent décider en quelques secondes lesquelles lire en priorité.

Un `llms.txt` bien fait fait gagner ce temps : il dit explicitement "voici les 10 pages qui comptent, voici en une phrase ce que chacune contient". Le LLM les charge directement, sans deviner via le sitemap ou les liens internes.

Trois bénéfices concrets pour ton site :

  1. Citations plus précises

    Le LLM cite la bonne page parce qu'il a lu ta description de page, pas le snippet HTML qu'il a deviné.

  2. Risque réduit d'erreur

    Sans llms.txt, l'IA peut citer une vieille page abandonnée parce qu'elle ranke bien sur Google. Avec, tu contrôles ce qu'elle voit en premier.

  3. Compréhension globale

    Le blockquote initial donne à l'IA une définition du site qu'elle peut reprendre dans ses réponses. Sans ça, elle paraphrase ton meta description, qui est souvent plus marketing que descriptif.

Structure d'un bon llms.txt

Un llms.txt bien rédigé tient en 30 lignes de Markdown, se dépose à la racine du domaine, et n'a besoin d'aucun framework ni dépendance pour fonctionner.

Le format a 4 zones, dans l'ordre :

  1. H1 avec le nom du site

    . Pas de slogan, pas d'accroche : juste le nom. C'est l'identifiant que le LLM utilisera pour citer ta source.

  2. Blockquote `>` avec la description

    . 2 à 4 phrases standalone, factuelles, qui décrivent ce que le site fait et pour qui. C'est le bloc le plus repris par les IA.

  3. Un ou plusieurs H2 qui regroupent des liens

    . Chaque lien : `- Titre de la page: description en une phrase`. La description après les deux-points est aussi importante que le titre.

  4. Une section libre en fin de fichier (optionnelle)

    . Texte Markdown libre qui peut contenir des précisions sur le produit, des chiffres clés, ou des consignes éditoriales pour les IA.

Règles de qualité

  • 30 à 80 lignes maximum. Au-delà, tu perds l'avantage du format synthétique.
  • Les descriptions de liens sont aussi importantes que les liens eux-mêmes : c'est ce que l'IA va citer.
  • Évite le marketing. "Plateforme innovante de transformation digitale" n'aide pas l'IA. "Audit de visibilité IA en moins d'une minute" oui.
  • Mets à jour. Si une page disparaît ou change de titre, le llms.txt doit suivre. Un llms.txt obsolète envoie l'IA sur des 404.

Exemple complet, commenté

Voici un `llms.txt` minimal mais complet, applicable à 90 % des sites :

markdown
# Trakora.ai

> Audit de visibilité IA pour les sites web. Analyse l'ensemble des critères pour mesurer si ChatGPT, Perplexity, Gemini et Copilot peuvent trouver, lire et recommander un site. Score de 0 à 100, rapport complet avec parcours d'actions.

## Pages clés
- [Accueil](https://trakora.ai/fr): Scan gratuit + score de visibilité IA en moins d'une minute
- [Pricing](https://trakora.ai/fr/pricing): Audit complet à 59 €, accès au rapport inclus, sans abonnement
- [GEO, Generative Engine Optimization](https://trakora.ai/fr/geo): Définition et cadre du référencement IA
- [Optimiser son site pour les IA](https://trakora.ai/fr/optimiser-site-pour-ia): Guide pratique en 7 étapes
- [FAQ](https://trakora.ai/fr/faq): Questions fréquentes sur la visibilité IA et le produit

## Ce que Trakora vérifie
Trakora mesure ta visibilité IA sur 2 axes. Accessibilité IA : les bots peuvent-ils entrer et lire ton site (robots.txt, user-agents, HTTPS, structure du contenu). Recommandabilité IA : ont-ils des raisons de te citer (schema JSON-LD, FAQ, phrases citables, pages stratégiques, présence sur les plateformes de référence, signaux de crédibilité comme dates, multilingue et réseaux sociaux).

Décomposition

  1. Ligne 1

    nom court, pas de baseline. Le LLM saura comment t'appeler.

  2. Ligne 3

    3 phrases standalone qui définissent le produit. Notes les chiffres concrets (l'ensemble des critères, 4 IA listées par nom).

  3. Lignes 5 à 10

    5 pages clés avec description en une phrase. C'est le minimum utile, mais on peut monter à 10-15.

  4. Lignes 12 à 13

    section libre qui développe une notion clé du produit. Le LLM peut la citer telle quelle.

Aucune IA n'oblige à avoir un llms.txt aujourd'hui. Mais quand un LLM cherche à résumer un site, ce fichier est la première chose qu'il lit s'il existe.

Comment en créer un (sans développeur)

3 étapes, 30 minutes en tout pour la première version.

Écris-le dans un éditeur de texte

N'importe quel éditeur fait l'affaire (Notepad, VSCode, Bloc-notes, Sublime). Sauvegarde-le sous le nom exact `llms.txt`, encodage UTF-8. Pas de `.md`, pas de `.txt.txt`, pas d'espace dans le nom.

Temps
10 minutes pour la première version.
Vérification
Ouvre le fichier dans un autre éditeur et vérifie qu'il s'affiche en texte brut, sans caractères bizarres.

Dépose-le à la racine du domaine

Le fichier doit être accessible à `https://tonsite.fr/llms.txt`, à la racine du domaine, pas dans un sous-dossier.

Selon ton stack :

  • Webflow / Framer / Shopify : cherche un champ "fichiers personnalisés" ou "static files" dans les paramètres.
  • WordPress : dépose-le dans le répertoire racine via FTP, ou utilise un plugin de fichiers statiques.
  • Vercel / Cloudflare / Netlify : mets-le dans le dossier `public/` (ou équivalent), il sera servi automatiquement.
  • Site statique custom : `scp` ou rsync à la racine du serveur, à côté de `index.html`.
Temps
5 à 20 minutes selon ton accès.
Vérification
Ouvre tonsite.fr/llms.txt dans un navigateur en navigation privée. Le contenu doit apparaître en texte brut.

Vérifie l'accessibilité

Pas besoin de le déclarer dans `robots.txt` ou ailleurs : les LLMs savent où le chercher (chemin standard `/llms.txt`).

À vérifier :

  • Le fichier répond en HTTP 200 (pas 404, pas redirection).
  • Le `Content-Type` est `text/plain` ou `text/markdown` (la plupart des hébergeurs le devinent correctement).
  • Le contenu est lisible sans encodage cassé (caractères accentués bien rendus).
Temps
5 minutes.
Vérification
Ouvre l'URL dans le navigateur. Vérifie aussi avec curl : `curl -I https://tonsite.fr/llms.txt` doit renvoyer un code 200.

Aller plus loin

Trakora.ai génère ton llms.txt automatiquement dans le rapport complet si ton site n'en a pas. Tu n'as plus qu'à le copier-coller à la racine.

Voir si mon site a déjà un llms.txt

Questions fréquentes

C'est quoi un fichier llms.txt ?
Un fichier texte au format Markdown, déposé à la racine d'un site, qui décrit ce que le site fait et liste ses pages les plus importantes. Il est lu par les assistants IA (ChatGPT, Perplexity, Claude, Gemini) pour mieux comprendre le site et le citer plus précisément dans leurs réponses.
Est-ce obligatoire ?
Non. Aucune IA n'exige de llms.txt aujourd'hui. Mais quand le fichier existe, les LLMs le lisent en priorité avant de crawler le reste du site, ce qui améliore la qualité des citations. C'est une bonne pratique opt-in, pas une obligation technique.
Quelle différence avec robots.txt ?
robots.txt est négatif : il dit aux bots ce qu'ils n'ont pas le droit de crawler. llms.txt est positif : il dit aux IA où trouver l'info importante. Les deux fichiers coexistent, ils ne se remplacent pas.
Quelle différence avec sitemap.xml ?
Le sitemap liste exhaustivement toutes les URLs publiques d'un site, sans hiérarchie ni description. Le llms.txt sélectionne 10 à 30 pages stratégiques, avec une phrase de description chacune. Le sitemap sert au crawl, le llms.txt sert à la compréhension éditoriale.
Y a-t-il un standard officiel ?
Pas encore. Le format a été proposé par Jeremy Howard en septembre 2024 et adopté largement (Anthropic, Cloudflare, Vercel, Stripe…), mais il n'y a ni W3C ni IETF qui le ratifie pour l'instant. La structure de base (H1, blockquote, H2 + liens) fait consensus.
Est-ce que toutes les IA le lisent ?
À ce jour, ChatGPT (via OAI-SearchBot), Perplexity, Claude (via Claude-SearchBot) et Gemini lisent les llms.txt quand ils existent. La fréquence et le poids accordés ne sont pas publics, mais l'effet est mesurable sur les sites qui en ont déposé un.
À quelle fréquence faut-il le mettre à jour ?
À chaque modification structurelle du site : nouvelle page importante ajoutée, page supprimée, refonte de l'offre. Tant que le contenu reste stable, pas besoin de toucher au fichier. Une revue tous les 3 mois suffit pour vérifier que rien n'est obsolète.
Faut-il une version par langue ?
La convention actuelle est : un seul llms.txt à la racine du domaine, dans la langue principale du site, avec des liens vers les pages localisées si elles existent. Quand le standard évoluera, on pourra avoir des variantes par locale (/fr/llms.txt, /en/llms.txt), mais ce n'est pas la pratique répandue aujourd'hui.
Gratuit · Sans compte · 60 secondes

Alors, pourquoi pas
toi ?

Une URL. Soixante secondes. Tu sors avec tes 2 scores, le problème qui bloque le plus, puis tu peux débloquer le parcours complet pour corriger.

https://
Sans carte bancaire 1 problème critique révélé Parcours complet après achat