search

Found

info Aperçu

Composez un robots.txt avec des règles Allow/Disallow par user-agent, ligne sitemap, crawl-delay et préréglages pour bloquer les bots IA ou un schéma standard.

📘 Mode d'emploi

  1. Choisis un préréglage ou clique sur Ajouter une règle, puis définis un User-agent et Allow/Disallow
  2. Saisis le chemin ciblé et, au besoin, une URL de sitemap et un délai d'exploration
  3. Vérifie le texte du robots.txt généré à droite

Générateur de robots.txt

0 = aucun
Copié !
Article

Générateur de robots.txt | Éditeur visuel pour créer des règles d'exploration

Construis un robots.txt en empilant des règles Allow/Disallow par user-agent, avec une ligne de sitemap et un crawl-delay facultatifs. Les préréglages en un clic couvrent tout autoriser, tout bloquer, un schéma standard et le blocage des bots IA, pour obtenir une syntaxe valide sans mémoriser le format.

💡 À propos de cet outil

Le fichier robots.txt se place à la racine du site et indique aux robots quels chemins ils peuvent explorer. La syntaxe paraît simple, mais les détails comptent : les règles sont regroupées par User-agent, la priorité entre Allow et Disallow dépend de la longueur de la correspondance, et une barre oblique finale en trop ou en moins change ce qui est bloqué. C'est à l'édition manuelle que naissent la plupart des erreurs.

Cet éditeur régénère la sortie à chaque modification d'une règle. Les règles partageant un user-agent sont regroupées automatiquement, et la ligne Sitemap: est ajoutée à la fin. Le préréglage « Standard (recommandé) » bloque les chemins habituels /admin/, /private/ et /tmp/ ; « Bloquer les bots IA » ajoute GPTBot, ChatGPT-User, CCBot et Google-Extended d'un seul coup. Copie le texte de la zone de sortie et enregistre-le comme robots.txt à la racine de ton domaine.

🧐 Questions fréquentes

Bloquer une page dans robots.txt la retire-t-elle de Google ? Non. robots.txt contrôle l'exploration, pas l'indexation. Une URL bloquée peut encore apparaître dans les résultats si d'autres pages y renvoient, mais sans description. Pour la garder hors des résultats, utilise une balise meta noindex ou une protection par mot de passe.

Que signifie un Disallow vide ? Disallow: suivi de rien signifie « ne rien bloquer », donc tout autoriser. C'est ce qu'émet le préréglage Tout autoriser. À l'inverse, Disallow: / demande aux robots de ne pas explorer l'ensemble du site.

Allow et Disallow correspondent à la même URL, lequel l'emporte ? Les grands moteurs appliquent la règle correspondante la plus spécifique (la plus longue). Ainsi, Disallow: /dossier/ combiné à Allow: /dossier/public/ bloque le dossier tout en autorisant tout ce qui se trouve sous /dossier/public/.

Crawl-delay fonctionne-t-il avec Googlebot ? Google ignore la ligne Crawl-delay ; la fréquence d'exploration se règle dans la Search Console. Certains robots comme Bing la respectent, alors conserve une valeur si tu les vises.

Puis-je écrire des règles pour plusieurs robots ? Oui. Ajoute une règle par nom de user-agent et chacune devient son propre groupe dans la sortie. Utilise * pour une règle qui s'applique à tous les robots.

📚 Le saviez-vous : la logique de robots.txt

La convention robots.txt — officiellement le Protocole d'exclusion des robots — a été un standard de fait pendant des décennies avant d'être formalisée dans le RFC 9309. Un point qui piège beaucoup de monde : le fichier ne fonctionne qu'à la racine de l'hôte (https://example.com/robots.txt) ; le placer dans un sous-dossier n'a aucun effet.

Bien comprendre la correspondance aide à l'écrire correctement : quand plusieurs règles s'appliquent, c'est le chemin le plus précis qui gagne, et le caractère générique * permet des motifs comme /*.pdf$. À l'ère de l'IA, de nombreux sites ajoutent des user-agents comme GPTBot, CCBot ou Google-Extended pour exclure leur contenu de l'entraînement des modèles — mais robots.txt reste une requête, pas un verrou : un robot peut choisir de l'ignorer.