Le robots.txt est désormais un contrat de contenu IA.

Voici la réponse directe : décidez quels robots IA vous autorisez pour la visibilité, lesquels vous bloquez pour l'entraînement, publiez des règles robots.txt claires, renforcez-les avec un WAF et surveillez les logs ainsi que les citations IA chaque semaine.

Ce guide vous fournit des modèles, des arbres de décision, une gouvernance et des mesures pour équilibrer protection et croissance.

Gardez à l'esprit notre guide AISO vs SEO comme stratégie globale pendant votre implémentation.

Introduction : pourquoi c'est important maintenant

Les robots IA vont des crawlers d'assistants polis aux scrapers agressifs.

Certains apportent de la visibilité dans les AI Overviews ou Perplexity ; d'autres récoltent des données pour l'entraînement.

Votre robots.txt définit votre position, mais l'application et la mesure doivent suivre.

Vous apprendrez à catégoriser les bots, écrire des règles, les tester et suivre l'impact commercial.

C'est important car bloquer les mauvais agents peut effacer les citations IA, tandis que tout autoriser risque une fuite de données.

Connaître les bots et leurs rôles

  • Bots assistant/recherche (visibilité) : PerplexityBot, BingBot/Bing/Google-Extended, ClaudeBot, Amazonbot pour les réponses type Alexa.

  • Bots d'entraînement : GPTBot, CCBot/CommonCrawl, certaines variantes d'entraînement Claude et Gemini, scrapers expérimentaux.

  • Outils de surveillance/SEO : AhrefsBot, SemrushBot et similaires. À décider au cas par cas.

  • Agents inconnus/usurpés : Enregistrez les anomalies ; traitez-les avec prudence et règles WAF.

Ce que robots.txt peut et ne peut pas faire

  • Robots.txt est consultatif. Les bots polis se conforment ; les mauvais acteurs peuvent l'ignorer.

  • Il ne sécurise pas les données privées. Utilisez l'authentification et le WAF pour protéger les zones sensibles.

  • Il est public. Ne listez pas de secrets ; gardez les chemins sensibles non liés et protégés.

  • Il guide les priorités de crawl lorsqu'il est associé à des sitemaps et des liens internes propres.

  • Il doit correspondre à votre position juridique et politique publique pour éviter la confusion.

Associez robots.txt à l'application pour que votre intention se transforme en résultats.

Arbre de décision pour la politique de crawler IA

  1. Voulez-vous de la visibilité dans les réponses IA pour ce contenu ?

    • Oui : autorisez les bots assistant/recherche. Gardez les schémas et sitemaps propres.

    • Non : interdisez les bots assistants sur les sections sensibles.

  2. Le contenu est-il propriétaire ou réglementé ?

    • Oui : bloquez les bots d'entraînement ; envisagez de bloquer les bots assistants si le risque dépasse la visibilité. Utilisez des paywalls et WAF.

    • Non : autorisez les bots assistants ; envisagez d'autoriser l'entraînement si le juridique est d'accord.

  3. Avez-vous plusieurs locales ou domaines ?

    • Gardez les politiques cohérentes ; documentez les exceptions par locale.

Modèles robots.txt que vous pouvez adapter

Autoriser recherche/assistant, bloquer entraînement

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

Bloquer tous les bots IA et d'entraînement (protection d'abord)

User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

Tout autoriser (visibilité d'abord)

User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml

Ajustez les chemins et ajoutez plus d'agents au fur et à mesure que vous les détectez dans les logs.

Gardez des sitemaps avec lastmod pour diriger les bots vers le contenu frais.

Au-delà du robots.txt : application et sécurité

  • Utilisez des règles WAF/CDN pour bloquer ou limiter le taux des bots qui ignorent robots.txt.

  • Maintenez des listes de réputation IP pour les crawlers abusifs. Alternez au fur et à mesure que les modèles changent.

  • Utilisez des en-têtes de réponse ou des directives meta (lorsqu'elles sont prises en charge) pour des signaux supplémentaires.

  • Surveillez les taux de requête ; définissez des seuils pour éviter l'épuisement des ressources.

  • Conservez une politique validée juridiquement qui correspond au robots.txt ; publiez-la pour la transparence.

Tests et surveillance

  • Récupérez robots.txt avec curl pour chaque agent. Vérifiez que les directives sont accessibles.

  • Surveillez les logs serveur pour les user-agents et IP. Marquez les bots IA et mesurez les hits au fil du temps.

  • Utilisez les outils de récupération en direct (Google/Bing) et testez les bots IA connus lorsque c'est possible.

  • Demandez aux assistants IA s'ils peuvent accéder ou citer votre domaine ; capturez les résultats.

  • Alertez sur les pics de 4xx/5xx pour les bots IA, ou les chutes soudaines de crawls d'assistants.

Alignement juridique et politique

  • Coordonnez-vous avec le juridique sur le RGPD, le droit d'auteur et le consentement à l'entraînement IA. Documentez les décisions et conservez une page de politique si nécessaire.

  • Pour les contextes UE, considérez les droits voisins ou droits d'éditeur lors de l'autorisation d'entraînement. Si vous bloquez, indiquez-le clairement.

  • Conservez des enregistrements des versions robots.txt et des règles WAF pour montrer la diligence raisonnable.

  • Examinez les contrats avec les partenaires pour vous assurer que les politiques robots n'entrent pas en conflit avec les termes de syndication ou d'API.

Gouvernance et contrôle des changements

  • Versionnez robots.txt dans le contrôle de source. Exigez un examen de SEO, Sécurité et Juridique pour les changements.

  • Maintenez un journal des modifications avec dates, justification et impact attendu. Liez aux résultats du panel de prompts.

  • Planifiez des examens trimestriels pour ajouter de nouveaux user-agents et retirer ceux obsolètes.

  • Testez les changements en staging lorsque c'est possible ; utilisez des feature flags pour le déploiement.

Considérations multilingues et multi-domaines

  • Servez un robots.txt par domaine racine. Gardez les directives alignées entre ccTLDs et sous-dossiers (/pt, /fr).

  • Référencez des sitemaps spécifiques aux locales. Assurez-vous que les balises hreflang et canonical correspondent à votre stratégie robots.

  • Si vous autorisez les bots de visibilité, autorisez-les sur toutes les locales que vous voulez citées ; bloquer une locale peut causer des citations dans la mauvaise langue.

Segmentation de l'accès par type de contenu

  • Marketing public : autorisez généralement les bots assistants ; décidez sur les bots d'entraînement selon la position juridique.

  • Docs/centre d'aide : autorisez souvent les bots assistants pour la visibilité du support ; bloquez l'entraînement si sensible. Ajoutez des schémas et ancres clairs.

  • Produit/app : bloquez les bots assistants et d'entraînement ; protégez les données utilisateur et tableaux de bord.

  • Outils internes ou staging : interdisez tout ; appliquez l'authentification.

Mesurer l'impact sur la visibilité

  • Suivez la part de citations IA avant et après les changements robots.txt. Utilisez des panels de prompts entre les moteurs.

  • Surveillez l'augmentation des requêtes de marque et du trafic direct après autorisation des bots de visibilité.

  • Si vous bloquez les bots d'entraînement, surveillez toute baisse dans les citations d'assistants ; ajustez si nécessaire.

  • Capturez les changements de longueur de snippet ou de ton dans les réponses IA. Reliez aux modifications de contenu et de directives robots.

Équilibrage charge serveur et visibilité

  • Utilisez la mise en cache et CDN pour réduire les hits répétés des crawls IA sans limiter les user-agents.

  • Définissez des limites de taux agressives pour les IP qui demandent trop vite. Ajustez si les assistants légitimes sont touchés.

  • Expérimentez avec le crawl delay pour les bots gourmands en ressources ; mesurez l'impact sur les citations.

  • Priorisez les pages à forte valeur dans les sitemaps pour orienter les crawls IA vers le contenu qui génère des revenus.

Communications et gouvernance

  • Publiez une courte page de politique de crawler IA liée depuis robots.txt si nécessaire.

  • Assignez des propriétaires : SEO pour les règles, Sécurité pour l'application, Juridique pour la politique, et Ingénierie pour le déploiement.

  • Examinez trimestriellement et quand de nouveaux bots émergent. Versionnez robots.txt et conservez l'historique.

  • Formez les équipes : le contenu sait ce qui est autorisé, le produit sait quoi bloquer, les RP savent comment communiquer les décisions.

Plan de déploiement 30/60/90 jours

Premiers 30 jours

  • Inventoriez les bots dans les logs et catégorisez-les. Décidez des listes d'autorisation/blocage avec le Juridique et la Sécurité.

  • Mettez à jour robots.txt avec des directives claires et des sitemaps ; publiez une courte politique si nécessaire.

  • Configurez les règles WAF pour les agents bloqués et les limites de taux pour les abuseurs. Commencez un journal des modifications.

  • Exécutez des panels de prompts de référence pour capturer la visibilité avant les changements.

30 jours suivants

  • Alignez robots.txt entre locales et sous-domaines ; assurez-vous que sitemaps et hreflang correspondent.

  • Ajoutez la surveillance et les alertes pour le trafic des bots IA, les pics 4xx/5xx et les modèles d'usurpation.

  • Testez l'accès des assistants aux docs/aide vs marketing vs sections produit ; ajustez les règles si la visibilité chute là où vous la voulez.

  • Enregistrez les citations IA et comparez à la référence ; vérifiez si les blocages ont affecté l'inclusion.

30 derniers jours

  • Expérimentez avec des autorisations partielles (par exemple, autoriser PerplexityBot uniquement sur les docs) et mesurez l'impact.

  • Documentez la gouvernance : propriétaires, cadence d'examen et flux d'approbation pour les changements de règles.

  • Préparez l'examen trimestriel avec métriques : trafic bot, part de citations, charge serveur et incidents.

  • Partagez les leçons avec le contenu et les RP pour que le message corresponde à la politique actuelle.

Métriques et reporting direction

  • Trafic bot par catégorie (assistant vs entraînement) et tendance dans le temps.

  • Charge serveur et taux 5xx avant/après changements de politique.

  • Part de citations et taux d'inclusion dans les réponses IA pré- et post-changement.

  • Précision des réponses IA après autorisation ou blocage de bots spécifiques.

  • Temps pour détecter et résoudre les incidents de crawl.

  • Cohérence entre locales (pas de citations dans la mauvaise langue).

Reliez-les aux résultats commerciaux : réduction de la tension sur les ressources, données protégées ou visibilité IA accrue.

Exemples d'étapes d'application au-delà du robots.txt

  • Bloquez ou limitez le taux des user-agents et plages IP dans le WAF ; enregistrez les décisions.

  • Utilisez des captchas ou murs d'authentification sur les formulaires sensibles ou tableaux de bord.

  • Définissez des limites de bande passante par IP pour les crawlers agressifs.

  • Ajoutez des URLs honeypot pour détecter les bots non conformes ; surveillez les hits et ajustez les règles.

  • Gardez des domaines de staging séparés derrière authentification ; ne comptez jamais sur robots.txt pour le secret.

Scénarios de risque et réponses

  • Baisse de visibilité après blocage : Si la part de citations chute, autorisez les bots assistants sur des sections spécifiques tout en gardant les bots d'entraînement bloqués.

  • Risque de fuite de données : Déplacez le contenu sensible derrière authentification et bloquez les bots assistants et d'entraînement ; confirmez avec le juridique.

  • User-agents usurpés : Faites correspondre les chaînes user-agent aux plages IP attendues ; bloquez les non-correspondances.

  • Citations dans la mauvaise langue : Alignez hreflang, sitemaps et règles robots ; assurez-vous que les pages locales sont autorisées et complètes.

  • Tension serveur : Limitez le taux des bots lourds et optimisez la mise en cache. Retardez le crawl pour les sections non critiques si nécessaire.

Expériences à mener

  • Autorisez PerplexityBot pour les docs tout en bloquant les bots d'entraînement ; mesurez les citations et la déflexion du support.

  • Testez A/B autorisation vs blocage de Google-Extended sur un sous-dossier ; suivez l'inclusion AI Overview.

  • Limitez le taux de GPTBot au lieu du blocage complet pour voir si la charge serveur se stabilise tout en maintenant une certaine visibilité.

  • Mettez à jour les sitemaps avec lastmod et comparez la profondeur de crawl des bots assistants avant/après.

Instantanés de cas (anonymisés)

  • SaaS : Autoriser PerplexityBot et Google-Extended sur les docs tout en bloquant GPTBot a réduit la charge serveur de 18 % et augmenté la part de citations dans les prompts Perplexity de 6 % à 17 % en un mois.

  • Éditeur : Bloquer les bots d'entraînement tout en autorisant les bots assistants a préservé les mentions AI Overview et réduit la réutilisation de contenu non approuvée ; les logs WAF ont montré une baisse de 40 % des crawls abusifs.

  • E-commerce : Après avoir ajouté des sitemaps spécifiques aux locales et aligné robots.txt entre ccTLDs, Copilot a commencé à citer les pages dans la bonne langue pour les requêtes « près de chez moi ».

Modèle de backlog

  • Politique : Décidez des bots autorisés/bloqués par catégorie ; documentez la justification.

  • Implémentation : Mettez à jour robots.txt, sitemaps et règles WAF ; testez avec curl et logs.

  • Surveillance : Définissez des alertes pour les anomalies de crawl ; examinez les logs chaque semaine.

  • Visibilité : Exécutez des panels de prompts avant/après les changements ; suivez la part de citations et la précision.

  • Gouvernance : Contrôlez les versions de robots.txt ; planifiez des examens trimestriels.

Ensemble de prompts à surveiller après les changements robots

  1. « Est-ce queest sûr à utiliser pour <cas d'usage> ? »

  2. « Documentation pour<fonctionnalité>. »

  3. «vstarification. »

  4. « Commentgère-t-il la confidentialité des données ? »

  5. « Étapes de support pour<problème>. »

  6. « Principales alternatives à. »

Enregistrez les citations, notez si les bonnes locales et pages apparaissent, et vérifiez la précision.

Comment cela s'intègre à votre stratégie de recherche IA

Les choix robots.txt affectent si les assistants voient vos meilleures sources.

Si vous bloquez les bots assistants, attendez-vous à moins de citations.

Si vous les autorisez, assurez-vous que les schémas, la vitesse et la structure du contenu sont solides.

Coordonnez robots.txt avec les Facteurs de Classement de Recherche IA et la mesure de visibilité pour que chaque changement de politique soit délibéré et suivi.

Comment AISO Hub peut vous aider

AISO Hub conçoit des politiques de crawler IA qui équilibrent croissance et protection.

  • AISO Audit : Examinez robots.txt, logs et visibilité IA pour définir une politique claire et une feuille de route.

  • AISO Foundation : Implémentez des modèles robots.txt, garde-fous WAF, sitemaps et surveillance.

  • AISO Optimize : Testez les politiques par section et locale, affinez selon la visibilité et le risque, et gardez la documentation à jour.

  • AISO Monitor : Examen continu des logs, alertes et panels de prompts IA pour assurer que les politiques fonctionnent comme prévu.

Conclusion

La stratégie de crawler IA est un équilibre.

Définissez des règles robots.txt claires, appliquez-les avec le WAF et mesurez comment elles influencent les citations et le risque.

Documentez les décisions, gardez les politiques cohérentes entre les marchés et mettez-les à jour à mesure que de nouveaux bots apparaissent.

Lorsque vous alignez robots.txt avec vos objectifs de recherche IA et le suivi de visibilité, vous protégez les actifs sensibles tout en restant présent dans les réponses qui comptent.

Si vous voulez une équipe pour concevoir, implémenter et surveiller cela sans ralentir les sorties, AISO Hub est prêt à aider votre marque à apparaître partout où les gens posent des questions.