Faut-il laisser les bots IA crawler son site ? Si non, comment les bloquer ?
Faut-il bloquer les bots des IA et si oui comment ?
(par Ilhan le 18/09/2024)
Avec l’évolution rapide des technologies d’intelligence artificielle, de nouveaux types de bots sont apparus sur le web : les bots IA. Ces derniers sont utilisés pour crawler le contenu des sites web, afin de former des modèles de langage ou améliorer les fonctionnalités des IA comme ChatGPT, Perplexity AI, ou Claude AI. Si ces bots peuvent parfois être utiles, de nombreux propriétaires de sites souhaitent protéger leur contenu contre le scraping non autorisé, en particulier lorsque ce contenu est utilisé pour entraîner des modèles commerciaux.
Cet article explique comment les bots IA fonctionnent, les méthodes pour les bloquer via les fichiers robots.txt, .htaccess ou encore avec une configuration spécifique pour Nginx. Nous aborderons également la question du respect des directives robots.txt et les limites liées aux bots qui ignorent ces directives.
Qu’est-ce qu’un bot IA ?
Les bots IA sont des logiciels automatisés qui explorent les sites web pour en extraire du contenu. Contrairement aux robots d’indexation classiques (comme Googlebot ou Bingbot, utilisés pour le référencement naturel), ces bots peuvent être utilisés pour des tâches comme l’entraînement de modèles de langage ou l’amélioration de moteurs d’intelligence artificielle.
Parmi les bots IA les plus connus, on trouve :
GPTBot de OpenAI : utilisé pour extraire du contenu afin de développer des modèles de langage.
PerplexityBot de Perplexity AI : utilisé pour améliorer les réponses de leur IA.
ClaudeBot d’Anthropic AI : une IA concurrente de ChatGPT.
Faut-il les laisser explorer votre site ?
Si vous souhaitez que le contenu de votre page puisse éventuellement être utilisé par une intelligence artificielle pour formuler des réponses à ses utilisateurs, alors oui il faut les laisser indexer votre site. Cela ne vous fait pas forcément une publicité directe, certaines IA, comme Perplexity, citent leurs sources cependant.
Par contre, les robots des IA sont souvent gourmands et peuvent scanner un grand nombre de pages de votre site simultanément, ce qui peut conduire à une surcharge du serveur, et donc à des ralentissements secondaires.
C’est la raison pour laquelle certains sites avec beaucoup de pages (boutiques en ligne notamment) souhaitent empêcher ces bots de passer sur toutes les pages, n’ayant pas d’intérêt particulier à entraîner les IA au demeurant.
Bots déclarés et non déclarés
Tous les bots IA ne déclarent pas leur activité de manière transparente. Certains, comme le bot de Perplexity AI, ont été accusés de fournir des informations trompeuses dans leur User-Agent . Il est donc important de surveiller les logs de votre serveur pour détecter ces bots, même s’ils prétendent respecter les directives.
Bloquer les bots IA avec robots.txt
Le fichier robots.txt est un fichier placé à la racine de votre site web pour indiquer aux bots quelles pages ils peuvent ou ne peuvent pas explorer. Par exemple, un fichier robots.txt peut interdire l’accès à des dossiers sensibles comme /admin ou des sections privées.
Exemple de configuration de robots.txt pour bloquer les bots IA
Le projet AI Robots fournit une liste complète des bots IA à bloquer. Voici un exemple inspiré de cette liste pour votre fichier robots.txt :
User-agent: GPTBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
Cette configuration interdit à certains bots IA comme GPTBot, PerplexityBot et ClaudeBot d’explorer n’importe quelle partie de votre site. Respect des directives robots.txt
Il est essentiel de comprendre que le fichier robots.txt est une directive, et non une obligation. Cela signifie que les bots bienveillants (comme Googlebot) respecteront ses règles, mais que les bots malveillants ou certains bots IA non conformes peuvent ignorer ce fichier et continuer à explorer votre site. Pour ces bots, il est nécessaire de mettre en place des mesures plus strictes, comme celles disponibles dans .htaccess ou Nginx.
Utiliser .htaccess pour bloquer les bots IA
Le fichier .htaccess vous permet de configurer des règles spécifiques sur les serveurs Apache. Il est plus puissant que robots.txt car il peut bloquer les bots de manière proactive en fonction de leur User-Agent ou de leur adresse IP. Bloquer les bots IA par User-Agent
Vous pouvez bloquer directement les bots IA identifiés par leur User-Agent grâce à la directive RewriteCond. Voici un exemple tiré du fichier .htaccess de Ethan Marcotte , qui montre comment bloquer de nombreux bots IA :
<IfModule mod_rewrite.c>
RewriteEngine on
RewriteBase /
# Bloquer les bots IA identifiés
RewriteCond %{HTTP_USER_AGENT} (AdsBot-Google|Amazonbot|anthropic-ai|Applebot|Applebot-Extended|AwarioRssBot|AwarioSmartBot|Bytespider|CCBot|ChatGPT|ChatGPT-User|Claude-Web|ClaudeBot|cohere-ai|DataForSeoBot|Diffbot|FacebookBot|Google-Extended|GPTBot|ImagesiftBot|magpie-crawler|omgili|Omgilibot|peer39_crawler|PerplexityBot|YouBot) [NC]
RewriteRule ^ – [F]
</IfModule>
Ce script vérifie le User-Agent de chaque requête. Si le bot correspond à l’un des bots listés (comme GPTBot ou ClaudeBot), il sera bloqué avec un statut HTTP 403 (forbidden). Bloquer par adresse IP
Certains bots IA, comme ceux d’OpenAI et Perplexity AI, fournissent des listes d’IP à bloquer. Par exemple, vous pouvez utiliser les adresses IP fournies dans les fichiers OpenAI et Perplexity AI pour mettre à jour votre .htaccess :
<RequireAll>
Require all granted
Require not ip 23.100.232.0/21
Require not ip 40.83.2.0/24
Require not ip 13.107.64.0/18
</RequireAll>
Cela empêche les adresses IP spécifiques de ces bots d’accéder à votre site.
Bloquer les bots IA d’images
Certains bots IA sont utilisés spécifiquement pour extraire des images de votre site. Afin de protéger vos ressources graphiques, vous pouvez utiliser un fichier spécial appelé ai.txt qui fonctionne comme robots.txt, mais pour les bots IA d’images. Un exemple de configuration pour les bots d’images est disponible ici .
Exemple de ai.txt pour bloquer les bots IA d’images :
User-agent: MidJourney
Disallow: /
User-agent: StableDiffusion
Disallow: /
User-agent: Dall-E
Disallow: /
Ce fichier ai.txt interdit aux bots comme MidJourney ou Dall-E d’extraire des images de votre site.
Conclusion
Protéger votre contenu des bots IA nécessite une combinaison de stratégies, allant de la simple utilisation de robots.txt à la configuration plus avancée de .htaccess pour bloquer des User-Agents ou des adresses IP spécifiques. Bien que robots.txt soit un bon point de départ, il ne suffit pas toujours, surtout face à des bots malveillants ou des IA qui ne respectent pas les directives. En utilisant .htaccess et des fichiers spécifiques comme ai.txt, vous pouvez efficacement bloquer l’accès des bots IA et protéger vos ressources web.
Ressources supplémentaires :
Liste des bots IA à suivre sur GitHub