Cloudflare lance une politique de signalisation de contenu pour contrôler le scraping par l'IA et étend le fichier robots.txt pour permettre aux éditeurs de spécifier des règles d'utilisation de l'IA

Le 25 septembre 2025 à 19:26, par Alex

244PARTAGES

Cloudflare lance une politique de signalisation de contenu pour contrôler le scraping par IA. La nouvelle politique de signalisation de contenu de Cloudflare étend le fichier robots.txt, permettant aux éditeurs de spécifier des règles d'utilisation de l'IA pour le contenu scrapé, par exemple en autorisant la formation non commerciale tout en interdisant la réutilisation commerciale. Offerte gratuitement, elle donne plus de pouvoir aux créateurs face aux préoccupations croissantes liées au scraping par IA, en s'appuyant sur la conformité volontaire pour favoriser des pratiques éthiques en matière de données et une gouvernance équilibrée du web.

En mai dernier, le PDG de Cloudflare a fait la lumière sur le monde de l'IA, son impact négatif sur Internet et l'univers de la recherche en ligne. Matthew Prince a qualifié l'IA de fardeau économique, qui brise le modèle économique du web en découplant la création de contenu de la valeur, et a décrit Google comme étant au cœur de la perturbation. Il faut savoir que les entreprises spécialisées dans l'IA continuent de récupérer plus de contenu pour chaque interaction avec l'utilisateur que ce que Google a fait jusqu'à présent. Selon Matthew Prince, il s'agit d'une menace directe et majeure pour le Web.

Pour information, Cloudflare est une société américaine qui fournit des services de réseau de diffusion de contenu, de cybersécurité, d'atténuation des attaques DDoS, de réseau étendu, de proxys inversés, de service de noms de domaine, d'enregistrement de domaines accrédités par l'ICANN et d'autres services. Selon W3Techs, Cloudflare est utilisé par environ 19,3 % de tous les sites web sur Internet pour ses services de sécurité web, en janvier 2025.

Dans ce contexte, Cloudflare a récemment introduit un mécanisme novateur pour donner plus de pouvoir aux éditeurs face à l'essor du scraping par l'intelligence artificielle. La nouvelle politique de Cloudflare en matière de signaux de contenu étend le fichier robots.txt traditionnel pour inclure des directives qui spécifient comment le contenu récupéré peut être utilisé après le crawl. Cette initiative répond aux préoccupations croissantes des créateurs qui s'inquiètent de voir leur travail intégré dans des modèles de formation à l'IA sans leur consentement ni compensation.

Cette politique permet essentiellement aux propriétaires de sites web d'ajouter des signaux simples et lisibles par l'homme dans le fichier robots.txt, tels que des autorisations pour l'entraînement de l'IA, la synthèse de contenu ou même des interdictions totales de réutilisation. Cloudflare, qui gère une part importante du trafic internet, met cette fonctionnalité à la disposition de ses utilisateurs gratuitement, ce qui pourrait influencer la manière dont les entreprises d'IA, telles que celles qui développent de grands modèles linguistiques, abordent l'acquisition de données.

Donner plus de pouvoir aux créateurs à l'ère de l'IA

Cette initiative intervient à un moment où les poursuites judiciaires et les débats sur les droits relatifs au contenu s'intensifient. Par exemple, la politique de Cloudflare vise à donner aux éditeurs un contrôle plus précis, en s'appuyant sur son service robots.txt géré existant. En intégrant ces signaux, les créateurs peuvent signaler leurs préférences, par exemple en autorisant le contenu pour la recherche IA non commerciale tout en l'interdisant pour les produits commerciaux, une nuance que le blocage traditionnel ne permettait pas d'obtenir.

Les observateurs du secteur notent que cela pourrait modifier les rapports de force. La politique n'impose pas la conformité par le biais de la technologie, mais repose sur l'adhésion volontaire des opérateurs de robots, tout comme la norme robots.txt originale. Cependant, grâce au vaste réseau de Cloudflare, elle pourrait encourager une adoption plus large, poussant les entreprises d'IA à respecter ces directives sous peine de voir leur réputation mise en péril.

En toile de fond, on trouve des affaires très médiatisées dans lesquelles des éditeurs ont accusé des géants de l'IA d'utiliser des données sans autorisation. Cloudflare met en avant des partenariats avec des entités telles que RSL Collective et Stack Overflow, qui soutiennent cette approche visant à favoriser un « web ouvert et durable ». Comme l'a déclaré Eckart Walther de RSL Collective, cette collaboration favorise une rémunération équitable pour les créateurs.

De plus, la politique met à jour la syntaxe du fichier robots.txt afin de clarifier les règles spécifiques à l'IA, remédiant ainsi aux ambiguïtés qui ont entaché la norme depuis sa création dans les années 1990. Les discussions sur les réseaux sociaux ont mis en évidence des failles potentielles, telles que les robots qui ignorent complètement le fichier robots.txt afin d'éviter de se heurter à des conditions restrictives, soulignant ainsi le fait que la politique repose sur une participation de bonne foi.

La politique de Cloudflare en matière de signaux de contenu

La politique en matière de signaux de contenu s'intègre dans les fichiers robots.txt des opérateurs de sites web. Il s'agit d'un texte lisible par l'homme suivi du symbole # pour le désigner comme commentaire. Cette politique définit trois signaux de contenu - search, ai-input et ai-train - et leur pertinence pour les robots d'indexation.

Un opérateur de site web peut alors exprimer ses préférences via des signaux de contenu lisibles par machine....

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Cloudflare lance une politique de signalisation de contenu pour contrôler le scraping par l'IA et étend le fichier robots.txt pour permettre aux éditeurs de spécifier des règles d'utilisation de l'IA

Identifiant
Mot de passe

Mot de passe oublié ?