IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Cloudflare lance une politique de signalisation de contenu pour contrôler le scraping par l'IA et étend le fichier robots.txt pour permettre aux éditeurs de spécifier des règles d'utilisation de l'IA

Le , par Alex

5PARTAGES

5  0 
Cloudflare lance une politique de signalisation de contenu pour contrôler le scraping par l'IA et étend le fichier robots.txt pour permettre aux éditeurs de spécifier des règles d'utilisation de l'IA

Cloudflare lance une politique de signalisation de contenu pour contrôler le scraping par IA. La nouvelle politique de signalisation de contenu de Cloudflare étend le fichier robots.txt, permettant aux éditeurs de spécifier des règles d'utilisation de l'IA pour le contenu scrapé, par exemple en autorisant la formation non commerciale tout en interdisant la réutilisation commerciale. Offerte gratuitement, elle donne plus de pouvoir aux créateurs face aux préoccupations croissantes liées au scraping par IA, en s'appuyant sur la conformité volontaire pour favoriser des pratiques éthiques en matière de données et une gouvernance équilibrée du web.

En mai dernier, le PDG de Cloudflare a fait la lumière sur le monde de l'IA, son impact négatif sur Internet et l'univers de la recherche en ligne. Matthew Prince a qualifié l'IA de fardeau économique, qui brise le modèle économique du web en découplant la création de contenu de la valeur, et a décrit Google comme étant au cœur de la perturbation. Il faut savoir que les entreprises spécialisées dans l'IA continuent de récupérer plus de contenu pour chaque interaction avec l'utilisateur que ce que Google a fait jusqu'à présent. Selon Matthew Prince, il s'agit d'une menace directe et majeure pour le Web.

Pour information, Cloudflare est une société américaine qui fournit des services de réseau de diffusion de contenu, de cybersécurité, d'atténuation des attaques DDoS, de réseau étendu, de proxys inversés, de service de noms de domaine, d'enregistrement de domaines accrédités par l'ICANN et d'autres services. Selon W3Techs, Cloudflare est utilisé par environ 19,3 % de tous les sites web sur Internet pour ses services de sécurité web, en janvier 2025.

Dans ce contexte, Cloudflare a récemment introduit un mécanisme novateur pour donner plus de pouvoir aux éditeurs face à l'essor du scraping par l'intelligence artificielle. La nouvelle politique de Cloudflare en matière de signaux de contenu étend le fichier robots.txt traditionnel pour inclure des directives qui spécifient comment le contenu récupéré peut être utilisé après le crawl. Cette initiative répond aux préoccupations croissantes des créateurs qui s'inquiètent de voir leur travail intégré dans des modèles de formation à l'IA sans leur consentement ni compensation.

Cette politique permet essentiellement aux propriétaires de sites web d'ajouter des signaux simples et lisibles par l'homme dans le fichier robots.txt, tels que des autorisations pour l'entraînement de l'IA, la synthèse de contenu ou même des interdictions totales de réutilisation. Cloudflare, qui gère une part importante du trafic internet, met cette fonctionnalité à la disposition de ses utilisateurs gratuitement, ce qui pourrait influencer la manière dont les entreprises d'IA, telles que celles qui développent de grands modèles linguistiques, abordent l'acquisition de données.


Donner plus de pouvoir aux créateurs à l'ère de l'IA

Cette initiative intervient à un moment où les poursuites judiciaires et les débats sur les droits relatifs au contenu s'intensifient. Par exemple, la politique de Cloudflare vise à donner aux éditeurs un contrôle plus précis, en s'appuyant sur son service robots.txt géré existant. En intégrant ces signaux, les créateurs peuvent signaler leurs préférences, par exemple en autorisant le contenu pour la recherche IA non commerciale tout en l'interdisant pour les produits commerciaux, une nuance que le blocage traditionnel ne permettait pas d'obtenir.

Les observateurs du secteur notent que cela pourrait modifier les rapports de force. La politique n'impose pas la conformité par le biais de la technologie, mais repose sur l'adhésion volontaire des opérateurs de robots, tout comme la norme robots.txt originale. Cependant, grâce au vaste réseau de Cloudflare, elle pourrait encourager une adoption plus large, poussant les entreprises d'IA à respecter ces directives sous peine de voir leur réputation mise en péril.

En toile de fond, on trouve des affaires très médiatisées dans lesquelles des éditeurs ont accusé des géants de l'IA d'utiliser des données sans autorisation. Cloudflare met en avant des partenariats avec des entités telles que RSL Collective et Stack Overflow, qui soutiennent cette approche visant à favoriser un « web ouvert et durable ». Comme l'a déclaré Eckart Walther de RSL Collective, cette collaboration favorise une rémunération équitable pour les créateurs.

De plus, la politique met à jour la syntaxe du fichier robots.txt afin de clarifier les règles spécifiques à l'IA, remédiant ainsi aux ambiguïtés qui ont entaché la norme depuis sa création dans les années 1990. Les discussions sur les réseaux sociaux ont mis en évidence des failles potentielles, telles que les robots qui ignorent complètement le fichier robots.txt afin d'éviter de se heurter à des conditions restrictives, soulignant ainsi le fait que la politique repose sur une participation de bonne foi.

La politique de Cloudflare en matière de signaux de contenu

La politique en matière de signaux de contenu s'intègre dans les fichiers robots.txt des opérateurs de sites web. Il s'agit d'un texte lisible par l'homme suivi du symbole # pour le désigner comme commentaire. Cette politique définit trois signaux de contenu - search, ai-input et ai-train - et leur pertinence pour les robots d'indexation.

Un opérateur de site web peut alors exprimer ses préférences via des signaux de contenu lisibles par machine.

Code : Sélectionner tout
1
2
3
4
5
6
7
8
9
10
11
12
13
# As a condition of accessing this website, you agree to abide by the following content signals:

# (a)  If a content-signal = yes, you may collect content for the corresponding use.
# (b)  If a content-signal = no, you may not collect content for the corresponding use.
# (c)  If the website operator does not include a content signal for a corresponding use, the website operator neither grants nor restricts permission via content signal with respect to the corresponding use.

# The content signals and their meanings are: 

# search: building a search index and providing search results (e.g., returning hyperlinks and short excerpts from your website's contents).  Search does not include providing AI-generated search summaries.
# ai-input: inputting content into one or more AI models (e.g., retrieval augmented generation, grounding, or other real-time taking of content for generative AI search answers). 
# ai-train: training or fine-tuning AI models.

# ANY RESTRICTIONS EXPRESSED VIA CONTENT SIGNALS ARE EXPRESS RESERVATIONS OF RIGHTS UNDER ARTICLE 4 OF THE EUROPEAN UNION DIRECTIVE 2019/790 ON COPYRIGHT AND RELATED RIGHTS IN THE DIGITAL SINGLE MARKET.


Ce texte comporte trois parties :

  • Le premier paragraphe explique aux entreprises comment interpréter un signal de contenu donné. « Oui » signifie « oui », « non » signifie « non » et l'absence de signal n'a aucune signification. Cette dernière option neutre est importante : elle permet aux opérateurs de sites web d'exprimer une préférence pour un signal de contenu sans les obliger à le faire pour un autre.
  • Le deuxième paragraphe définit le vocabulaire des signaux de contenu. Nous avons simplifié les signaux afin que toute personne accédant au contenu puisse facilement s'y conformer.
  • Le dernier paragraphe rappelle à ceux qui automatisent l'accès aux données que ces signaux de contenu peuvent être soumis à des droits légaux dans différentes juridictions.

Un opérateur de site web peut alors annoncer ses préférences spécifiques dans un texte lisible par machine en utilisant une syntaxe délimitée par des virgules, « oui » ou « non ». Si un opérateur de site web souhaite autoriser la recherche, interdire l'entraînement et n'exprimer aucune préférence concernant l'entrée AI, il peut inclure ce qui suit dans son fichier robots.txt :

Code : Sélectionner tout
1
2
3
User-Agent: *
Content-Signal: search=yes, ai-train=no 
Allow: /


Si un opérateur de site web laisse le signal de contenu pour l'entrée IA vide comme dans l'exemple ci-dessus, cela ne signifie pas qu'il n'a aucune préférence concernant cette utilisation, mais simplement qu'il n'a pas utilisé cette partie de son fichier robots.txt pour l'exprimer.

Implications pour le développement de l'IA et la gouvernance du Web

Pour les initiés du secteur, le véritable intérêt réside dans la manière dont cela pourrait évoluer vers une norme de facto. L'annonce de Cloudflare souligne son rôle dans la capacité des organisations à sécuriser leurs actifs numériques. Prashanth Chandrasekar, PDG de Stack Overflow, a salué cette initiative visant à protéger de vastes corpus de données à l'ère des progrès rapides de l'IA.

Les détracteurs s'interrogent toutefois sur son application. Sans soutien juridique, les signaux pourraient être ignorés, à l'instar de certains robots d'indexation qui enfreignent déjà les règles de base du fichier robots.txt. Néanmoins, l'intégration de Cloudflare à ses services de connectivité cloud pourrait amplifier son impact, en offrant des analyses sur les comportements des robots et leur conformité.

Alors que l'IA continue de remodeler les écosystèmes de contenu, des politiques comme celle-ci représentent une mesure proactive vers une gouvernance équilibrée. L'offre gratuite de Cloudflare démocratise l'accès, ce qui pourrait profiter autant aux petits éditeurs qu'aux grands. Cependant, le succès dépend de l'adoption généralisée des robots d'indexation ; si les principaux acteurs s'y conforment, cela pourrait créer un précédent en matière de pratiques éthiques en matière de données d'IA.

En fin de compte, cette évolution souligne une tendance plus large à la transparence dans la manière dont le contenu en ligne alimente l'innovation. En intégrant ces signaux dans la structure des protocoles web, Cloudflare mise sur la collaboration plutôt que sur la confrontation, une stratégie qui pourrait redéfinir les relations entre les créateurs et l'IA pour les années à venir.

En mars 2024, Cloudflare avait déjà annoncé le développement de Firewall for AI (Pare-feu pour l'IA). Firewall for AI est un Web Application Firewall (WAF) avancé spécialement conçu pour les applications utilisant des LLM. Il comprend un ensemble d'outils qui peuvent être déployés devant les applications pour détecter les vulnérabilités et fournir une visibilité aux propriétaires de modèles. Grâce à Firewall for AI, Cloudflare offre un contrôle sur les instructions génératives et les demandes qui parviennent à leurs modèles de langage, réduisant ainsi le risque d'abus et d'exfiltration de données.


Voici comment ajouter des signaux de contenu à votre site web, selon Cloudflare :

Si vous savez déjà comment configurer votre fichier robots.txt, le déploiement des signaux de contenu est aussi simple que d'ajouter la politique de signaux de contenu ci-dessus, puis de définir vos préférences via un signal de contenu.

Nous voulons simplifier l'adoption des signaux de contenu. Les clients de Cloudflare ont déjà activé notre fonctionnalité robots.txt gérée pour plus de 3,8 millions de domaines. Ce faisant, ils ont choisi d'indiquer aux entreprises qu'ils ne souhaitent pas que le contenu de ces domaines soit utilisé pour l'entraînement de l'IA. Pour ces clients, nous mettrons à jour le fichier robots.txt que nous servons déjà en leur nom afin d'y inclure la politique de signaux de contenu et les signaux suivants :

Code : Sélectionner tout
Content-Signal: search=yes, ai-train=no


Nous ne servirons pas de signal « ai-input » pour nos clients robots.txt gérés. Nous ne connaissons pas leurs préférences concernant ce signal et nous ne voulons pas faire de suppositions.

À compter d'aujourd'hui, nous fournirons également la politique relative aux signaux de contenu commentée et lisible par l'homme pour toute zone client gratuite qui ne dispose pas d'un fichier robots.txt existant. En pratique, cela signifie qu'une requête adressée à robots.txt sur ce domaine renverrait les commentaires qui définissent ce que sont les signaux de contenu. Ces commentaires sont ignorés par les robots d'exploration. Il est important de noter qu'ils n'incluront aucune directive Allow ou Disallow et ne fourniront aucun signal de contenu réel. Ce sont les utilisateurs qui choisissent et expriment leurs préférences réelles lorsqu'ils sont prêts à le faire. Les clients disposant d'un fichier robots.txt existant ne verront aucun changement.

Les zones bénéficiant d'un forfait gratuit peuvent désactiver la politique relative aux signaux de contenu dans la section Paramètres de sécurité du tableau de bord Cloudflare, ainsi que via la section Aperçu.


Pour créer vos propres signaux de contenu, il vous suffit de copier-coller le texte que nous vous aidons à générer sur ContentSignals.org dans votre fichier robots.txt, ou de le déployer immédiatement via le bouton Déployer sur Cloudflare. Vous pouvez également activer notre fonctionnalité robots.txt gérée si vous souhaitez exprimer votre préférence pour interdire la formation.

Il est important de garder à l'esprit que les signaux de contenu expriment des préférences ; ils ne constituent pas des contre-mesures techniques contre le scraping. Certaines entreprises peuvent tout simplement les ignorer. Si vous êtes un éditeur de site web qui cherche à contrôler ce que les autres font avec votre contenu, nous pensons qu'il est préférable de combiner vos signaux de contenu avec les règles WAF et la gestion des bots.

Bien que ces fonctionnalités Cloudflare visent à faciliter leur utilisation, nous souhaitons encourager leur adoption par tout le monde, partout. Afin de promouvoir cette pratique, nous publions cette politique sous une licence CC0, qui permet à tout le monde de la mettre en œuvre et de l'utiliser librement.
Source : Créer vos propres signaux de contenu

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Cloudflare bloquera par défaut l'accès des robots IA de pillage de pages web et lance « Pay Per Crawl », une nouvelle initiative visant à faire payer les services d'IA pour accéder à ces pages

Les fichiers Robots.txt peuvent-ils réellement stopper les robots d'IA ? Au-delà de la question, bloquer les robots de l'IA pourrait être une victoire à court terme, mais un désastre à long terme

Perplexity affirme que les accusations de Cloudflare concernant le scraping furtif par l'IA reposent sur des erreurs embarrassantes, ajoutant que le blocage de Cloudflare menace l'accessibilité du Web ouvert

Les crawlers IA détruisent-ils les sites web qu'ils exploitent ? Ils mettent les infrastructures à rude épreuve sans contrepartie. Meta et OpenAI en sont les champions, selon un rapport de Fastly
Vous avez lu gratuitement 378 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !