IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Cloudflare lance une politique de signalisation de contenu pour contrôler le scraping par l'IA et étend le fichier robots.txt pour permettre aux éditeurs de spécifier des règles d'utilisation de l'IA

Le , par Alex

59PARTAGES

5  0 
Cloudflare lance une politique de signalisation de contenu pour contrôler le scraping par IA. La nouvelle politique de signalisation de contenu de Cloudflare étend le fichier robots.txt, permettant aux éditeurs de spécifier des règles d'utilisation de l'IA pour le contenu scrapé, par exemple en autorisant la formation non commerciale tout en interdisant la réutilisation commerciale. Offerte gratuitement, elle donne plus de pouvoir aux créateurs face aux préoccupations croissantes liées au scraping par IA, en s'appuyant sur la conformité volontaire pour favoriser des pratiques éthiques en matière de données et une gouvernance équilibrée du web.

En mai dernier, le PDG de Cloudflare a fait la lumière sur le monde de l'IA, son impact négatif sur Internet et l'univers de la recherche en ligne. Matthew Prince a qualifié l'IA de fardeau économique, qui brise le modèle économique du web en découplant la création de contenu de la valeur, et a décrit Google comme étant au cœur de la perturbation. Il faut savoir que les entreprises spécialisées dans l'IA continuent de récupérer plus de contenu pour chaque interaction avec l'utilisateur que ce que Google a fait jusqu'à présent. Selon Matthew Prince, il s'agit d'une menace directe et majeure pour le Web.

Pour information, Cloudflare est une société américaine qui fournit des services de réseau de diffusion de contenu, de cybersécurité, d'atténuation des attaques DDoS, de réseau étendu, de proxys inversés, de service de noms de domaine, d'enregistrement de domaines accrédités par l'ICANN et d'autres services. Selon W3Techs, Cloudflare est utilisé par environ 19,3 % de tous les sites web sur Internet pour ses services de sécurité web, en janvier 2025.

Dans ce contexte, Cloudflare a récemment introduit un mécanisme novateur pour donner plus de pouvoir aux éditeurs face à l'essor du scraping par l'intelligence artificielle. La nouvelle politique de Cloudflare en matière de signaux de contenu étend le fichier robots.txt traditionnel pour inclure des directives qui spécifient comment le contenu récupéré peut être utilisé après le crawl. Cette initiative répond aux préoccupations croissantes des créateurs qui s'inquiètent de voir leur travail intégré dans des modèles de formation à l'IA sans leur consentement ni compensation.

Cette politique permet essentiellement aux propriétaires de sites web d'ajouter des signaux simples et lisibles par l'homme dans le fichier robots.txt, tels que des autorisations pour l'entraînement de l'IA, la synthèse de contenu ou même des interdictions totales de réutilisation. Cloudflare, qui gère une part importante du trafic internet, met cette fonctionnalité à la disposition de ses utilisateurs gratuitement, ce qui pourrait influencer la manière dont les entreprises d'IA, telles que celles qui développent de grands modèles linguistiques, abordent l'acquisition de données.


Donner plus de pouvoir aux créateurs à l'ère de l'IA

Cette initiative intervient à un moment où les poursuites judiciaires et les débats sur les droits relatifs au contenu s'intensifient. Par exemple, la politique de Cloudflare vise à donner aux éditeurs un contrôle plus précis, en s'appuyant sur son service robots.txt géré existant. En intégrant ces signaux, les créateurs peuvent signaler leurs préférences, par exemple en autorisant le contenu pour la recherche IA non commerciale tout en l'interdisant pour les produits commerciaux, une nuance que le blocage traditionnel ne permettait pas d'obtenir.

Les observateurs du secteur notent que cela pourrait modifier les rapports de force. La politique n'impose pas la conformité par le biais de la technologie, mais repose sur l'adhésion volontaire des opérateurs de robots, tout comme la norme robots.txt originale. Cependant, grâce au vaste réseau de Cloudflare, elle pourrait encourager une adoption plus large, poussant les entreprises d'IA à respecter ces directives sous peine de voir leur réputation mise en péril.

En toile de fond, on trouve des affaires très médiatisées dans lesquelles des éditeurs ont accusé des géants de l'IA d'utiliser des données sans autorisation. Cloudflare met en avant des partenariats avec des entités telles que RSL Collective et Stack Overflow, qui soutiennent cette approche visant à favoriser un « web ouvert et durable ». Comme l'a déclaré Eckart Walther de RSL Collective, cette collaboration favorise une rémunération équitable pour les créateurs.

De plus, la politique met à jour la syntaxe du fichier robots.txt afin de clarifier les règles spécifiques à l'IA, remédiant ainsi aux ambiguïtés qui ont entaché la norme depuis sa création dans les années 1990. Les discussions sur les réseaux sociaux ont mis en évidence des failles potentielles, telles que les robots qui ignorent complètement le fichier robots.txt afin d'éviter de se heurter à des conditions restrictives, soulignant ainsi le fait que la politique repose sur une participation de bonne foi.

La politique de Cloudflare en matière de signaux de contenu

La politique en matière de signaux de contenu s'intègre dans les fichiers robots.txt des opérateurs de sites web. Il s'agit d'un texte lisible par l'homme suivi du symbole # pour le désigner comme commentaire. Cette politique définit trois signaux de contenu - search, ai-input et ai-train - et leur pertinence pour les robots d'indexation.

Un opérateur de site web peut alors exprimer ses préférences via des signaux de contenu lisibles par machine.

Code : Sélectionner tout
1
2
3
4
5
6
7
8
9
10
11
12
13
# As a condition of accessing this website, you agree to abide by the following content signals:

# (a)  If a content-signal = yes, you may collect content for the corresponding use.
# (b)  If a content-signal = no, you may not collect content for the corresponding use.
# (c)  If the website operator does not include a content signal for a corresponding use, the website operator neither grants nor restricts permission via content signal with respect to the corresponding use.

# The content signals and their meanings are: 

# search: building a search index and providing search results (e.g., returning hyperlinks and short excerpts from your website's contents).  Search does not include providing AI-generated search summaries.
# ai-input: inputting content into one or more AI models (e.g., retrieval augmented generation, grounding, or other real-time taking of content for generative AI search answers). 
# ai-train: training or fine-tuning AI models.

# ANY RESTRICTIONS EXPRESSED VIA CONTENT SIGNALS ARE EXPRESS RESERVATIONS OF RIGHTS UNDER ARTICLE 4 OF THE EUROPEAN UNION DIRECTIVE 2019/790 ON COPYRIGHT AND RELATED RIGHTS IN THE DIGITAL SINGLE MARKET.


Ce texte comporte trois parties :

  • Le premier paragraphe explique aux entreprises comment interpréter un signal de contenu donné. « Oui » signifie « oui », « non » signifie « non » et l'absence de signal n'a aucune signification. Cette dernière option neutre est importante : elle permet aux opérateurs de sites web d'exprimer une préférence pour un signal de contenu sans les obliger à le faire pour un autre.
  • Le deuxième paragraphe définit le vocabulaire des signaux de contenu. Nous avons simplifié les signaux afin que toute personne accédant au contenu puisse facilement s'y conformer.
  • Le dernier paragraphe rappelle à ceux qui automatisent l'accès aux données que ces signaux de contenu peuvent être soumis à des droits légaux dans différentes juridictions.

Un opérateur de site web peut alors annoncer ses préférences spécifiques dans un texte lisible par machine en utilisant une syntaxe délimitée par des virgules, « oui » ou « non ». Si un opérateur de site web souhaite autoriser la recherche, interdire l'entraînement et n'exprimer aucune préférence concernant l'entrée AI, il peut inclure ce qui suit dans son fichier robots.txt :

Code : Sélectionner tout
1
2
3
User-Agent: *
Content-Signal: search=yes, ai-train=no 
Allow: /


Si un opérateur de site web laisse le signal de contenu pour l'entrée IA vide comme dans l'exemple ci-dessus, cela ne signifie pas qu'il n'a aucune préférence concernant cette utilisation, mais simplement qu'il n'a pas utilisé cette partie de son fichier robots.txt pour l'exprimer.

Implications pour le développement de l'IA et la gouvernance du Web

Pour les initiés du secteur, le véritable intérêt réside dans la manière dont cela pourrait évoluer vers une norme de facto. L'annonce de Cloudflare souligne son rôle dans la capacité des organisations à sécuriser leurs actifs numériques. Prashanth Chandrasekar, PDG de Stack Overflow, a salué cette initiative visant à protéger de vastes corpus de données à l'ère des progrès rapides de l'IA.

Les détracteurs s'interrogent toutefois sur son application. Sans soutien juridique, les signaux pourraient être ignorés, à l'instar de certains robots d'indexation qui enfreignent déjà les règles de base du fichier robots.txt. Néanmoins, l'intégration de Cloudflare à ses services de connectivité cloud pourrait amplifier son impact, en offrant des analyses sur les comportements des robots et leur conformité.

Alors que l'IA continue de remodeler les écosystèmes de contenu, des politiques comme celle-ci représentent une mesure proactive vers une gouvernance équilibrée. L'offre gratuite de Cloudflare démocratise l'accès, ce qui pourrait profiter autant aux petits éditeurs qu'aux grands. Cependant, le succès dépend de l'adoption généralisée des robots d'indexation ; si les principaux acteurs s'y conforment, cela pourrait créer un précédent en matière de pratiques éthiques en matière de données d'IA.

En fin de compte, cette évolution souligne une tendance plus large à la transparence dans la manière dont le contenu en ligne alimente l'innovation. En intégrant ces signaux dans la structure des protocoles web, Cloudflare mise sur la collaboration plutôt que sur la confrontation, une stratégie qui pourrait redéfinir les relations entre les créateurs et l'IA pour les années à venir.

En mars 2024, Cloudflare avait déjà annoncé le développement de Firewall for AI (Pare-feu pour l'IA). Firewall for AI est un Web Application Firewall (WAF) avancé spécialement conçu pour les applications utilisant des LLM. Il comprend un ensemble d'outils qui peuvent être déployés devant les applications pour détecter les vulnérabilités et fournir une visibilité aux propriétaires de modèles. Grâce à Firewall for AI, Cloudflare offre un contrôle sur les instructions génératives et les demandes qui parviennent à leurs modèles de langage, réduisant ainsi le risque d'abus et d'exfiltration de données.


Voici comment ajouter des signaux de contenu à votre site web, selon Cloudflare :

Si vous savez déjà comment configurer votre fichier robots.txt, le déploiement des signaux de contenu est aussi simple que d'ajouter la politique de signaux de contenu ci-dessus, puis de définir vos préférences via un signal de contenu.

Nous voulons simplifier l'adoption des signaux de contenu. Les clients de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !