IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

reCAPTCHA : 819 millions d'heures humaines perdues et des milliards de dollars de profits pour Google
Selon une étude qui le désigne comme un outil de traçage

Le , par Stéphane le calme

21PARTAGES

7  0 
Depuis son acquisition par Google en 2009, le système reCAPTCHA est devenu un élément incontournable du web. Ce petit test, censé distinguer les humains des robots, est aujourd’hui présent sur des millions de sites. Pourtant, derrière son apparence anodine, se cache un immense gaspillage de temps humain et une manne financière colossale pour Google. Une étude réalisée en 2023 par l'université d'Irvine, intitulée « Dazed and Confused : A Large-Scale Real-World User Study of reCAPTCHAv2 » a conclu que non seulement les CAPTCHA sont inefficaces pour empêcher le trafic de robots, mais qu'ils posent des problèmes de protection de la vie privée en raison des cookies de suivi, qu'ils ont fait perdre des millions d'heures de notre temps collectif et qu'ils ont généré près de mille milliards de dollars de données pour Google.

CAPTCHA (acronyme anglais de Completely Automated Public Turing test to tell Computers and Humans Apart) est une famille de tests de Turing permettant de différencier de manière automatisée un utilisateur humain d'un ordinateur. Ce test de défi-réponse est utilisé en informatique pour vérifier que l'utilisateur n'est pas un robot. Ainsi, à l'origine, les CAPTCHA servaient à protéger les sites web contre les attaques automatisées. Ils ont évolué avec reCAPTCHA, qui a transformé les utilisateurs en travailleurs invisibles au service de Google.

Le reCaptcha est un système qui utilise des techniques d’analyse des risques avancées pour distinguer les humains des robots. Le reCAPTCHA n'a cessé d'évoluer au cours de la dernière décennie. Dans reCAPTCHA v1, il était demandé à chaque utilisateur de relever un défi en lisant un texte déformé et en le saisissant dans une zone. Pour améliorer à la fois l'expérience utilisateur et la sécurité, Google a proposé reCAPTCHA v2 et commencé à utiliser de nombreux autres signaux pour déterminer si une requête provenait d'un humain ou d'un robot. Cela a permis aux défis reCAPTCHA de passer d'un rôle dominant à un rôle secondaire dans la détection des abus, laissant environ la moitié des utilisateurs passer en un clic.

Puis, dans reCAPTCHA v3, Google a modifié fondamentalement la façon dont les sites peuvent déterminer si les activités sont menées par des humains ou des robots en renvoyant un score pour vous indiquer à quel point une interaction est suspecte et en éliminant le besoin d'interrompre les utilisateurs avec un défi. reCAPTCHA v3 exécute une analyse de risque adaptative en tâche de fond pour vous alerter des trafics suspects tout en permettant à vos utilisateurs de profiter d'une expérience sans friction sur votre site.

En 2025, reCAPTCHA est facilement vaincu par les robots. Pourtant, Google continue de le proposer parce que reCAPTCHA est devenu un outil de suivi qui collecte des données sur les utilisateurs et génère des milliards de revenus pour Google, selon Chuppl : « Re-captcha prend l'empreinte pixel par pixel de votre navigateur, une carte en temps réel de tout ce que vous faites sur l'internet ».


Un outil de traçage selon une étude

L'article, coécrit par Andrew Searles, ancien chercheur en sécurité informatique à l'université d'Irvine, révèle que le système CAPTCHA de Google, largement utilisé, est principalement un mécanisme de suivi du comportement des utilisateurs et de collecte de données, tout en offrant peu de sécurité réelle contre les robots. L'étude a révélé que reCAPTCHA surveille de manière intensive les cookies, l'historique de navigation et l'environnement du navigateur (y compris le rendu de Canvas, la résolution de l'écran, les mouvements de la souris et les données de l'agent utilisateur) des utilisateurs, qui peuvent tous être utilisés à des fins de publicité et de suivi.

L'étude se concentre sur les deux formes les plus courantes de CAPTCHA que vous trouverez dans la nature grâce à reCAPTCHAv2 de Google : Les CAPTCHA « invisibles » ou basés sur le comportement, qui analysent vos entrées lorsque vous cochez la case « pas un robot » ou même subrepticement lorsque vous naviguez sur un site web, et les CAPTCHA basés sur l'image, où vous sélectionnez toutes les motos, les feux de circulation ou autres dans des images provenant de Google Street View. Les deux sont précieux pour Google, les cookies de suivi générés par le premier pouvant contribuer au ciblage publicitaire, et les données du second pouvant être utilisées pour la formation de modèles d'intelligence artificielle, soit en interne chez Google, soit vendues à une autre entreprise.

Les participants n'ont pas été informé et le reCAPTCHAv2 de Google a été ajouté aux fonctions de création de compte et de récupération de mot de passe d'un système de compte étudiant interne à l'université.

Les chercheurs ont mesuré le temps nécessaire pour compléter les CAPTCHA et interrogé un sous-ensemble des 3 600 utilisateurs de l'étude de 13 mois sur leur expérience. Comme on pouvait s'y attendre, ils ont mis plus de temps et ont donné des résultats négatifs lorsqu'il s'agissait des CAPTCHA de détection d'images plus complexes. L'étude a également noté des variations dans le temps de réalisation selon les disciplines d'enseignement, le niveau d'expérience et selon qu'ils créaient ou récupéraient un compte.


Les chercheurs ont pris le temps moyen de réalisation de 3,53 secondes pour les CAPTCHA d'image et de comportement et l'ont multiplié par une estimation basse de 512 milliards de reCAPTCHA v1 et v2 réalisés sur Internet entre 2010 et 2023, ce qui a donné les estimations suivantes de leur impact :
  • 819 millions d'heures passées à résoudre des CAPTCHA.
  • 6,1 milliards de dollars de temps au salaire minimum fédéral américain.
  • 134 pétaoctets de bande passante Internet.
  • consommant 7,5 millions de kWh d'énergie.
  • ce qui a produit 7,5 millions de livres de pollution au CO2.

En comparant les taux de temps et de précision de la nouvelle étude avec ceux des robots, tout en examinant les études précédentes sur la capacité croissante des processus automatisés à résoudre les CAPTCHA, les chercheurs ont conclu que les robots sont désormais plus rapides que les humains pour remplir les cases à cocher de reCAPTCHAv2, alors qu'ils prennent plus de temps, mais sont plus précis lorsqu'il s'agit de la détection d'images. Les chercheurs ont également affirmé que les cookies de suivi introduisent en fait un nouveau risque en matière de sécurité et de respect de la vie privée. En examinant la valeur déclarée par Google pour les collections de données de détection d'images étiquetées et la valeur à vie d'un cookie de suivi individuel multipliée par la quantité estimée de reCAPTCHAv2 complétés, les chercheurs ont obtenu les valeurs suivantes pour Google :
  • 8,75 à 32,3 milliards de dollars pour l'ensemble des données reCAPTCHAv2, qui pourraient théoriquement être vendues plusieurs fois à différents fournisseurs.
  • Une valeur à vie de 888 milliards de dollars pour tous les cookies de suivi de reCAPTCHAv2 produits entre 2010 et 2023.

« On peut conclure que le véritable objectif de reCAPTCHAv2 est d'être une ferme de cookies de traçage à but lucratif se faisant passer pour un service de sécurité », affirment les chercheurs dans la dernière partie de l'étude, en soutenant que reCAPTCHA devrait être supprimé en raison de son manque de contribution réelle à la sécurité ou à la fonctionnalité de l'internet. Deux ans après cette étude, il n'y a aucun signe que cela se produise de sitôt.

Malheureusement, si vous souhaitez utiliser Internet de manière significative, il n'y a aucun moyen de se soustraire aux reCAPTCHA.

Des milliards de dollars pour Google

Pendant que des millions d’internautes perdent du temps, Google, elle, capitalise sur cette main-d’œuvre gratuite :
  • Données pour l’IA : En labellisant des images, les utilisateurs nourrissent les algorithmes de Google Vision AI et de Google Maps, améliorant ainsi leurs services sans coût de main-d’œuvre.
  • Google Cloud et AI Services : Les modèles entraînés grâce aux CAPTCHA sont intégrés aux services vendus par Google (Street View, IA de reconnaissance d’images, etc.).
  • Facturation aux entreprises : Google facture l’utilisation de reCAPTCHA aux sites web via Google Cloud. Plus un site est visité, plus il paye.

Ironiquement, les entreprises qui paient pour intégrer reCAPTCHA achètent indirectement les résultats du travail fourni gratuitement par leurs propres visiteurs.

Quelques alternatives

Le pot de miel (Honeypot)

Le pot de miel est une technique qui consiste à ajouter un champ caché dans un formulaire. Ce champ est invisible pour les humains, mais pas pour les robots. Si le champ est rempli lors de la soumission du formulaire, cela signifie que c’est un robot et non un humain. Le formulaire est alors rejeté ou ignoré. Le pot de miel est une solution simple, discrète et peu coûteuse, mais elle n’est pas infaillible. Certains robots peuvent détecter les champs cachés et les ignorer, ou remplir le formulaire de manière aléatoire.

Akismet

Akismet est un plugin anti-spam pour WordPress, qui analyse le contenu des commentaires et des formulaires. Il utilise un algorithme qui apprend en permanence à partir des signalements des utilisateurs et des administrateurs. Akismet est capable de bloquer les spams les plus sophistiqués, tout en laissant passer les messages légitimes. Akismet est une solution efficace et populaire, mais elle nécessite une clé API pour fonctionner, qui est gratuite pour les sites personnels, mais payante pour les sites professionnels ou commerciaux.

hCaptcha

hCaptcha est une solution qui ressemble au recaptcha de Google, mais qui se veut plus respectueuse de la vie privée des utilisateurs. Au lieu de demander aux utilisateurs de cliquer sur des images, hCaptcha leur propose des questions simples, basées sur des concepts généraux ou des catégories. hCaptcha ne collecte pas les données personnelles des utilisateurs, ni ne les utilise pour améliorer les services de Google. hCaptcha est une solution gratuite et facile à installer, mais elle peut être moins performante que le recaptcha de Google, ou plus difficile à résoudre pour certains utilisateurs.

Rappelons d'ailleurs qu'en 2020, Cloudflare a décidé d'abandonner reCAPTCHA de Google pour se tourner vers le service alternatif hCaptcha :

Nous avons évalué un certain nombre de fournisseurs de CAPTCHA ainsi que la construction d'un système nous-mêmes. Au final, hCaptcha s'est révélé être la meilleure alternative à reCAPTCHA. Les solutions hCaptcha nous ont plu: 1) ils ne vendent pas de données personnelles; ils ne collectent que le minimum de données personnelles nécessaires, ils sont transparents dans la description des informations qu'ils collectent et comment ils les utilisent et / ou les divulguent, et ils ont accepté de n'utiliser ces données que pour fournir le service hCaptcha à Cloudflare; 2) les performances (à la fois en vitesse et en taux de résolution) étaient aussi bonnes ou meilleures que prévu lors de nos tests A / B; 3) ils disposent d’une solution robuste pour les malvoyants et autres utilisateurs ayant des problèmes d'accessibilité; 4) ils ont soutenu le Privacy Pass pour réduire la fréquence des CAPTCHA; 5) leur solution fonctionnait dans les régions où Google était bloqué; et 6) l'équipe hCaptcha était agile et réactive.
Geetest

Geetest est une solution qui propose des défis ludiques et interactifs aux utilisateurs, au lieu de leur demander de reconnaître des images. Par exemple, il peut s’agir de faire glisser un puzzle, de tracer un motif, de taper un code, etc. Geetest adapte le niveau de difficulté du défi en fonction du comportement de l’utilisateur et du risque de spam. Geetest est une solution originale et amusante, mais elle peut être plus longue ou plus compliquée à réaliser que les recaptcha classiques.

Conclusion

Google a réussi un tour de force : faire passer une extraction massive de travail humain pour une simple mesure de cybersécurité. Avec des milliards d’heures gaspillées et des profits colossaux à la clé, reCAPTCHA symbolise une exploitation subtile, mais efficace, de l’intelligence humaine.

Le plus ironique ? Nous continuons à cliquer, sans même nous poser la question.

Source : résultats de l'étude

Et vous ?

Comment justifier que des millions d’internautes travaillent gratuitement pour Google sans le savoir ?

Peut-on considérer reCAPTCHA comme une forme de travail forcé déguisé ?

Si chaque internaute perd 10 secondes par reCAPTCHA, doit-on reconsidérer l’impact économique global de ces microtâches imposées ?

Google devrait-il rémunérer les internautes qui participent involontairement à l’entraînement de ses IA ?

Sommes-nous en train de sous-estimer l’ampleur du travail "gratuit" fourni aux grandes entreprises technologiques ?

Voir aussi :

Google change radicalement sa politique de tarification pour reCAPTCHA : le niveau Entreprise passe de 1 million d'évaluations par mois à 10 000 de nouveaux modèles de tarification sont introduits

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de BlueScreenJunky
Membre habitué https://www.developpez.com
Le 10/02/2025 à 7:25
Comment justifier que des millions d’internautes travaillent gratuitement pour Google sans le savoir ?
C'est une mesure de sécurité (je ne rentre pas ici dans la question de si elle est efficace ou pas) qui est proposée "gratuitement" en échange de cet entrainement à la reconnaissance d'image. Donc dans un sens c'est gagnant-gagnant pour l'éditeur du site et Google. Après c'est à l'éditeur du site de voir comment il traite ses clients. S'il préfère ne pas utiliser REcaptcha, ou rémunérer ses utilisateurs pourquoi pas.

Peut-on considérer reCAPTCHA comme une forme de travail forcé déguisé ?
En tirant un peu sur la corde oui. De la même manière que poster sur Reddit ou plus généralement publier du contenu sur internet, puisqu'il sera utilisé pour entrainer de l'IA. Encore une fois le fait de donner de son temps d'attention (soit pour regarder des publicités, soit maintenant pour entrainer des models d'IA) c'est aussi ce qui permet la gratuité d'énormément de ressources sur internet.

Si chaque internaute perd 10 secondes par reCAPTCHA, doit-on reconsidérer l’impact économique global de ces microtâches imposées ?
Oui, mais ce n'est pas le pire : Je passe en moyenne beaucoup plus de temps à saisir des TOTP, à aller chercher mon téléphone pour valider une demande d'authentification, ou à attendre un mail qui contient un code. Pour moi l'authentification à deux facteurs a un impact plus important que les captchas sur ma productivité au quotidien.

Il faut aussi préciser que la plupart du temps RECaptcha v3 est invisible : il ne demande de reconnaitre des images qu'en cas de doute via les autres signaux.

Sommes-nous en train de sous-estimer l’ampleur du travail "gratuit" fourni aux grandes entreprises technologiques ?
Comme d'habitude je pense qu'une partie de la population oui. Les utilisateurs avertis comme les lecteurs de ce forum non. Je pense que tout le monde ici a conscience que depuis un moment toute notre activité en ligne (y compris cet article et ce message) servent à entrainer gratuitement des modèles d'IA.
1  2