reCAPTCHA est un service de test CAPTCHA proposé par Google aux éditeurs de sites webs pour leur permettre de différencier de manière automatisée les utilisateurs humains des robots, et ainsi se prémunir contre divers abus. Le système se différencie des CAPTCHA classiques en mettant à profit les capacités de reconnaissance que le test mobilise chez les utilisateurs humains, pour entraîner par la même occasion les intelligences artificielles que Google développe.
À l'origine, il s'agissait d'un test de reconnaissance de texte, servant à la numérisation de livres, là où échouaient les systèmes de reconnaissance optique de caractères (OCR). Il a été remplacé en 2012 par un test de reconnaissance d'images issues de Google Street View, pour améliorer la reconnaissance de formes. Depuis 2014, ce test n'est plus réalisé que si un robot le juge nécessaire, après que l'utilisateur eut été invité à cliquer sur une simple case à cocher.
Mis au point par des chercheurs de la Carnegie Mellon School of Computer Science (en) de l'université Carnegie-Mellon à Pittsburgh, dont était également issu le projet CAPTCHA[1], le système appartient à Google depuis fin 2009[2],[3].
L'idée est de rendre utile une tâche qui peut sembler rébarbative. La technique tient du crowdsourcing.
Concrètement, par rapport à un processus habituel d'authentification par CAPTCHA, ce ne sont pas un mais deux mots qui sont présentés à l'utilisateur. L'un d'eux est un CAPTCHA habituel, dont la solution est par conséquent connue de manière certaine ; seul l'autre est issu de la numérisation d'un livre : c'est celui dont la solution est incertaine voire inconnue et que l'utilisateur va aider à résoudre.
Le système part du principe que si les utilisateurs résolvent correctement le CAPTCHA habituel, alors ils ont aussi déchiffré correctement le mot inconnu. Néanmoins, un mot n'est considéré comme vraiment reconnu que si plusieurs utilisateurs l'ont vérifié en obtenant le même résultat.
Les mots à reconnaître sont issus de numérisations opérées par Internet Archive sur des ouvrages anciens appartenant au domaine public. Ils sont fournis lors des requêtes par le site web du projet reCAPTCHA[4]. Le projet reCAPTCHA propose des bibliothèques pour différents langages de programmation afin de faciliter le processus. Le service est gratuit, à l'exception des utilisateurs qui auraient besoin d'une bande passante trop élevée.
Le but de reCAPTCHA est le même que celui poursuivi par Distributed Proofreaders, un autre projet visant également à valider l'OCR par des opérateurs humains, mais de manière conventionnelle, sans avoir recours à un système de CAPTCHA.
En 2012, les algorithmes de reconnaissance de caractères de Google étant devenus suffisamment performants pour ne plus avoir besoin d'utilisateurs, Google réoriente le service vers la reconnaissance d'objets dans des images[5].
En 2009, le projet reCAPTCHA est à même de numériser les archives du New York Times : en , environ 20 ans d'archives avaient été numérisés, et les responsables du projet espéraient avoir complètement numérisé les 110 autres années avant la fin de 2010[6].
Le , Google annonce l'acquisition de la société reCAPTCHA[2]. Celle-ci est alors utilisée principalement dans le processus de numérisation d'ouvrages de Google Livres.
Depuis , reCAPTCHA se présente sous forme d'une reconnaissance d'images issues de Google Street View et est utilisé par Google pour l'améliorer[7].
En , une seconde version de reCAPTCHA évite à l'internaute d'avoir à taper des caractères ou des chiffres : il n'a plus qu'à cliquer sur une case. Un système à base d'intelligence artificielle détecte s'il s'agit bien d'un clic fait par un humain et si c'est bien le cas, le CAPTCHA est validé[8]. Toutefois, le processus a toujours une utilité pour Google, car les clics des utilisateurs servent à entraîner des intelligences artificielles, dans les voitures autonomes notamment[2]. Une version audio existe pour les personnes déficientes visuelles. Les interactions enregistrées par le site, en particulier les déplacements de souris, servent aussi à identifier la probabilité d'être face à un robot, et augmenter le niveau du défi proposé selon ce risque[9].
Au début de , la troisième version de reCAPTCHA est introduite, rendant l'usage du dispositif invisible dans la majorité des cas, et donnant lieu à des inquiétudes concernant la vie privée[10],[11].
En est introduite une version entreprise[12].
Les données collectées par reCAPTCHA sur chaque personne concernent les matériels et les logiciels utilisés[13].
Ces données incluent les cookies de moins de 6 mois déposés par Google, les clics sur la page où se situe le dispositif, les informations CSS et objets JavaScript, l'horodatage, les modules installés sur le navigateur et la langue qui y est configurée, ainsi que potentiellement une capture d'image de la fenêtre du navigateur. Les données telles que les identifiants entrés sur les pages de connexion à un compte sont aussi concernées[14].
Les tests effectués montrent que reCAPTCHA suspecte un robot dans le cas où des mesures de protection de la vie privée sont mises en place telles que l'usage d'un VPN, d'un navigateur Tor[11], d'un module de navigateur protégeant les données personnelles, ou la suppression régulière des cookies[10]. Dans le cas d'un module de navigateur protégeant la vie privée, l'échec est invisible[10].
Enfin, depuis sa troisième version, reCAPTCHA utilise ces informations pour évaluer de manière invisible si l'utilisateur est un être humain : l'URL qui a permis d'arriver à la page courante, le système d'exploitation, les cookies, les mouvements de souris[9] et frappes de clavier, la durée des pauses entre les actions, la configuration du périphérique (langue et localisation)[15].
Le service reCAPTCHA demande à la fois l'adhésion à ses conditions d'utilisation propres et les mêmes autorisations que pour les autres services Google, ce qui autorise le recoupement avec des informations collectées auprès de tiers telles que :
Cette collecte ne détaille pas les informations qui sont exploitées et celles qui ne le sont pas[16],[17],[14].
L'outil reCAPTCHA indique collecter des données sans préciser lesquelles, et sans garantir un hébergement à l'intérieur de l'Union européenne[13] comme le demande le RGPD[16].
La CNIL s'est penchée sur la question de la conformité au RGPD de cette fonctionnalité à la suite de l'article "Bien sûr que je ne suis pas un robot ! Quoique..." (Editions législatives, 5 novembre 2018).
La CNIL a publié la décision no MED-2020-015 le , qui mettait en demeure le ministère des Solidarités et de la Santé[18] dans le contexte de l'application StopCovid. La CNIL y relève que l'usage de reCAPTCHA doit être précisé dans l'analyse d'impact (AIPD) d'un logiciel, sous peine de manquement à l'article 35 du RGPD[19]. Elle précise aussi que les développeurs sont clairement informés par Google dans ses conditions d'utilisation que cet usage est soumis à une demande de consentement de la part des personnes qui l'utilisent[13], puisque la collecte de données n'a pas pour seul objet la sécurisation de l'application[20]. Enfin, elle signale que ne pas demander le consentement des personnes utilisatrices constitue un manquement à l'article 82 de la Loi informatique et libertés[21]. En , une réponse de la CNIL a été publiée, confirmant la remise en cause de la compatibilité de l'usage de reCAPTCHA avec le RGPD[16].
Selon la directive 4.8 du RGPD, l'usage d'un reCAPTCHA relève de la responsabilité de l'éditeur du site, en particulier pour le recueil du consentement des personnes qui doivent remplir ce captcha ainsi que leur droit d'opposition, Google n'étant que sous-traitant. Toutefois, ce droit d'opposition entre en conflit direct avec l'intérêt du dispositif. Par ailleurs, la troisième version de ce dispositif se basant sur une décision automatique, elle rend impossible l'explication par le délégué à la protection des données d'une décision de refus telle que l'impose l'article 22 du RGPD[10].
Il consisterait aussi en un travail numérique contraint, qui pouvait être utilisé dans le cadre de Maven, projet du Pentagone visant à améliorer les technologies embarquées dans les drones de l'armée américaine en zone de guerre. Face aux inquiétudes émises en interne comme en externe, Google a décidé de ne pas reconduire ce projet[10].