reCAPTCHA ist ein Captcha-Dienst, der seit 2009 von der Google LLC betrieben wird. Dieser versucht zu unterscheiden, ob eine bestimmte Handlung im Internet von einem Menschen oder von einem Computerprogramm bzw. Bot vorgenommen wird. Der vollautomatische öffentliche Vorgang ähnelt somit dem Turing-Test. reCAPTCHA wird gleichzeitig zum Digitalisieren von Büchern und Zeitschriften sowie Hausnummern und Straßennamen aus Google Street View verwendet.
Laut einer Hochrechnung der Carnegie Mellon University verbringen Internetnutzer weltweit pro Tag 150.000 Stunden damit, Captchas zu lösen.[1] Die Regelmäßigkeit und Unentgeltlichkeit dieser Arbeitsleistung führte zu der Idee, sie für sinnvolle Zwecke einzusetzen. Der Informatiker Luis von Ahn, der im Jahr 2000 maßgeblich an der Erfindung des CAPTCHA-Verfahrens beteiligt war, entwickelte daraus im Jahr 2007 ein System namens reCAPTCHA, das bei der Buch-Digitalisierung eingescannte Wörter, die die Texterkennungssoftware nicht erkennt, durch die Eingabe von CAPTCHAs optimiert. Das System bezog seine Wörter anfangs aus einem Bereich des Internet Archives, der sich mit dem Digitalisieren von Büchern beschäftigt. Zudem half der Dienst bei der Digitalisierung des Archivs aller verfügbaren 130 Jahrgänge der New York Times:[2] Innerhalb weniger Monate nach Beginn dieses Projekts im Jahr 2009 waren bereits 20 Jahrgänge digitalisiert.
Im September 2009 kaufte Google das Unternehmen reCAPTCHA.[3] Google profitiert dadurch, weil es Teil seines Betätigungsfeldes ist, Bücher und andere Druckerzeugnisse zu digitalisieren.[4][5] Im März 2012 wurde bestätigt, dass Google inzwischen auch Hausnummern aus Google Street View erkennen lässt, um die Datenbasis für Google Maps zu optimieren.[6][7] Seit etwa Oktober 2015 werden auch vermehrt Straßenschilder angezeigt, deren erkannte Straßennamen ebenfalls zur Verbesserung von Street View benutzt werden.[8] Teilweise werden nur noch diese Straßenschilder und Hausnummern zur Erkennung angezeigt und nicht mehr Ausschnitte aus eingescannten Büchern.
Auf jedem CAPTCHA sind meistens zwei Wörter abgebildet: Eines ist dem System bereits bekannt und bestätigt, das andere ist ein unerkanntes Wort aus einem Digitalisierungsprojekt.
Der Nutzer wirkt durch dieses CAPTCHA kostenlos am Schrifterkennungsprojekt reCAPTCHA mit (siehe Crowdsourcing). Um das Captcha erfolgreich zu lösen, genügt es aber, das eigentliche Test-Captcha zu lösen und die Crowdsourcing-Aufgabe zu ignorieren, also das aus einem Digitalisat stammende wesentlich besser lesbare Wort nicht einzugeben. Es gibt Plugins zur Integration in populäre Webapplikationen wie Lifetype, WordPress, TYPO3, Drupal, vBulletin, phpBB, Joomla oder MediaWiki. Viele Millionen Menschen beteiligen sich so an dem Projekt, ohne die genaue Absicht des Projekts zu kennen, und stellen ihre Leistung zur Verfügung.
Es lässt sich statistisch herausfinden, ob die Eingabe eines Benutzers korrekt ist: Die Wortkombination wird innerhalb eines sehr kurzen Zeitraums mehreren Benutzern zugleich präsentiert und die häufigste Eingabe wird als richtig angenommen.
Im Jahr 2013 begann reCAPTCHA damit, verhaltensorientierte Analysen in CAPTCHAs zu implementieren. Hierbei werden unter anderem Browser-Interaktionen des Benutzers untersucht, um eine Wahrscheinlichkeit zu errechnen, ob der Benutzer ein Mensch ist. Um diese Wahrscheinlichkeit zu errechnen, wird die Maus bzw. der Cursor getrackt. Wird der Benutzer mit hoher Wahrscheinlichkeit als Mensch identifiziert, indem der Cursor mit natürlichen Bewegungen getrackt[9] wurde, wird ein einfaches Auswahlfeld “I’m not a robot” präsentiert, welches mit einem Mausklick bestätigt werden muss. In Fällen, in denen der Aufrufer nicht mit hinreichender Sicherheit als Mensch identifiziert werden kann, wird zusätzlich ein im Vergleich zu älteren Versionen „wesentlich schwierigeres“ Captcha angezeigt. Ende 2014 begann Google damit, den neuen Mechanismus in den meisten seiner öffentlich zugänglichen Dienste zu verwenden.[10]
Bei einem reCAPTCHA-Bilderkennungstest bekommt man 6–16 anklickbare Bilder angezeigt mit einer bestimmten Frage bsp: In welchen Bildern ist eine Ampel zu sehen? Diese Bilder könnten ein ganzes Bild zusammensetzen oder einzelne Bilder sein. Wurden alle Bilder richtig angekreuzt, hat man den reCAPTCHA-Bilderkennungstest bestanden.[11]
Wann immer diese Technik eingesetzt wird, werden personenbezogene Daten (IP-Adresse, Zugriffsort und Zeitpunkt) an Google weitergeleitet. In der Regel hat Google zum selben Zeitpunkt weitere Daten vom Nutzer, nämlich aufgrund der zahlreichen Hintergrunddienste auf sonstigen Webseiten, die Google zum Einbau anbietet: Google Maps, Google Analytics, Google Ads etc. Damit ist umfassendes Tracking möglich.[12]