reCAPTCHA és una extensió de la prova CAPTCHA que s'utilitza per reconèixer text present en imatges. Empra per tant la prova desafiament-resposta utilitzada en computació per determinar quan l'usuari és o no humà per, alhora, millorar la digitalització de textos.
reCAPTCHA es basa en el fet que per a un ésser humà pot ésser simple determinar el text present en una imatge, quan per a una màquina aquesta tasca és de vegades massa complexa.
El reCAPTCHA tracta de solucionar un problema de partida: quan es digitalitza un document imprès es prenen les seves fotografies i aquestes fotografies es converteixen a text emprant sistemes OCR. Tanmateix, succeeix que hi ha paraules que presenten dificultats per ser reconegudes automàticament: aquelles que contenen lletres deformes, taques producte de defectes a la impressió del paper, pàgines amb pols, entre d'altres. Aquestes paraules poden ser identificades per persones de manera molt més fiable que per un sistema OCR computarizat. reCAPTCHA empra aquesta facilitat de l'ésser humà, per així aconseguir un mètode de reconeixement de text molt més fiable.
L'ús de reCAPTCHA consisteix a substituir el sistema CAPTCHA, col·locant dues paraules a reconèixer (en lloc d'una que empra típicament la prova CAPTCHA). Una de les paraules és coneguda i l'altra és desconeguda per al sistema. La paraula desconeguda és una que no va poder ser obtinguda d'una imatge mitjançant un sistema OCR automatitzat. El sistema demana a l'usuari (qui desconeix quina paraula és coneguda i quina no l'ho és) que introdueixi ambdues paraules com a text. Si la paraula coneguda pel sistema és introduïda correctament per un humà, el sistema reCAPTCHA assumeix que hi ha probabilitats altes que l'usuari també hagi introduït la paraula desconeguda correctament. Si la paraula desconeguda rep en múltiples ocasions la mateixa transcripció humana (traducció d'imatge a text) es considera que aquesta transcripció és correcta. D'aquesta forma, a la prova desafiament-resposta utilitzada en computació per determinar quan l'usuari és o no humà (prova CAPTCHA) se li suma la utilitat de permetre millorar la digitalització de textos. Les paraules que van ser traduïdes en moltes ocasions de la mateixa manera, es poden incorporar com a paraules conegudes dintre del mateix sistema.[1]
Actualment reCAPTCHA és utilitzat per digitalitzar edicions impreses del New York Times.2[2] La companyia propietària del sistema reCAPTCHA va ser adquirida per Google que podrà usar el sistema com a suport per al seu projecte Google Books.[3]
Inicialment escindida d'un projecte de recerca de la Universitat Carnegie Mellon, reCAPTCHA va ser comprada al guatemalenc Luis von Ahn. Google ha augmentat les seves capacitats de reconeixement òptic de caràcters amb la compra de reCAPTCHA, una companyia que es va originar en un projecte de recerca de la Universitat Carnegie Mellon i protegeix a 100.000 llocs web del spam i el frau mitjançant imatges distorsionades que se suposa que una màquina no pot comprendre.
Des de Google expliquen que Captcha està dissenyat per a l'ull humà amb l'objectiu d'impedir quins programes maliciosos aconsegueixin milions de comptes de correu electrònic per enviar spam. Un detall que desvela Google és que la majoria dels Captchas que ofereix la companyia procedeixen de diaris i llibres vells escanejats. Per tant per als ordinadors és difícil reconèixer aquestes paraules perquè la tinta i el paper s'han degradat amb el temps, de manera que la tecnologia de la companyia també es pot utilitzar per millorar processos d'OCR per convertir imatges escanejades en text pla.
La tecnologia es pot utilitzar per a projectes d'escaneig de textos a gran escala com ara Google Books i Google News Arxive Search. Tenir la versió en text d'un document és important perquè el text pla es pot cercar, exportar a dispositius mòbils i mostrar visualment a usuaris discapacitats. Amb la compra Google afirma que no només incrementarà la protecció davant el frau i el spam dels productes de la companyia, sinó que també millorarà el procés d'escaneig dels seus llibres i diaris.[4] A partir de 2012, Google va començar a incloure imatges obtingudes de Google Street View, a fi que la paraula desconeguda sigui nombres o noms de carrers, per alimentar la seva base de dades i millorar la precisió d'adreces.[5]