El sistema de reconeixement facial és una aplicació dirigida per ordinador per identificar automàticament una persona en una imatge digital. Això és possible mitjançant una anàlisi dels trets facials característics del subjecte extrets de la imatge o bé d'un fotograma clau d'una font de vídeo i comparant-los amb una base de dades.[1]
El reconeixement facial s'ha convertit en els últims anys en una àrea de recerca activa que abasta diverses disciplines, com ara processament d'imatges, reconeixement de patrons, visió per ordinador i xarxes neuronals. Involucra tant a investigadors de l'àrea d'informàtica com a neurocientífics i psicòlegs. Es podria considerar també dins el camp de reconeixement d'objectes, on la cara és un objecte tridimensional subjecte a les variacions d'il·luminació, la pose, etc., i ha de ser identificat basat en la seva projecció 2D (excepte quan s'utilitzen tècniques 3D).
L'objectiu d'un sistema de reconeixement facial és, generalment, el següent: donada una imatge d'una cara "desconeguda", o imatge de test, trobar una imatge de la mateixa cara en un conjunt d'imatges "conegudes", o imatges d'entrenament. La gran dificultat afegida és la d'aconseguir que aquest procés es pugui realitzar en temps real. El sistema identificarà les cares presents a imatges o videos automàticament. Pot operar en 2 modes:
Per la seva naturalessa amigable, aquest tipus de sistemes segueixen essent atractius malgrat l'existència d'altres mètodes molt fiables d'identificació personal biomètrics, com ara l'anàlisi d'empremtes dactilars i l'escàner d'iris.
Àrees | Aplicacions específiques |
---|---|
Biometria | Llicència de Conduir, Programes de Dret, Immigració, DNI, Passaports, Registre de Votants, Frau |
Seguretat de la informació | Inici de Sessió, Seguretat a Aplicacions, Seguretat a Bases de Dades, Encriptament d'Informació, Seguretat a Intranet, Accés a Internet, Registres Mèdics, Terminals de Comerç Segur, Caixers Automàtics |
Compliment de la llei i vigilància | Videovigilància Avançada, Control CCTV, Control Portal, Anàlisi Post-event, Furt, Seguiment de Sospitosos, Investigació |
Targetes intel·ligents | Valor Emmagatzemat, Autenticació d'usuaris |
Control d'accés | Accés a Instal·lacions, Accés a Vehicles |
Avui en dia podem veure aquesta tecnologia aplicada a certs aspectes de la vida, tan propers com no tan propers:
Un camp que serveix com a clar exemple d'ús quotidià és la tecnologia que la majoria de telèfons mòbils, smartphones, empren per a la identificació de l'usuari, per permetre així l'ús del dispositiu. No tots són molt fiables, però, ja que alguns es basen en una imatge de la cara i poden ser enganyats per fotografies; d'altres, però, utilitzen sistemes més sofisticats que projecten infrarojos per escanejar un mapa 3D del rostre de l'individu. D'aquesta manera, l'usuari pot desbloquejar i efectuar altres accions com pagaments o instal·lacions d'aplicacions mitjançant el mateix rostre, sense la necessitat d'introduir una contrasenya cada cop.[2]
A més, depenent del sistema i la sofisticació d'aquest, el reconeixement s'adaptarà a mesura que l'usuari vagi envellint, i també als canvis d'estètica física com la incorporació d'accessoris que cobreixin parcialment aspectes del rostre que no siguin clau per la seva identificació.[3]
Un altre ús que ja s'aplica avui en dia, però que no és tan proper com els smartphones, és el sistema de reconeixement als aeroports. Aquest mètode d'identificació facial als no és nou al Regne Unit, on s'utilitza des de fa més de 10 anys, però ja s'està començant a emprar als Estats Units. En comptes de facilitar el passaport o altres documents identificadors al personal de l'aeroport, hom és capaç de passar aquests tràmits simplement amb la identificació del rostre, reduint molt les cues però també el personal necessari per a aquest procés. Aquest mètode ha provocat certa controvèrsia quant a seguretat i privacitat a la xarxa després d'agafar desprevinguts alguns usuaris dels aeroports.[4]
Usos que interessants són els següents:
També s'utilitzen en aplicacions d'interacció persona-ordinador, i en gestió multimèdia, i a software com Google's Picasa, Apple iPhoto, Sony's Picture Motion Browser (PMB), Facebook i Asus Smart Logon.
Una aplicació de reconeixement facial futura es basa a establir aquesta tècnica a un nivell d'usuari. Per exemple, en un supermercat o un establiment petit es podria dur un control sobre qui obra la caixa mitjançant un reconeixement facial previ, d'aquesta manera també es poden evitar intents de robatori, ja que al no reconèixer el rostre la caixa romandria tancada. Un cas més extrem seria en els caixers automàtics on, per poder operar, fos necessari un reconeixement facial en comptes de l'actual PIN.
El processat consta de quatre mòduls principals:
Els resultats obtinguts depenen de les característiques extretes per representar el patró de la cara i dels mètodes de classificació utilitzats per distingir els rostres, però per extreure aquestes característiques efectivament, cal localitzar i normalitzar la cara adequadament.
Els mètodes de reconeixement facial tradicional es poden dividir en dos grans grups:
Reconeixen segons tota la imatge facial. Són mètodes basats en correlació. L'esquema de classificació més simple, on s'utilitzen models de comparació per la tasca de reconeixement, és el template matching. El problema del template matching és que ha de comparar moltes característiques (un píxel és per a ell una característica) i, si tenim en compte que a la base de dades trobem M persones, amb N imatges per persona, ens adonem que aquest mètode no es pot implementar en temps real. Per tant, es treballa amb altres mètodes que decorrelacionen les característiques entre si per tal d'aconseguir reduir l'espai facial a un nombre menor de coeficients, que tinguin un alt poder discriminatori entre les persones. És el que s'anomena subespai facial. Exemples de mètodes que treballen a partir de subespais són l'anàlisi de components principals (PCA - Principal Component Analysis) a partir d'eigenfaces, l'anàlisi linear discriminant (LDA - Linear Discriminant Analysis) o el discriminant linear de Fisher (FLD - Fisher Linear Discriminant) a partir de fisherfaces.
La tècnica PCA es considera una de les que proporciona un major rendiment. Funciona projectant les imatges facials sobre un espai de faccions que engloba les variacions significatives entre les imatges facials conegudes. Les faccions significatives s'anomenen eigenfaces, ja que són els eigenvectors, o components principals, del conjunt de cares. La projecció caracteritza la imatge facial d'un individu com la suma dels diferents persos de totes les faccions i, de la mateixa manera, per reconèixer una imatge facial determinada només cal comparar aquests pesos amb aquells dels individus coneguts prèviament. No té en compte la informació de quines imatges pertanyen a un mateix individu. És molt sensible a canvis en les condicions d'il·luminació en diferents imatges d'una mateixa persona.
El mètode LDA permet utilitzar la informació entre membres de la mateixa classe (imatges de la mateixa persona) per desenvolupar un conjunt de vectors de característiques on les variacions entre les diferents cares s'emfatitzen mentre que els canvis deguts a il·luminació, expressió facial i orientació de la cara no. És a dir, maximitza la variància de les mostres entre classes, i la minimitza entre mostres de la mateixa classe.
La tècnica FLD és equivalent al LDA. Els resultats obtinguts amb aquesta són bastant millors que els que podem obtenir amb PCA, sobretot quan les condicions llumíniques varien entre el conjunt d'imatges d'entrenament i de test, i també amb canvis d'expressió facial donant més pes a zones com els ulls, el nas, i les galtes que a la boca, perquè són zones més invariables en les diferents expressions que pot tenir una persona.
Altres mètodes, en comptes d'utilitzar subespais facials, segueixen una classificació per xarxes neuronals i plantilles deformables, com ara elastic graph matching (EGM).
Es comparen diferents característiques geomètriques de les cares. Existeixen dues divisions, la basada en els vectors característics extrets del perfil, i la basada en els vectors característics extrets a partir d'una vista frontal. S'utilitzava molt anteriorment però els seus resultats no són òptims.
Últimament també ha sortit la tendència del reconeixement facial tridimensional, on s'utilitzen imatges 3D tant a l'entrenament com al reconeixement. Aquesta tècnica utilitza sensors en 3D per captar informació sobre la forma de la cara. Aquesta informació s'utilitza posteriorment per identificar trets característics del rostre com per exemple la barbeta, el contorn dels ulls, el nas o els pòmuls, i retenir informació espacial, a part de la textura i la profunditat. Un avantatge del reconeixement facial en 3D és que no els afecten els canvis d'il·luminació com és el cas d'altres tècniques. A més, un altre punt a favor és que poden reconèixer una cara en diferents angles fins i tot de perfil. El problema és que és difícil obtenir imatges 3D fidedignes a la fase de reconeixement, ja que els sensors 3D han d'estar molt ben calibrats i sincronitzats per adquirir la informació correctament. És per això que s'utilitza el mètode d'Anàlisi de Components Principals Parcial (P²CA - Partial Principal Component Analysis), derivat del PCA, on s'utilitzen imatges en 3D en la fase d'entrenament i a la base de dades, però a la fase de test utilitza imatges tant en 2D com en 3D. La tècnica intenta reconstruir models facials en 3D a partir de múltiples imatges de la mateixa persona adquirides mitjançant un sistema multicàmera o a partir d'aparells 3D. Les imatges 3D són imatges de 180° en coordinades cilíndriques. Altres exemples de tècniques 3D són 3-D Morphable Model i 3-D Face Recognition.
Aquesta tendència utilitza els detalls visuals de la pell. Analitza les línies úniques, patrons i detalls evidents com taques i/o cicatrius del rostre del subjecte. En utilitzar aquest algorisme ens estalviem haver de recórrer tota la base de dades, ja que podrem descartar imatges fàcilment. Hi ha estudis que han demostrat que utilitzant aquesta tècnica juntament amb el reconeixement facial, el rendiment pot augmentar fins a un 25 per cent.[6][7]
S'han desenvolupat alguns sistemes de reconeixement facial basats en video,[8] per exemple, sales intel·ligents[9] que poden reconèixer a les persones i iniciar automàticament les accions apropiades. Un altre exemple són els sistemes que detecten la fatiga d'un conductor, monitoritzant les expressions de la cara i els moviments del cap. Però en aplicacions de videovigilància, el reconeixement i la identificació facial encara és una tasca difícil degut a:
Hi ha aplicacions en que dona bons resultats, com ara en sistemes de control d'accés i en caixers, on el video és adquirit en un ambient relativament controlat i la mida de la cara és acceptable. En aquests casos, el reconeixement basat en video ofereix alguns advantatges respecte al basat en imatges:
El sistema de reconeixement facial no és perfecte i a vegades difícil d'implementar en certes condicions. Una de les principals debilitats d'aquest sistema és deguda a l'angle en què es troba el rostre que volem reconèixer. Estudis han confirmat que el reconeixement actua correctament fins a 20º,[7] un cop superat aquest angle comencen a sorgir problemes. És per aquest motiu que s'està investigant en el reconeixement en 3D amb el qual aquest inconvenient desapareixeria. Un altre inconvenient és el mal funcionament en situacions de poca llum, a més, portar el cabell llarg, ulleres de sol o altres objectes que cobreixin part del rostre dificulta molt aquesta tasca. L'algorisme no sempre és capaç de distingir els rostres si l'expressió d'aquest és diferent de l'emmagatzemada en la base de dades.
Per solucionar alguns d'aquests problemes, a part de fer el reconeixement sobre video, també es poden utilitzar tècniques multimodals[10] on, a més de la imatge de la persona, s'incorpora també informació de veu i audio, si aquesta es troba dins del contingut.
Principalment, podem distingir dos problemes que causen una sèria degradació del rendiment a la majoria dels sistemes existents:
Els canvis provocats per la il·luminació són normalment més grans que les diferències entre persones, causant als sistemes basats en comparació a equivocar-se al classificar les imatges d'entrada. S'han proposat algunes solucions basades en l'àrea del coneixement, en particular tenin en compte que totes les cares pertanyen a una mateixa classe. Aquestes tècniques estan dividides en 4 tipus:
El rendiment d'un sistema de reconeixement facial també baixa significativament quan hi ha presents canvis en la pose. Hi ha diferents mètodes proposats per solucionar-ho:
Segons un estudi recent,[11] el reconeixement facial automàtic dona millors resultats que en els humans, però encara no hi ha una tècnica que proporcioni una solució robusta per tota mena de situacions i per les diferents aplicacions que ho poden necessitar. Segons la revista 'Science’, utilitzar imatges compostes per diverses fotografies adquirides en diferents angles d'una mateixa persona permet que el rendiment del programari arribi fins a un 100% en els millors dels casos. Aquest és el resultat d'estudis de psicòlegs de la Universitat de Glasgow, on s'està tractant el tema i s'ha arribat a la conclusió que aquest nou sistema emula una de les claus de la capacitat humana per reconèixer rostres. Tot i així continua sense poder distingir entre diferents expressions facials.
Tot i que aquesta tecnologia aporta grans beneficis, queden qüestions morals sobre la privacitat del subjecte. Un avanç tecnològic pot esdevenir una arma. Depenent del seu ús es podria controlar tota una societat sencera en què el gover sap en tot moment on algú es troba i què fa.
Donada la gran quantitat de teories i tècniques aplicables al reconeixement facial, són necessàries una clara avaluació i una comparativa per aquests algoritmes. Per fer-ho fa menester grans quantitats d'imatges per poder avaluar el sistema. També és molt important que la mostra sigui estadísticament el més similar possible a les imatges que sorgeixen a l'aplicació que s'està considerant. La puntuació ha de realitzar-se de manera que reflecti el cost dels errors de reconeixement. Recordem que els resultats depenen molt de l'aplicació que tractem, així que no podem extrapolar els resultats per a altres aplicacions.
Existeixen extenses bases de dades públiques disponibles, així com protocols de test, per provar les aplicacions de reconeixement facial. El protocol FERET n'és un, els objectius en són proporcionar un marc d'actuació que modeli una configuració en temps real i reunir una extensa base de dades amb imatges de cares per poder desenvolupar algoritmes i avaluar-los. És el que es fa servir al FRVT (Face Recognition Vendor Test).
A la següent taula es mostren una sèrie de bases de dades disponibles actualment, on es poden observar el nombre d'elements utilitzats i el temps de reconeixement:
Base de Dades | Nº persones | Poses | Il·luminació | Expressions Facials | Temps |
---|---|---|---|---|---|
AR | 116 | 1 | 4 | 4 | 2 |
BANCA | 208 | 1 | ? | 1 | 12 |
CAS-PEAL | 66-1040 | 21 | 9-15 | 6 | 2 |
CMU Hyper | 54 | 1 | 4 | 1 | 1-5 |
CMU PIE | 68 | 13 | 43 | 3 | 1 |
Equinox IR | 91 | 1 | 3 | 3 | 1 |
FERET | 1199 | 9-20 | 2 | 2 | 2 |
Harvard RL | 10 | 1 | 77-84 | 1 | 1 |
KFDB | 1000 | 7 | 16 | 5 | 1 |
MIT | 15 | 3 | 3 | 1 | 1 |
MPI | 200 | 3 | 3 | 1 | 1 |
ND HID | 300+ | 1 | 3 | 2 | 10/13 |
NIST MID | 1573 | 2 | 1 | ? | 1 |
ORL | 10 | 1 | ? | ? | ? |
UMIST | 20 | ? | 1 | ? | 1 |
U. Texas | 284 | ? | 1 | ? | 1 |
U. Oulu | 125 | 1 | 16 | 1 | 1 |
XM2VTS | 295 | ? | 1 | ? | 4 |
Yale | 15 | 1 | 3 | 6 | 1 |
Yale B | 10 | 9 | 64 | 1 | 1 |
A mitjan del 2006, en el Face Recognition Grand Challenge (FRGC) es van avaluar els últims algorismes de reconeixement facial. Escàners facials 3-D, imatges de rostres d'alta definició i de l'iris van ser usades en els testos. Els resultats van indicar que aquest nou algorisme era 10 vegades més acurat que els algorismes anteriors datats del 2002, i 100 vegades més acurats que els del 1995. Aquests algorismes eren tant precisos que eren capaços de reconèixer a dos bessons idèntics.
Una altra millora recent és que les imatges en baixa resolució actualment no són un problema, ja que poden ser tractades a partir d'una super-resolució del rostre, conegut com a Face hallucination. Tot i així la instal·lació de càmeres d'alta definició està en procés.