L'extracció d'informació (IE) és la tasca d'extreure automàticament informació estructurada de documents no estructurats i/o semiestructurats llegibles per màquina i altres fonts representades electrònicament. Normalment, això implica processar textos en llenguatge humà mitjançant el processament del llenguatge natural (PNL). Les activitats recents en el processament de documents multimèdia com l'anotació automàtica i l'extracció de contingut d'imatges/àudio/vídeo/documents es podrien considerar com a extracció d'informació.[1]
Els avenços recents en les tècniques de PNL han permès millorar significativament el rendiment en comparació amb anys anteriors. Un exemple és l'extracció d'informes de notícies de fusions corporatives, tal com es denota per la relació formal:
d'una frase de notícies en línia com ara:
"Ahir, Foo Inc., amb seu a Nova York, va anunciar la seva adquisició de Bar Corp".
Un objectiu ampli de l'IE és permetre que es faci el càlcul a partir de les dades no estructurades anteriorment. Un objectiu més específic és permetre un raonament automatitzat sobre la forma lògica de les dades d'entrada. Les dades estructurades són dades semànticament ben definides d'un domini objectiu escollit, interpretades pel que fa a la categoria i el context.
L'extracció d'informació és la part d'un trencaclosques més gran que tracta el problema de dissenyar mètodes automàtics de gestió de textos, més enllà de la seva transmissió, emmagatzematge i visualització. La disciplina de la recuperació d'informació (IR) [2] ha desenvolupat mètodes automàtics, típicament de tipus estadístic, per indexar grans col·leccions de documents i classificar documents. Un altre enfocament complementari és el del processament del llenguatge natural (PNL) que ha resolt el problema de modelar el processament del llenguatge humà amb un èxit considerable quan es té en compte la magnitud de la tasca. Tant pel que fa a la dificultat com a l'èmfasi, IE s'ocupa de tasques entre IR i PNL. Pel que fa a l'entrada, IE assumeix l'existència d'un conjunt de documents en què cada document segueix una plantilla, és a dir, descriu una o més entitats o esdeveniments d'una manera semblant a la d'altres documents però diferent en els detalls. Un exemple, considerem un grup d'articles informatius sobre terrorisme llatinoamericà amb cada article que es suposa que es basa en un o més actes terroristes. També definim per a qualsevol tasca d'IE determinada una plantilla, que és un (o un conjunt de) marcs de cas per contenir la informació continguda en un sol document. Per a l'exemple del terrorisme, una plantilla tindria espais corresponents a l'autor, la víctima i l'arma de l'acte terrorista, i la data en què va passar l'esdeveniment. Es requereix un sistema IE per a aquest problema per "entendre" un article d'atac només per trobar les dades corresponents a les ranures d'aquesta plantilla.
L'extracció d'informació es remunta a finals de la dècada de 1970 als primers dies de la PNL.[3] Un primer sistema comercial de mitjans dels anys vuitanta va ser JASPER construït per a Reuters per Carnegie Group Inc amb l'objectiu de proporcionar notícies financeres en temps real als comerciants financers.[4]
A partir de 1987, IE va ser estimulat per una sèrie de conferències de comprensió de missatges. El MUC és una conferència basada en competicions que es va centrar en els següents dominis:
L'Agència de Projectes d'Investigació Avançada de Defensa dels EUA (DARPA), que volia automatitzar les tasques mundanes realitzades pels analistes governamentals, com ara escanejar diaris per possibles enllaços amb el terrorisme, va rebre un suport considerable.