Recuperación de documentos

La recuperación de documentos se define como la coincidencia de alguna consulta de usuario establecida con un conjunto de registros de texto libre. Estos registros pueden ser cualquier tipo de texto principalmente no estructurado, como artículos de periódicos, registros de bienes inmuebles o párrafos en un manual. Las consultas de los usuarios pueden abarcar desde descripciones completas de múltiples frases de una necesidad de información hasta algunas palabras.

La recuperación de documentos a veces se conoce como, o como una rama de, recuperación de texto. La recuperación de texto es una rama de recuperación de información donde la información se almacena principalmente en forma de texto. Las bases de datos de texto se descentralizaron gracias a la computadora personal y el CD-ROM. La recuperación de texto es un área crítica de estudio hoy en día, ya que es la base fundamental de todos los motores de búsqueda de Internet.

Descripción

Los sistemas de recuperación de documentos encuentran información para los criterios dados al comparar los registros de texto (documentos) con las consultas de los usuarios, a diferencia de los sistemas expertos que responden preguntas al inferir sobre una base de datos de conocimiento lógico. Un sistema de recuperación de documentos consta de una base de datos de documentos, un algoritmo de clasificación para generar un índice de texto completo y una interfaz de usuario para acceder a la base de datos.

Un sistema de recuperación de documentos tiene dos tareas principales:

Encuentra documentos relevantes para las consultas de los usuarios
Evalúa los resultados coincidentes y los ordena de acuerdo con la relevancia, utilizando algoritmos como PageRank.

Los motores de búsqueda de Internet son aplicaciones clásicas de la recuperación de documentos. La gran mayoría de los sistemas de recuperación actualmente en uso van desde sistemas booleanos simples hasta sistemas que usan técnicas de procesamiento de lenguaje estadístico o natural.

Variaciones

Existen dos clases principales de esquemas de indexación para sistemas de recuperación de documentos: basados en formularios (o basados en palabras) e indexados basados en contenido. El esquema de clasificación de documentos (o algoritmo de indexación) en uso determina la naturaleza del sistema de recuperación de documentos.

Basado en formulario

La recuperación de documentos basada en formularios aborda las propiedades sintácticas exactas de un texto, comparable a la coincidencia de subcadenas en búsquedas de cadenas. El texto generalmente no está estructurado y no necesariamente en un lenguaje natural, el sistema podría, por ejemplo, ser utilizado para procesar grandes conjuntos de representaciones químicas en biología molecular. Un algoritmo de árbol de sufijos es un ejemplo de indexación basada en formularios.

Basado en contenido

El enfoque basado en el contenido explota las conexiones semánticas entre los documentos y sus partes, y las conexiones semánticas entre las consultas y los documentos. La mayoría de los sistemas de recuperación de documentos basados en contenido utilizan un algoritmo de índice invertido.

Un archivo de firma es una técnica que crea un filtro rápido y sucio, por ejemplo un filtro Bloom, que mantendrá todos los documentos que coinciden con la consulta y, con suerte, algunos que no lo hacen. La forma en que esto se hace es creando para cada archivo una firma, generalmente una versión codificada con hash. Un método es la codificación superpuesta. Se realiza un paso posterior al procesamiento para descartar las falsas alarmas. Como en la mayoría de los casos esta estructura es inferior a los archivos invertidos en términos de velocidad, tamaño y funcionalidad, no se usa ampliamente. Sin embargo, con los parámetros adecuados, puede vencer a los archivos invertidos en ciertos entornos.

Ejemplo: PubMed

La interfaz de formulario de PubMed^[1] presenta la búsqueda de "artículos relacionados" que funciona mediante una comparación de palabras del título de los documentos, el resumen y los términos MeSH utilizando un algoritmo ponderado por palabras.

Véase también

Procesamiento de plazo compuesto
Clasificación de documento
Búsqueda de empresa
Búsqueda de texto lleno
Información retrieval
Indexación semántica latente
Motor de búsqueda

Referencias

↑ Kim W, Aronson AR, Wilbur WJ (2001). «Automatic MeSH term assignment and quality assessment». Proc AMIA Symp: 319-23. PMC 2243528. PMID 11825203.

Otras lecturas

Faloutsos, Christos; Christodoulakis, Stavros (1984). "Signature files: An access method for documents and its analytical performance evaluation". ACM Transactions on Information Systems. 2 (4): 267–288. doi:10.1145/2275.357411.
Justin Zobel; Alistair Moffat; Kotagiri Ramamohanarao (1998). "Inverted files versus signature files for text indexing" (PDF). ACM Transactions on Database Systems. 23 (4): 453–490. doi:10.1145/296854.277632.
Ben Carterette; Fazli Can (2005). "Comparing inverted files and signature files for searching a large lexicon" (PDF). Information Processing and Management. 41 (3): 613–633. doi:10.1016/j.ipm.2003.12.003.

Enlaces externos

Fundación formal de Información Retrieval Archivado el 23 de febrero de 2014 en Wayback Machine., Buckinghamshire Chilterns Universidad Universitaria

Datos: Q1638872
Multimedia: Document retrieval / Q1638872

[1] Kim W, Aronson AR, Wilbur WJ (2001). «Automatic MeSH term assignment and quality assessment». Proc AMIA Symp: 319-23. PMC 2243528. PMID 11825203.

[1]