La recuperación de documentos se define como la coincidencia de alguna consulta de usuario establecida con un conjunto de registros de texto libre. Estos registros pueden ser cualquier tipo de texto principalmente no estructurado, como artículos de periódicos, registros de bienes inmuebles o párrafos en un manual. Las consultas de los usuarios pueden abarcar desde descripciones completas de múltiples frases de una necesidad de información hasta algunas palabras.
La recuperación de documentos a veces se conoce como, o como una rama de, recuperación de texto. La recuperación de texto es una rama de recuperación de información donde la información se almacena principalmente en forma de texto. Las bases de datos de texto se descentralizaron gracias a la computadora personal y el CD-ROM. La recuperación de texto es un área crítica de estudio hoy en día, ya que es la base fundamental de todos los motores de búsqueda de Internet.
Los sistemas de recuperación de documentos encuentran información para los criterios dados al comparar los registros de texto (documentos) con las consultas de los usuarios, a diferencia de los sistemas expertos que responden preguntas al inferir sobre una base de datos de conocimiento lógico. Un sistema de recuperación de documentos consta de una base de datos de documentos, un algoritmo de clasificación para generar un índice de texto completo y una interfaz de usuario para acceder a la base de datos.
Un sistema de recuperación de documentos tiene dos tareas principales:
Los motores de búsqueda de Internet son aplicaciones clásicas de la recuperación de documentos. La gran mayoría de los sistemas de recuperación actualmente en uso van desde sistemas booleanos simples hasta sistemas que usan técnicas de procesamiento de lenguaje estadístico o natural.
Existen dos clases principales de esquemas de indexación para sistemas de recuperación de documentos: basados en formularios (o basados en palabras) e indexados basados en contenido. El esquema de clasificación de documentos (o algoritmo de indexación) en uso determina la naturaleza del sistema de recuperación de documentos.
La recuperación de documentos basada en formularios aborda las propiedades sintácticas exactas de un texto, comparable a la coincidencia de subcadenas en búsquedas de cadenas. El texto generalmente no está estructurado y no necesariamente en un lenguaje natural, el sistema podría, por ejemplo, ser utilizado para procesar grandes conjuntos de representaciones químicas en biología molecular. Un algoritmo de árbol de sufijos es un ejemplo de indexación basada en formularios.
El enfoque basado en el contenido explota las conexiones semánticas entre los documentos y sus partes, y las conexiones semánticas entre las consultas y los documentos. La mayoría de los sistemas de recuperación de documentos basados en contenido utilizan un algoritmo de índice invertido.
Un archivo de firma es una técnica que crea un filtro rápido y sucio, por ejemplo un filtro Bloom, que mantendrá todos los documentos que coinciden con la consulta y, con suerte, algunos que no lo hacen. La forma en que esto se hace es creando para cada archivo una firma, generalmente una versión codificada con hash. Un método es la codificación superpuesta. Se realiza un paso posterior al procesamiento para descartar las falsas alarmas. Como en la mayoría de los casos esta estructura es inferior a los archivos invertidos en términos de velocidad, tamaño y funcionalidad, no se usa ampliamente. Sin embargo, con los parámetros adecuados, puede vencer a los archivos invertidos en ciertos entornos.
La interfaz de formulario de PubMed[1] presenta la búsqueda de "artículos relacionados" que funciona mediante una comparación de palabras del título de los documentos, el resumen y los términos MeSH utilizando un algoritmo ponderado por palabras.