La lingüística de corpus estudia el lenguaje a través de ejemplos de textos reales producidos en el "mundo real". Este método representa un enfoque que infiere un conjunto de reglas abstractas por el cual una lengua natural se gobierna o se refiere a otro idioma. Antiguamente se hacían a mano pero hoy en día los corpus lingüísticos se obtienen mayoritariamente mediante un proceso automatizado.[1]
En la filología forman los corpus aquellos textos, orales o escritos, y los documentos que los contienen, que han sido debidamente recopilados. Estos corpus constituyen las muestras que se utilizan en lingüística aplicada, entre otros, para estudiar y analizar las características del objeto de estudio, pues integran las muestras de los elementos que constituyen la realidad que se quiere observar. Tanto si es oral como escrito, un corpus deberá definirse en función de los objetivos que se persigan con el mismo.
Los partidarios de la lingüística de corpus creen que el análisis lingüístico más fiable se produce en las muestras recogidas en contextos naturales y con una interferencia mínima. Dentro de la lingüística de corpus hay puntos de vista divergentes en cuanto al valor de la anotación de corpus, desde el punto de vista de John Sinclair,[2] que opta por la anotación mínima y permitiendo a los textos "hablar por sí mismos" hasta otros como el del equipo de Survey of English Usage (con sede en la University College, Londres)[3] que apoyan la anotación como un camino hacia una mayor comprensión lingüística y de mayor rigor.
Algunos de los primeros esfuerzos en la descripción gramatical se basan, al menos en parte, en los corpus religiosos o culturales. Por ejemplo, la literatura Prātiśākhya describe los patrones de sonido del sánscrito como se encuentra en los Vedas, y la gramática de Panini del sánscrito clásico se basa, al menos en parte, en el análisis de ese mismo corpus. Del mismo modo, los primeros gramáticos árabes prestaron especial atención a la lengua del Corán. En la tradición europea occidental varios académicos prepararon concordancias para realizar un estudio detallado del lenguaje de la Biblia y otros textos canónicos.
Un hito en la lingüística de corpus modernos fue la publicación por Henry Kucera y W. Nelson Francis de Computational Analysis of Present-Day American English en 1967, un trabajo basado en el análisis del Corpus de Brown, una selección cuidadosamente compilada del inglés americano actual, con un total de aproximadamente un millón de palabras extraídas de una amplia variedad de fuentes. Kucera y Francis compilaron una obra muy rica y variada, que combina elementos de la lingüística, la enseñanza de idiomas, la psicología, la estadística y la sociología. Una publicación clave adicional fue la de Randolph Quirk Towards a description of English Usage (1960)[4] en la que se introdujo el estudio del uso del inglés.
Poco después, la editorial Houghton-Mifflin siguiendo a Kucera logró reunir un millón de palabras para su nuevo diccionario American Heritage Dictionary, el primer diccionario creado usando la lingüística de corpus. El AHD dio el paso innovador de combinar elementos prescriptivos (cómo se debe utilizar el lenguaje) con información descriptiva (cómo se utiliza en realidad). Otras editoriales siguieron el ejemplo.
El Corpus de Brown también ha dado lugar a una serie de conjuntos de corpus de estructura similar: el LOB Corpus (1960, inglés británico), Kolhapur (inglés indio), Wellington (inglés de Nueva Zelanda), Corpus australiano de inglés (inglés australiano), el Corpus de Frown (el inglés estadounidense de principios de 1990), y el FLOB Corpus (inglés británico de 1990). Otros conjuntos de corpus representan muchos idiomas, variedades y formas, e incluyen el International Corpus of English, y el British National Corpus, una colección de 100 millones de palabras de una serie de textos orales y escritos, creada en la década de 1990 por un consorcio de editoriales, universidades (Oxford y Lancaster) y la Biblioteca Británica. Para el inglés americano contemporáneo, el trabajo se ha estancado en el American National Corpus, aunque el corpus de más de 400 millones de palabras Corpus of Contemporary American English (1990-presente) está ahora disponible a través de una interfaz web.
El primer corpus informatizado del lenguaje hablado transcrito fue construido en 1971 por el Proyecto Francés de Montreal,[5] que contenía un millón de palabras inspiró un corpus aún más grande, el Corpus del Francés hablado en el área de Ottawa-Hull.[6]
Además de estos conjuntos de corpus de las lenguas vivas, se han hecho corpus informatizados de las colecciones de textos en lenguas antiguas. Un ejemplo es la base de datos de Andersen-Forbes de la Biblia hebrea, que se viene desarrollando desde la década de los setenta. En él, en cada cláusula se analiza el uso de gráficos que representan hasta siete niveles de sintaxis y cada segmento está etiquetado con siete campos de información.[7][8] El corpus del árabe coránico es un corpus con anotaciones de la lengua árabe clásica del Corán. Este proyecto es reciente y con múltiples capas de anotación entre las que se incluyen la segmentación morfológica, el etiquetado gramatical y el análisis sintáctico utilizando la gramática de dependencia.[9]
La Lingüística de corpus ha generado una serie de métodos de investigación, tratando de trazar un camino de datos a la teoría. Wallis y Nelson (2001)[10] introdujeron por primera vez lo que ellos llamaron la perspectiva de las tres A (3A perspective): anotación, abstracción y análisis.
La mayoría de los conjuntos de corpus léxicos son parte del etiquetado del discurso. Sin embargo, incluso los lingüistas de corpus que trabajan con texto plano y sin anotaciones en el texto aplican de manera inevitable algún método para aislar términos destacables. En tales situaciones la anotación y la abstracción se combinan en la búsqueda del léxico.
La ventaja de la publicación de un corpus con anotaciones es que otros usuarios pueden realizar experimentos en el corpus. Los lingüistas con otros intereses y perspectivas diferentes que los creadores pueden utilizar ese trabajo. Al compartir los datos, los lingüistas del corpus son capaces de tratar el corpus como un elemento de debate lingüístico más que como una fuente de conocimiento.
Estudios recientes han demostrado que adolescentes con trastorno de fobia social también pueden ser evaluados mediante el análisis de la lengua a través de la lingüística de corpus.[11]
La Lingüística de corpus parte del uso de lenguas naturales. Se trata de un método inductivo/empírico que persigue la adquisición de conocimiento sobre las lenguas: mediante la observación de una gran cantidad de ejemplos concretos se llega a la formulación de una teoría general del objeto. Este proceder empírico (de lo concreto a lo general) parte de la base de que todo conocimiento se fundamenta en la experiencia. En el lado opuesto, nos encontramos el método deductivo que surge de la tradición filosófica del Racionalismo: a través del pensamiento se trata de encontrar confirmación de cómo están construidas las lenguas (de lo general a lo concreto).
A la pregunta de si la Lingüística de corpus es una metodología aplicada o general o de si constituye una disciplina científica en sí misma aún no se ha ofrecido una respuesta definitiva. A favor de su consideración como Método, es un hecho que muchas ramas de la Lingüística, desde la Lingüística teórica a la Lingüística forense, utilizan técnicas de análisis empíricas basadas en corpus reflejado metódicamente, si bien no de forma exclusiva. No se le reconoce, sin embargo, un objeto original o genuino de la Lingüística de corpus. Aun así, sería necesario que dispusiera de uno, si se le quiere conceder el estatuto de disciplina científica independiente. Para su consideración como disciplina científica podemos decir que determina decididamente el uso de la lengua como su objeto de conocimiento y que, de este modo, se aleja de las teorías lingüísticas que toman como objeto de estudio la capacidad lingüística de los seres humanos o las estructuras generales de la lengua como sistema semiótico. Independientemente de este principio, se ha consolidado la Lingüística de corpus como una disciplina científica en el mundo académico. A este respecto se puede constatar, por ejemplo, la existencia de numerosas revistas especializadas, así como, de dos cátedras en la Universidad de Birmingham y en la Universidad Humboldt de Berlín.
Hay varias revistas internacionales dedicadas a la lingüística de corpus, por ejemplo, Corpora, Corpus Linguistics and Linguistic Theory, ICAME Journal Archivado el 27 de marzo de 2007 en Wayback Machine. y la International Journal of Corpus Linguistics.