La lingüística computacional és un camp multidisciplinari de la lingüística i la informàtica que utilitza la informàtica per estudiar i tractar el llenguatge humà. Per aconseguir-ho, intenta modelar de forma lògica el llenguatge natural des d'un punt de vista computacional. L'esmentat modelatge no se centra en cap de les àrees de la lingüística en particular, sinó que és un camp interdisciplinari, en el qual participen lingüistes, informàtics especialitzats en intel·ligència artificial, psicòlegs cognitius i experts en lògica, entre altres.[1]
Algunes de les àrees d'estudi de la lingüística computacional són:
La lingüística computacional, com a camp de coneixement, és anterior a la intel·ligència artificial, sota la qual és agrupada sovint. La lingüística computacional té el seu origen en la dècada de 1950 als Estats Units, quan es van utilitzar ordinadors per traduir automàticament textos de llengües estrangeres, especialment revistes científiques en rus, a l'anglès. Atès que els ordinadors podien fer càlculs aritmètics molt més ràpid i amb més precisió que els éssers humans, hom va pensar que en breu temps s'aconseguiria solucionar els detalls tècnics per tal d'aplicar la mateixa notable capacitat per processar el llenguatge.
Quan la traducció automàtica (també coneguda com a traducció mecànica) no va poder aconseguir traduccions precises immediatament, hom va reconèixer que el tractament automatitzat del llenguatge humà era molt més complex del que es va considerar originàriament.
La lingüística computacional va néixer com un nou camp d'estudi dedicat al desenvolupament d'algoritmes i software per al processament intel·ligent de dades lingüístiques. Quan es va crear la intel·ligència artificial en la dècada de 1960, el camp de la lingüística artificial va esdevenir una subdivisió de la intel·ligència artificial que tractava sobre la comprensió a nivell humà i la producció de llenguatges naturals.
Per tal de traduir d'un idioma a un altre, hom va observar que calia entendre la gramàtica de les dues llengües, inclosa la morfologia (la gramàtica de la forma de les paraules) i de la sintaxi (la gramàtica de l'estructura de la frase). Per entendre la sintaxi, calia entendre també la semàntica i el lèxic (o vocabulari), i fins i tot entendre quelcom de la pragmàtica de l'ús del llenguatge. Així, el que va començar com un esforç per traduir entre llengües va evolucionar cap a una disciplina sencera dedicada a la comprensió de com representar i processar llenguatges naturals mitjançant l'ús d'ordinadors.
Avui en dia la investigació en l'àmbit de la lingüística computacional es du a terme als departaments i laboratoris de lingüística computacional, als departaments de ciències informàtiques i als departaments de lingüística.
Atès que la lingüística computacional pot ser executada per experts en diferents branques de coneixement, l'àmbit d'investigació també pot comprendre una àmplia gamma de temes. Les seccions següents exposen alguns dels aspectes més destacats en la literatura científica, dividint la matèria en quatre àrees principals: la lingüística del desenvolupament, la lingüística estructural, la lingüística productiva i la lingüística comprensiva.
El llenguatge és una habilitat que es desenvolupa durant tota la vida d'un individu. Aquest procés de desenvolupament ha estat examinat mitjançant una sèrie de tècniques entre les quals es troba l'enfocament computacional. El desenvolupament del llenguatge humà proporciona algunes limitacions que en permeten la comprensió mitjançant l'aplicació d'un mètode de càlcul. Per exemple, durant l'adquisició del llenguatge, els nins només són exposats majoritàriament a proves positives. Això significa que durant el desenvolupament lingüístic d'un individu, només se’l proporciona l'evidència de què és una forma correcta, però no s'evidencia allò que és incorrecte. Aquesta informació és insuficient per a l'aplicació d'un procediment de prova de simples hipòtesis a una informació tan complexa com el llenguatge i, per tant, proporciona certs límits de cara a l'enfocament computacional per al desenvolupament del llenguatge modelat i per a la seva adquisició per part d'un individu.
S'han realitzat intents per modelar el procés de desenvolupament de l'adquisició del llenguatge en nins des d'un angle computacional. El treball en aquest camp també s'ha proposat com a mètode per explicar l'evolució de la llengua a través de la història. L'ús de models ha demostrat que els idiomes es poden aprendre de manera més eficaç amb una combinació d'una simple entrada inicial que es va ampliant de manera incremental, la qual cosa determina que l'infant desenvolupa una millor memorització i una major capacitat d'atenció. Simultàniament, s'ha plantejat que això explica el llarg període de desenvolupament dels infants. Ambdues conclusions s'expliquen per la força de la xarxa neuronal que va crear el projecte.
La capacitat dels nins per desenvolupar el llenguatge també ha estat aplicada als robots, amb la finalitat de provar les teories lingüístiques. Atesa la capacitat dels robots d'aprendre com ho fan els nins, es va crear un model basat en un model instintiu en què les assignacions entre les accions, percepcions i els efectes van ser creades i vinculats amb paraules parlades. Bàsicament, aquests robots van ser capaços d'adquirir assignacions funcionals entre paraula i significat, simplificant enormement el procés d'aprenentatge i l'aclariment de la informació que promou l'actual comprensió del desenvolupament lingüístic. Cal considerar que aquesta informació només podria haver estat provada empíricament mitjançant la utilització d'un enfocament computacional.
A mesura que la nostra comprensió sobre el desenvolupament lingüístic dels individus al llarg de la vida està millorant contínuament mitjançant l'ús de xarxes neuronals i de l'aprenentatge dels sistemes robòtics, també cal considerar que les mateixes llengües canvien i evolucionen a través del temps. Els enfocaments computacionals per a la comprensió d'aquest fenomen han evidenciat una informació molt interessant. Mitjançant l'ús de l'equació de Price i de la dinàmica de Pólya urn, els investigadors han creat un sistema que no només prediu el futur de l'evolució lingüística, sinó que també proporciona una idea de la història evolutiva de les llengües modernes. La consecució d'aquest resultat de modelat no hagués estat possible sense la intervenció de la lingüística computacional.
És evident que la comprensió del desenvolupament lingüístic en els éssers humans i de la seva evolució en el temps ha estat notablement millorada gràcies als avanços en lingüística computacional. La capacitat de modelar i de modificar sistemes voluntàriament aporta un mètode ètic a la ciència per provar les hipòtesis que, d'altra manera, serien difícils de resoldre.
La finalitat de crear millors models computacionals de la llengua requereix una comprensió de l'estructura del llenguatge. Amb aquest objectiu, l'idioma anglès ha estat estudiat meticulosament mitjançant els mètodes computacionals per entendre millor com funciona el llenguatge a nivell estructural. Un dels aspectes més importants que han possibilitat l'estudi de l'estructura lingüística és la disponibilitat de grans corpus lingüístics. Això aporta als lingüistes computacionals un conjunt de dades sense tractar que són necessaris per executar els seus models i per obtenir una millor comprensió de les estructures que s'amaguen sota la gran quantitat de dades que figuren en qualsevol idioma.
Un dels corpus lingüístics en anglès més citats és el Penn Treebank, que conté més de 4,5 milions de paraules d'anglès americà, el qual incorpora informació sobre la categoria gramatical. Aquest tipus de corpus anotat permet que altres investigadors puguin aplicar hipòtesis i mesures que, d'altra manera, serien impossibles de realitzar.
També s'han presentat aproximacions teòriques a l'estructura de les llengües. Aquests treballs permeten que els lingüistes computacionals tinguin un escenari on plantejar hipòtesis que promoguin el coneixement de la llengua en múltiples formes. Una de les tesis teòriques originals sobre la internalització de la gramàtica i l'estructura del llenguatge va proposar dos tipus de models. En aquests models, les regles o patrons apresos augmenten de força amb la freqüència de les seves trobades. El treball també va generar una pregunta per als lingüistes computacionals: com aprèn un infant una gramàtica específica i no normal (Forma normal de Chomsky) sense haver d'aprendre una versió sobregeneralitzada i quedar-se encallat? Els esforços teòrics com aquest marquen la direcció de les investigacions per avançar en els camps d'estudi i són crucials per al creixement del camp.
La informació estructural sobre els llenguatges permet el descobriment i la implementació de reconeixement de semblances entre parells d'expressions de text. Per exemple, recentment s'ha demostrat que sobre la base d'informació estructural present en el patrons del discurs humà, els arguments de recurrència conceptual es poden utilitzar per modelar i visualitzar tendències en les dades i crear mesures fiables de semblances entre les expressions textuals naturals. Aquesta tècnica és una potent eina per sondejar encara més l'estructura del discurs humà. Sense l'enfocament computacional a aquesta pregunta, la informació, la informació tan complexa present en les dades del discurs hauria romàs inaccessible als científics.
La informació relativa a les dades estructurals d'una llengua no només està disponible per a l'anglès, sinó que també pot ser trobada en altres idiomes, com el japonès. Mitjançant l'ús de mètodes computacionals, es van analitzar els corpus de frases en japonès i es va trobar un patró de distribució log-normal que estava en relació amb la longitud de la frase. Malgrat que la causa exacta d'aquesta lognormalitat segueix essent desconeguda, és precisament aquest tipus d'informació interessant la que pretenen descobrir la lingüística computacional. Aquesta informació podria conduir a descobriments més importants amb relació a l'estructura subjacent del japonès i podria tenir efectes considerables quant a la comprensió del japonès com a llengua. La lingüística computacional permet que l'addició de continguts a la base del coneixement científic tingui lloc de manera ràpida i amb molt certesa.
Sense un enfocament computacional per a l'estructura de dades lingüístiques, gran part de la informació disponible avui en dia estaria encara oculta sota la immensitat de les dades de qualsevol idioma. La lingüística computacional permet que els científics analitzin grans quantitats de dades de manera fiable i eficient, creant unes possibilitats de descobriment que no tenen comparació en la majoria dels altres enfocaments.
La producció del llenguatge és igualment complexa tant en la informació que proporciona com en les habilitats que ha de reunir un productor amb fluïdesa. És a dir, la comprensió és només la meitat de la batalla de la comunicació. L'altra meitat és com el llenguatge és produït per un sistema i, en aquest sentit, la lingüística computacional he fat alguns descobriments molt interessant en la matèria.
En un article, ara famós, publicat el 1950, Alan Turing va proposar la possibilitat que les màquines podrien algun dia tenir la capacitat de pensar. Com un plantejament experimental per definir el concepte de pensament en les màquines, Turing va proposar una prova d'imitació en què un ésser humà tenia dues converses únicament textuals, una conversa amb individu humà i l'altra amb una màquina que intentaria respondre com un ésser humà. Turing va proposar que si el subjecte no s'adona de la diferència entre la conversa entre l'humà i la màquina, hom podria concloure que la màquina és capaç de pensar. Avui en dia, aquesta prova es coneix com la prova de Turing i continua essent una idea influent en el camp de la intel·ligència artificial.
Un dels exemples més antics i més coneguts d'un programa d'ordinador dissenyat per conversar naturalment amb humans és l'anomenat ELIZA, desenvolupat per Joseph Weizenbaum el 1966. El programa emula un psicoterapeuta que respon a les preguntes escrites plantejades per un usuari. ELIZA semblava entendre el que es deia i respondre de manera intel·ligent, però en realitat es va limitar a seguir un patró de coincidència de rutina que es basava només en la comprensió d'algunes paraules clau en cada oració. Les seves respostes van ser generades per la recombinació de les parts desconegudes de la frase sobre les versions correctament traduïdes de paraules conegudes. Per exemple, a la frase “Sembla que m’odies”, ELIZA entén “tu” i “em”, que coincideix amb el patró general “tu em [algunes paraules]”, permetent que ELIZA actualitzi els mots “tu” i “em” amb “jo” i “tu” per respondre “Què et fa pensar que t’odio?”. En aquest exemple, ELIZA no té cap comprensió de la paraula “odi”, però no és necessària per a una resposta lògica en el context d'aquest tipus de psicoteràpia.
Alguns projectes encara estan tractant de resoldre el problema amb el que es va iniciar per primera vegada la lingüística computacional, com és el seu camp d'acció. No obstant això, els mètodes han esdevingut més refinats i intel·ligents i, consegüentment, els resultats generats pels lingüistes computacionals s'han tornat més aclaridors. En l'esforç per millorar la traducció per ordinador, s'han comparat diversos models, incloent els models ocults de Markov, les tècniques de suavitzat i els refinaments específics d'aquells per aplicar-los a la traducció dels verbs. El model que es va trobar per produir les traduccions més naturals de paraules en alemany i francès fou un model d'alineació refinada, amb una dependència de primer ordre i un model de fecunditat. També proporcionen algoritmes d'entrenament prou eficients per als models presentats, aspecte que pot proporcionar a altres científics la possibilitat de millorar encara més els resultats. Aquest tipus de tasca és específica de la lingüística computacional i té aplicacions que podrien millorar notablement la comprensió de com el llenguatge és produït i comprès pels ordinadors.
També s'ha avançat enormement en la fabricació d'ordinadors per produir un llenguatge d'una manera més natural. Mitjançant l'ús de les entrades lingüístiques dels humans, s'han construït algoritmes que són capaços de modificar l'estil d'un sistema de producció basat en un factor tal com una entrada lingüística humana o en més factors abstractes com la cortesia o qualsevol de les cinc dimensions de la personalitat humana. Aquest treball té un enfocament computacional a través de models d'estimació de paràmetres per classificar la gran varietat d'estils lingüístics que veiem entre els individus i simplificar-lo perquè un ordinador pugui treballar de la mateixa manera, fent que la interacció entre humà i ordinador esdevingui molt més natural.
Gran part dels esforços de la lingüística computacional moderna s'han concentrat sobre la comprensió. Amb la proliferació d'internet i la facilitat d'accés al llenguatge humà escrit, la capacitat de crear un programa capaç d'entendre el llenguatge humà tindria abundants i interessants possibilitats, incloent la millora dels motors de cerca, servei al client automatitzat i l'educació en línia.
Els primers treballs sobre la comprensió van incloure l'aplicació d'estadística bayesiana a la tasca de reconeixement òptic de caràcters, com il·lustren Bledsoe i Browning que, en 1959, generaren un gran diccionari de possibles lletres a través de l'aprenentatge de lletres d'exemple i, a continuació, la probabilitat que qualsevol dels exemples apresos coincidís amb la nova entrada fou combinada per prendre la decisió final. Entre la resta d'exemples per aplicar l'estadística bayesiana a l'anàlisi del llenguatge cal destacar el treball de Mosteller i Wallace (1963) en què s'utilitzà una anàlisi de les paraules utilitzades en els documents federalistes per tractar de determinar la seva autoria, concloent que Madison fou probablement l'autor dels documents. En 1979, Terry Winograd va desenvolupar un motor de processament de llenguatge natural capaç d'interpretar naturalment instruccions escrites en un entorn governat per una senzilla regla. El programa d'anàlisi sintàctic del llenguatge principal en aquest projecte fou anomenat SHRDLU, que era capaç de dur a terme una conversació amb l'usuari, en cert mode, natural a través d'instruccions, però només dins el context de prova en què es desenvolupà la tasca. Aquest context va consistir en blocs de diferents formes i colors i SHRDLA fou capaç d'interpretar instruccions com “Troba un bloc més alt que el que tens a les mans i posa’l dins la capsa”, així com fent preguntes tals com “No entenc a quina piràmide et refereixes” en resposta a l'entrada de l'usuari. Tot i que impressionant, aquest tipus de processament del llenguatge natural ha demostrat ser molt més difícil fora de l'abast limitat del context de prova. Igualment, un projecte desenvolupat per la NASA, anomenat LUNAR, fou dissenyat per proporcionar respostes a preguntes, escrites naturalment, sobre l'anàlisi geològic de les roques lunars portades per les missions de les naus Apolo. Aquest tipus de problemes es coneixen com a [cerca de respostes].
Els primers intents per comprendre el llenguatge parlat es basen en el treball realitzat als anys 1960 i 70 sobre el modelat del senyal en què s'analitza un senyal desconegut per cercar patrons i fer prediccions sobre basades en la seva història. Un enfocament primerenc i, d'alguna manera, efectiu quant a l'aplicació d'aquest tipus de modelat del senyal s'aconsegueix amb l'ús de models ocults de Marcov, tal com detalla Rabiner en 1989.[2] Aquest enfocament inicial tracta de determinar les probabilitats que un nombre arbitrari de models pogués ser utilitzat en la generació d'expressions, així com per modelar les probabilitats per a diverses paraules generades des de cada un d'aquests possibles models. Altres enfocaments similars foren utilitzats en un intent de reconeixement de veu a partir de principis dels anys 1970 en IBM, mitjançant l'ús de probabilitats de parells de paraules i parts d'expressions.
Més recentment, aquests tipus d'enfocaments estadístics s'han aplicat a tasques més difícils, com ara la identificació temàtica basant-se en l'ús de l'estimació de paràmetres bayesanaper inferir les probabilitats del tema en documents de text.
La lingüística computacional es pot dividir en diferents àrees segons el mitjà del llenguatge que s'està processant, ja sigui parlat o textual, i segons la tasca que s'està realitzant, ja sigui anàlisi del llenguatge (reconeixement) o síntesi del llenguatge (generació).
El reconeixement de la parla i la síntesi de veu tenen a veure amb com el llenguatge parlat pot ser entès o creat mitjançant ordinadors. L'anàlisi i la generació són divisions de la lingüística computacional que tenen a veure, respectivament, amb la descomposició del llenguatge i amb la seva recomposició. La traducció automàtica és una subdivisió de la lingüística computacional que s'encarrega la traducció entre diferents idiomes mitjançant ordinadors.
Algunes de les àrees d'investigació que abasta la lingüística computacional són les següents:
L'Associació de Lingüística Computacional (en anglès: ''Association for Computational Linguistics'') defineix la lingüística computacional com: “[...] l'estudi científic del llenguatge des d'una perspectiva computacional. Els lingüistes computacionals tenen l'objectiu de proporcionar models computacionals sobre diversos tipus de fenòmens lingüístics [...]”.[3]