Traducción automática neuronal

La traducción automática neuronal (NMT por sus siglas en inglés, neural machine translation) es un método de traducción automática que usa una red neuronal enorme. Se distancia de las traducciones estadísticas basadas en frases que usan subcomponentes diseñados por separado.[1]​ Los servicios de traducción de Google, Yandex y Microsoft actualmente utilizan NMT. Google utiliza Google Neural Machine Translation (GNMT) con preferencia sobre sus métodos estadísticos usados anteriormente.[2]​ Microsoft usa una tecnología similar para sus traductores de voz (incluido Microsoft Translator live y Skype Translator).[3]​ El grupo Harvard NLP ha lanzado un sistema de traducción automática neuronal de código abierto, OpenNMT.[4]

Los modelos de NMT utilizan el aprendizaje profundo y aprendizaje de representación. Requieren sólo una fracción de la memoria que necesitan los modelos tradicionales de traducción automática estadística (SMT por sus siglas en inglés, statistical machine translation). Es más, al contrario que otros sistemas convencionales de traducción, en el modelo de traducción neuronal se enseña a todas las partes conjuntamente (end-to-end) para maximizar la eficacia de la traducción.[5][6][7]

La red neuronal utiliza una red neuronal recurrente (RNN por sus siglas en inglés, recurrent neural network) bidireccional, también conocida como codificador, que codifica un segmento fuente para la segunda RNN, conocida también como codificador, que se usa para predecir palabras en la lengua meta.[8]

Funcionamiento

[editar]

La traducción automática neuronal (NMT por sus siglas en inglés, neural machine translation) se aleja del enfoque estadísticos que utilizaban subcomponentes diseñados por separado. La traducción automática neuronal (NMT) no es tan drástica ni diferent más allá de lo que se ha hecho de forma más tradicional en la traducción automática estadística (SMT). Su desviación principal es el uso de representaciones vectoriales ("incrustaciones", "representaciones de espacio continuo") para las palabras y los estados internos. La estructura de estos modelos es más sencilla que la de los modelos basados en frases. No tiene un modelo lingüístico, ni un modelo de traducción ni tampoco ningún modelo de reordenación separados, sino un modelo único secuencial que predice una palabra a la vez. Sin embargo, esta predicción secuencial está sujeta a toda la frase de origen y a toda la secuencia de destino que ya fue producida. Los modelos NMT utilizan el aprendizaje profundo y el aprendizaje de representación.

Al principio, el modelado de secuencias de palabras se realizaba normalmente mediante una red neuronal recurrente (RNN). La red neuronal utiliza una red neuronal recurrente bidireccional, conocida como codificador, para codificar una frase de origen para una segunda RNN, conocida como decodificador, que se utiliza para predecir palabras en idioma meta. Las redes neuronales recurrentes tienen dificultades para codificar entradas largas en un vector único. Esto puede compensarse con un mecanismo de atención que permite al decodificador centrarse en distintas partes de la entrada mientras genera cada palabra de salida. Existen otros modelos de cobertura que abordan los problemas que plantean estos mecanismos de atención, como ignorar la información de alineación pasada, lo que lleva a traducir demasiado o muy poco.

Las redes neuronales convolucionales (Convnets) son en principio un poco mejorado para secuencias continuas largas, pero inicialmente no se utilizaron debido a varios puntos débiles. Estas se compensaron exitosamente en 2017 por medio el uso de "mecanismos de atención".

El Transformer, un modelo basado en la atención, sigue siendo la arquitectura dominante para varios pares de idiomas. Las capas de auto-atención del modelo Transformer aprenden las dependencias entre las palabras de una secuencia examinando los vínculos entre todas las palabras de las secuencias emparejadas y modelando directamente esas relaciones. Es un enfoque más sencillo que el mecanismo de compuerta que emplean las RNN. Y su simplicidad ha permitido a los investigadores desarrollar modelos de traducción de alta calidad con el modelo Transformer, incluso en entornos de bajos recursos.

Los nuevos retos de la traducción automática neuronal

[editar]

Hoy en día la traducción automática neuronal es un área de investigación muy activa que nos presenta una serie de retos importantes por conseguir. Para entrenar los sistemas neuronales son necesarios corpus paralelos de gran tamaño que consten con un mínimo de entre 5 y 10 millones de oraciones, pero estos corpus no están a disposición para todos los pares de lenguas.

Para los pares de lenguas con pocos recursos se están explorando una serie de técnicas que nos permitan entrenar los sistemas de traducción automática neuronal.

Aprendizaje por transferencia (transfer learning)

[editar]

Se pretende aprovechar el conocimiento que se obtiene de un par de lenguas con recursos amplios, y así, transferir este conocimiento a lenguas que consten de menos recursos. Por ejemplo, para preparar un sistema de traducción automática del idioma castellano - aranés, que presenta pocos recursos, se puede emplear los conocimientos que proporciona un par de lenguas como el castellano - catalán, que dispone de amplios corpus paralelos.

Entrenamiento de sistemas multilingües

[editar]

Se entrenan sistemas que sean aptos para realizar traducciones entre varios pares de lenguas. El sistema que resulta puede explotar las semejanzas entre las diferentes lenguas. Así, se puede entrenar un sistema que sea capaz de realizar una traducción entre las siguientes lenguas: castellano, gallego, catalán, portugués, aragonés, asturiano y aranes. En este sistema los pares de lenguas que constan de menos recursos como el español - aranés se valen del conocimiento que han aprendido para los pares de lenguas restantes como el español - portugués. Los sistemas que han sido capacitados de esta manera son también capaces de realizar una traducción entre pares de lenguas en los que no exista, en el corpus de entrenamiento, ningún par de oraciones paralelas, como podría ser el par de lenguas aranés - asturiano.

Traducción automática no supervisada

[editar]

Para los pares de lenguas que cuentan con poco recursos, se puede recurrir a este método, en el que los sistemas no han sido entrenados con corpus paralelos, sino que han sido capacitados con corpus monolingües de la lengua inicial y de la lengua final que no son traducciones la una de la otra. Este método tiene una ventaja y es que se disponen en los corpus monolingües de muchos más textos en cualquier lengua y además son más sencillos de compilar.

Aplicaciones

[editar]

Una aplicación para NMT es la traducción automática de pocos recursos, cuando solo se dispone de una pequeña cantidad de datos y ejemplos para la capacitación. Uno de esos casos de uso son los idiomas antiguos como el acadio y sus dialectos, el babilónico y el asirio.[9]

Traductores neuronales

[editar]

Referencias

[editar]
  1. Wołk, Krzysztof; Marasek, Krzysztof (2015). «Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts». Procedia Computer Science 64 (64): 2-9. doi:10.1016/j.procs.2015.08.456. 
  2. Lewis-Kraus, Gideon (14 de diciembre de 2016). «The Great A.I. Awakening». The New York Times. Consultado el 21 de diciembre de 2016. 
  3. Microsoft Translator launching Neural Network based translations for all its speech languages; Translator.
  4. «OpenNMT - Open-Source Neural Machine Translation». opennmt.net (en inglés estadounidense). Consultado el 22 de marzo de 2017. 
  5. Kalchbrenner, Nal; Blunsom, Philip (2013). «Recurrent Continuous Translation Models». Proceedings of the Association for Computational Linguistics. 
  6. Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). «Sequence to sequence learning with neural networks». NIPS. 
  7. Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (3 de septiembre de 2014). «On the Properties of Neural Machine Translation: Encoder–Decoder Approaches». arXiv:1409.1259  [cs.CL]. 
  8. Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). «Neural Machine Translation by Jointly Learning to Align and Translate». arXiv:1409.0473  [cs.CL]. 
  9. Gutherz, Gai; Gordin, Shai; Sáenz, Luis; Levy, Omer; Berant, Jonathan (2 de mayo de 2023). «Translating Akkadian to English with neural machine translation». En Kearns, Michael, ed. PNAS Nexus (en inglés) 2 (5). ISSN 2752-6542. PMC 10153418. PMID 37143863. doi:10.1093/pnasnexus/pgad096. Consultado el 5 de agosto de 2023. 

9. La Vanguardia, 2022. Inteligencia Artificial. Así funcionan los sistemas de traducción automática neuronal basados en IA, La Vanguardia.