N-grama

Donada una seqüència, anomenem n-grama a una subseqüència de n elements. Els elements poden ser tant lletres com paraules.^[1]^[2] S'utilitzen en diverses tasques de la traducció automàtica estadística,^[3] i també en altres camps de la investigació científica com l'anàlisi de seqüències genètiques.

Anomenem unigrama al n-grama quan n=1, bigrama amb n=2, trigrama amb n=3, etc. Els models de n-grames també es coneixen com a "Models de Markov no-ocults", ja que es coneixen les probabilitats de transició entre els diferents estats.^[4]

Model de n-grames

Un model de n-grames ens permet generar, gràcies a les propietats estadístiques dels n-grames, models de llenguatges naturals.^[5]

Aquesta idea va néixer amb un experiment realitzat per Claude Shannon per a la seva Teoria de la informació. Donada una seqüència de lletres, va estudiar quina era la següent lletra més probable. A partir d'un conjunt de dades d'aprenentatge, es pot deduir una distribució de probabilitat amb què obtenir quina és aquesta lletra.

A l'hora de modelar llenguatges, concretament, un model de n-grama és capaç de predir $x_{i}$ donades $x_{i-1},x_{i-2},\dots ,x_{i-n}$ . Degut a limitacions computacionals i també a què, en principi, una llengua pot tenir infinites paraules possibles, se simplifica de manera que cadascun dels elements (en aquest cas paraules) només depèn d'un nombre finit de n paraules.^[2]

Tècniques de suavitzat

Els models de n-grames poden presentar alguns problemes: algunes probabilitats poden ser zero, si no s'ha vist mai el n-grama corresponent. Per això, se solen utilitzar algunes tècniques de suavitzat. Aquestes es poden dividir en dos grans tipus: tècniques per interpolació i tècniques back-off. En grans línies, la principal diferència entre ambdós tipus és que les tècniques d'interpolació sempre utilitzen informació de k-grames inferiors, mentre que les de back-off només ho fan si la probabilitat del n-grama és zero.^[6]

Tècniques basades en interpolació

Les tècniques basades en interpolació calculen la probabilitat de manera ponderada entre el n-grama, corregit amb un factor $\lambda$ i una probabilitat més robusta (que no presenta zeros) del n-grama i una història simplificada.

$p(w|h)=\lambda {\frac {N(hw)}{\displaystyle \sum _{w'}{hw'}}}+(1-\lambda )\beta (w|{\hat {h}})$

$h$ : història detallada ( $w_{1}w_{2}w$ )
$\beta$ : probabilitat més robusta
${\hat {h}}$ : història simplificada ( $w_{2}w$ )

Tècniques basades en back-off

Les tècniques basades en back-off calculen la probabilitat de manera normal en els n-grames vistos durant la fase d'entrenament, i per als casos on aquesta probabilitat és zero, utilitzen probabilitat més robusta i una història simplificada.

$p(w|h)=\lambda {\frac {N(hw)}{\sum _{w'}{N(hw')}}}$ , si $N(hw)>0$

$p(w|h)=(1-\lambda ){\frac {\beta (w|{\hat {h}})}{\sum _{w':N(hw')=0}{\beta (w'|{\hat {h}})}}}$ , si $N(hw)=0$

Vegeu també

Referències

↑ Oliver, Antoni; Moré, Joaquim; Climent, Salvador. Traducció i tecnologies. Barcelona: Editorial UOC, 2007, p. 80-81. ISBN 978-84-9788-668-0 [Consulta: 17 febrer 2020].
↑ ^2,0 ^2,1 Calafet, Rosa; Ramon, M. Magdalena. Nous reptes dels professionals en la comunicació especialitzada. Palma, Universitat de les Illes Balears: Associació Catalana de Terminologia, 2007, p. 74-80. ISBN 978-84-8384-026-9 [Consulta: 17 febrer 2020].
↑ Oliver, Antoni. «La base de dades terminològica IATE en català». Tradiling. [Consulta: 17 febrer 2020].
↑ «Aplicacions de reconeixement de la Parla: Sistemes de Respeaking III» (PDF). Escola d'enginyeria. Universitat Autònoma de Barcelona, 2010. [Consulta: 17 febrer 2020].
↑ Besacier, Laurent. Statistical Language and Speech Processing. Springer, 2014. ISBN 978-3-319-11396-8 [Consulta: 17 febrer 2020].
↑ Sidorov, Grigori; Gupta, Anubhav; Tozer, Martin; Catala, Dolors; Catena, Angels; Fuentes, Sandrine «Rule-based System for Automatic Grammar Correction Using Syntactic N-grams for English Language Learning (L2)». Association for Computational Linguistics, Proceedings of the Seventeenth Conference on Computational Natural Language Learning: Shared Task, 2013, pàg. 96–101 [Consulta: 17 febrer 2020].

Enllaços externs

Peñarroya, Montse «Nou servei de Google: Books Ngram Viewer (sobre què parlen els llibres?)». , 2011 [Consulta: 17 febrer 2020].
Generador de paraules a l'atzar basat en cadenes de Markov (anglès) [Consulta: 17 febrer 2020]
Web Trigrams: Visualizing Google's Tri-Gram Data (anglès) [Consulta: 14 març 2020]

[1] Oliver, Antoni; Moré, Joaquim; Climent, Salvador. Traducció i tecnologies. Barcelona: Editorial UOC, 2007, p. 80-81. ISBN 978-84-9788-668-0 [Consulta: 17 febrer 2020].

[reptes-2] 2,0 ^2,1 Calafet, Rosa; Ramon, M. Magdalena. Nous reptes dels professionals en la comunicació especialitzada. Palma, Universitat de les Illes Balears: Associació Catalana de Terminologia, 2007, p. 74-80. ISBN 978-84-8384-026-9 [Consulta: 17 febrer 2020].

[3] Oliver, Antoni. «La base de dades terminològica IATE en català». Tradiling. [Consulta: 17 febrer 2020].

[4] «Aplicacions de reconeixement de la Parla: Sistemes de Respeaking III» (PDF). Escola d'enginyeria. Universitat Autònoma de Barcelona, 2010. [Consulta: 17 febrer 2020].

[5] Besacier, Laurent. Statistical Language and Speech Processing. Springer, 2014. ISBN 978-3-319-11396-8 [Consulta: 17 febrer 2020].

[6] Sidorov, Grigori; Gupta, Anubhav; Tozer, Martin; Catala, Dolors; Catena, Angels; Fuentes, Sandrine «Rule-based System for Automatic Grammar Correction Using Syntactic N-grams for English Language Learning (L2)». Association for Computational Linguistics, Proceedings of the Seventeenth Conference on Computational Natural Language Learning: Shared Task, 2013, pàg. 96–101 [Consulta: 17 febrer 2020].

[1]

[2]

[3]

[4]

[5]

[6]