Le traduction automatic statistic, etiam cognoscite per le abbreviaturas Stat MT o SMT (del anglese Statistical Machine Translation), es un paradigma de traduction automatic que genera traductiones basate in modellos statistic e in le theoria del information. Le parametros de iste modellisation es obtenite per medio del analyse de corpus bilingue. Le approccio statistic se oppone a metodos traditional como le traduction automatic basate in regulas e le traduction automatic basate in exemplos.
Le prime ideas super le traduction automatic statistic ha essite introducite per Warren Weaver in 1949. In su famoso memorandum, Weaver proposava le application del theoria del information de Claude Shannon al problema del traduction inter linguas.[1] Illo marcava un puncto de initio theoretic pro le integration de approches statistic in le traduction automatic.
Le traduction automatic statistic esseva formalmente reintroducite in 1991 per un equipa de recerca del Thomas J. Watson Research Center de IBM. Le recercatores, includente P. Brown, S. Della Pietra, V. Della Pietra, e R. Mercer, publicava un influente studio titulate The Mathematics of Statistical Machine Translation: Parameter Estimation que delineava le bases mathematic pro iste approcho.[2] Isto stimulava un interesse renovate in le traduction automatic durante le decada de 1990.
Le traduction automatic statistic functiona construente modellisationes mathematic pro determinar le probabile traduction de un phrase in un lingua de origine al lingua de destino. Le elementos fundamental de iste approcho es:
Le modello statistic es generalemente construite usando un grande corpus bilingue parallel, ubi le textos in duo linguas es alineate phrase per phrase.
Le traduction automatic statistic es largemente usate in servitios moderne de traduction, como Google Translate (ante le transito al traduction basate in redes neuronal in 2016). Illo es particularmente utile in contextos ubi grande quantitate de datos parallel es disponibile, como in le traduction de documentos juridic o diplomatic, ubi es essential mantener un alto grado de fidelitate.
Malgrado su successe, le traduction automatic statistic ha diverse limitationes:
In le ultime annos, le traduction automatic statistic ha essite gradualmente substituite per traduction automatic neuronal (Neural Machine Translation, NMT). NMT usa redes neuronal profunde pro apprender patronos linguistic e genera traductiones plus fluide e contextualmente appropriate. Tamen, SMT ancora ha applicationes utile in contextos con basse resources computationale o con accesso limitate a corpus de datos linguistic.
Le traduction automatic statistic ha jocate un rolo crucial in reactivar le interesse in le traduction automatic e ha fundate le base conceptual pro approches plus moderne. Malgrado su substitution progressiva per technicas neuronal, le principios mathematic de SMT continua esser relevante pro le comprehension del linguistica computationale.