Reeglipõhine masintõlge

Vauquois´ püramiid
Vauquois´ püramiid: mida kõrgemal tasemel toimub ülekanne, seda keelteülesem on masintõlke süsteem. Eeldusel, et sisendi analüüs kõrgemale tasemele on korrektne, paraneb nii ka tõlke kvaliteet

Reeglipõhine masintõlge (RPMT; masintõlke "klassikaline lähenemine") hõlmab masintõlke süsteeme, mis põhinevad lingvistilisel infol lähte- ja sihtkeele kohta. See talletatakse sõnastike ja grammatikareeglitena kattes sellega vastava keele tavapärased semantilised, morfoloogilised ja süntaktilised juhtumid. Saades sisendiks lause (lähtekeeles) genereerib RPMT süsteem väljundlause (sihtkeeles) lähtudes väljund- ja sihtkeele morfoloogilisest, süntaktilisest ja semantilisest analüüsist.[1]

Esimesed RPMT süsteemid arendati välja 1970. aastatel. Kõige tähtsamad sammud selle evolutsioonis olid järgmiste süsteemide loomine:

Tänapäeval on laiemalt kasutusel RPMT süsteemid ka: 

RPMT tüübid

[muuda | muuda lähteteksti]

On kolme erinevat tüüpi reeglipõhiseid masintõlke süsteeme:

  1. Otsesed süsteemid (Sõnastikel põhinev masintõlge) seab sisendi ja väljundi vastavusse lihtsate reeglitega.
  2. Ülekande RPMT süsteemid (Ülekandel põhinev masintõlge) kasutavad morfoloogilist ja süntaktilist analüüsi.
  3. Interlingual põhinevad RPMT süsteemid kasutavad abstraktse keelteülest tähenduse esitamise viisi.[1]

RPMT süsteeme saab kirjeldada ka kui näitepõhiste masintõlkesüsteemide vastandit (näitepõhised masintõlke süsteemid), samal ajal kui hübriid masintõlke süsteemid kasutavad muuhulgas ka mitmeid RPMT printsiipe.

Põhiprintsiibid

[muuda | muuda lähteteksti]

RPMT peamine meetod põhineb sisendlause ja soovitava väljundlause struktuuride vastavusse seadmises nii, et säiliks tähendus.[3] Järgnev näide illustreerib RPMT toimimist:

A girl eats an apple. Lähtekeel = inglise; soovitud sihtkeel = eesti.

Tõlke saamiseks on minimaalselt vaja:

  1. Sõnaraamatut, kus iga ingliskeelne sõna on vastavusse seatud eestikeelse sõnaga.
  2. Reegleid, väljendamaks tavapärast inglise keele struktuuri.
  3. Reegleid, väljendamaks tavapärast eesti keele struktuuri.

Lõpetuseks, on vaja reegleid, millest lähtudes need kaks struktuuri üksteisega seotakse. 

Vastavalt eelnevale saame järgmised tõlkeetapid:

1. Igas lähtesõnale vastava lauseliikme leidmine:
a = määramata artikkel; girl = nimisõna; eats = tegusõna; an = määramata artikkel; apple = nimisõna.
2. Verbi "to eat" süntaktilise info tuvastamine:
nimisõna-eat-nimisõna; siin: eat – lihtolevik, 3. isik ainsuses, aktiiv
3. lähtekeele sõelumine:
(nimisõna an apple) = verbi eat objekt

Tihti piisab ka ainult osalisest sõelumisest, et seada lähte- ja sihtkeele struktuurid vastavusse.

4. sõnade tõlkimine inglise keelest saksa keelde
a (sõnaliik = määramata artikkel) => jäta tõlkimata
girl (sõnaliik = nimisõna) => tüdruk (sõnaliik = nimisõna)
eat (sõnaliik = verb) => sööma (sõnaliik = verb)
an (sõnaliik = määramata artikkel) => jäta tõlkimata
apple (sõnaliik = nimisõna) => õun (sõnaliik = nimisõna)
5. Sõnastikuvastetele lõpliku kuju andmine: 
A girl eats an apple. => Tüdruk sööb õuna.

Komponendid

[muuda | muuda lähteteksti]

Masintõlke süsteem sisaldab:

  • lähtekeele morfoloogia analüüsijat – analüüsib lähtekeele sõna ja tagastab morfoloogilise info
  • lähtekeele sõelujat – analüüsib lähtekeele lausete süntaksit;
  • tõlkijat – tõlgib lähtekeele sõna sihtkeelde;
  • sihtkeele morfoloogia sünteesija – genereerib lemma ja morfolooilise info põhjal sihtkeelse sõna;
  • sihtkeele sõelujat – moodustab sihtkeeles sobivad laused;
  • mitmeid sõnastikke – vähemalt kolm sõnastikku:
lähtekeele sõnastik – vajalik lähtekeele morfoloogiliseks analüüsiks;
kakskeelne sõnastik – vajalik lähtekeele sõnade tõlkimiseks sihtkeelde;
sihtkeele sõnastik – vajalik sihtkeele morfoloogia genereerimiseks. [4]

RPMT süsteem kasutab järgnevat informatsiooni

  • lähtekeele grammatika, mille põhjal luuakse sisendlausetest süntakskonstruktsioonid;
  • lähtekeele sõnavara, mis kaardistab kogu lubatud sõnavara;
  • lähtekeele kaardistamise reeglid, mis määravad, kuidas süntaktilised ja grammatilised vormid teisendatakse interlingua kontseptsioonideks ja semantilisteks rollideks;
  • keeledomeeni mudel/ontoloogia, mis määrab sõnaklassid ja nende sobivuse semantilistesse rollidesse;
  • sihtkeele kaardistamise reeglid, mis määravad, kuidas kontseptsioonid ja semantilised rollid interlinguast seatakse vastavusse süntaktiliste ja grammatiliste funktsioonidega sihtkeeles;
  • sihtkeele sõnavara, mis sisaldab igale rollile sobivad sõnatüved;
  • sihtkeele grammatika, millest lähtudes koostatakse vastavalt sihtkeele süntaktilisetele funktsioonidele lineaarne väljundlause.[5]

Eelised võrreldes teiste masintõlke meetoditega

[muuda | muuda lähteteksti]
  • Ei vaja paralleelkorpust. See võimaldab luua tõlkesüsteeme keelte vahel, millel puuduvad paralleeltekstid
  • Valdkondadeülene. Reeglid kirjutatakse enamasti lähtudes valdkonnaüleselt, seega enamus reegleid töötab kõigis tekstidomeenides, millele on võimalik lisada domeenispetsiifilisi reegleid.
  • Puudub kvaliteedilagi. Iga viga on võimalik parandada vastava reegliga, isegi kui selle põhjus esineb väga harva. See on kontrastiks võrdluses statistiliste masintõlkesüsteemidega, kus harvaesinevad juhtumid jäävad tähelepanuta.
  • Täielik kontroll. Kuna kõik reeglid on käsitsi kirjutatud, on võimalik lihtsa vaevaga vigu parandada.
  • Taaskasutatavaus. RPMT süsteemid on tavaliselt ehitatud tugevale lähte- ja väljundkeele analüüsile, millele järgneb ülekande samm ja seejärel väljundlause genereerimine. Esimest ja viimast sammu on võimalik erinevate keelepaaridega tõlkesüsteemide vahel jagada. Lisaks, lähtekeele analüüsija põhjal võib ehitada sellega lähedalt seotud keele analüüsija.[6]

Puudused võrreldes teiste masintõlke meetoditega

[muuda | muuda lähteteksti]
  • Privaatsus
  • Tiitelandmed
  • Lahtiütlused
  • Mobiilivaade
  • Arendajad
  • Cookie statement
  • Ebapiisav hulk kvaliteetseid sõnaraamatuid. Uute sõnaraamatute loomine on kallis.
  • Lingvistilist infot on tarvis käsitsi lisada. 
  • Raske on tulla toime mitme reegli koostoimimistega suurtes süsteemides, abivalentsusega ja idiomaatiliste väljenditega.
  • Suutmatus adapteeruda uutele domeenidele. Kuigi RPMT süsteemid pakuvad tavaliselt võimalust uute reeglite lisamiseks ja laiendamiseks, on muutused tavaliselt väga kallid ja tihti ei ole tulemused ennast ära tasuvad.[6]
  1. 1,0 1,1 Nirenburg, Sergei (1989). "Knowledge-Based Machine Translation". Machine Trandation 4 (1989), 5 – 24. Kluwer Academic Publishers. Vaadatud 20.06.2012.
  2. Koehn, Philipp (2010). Statistical Machine Translation. Cambridge: Cambridge University Press. Lk 15.
  3. Systrani koduleht, loetud: 2016 jaanuar, link:https://web.archive.org/web/20160203160550/http://www.systransoft.com/systran/corporate-profile/translation-technology/what-is-machine-translation/
  4. Hettige, B.; Karunananda, A.S. (2011). "Computational Model of Grammar for English to Sinhala Machine Translation". The International Conference on Advances in ICT for Emerging Regions – ICTer20 11 : 026-031. Vaadatud 20.06.2012.
  5. Lonsdale, Deryle; Mitamura, Teruko; Nyberg, Eric (1995). "Acquisition of Large Lexicons for Practical Knowledge-Based MT" (PDF). Machine Translation 9: 251–283. Kluwer Academic Publishers. Vaadatud 20.06.2012.[alaline kõdulink]
  6. 6,0 6,1 Lagarda, A.-L.; Alabau, V.; Casacuberta, F.; Silva, R.; Díaz-de-Liaño, E. (2009). "Statistical Post-Editing of a Rule-Based Machine Translation System" (PDF). Proceedings of NAACL HLT 2009: Short Papers, pages 217–220, Boulder, Colorado. Association for Computational Linguistics. Vaadatud 20.06.2012.{{cite web}}: CS1 hooldus: mitu nime: autorite loend (link)