Reeglipõhine masintõlge (RPMT; masintõlke "klassikaline lähenemine") hõlmab masintõlke süsteeme, mis põhinevad lingvistilisel infol lähte- ja sihtkeele kohta. See talletatakse sõnastike ja grammatikareeglitena kattes sellega vastava keele tavapärased semantilised, morfoloogilised ja süntaktilised juhtumid. Saades sisendiks lause (lähtekeeles) genereerib RPMT süsteem väljundlause (sihtkeeles) lähtudes väljund- ja sihtkeele morfoloogilisest, süntaktilisest ja semantilisest analüüsist.[1]
On kolme erinevat tüüpi reeglipõhiseid masintõlke süsteeme:
Otsesed süsteemid (Sõnastikel põhinev masintõlge) seab sisendi ja väljundi vastavusse lihtsate reeglitega.
Ülekande RPMT süsteemid (Ülekandel põhinev masintõlge) kasutavad morfoloogilist ja süntaktilist analüüsi.
Interlingual põhinevad RPMT süsteemid kasutavad abstraktse keelteülest tähenduse esitamise viisi.[1]
RPMT süsteeme saab kirjeldada ka kui näitepõhiste masintõlkesüsteemide vastandit (näitepõhised masintõlke süsteemid), samal ajal kui hübriid masintõlke süsteemid kasutavad muuhulgas ka mitmeid RPMT printsiipe.
RPMT peamine meetod põhineb sisendlause ja soovitava väljundlause struktuuride vastavusse seadmises nii, et säiliks tähendus.[3] Järgnev näide illustreerib RPMT toimimist:
A girl eats an apple. Lähtekeel = inglise; soovitud sihtkeel = eesti.
Tõlke saamiseks on minimaalselt vaja:
Sõnaraamatut, kus iga ingliskeelne sõna on vastavusse seatud eestikeelse sõnaga.
Reegleid, väljendamaks tavapärast inglise keele struktuuri.
Reegleid, väljendamaks tavapärast eesti keele struktuuri.
Lõpetuseks, on vaja reegleid, millest lähtudes need kaks struktuuri üksteisega seotakse.
Vastavalt eelnevale saame järgmised tõlkeetapid:
1. Igas lähtesõnale vastava lauseliikme leidmine:
a = määramata artikkel; girl = nimisõna; eats = tegusõna; an = määramata artikkel; apple = nimisõna.
2. Verbi "to eat" süntaktilise info tuvastamine:
nimisõna-eat-nimisõna; siin: eat – lihtolevik, 3. isik ainsuses, aktiiv
sihtkeele morfoloogia sünteesija – genereerib lemma ja morfolooilise info põhjal sihtkeelse sõna;
sihtkeele sõelujat – moodustab sihtkeeles sobivad laused;
mitmeid sõnastikke – vähemalt kolm sõnastikku:
lähtekeele sõnastik – vajalik lähtekeele morfoloogiliseks analüüsiks;
kakskeelne sõnastik – vajalik lähtekeele sõnade tõlkimiseks sihtkeelde;
sihtkeele sõnastik – vajalik sihtkeele morfoloogia genereerimiseks. [4]
RPMT süsteem kasutab järgnevat informatsiooni
lähtekeele grammatika, mille põhjal luuakse sisendlausetest süntakskonstruktsioonid;
lähtekeele sõnavara, mis kaardistab kogu lubatud sõnavara;
lähtekeele kaardistamise reeglid, mis määravad, kuidas süntaktilised ja grammatilised vormid teisendatakse interlingua kontseptsioonideks ja semantilisteks rollideks;
keeledomeeni mudel/ontoloogia, mis määrab sõnaklassid ja nende sobivuse semantilistesse rollidesse;
sihtkeele kaardistamise reeglid, mis määravad, kuidas kontseptsioonid ja semantilised rollid interlinguast seatakse vastavusse süntaktiliste ja grammatiliste funktsioonidega sihtkeeles;
sihtkeele sõnavara, mis sisaldab igale rollile sobivad sõnatüved;
sihtkeele grammatika, millest lähtudes koostatakse vastavalt sihtkeele süntaktilisetele funktsioonidele lineaarne väljundlause.[5]
Ei vaja paralleelkorpust. See võimaldab luua tõlkesüsteeme keelte vahel, millel puuduvad paralleeltekstid
Valdkondadeülene. Reeglid kirjutatakse enamasti lähtudes valdkonnaüleselt, seega enamus reegleid töötab kõigis tekstidomeenides, millele on võimalik lisada domeenispetsiifilisi reegleid.
Puudub kvaliteedilagi. Iga viga on võimalik parandada vastava reegliga, isegi kui selle põhjus esineb väga harva. See on kontrastiks võrdluses statistiliste masintõlkesüsteemidega, kus harvaesinevad juhtumid jäävad tähelepanuta.
Täielik kontroll. Kuna kõik reeglid on käsitsi kirjutatud, on võimalik lihtsa vaevaga vigu parandada.
Taaskasutatavaus. RPMT süsteemid on tavaliselt ehitatud tugevale lähte- ja väljundkeele analüüsile, millele järgneb ülekande samm ja seejärel väljundlause genereerimine. Esimest ja viimast sammu on võimalik erinevate keelepaaridega tõlkesüsteemide vahel jagada. Lisaks, lähtekeele analüüsija põhjal võib ehitada sellega lähedalt seotud keele analüüsija.[6]
Ebapiisav hulk kvaliteetseid sõnaraamatuid. Uute sõnaraamatute loomine on kallis.
Lingvistilist infot on tarvis käsitsi lisada.
Raske on tulla toime mitme reegli koostoimimistega suurtes süsteemides, abivalentsusega ja idiomaatiliste väljenditega.
Suutmatus adapteeruda uutele domeenidele. Kuigi RPMT süsteemid pakuvad tavaliselt võimalust uute reeglite lisamiseks ja laiendamiseks, on muutused tavaliselt väga kallid ja tihti ei ole tulemused ennast ära tasuvad.[6]
↑ 6,06,1Lagarda, A.-L.; Alabau, V.; Casacuberta, F.; Silva, R.; Díaz-de-Liaño, E. (2009). "Statistical Post-Editing of a Rule-Based Machine Translation System"(PDF). Proceedings of NAACL HLT 2009: Short Papers, pages 217–220, Boulder, Colorado. Association for Computational Linguistics. Vaadatud 20.06.2012.{{cite web}}: CS1 hooldus: mitu nime: autorite loend (link)