Sõnatähenduse induktsioon (Word-sense induction, WSI) või sõnatähenduse diskriminatsioon on arvutilingvistikas loomuliku keele töötluse lahtine probleem, mis puudutab sõna tähenduse automaatset identifitseerimist. Kuna sõnatähenduse induktsiooni tulemusena saadakse uuritava sõna tähenduste hulk, on see ülesanne rangelt seotud sõnatähenduste ühestamisega (Word-sense disambiguation, WSD), mis toetub eelnevalt defineeritud tähendustekogule ja üritab lahendada sõnade polüseemiat ehk mitmetähenduslikkust kontekstis.
Sõnatähenduse induktsiooni algoritmi tulemuseks on nende kontekstide klasterdamine, milles sihtsõna esineb, või sihtsõnaga seotud sõnade klasterdamine. Kirjanduses on pakutud kolm peamist meetodit:[1]
See käsitlus baseerub hüpoteesil, et sõnad on semantiliselt sarnased siis, kui nad esinevad sarnastes dokumentides, sarnastes konteksti akendes, või sarnastes süntaktilistes kontekstides. Sihtsõna iga esinemine korpuses esitatakse kontekstivektorina. Need kontekstivektorid võivad olla kas esmased (First order vector), mis esindavad vaadeldavat konteksti otseselt; või teisesed (Second-order vector), mille puhul sihtsõna kontekstid on sarnased, kui nende sõnad esinevad sageli koos. Vektorid klasterdatakse seejärel gruppidesse, kus iga grupp tähistab sihtsõna ühte (erinevat) tähendust.[2]
Üks tuntud kontekstipõhise klasterdamise viise on kontekstigrupi diskriminatsiooni algoritm (Context-group discrimination algorithm), mis baseerub maatriksite arvutamise meetoditel.[3]
Sõnapõhine klasterdamine on teistsugune käsitlus sõnatähenduse induktsioonile. Selle puhul klasterdatakse sõnu, mis on semantiliselt sarnased ning võivad seega kanda ka spetsiifilist tähendust. Lini algoritm[4] on prototüüpne sõnade klasterdamise näide, see baseerub korpuses ilmneval süntaktilise sõltuvuse statistikal ning toodab selle põhjal iga tuvastatud sihtsõna erineva tähenduse jaoks sõnade hulga.[5] Komitee põhjal klasterdamine (Clustering by committee, CBC) kasutab samuti süntaktilisi kontekste, kuid kasutab sõnadevaheliste sarnasuste kodeerimiseks sarnasusmaatriksit ning saab huvipakkuva sõna erinevad tähendused komiteede mõistelt.[6]
Koosesinemisgraafide peamine hüpotees eeldab, et sõna semantikat saab esitada koosesinemisgraafi abil, mille kaared kujutavad koosesinemisi ning tipud koosesinemise suhteid.[7] Need käsitlused on seotud sõnapõhise klasterdamise meetoditega, kus sõnade koosesinemisi saab leida sõnade grammatilise[8] või kollokatsiooniliste suhete alusel.[9] Üks edukas graafialgoritm on HyperLex, mille aluseks on koosesinemisgraafis pesade (Hub) leidmine, see peab suutma häälestada suurt parameetrite hulka.[10] Selle probleemiga võitlemiseks on pakutud mitmeid graafidel töötavaid algoritme, mille aluseks on lihtsad graafimustrid. Näiteks kumeruspõhine klasterdamine (Curvature clustering); ruudud, kolmnurgad ja rombid (Squares, triangles and diamonds, SquaT++); ja tasakaalustatud maksimaalse ulatusega puu põhine klasterdamine (Balanced Maximum spanning tree clustering, B-MST).[11] Mustrid üritavad tuvastada tähendusi, kasutades koosesinemisgraafi lokaalseid struktuuri omadusi. Üks randomiseeritud algoritm, mis jagab graafi kaari osadeks, edastades iteratiivselt peavoolu sõnumit (ehk sõna tähendust) naabritele (kaartele), on Hiina sosinad (Chinese whispers)[12]. Koosesinemisgraafide kasutamine on näidanud standardsetes hindamisülesannetes arengu nüüdistasemele vastavaid tulemusi.[10]
{{cite journal}}
: viitemall journal nõuab parameetrit |journal=
(juhend)
{{cite journal}}
: viitemall journal nõuab parameetrit |journal=
(juhend)
{{cite journal}}
: viitemall journal nõuab parameetrit |journal=
(juhend)
{{cite journal}}
: viitemall journal nõuab parameetrit |journal=
(juhend)