Sõnatähenduse induktsioon

Sõnatähenduse induktsioon (Word-sense induction, WSI) või sõnatähenduse diskriminatsioon on arvutilingvistikas loomuliku keele töötluse lahtine probleem, mis puudutab sõna tähenduse automaatset identifitseerimist. Kuna sõnatähenduse induktsiooni tulemusena saadakse uuritava sõna tähenduste hulk, on see ülesanne rangelt seotud sõnatähenduste ühestamisega (Word-sense disambiguation, WSD), mis toetub eelnevalt defineeritud tähendustekogule ja üritab lahendada sõnade polüseemiat ehk mitmetähenduslikkust kontekstis.

Käsitlused ja meetodid

[muuda | muuda lähteteksti]

Sõnatähenduse induktsiooni algoritmi tulemuseks on nende kontekstide klasterdamine, milles sihtsõna esineb, või sihtsõnaga seotud sõnade klasterdamine. Kirjanduses on pakutud kolm peamist meetodit:[1]

  • kontekstipõhine klasterdamine
  • sõnapõhine klasterdamine
  • koosesinemisgraafid

Kontekstipõhine klasterdamine

[muuda | muuda lähteteksti]

See käsitlus baseerub hüpoteesil, et sõnad on semantiliselt sarnased siis, kui nad esinevad sarnastes dokumentides, sarnastes konteksti akendes, või sarnastes süntaktilistes kontekstides. Sihtsõna iga esinemine korpuses esitatakse kontekstivektorina. Need kontekstivektorid võivad olla kas esmased (First order vector), mis esindavad vaadeldavat konteksti otseselt; või teisesed (Second-order vector), mille puhul sihtsõna kontekstid on sarnased, kui nende sõnad esinevad sageli koos. Vektorid klasterdatakse seejärel gruppidesse, kus iga grupp tähistab sihtsõna ühte (erinevat) tähendust.[2]

Üks tuntud kontekstipõhise klasterdamise viise on kontekstigrupi diskriminatsiooni algoritm (Context-group discrimination algorithm), mis baseerub maatriksite arvutamise meetoditel.[3]

Sõnapõhine klasterdamine

[muuda | muuda lähteteksti]

Sõnapõhine klasterdamine on teistsugune käsitlus sõnatähenduse induktsioonile. Selle puhul klasterdatakse sõnu, mis on semantiliselt sarnased ning võivad seega kanda ka spetsiifilist tähendust. Lini algoritm[4] on prototüüpne sõnade klasterdamise näide, see baseerub korpuses ilmneval süntaktilise sõltuvuse statistikal ning toodab selle põhjal iga tuvastatud sihtsõna erineva tähenduse jaoks sõnade hulga.[5] Komitee põhjal klasterdamine (Clustering by committee, CBC) kasutab samuti süntaktilisi kontekste, kuid kasutab sõnadevaheliste sarnasuste kodeerimiseks sarnasusmaatriksit ning saab huvipakkuva sõna erinevad tähendused komiteede mõistelt.[6]

Koosesinemisgraafid

[muuda | muuda lähteteksti]

Koosesinemisgraafide peamine hüpotees eeldab, et sõna semantikat saab esitada koosesinemisgraafi abil, mille kaared kujutavad koosesinemisi ning tipud koosesinemise suhteid.[7] Need käsitlused on seotud sõnapõhise klasterdamise meetoditega, kus sõnade koosesinemisi saab leida sõnade grammatilise[8] või kollokatsiooniliste suhete alusel.[9] Üks edukas graafialgoritm on HyperLex, mille aluseks on koosesinemisgraafis pesade (Hub) leidmine, see peab suutma häälestada suurt parameetrite hulka.[10] Selle probleemiga võitlemiseks on pakutud mitmeid graafidel töötavaid algoritme, mille aluseks on lihtsad graafimustrid. Näiteks kumeruspõhine klasterdamine (Curvature clustering); ruudud, kolmnurgad ja rombid (Squares, triangles and diamonds, SquaT++); ja tasakaalustatud maksimaalse ulatusega puu põhine klasterdamine (Balanced Maximum spanning tree clustering, B-MST).[11] Mustrid üritavad tuvastada tähendusi, kasutades koosesinemisgraafi lokaalseid struktuuri omadusi. Üks randomiseeritud algoritm, mis jagab graafi kaari osadeks, edastades iteratiivselt peavoolu sõnumit (ehk sõna tähendust) naabritele (kaartele), on Hiina sosinad (Chinese whispers)[12]. Koosesinemisgraafide kasutamine on näidanud standardsetes hindamisülesannetes arengu nüüdistasemele vastavaid tulemusi.[10]

  • Sõnatähenduse induktsioon on parandanud veebist informatsiooni kättesaamist (Web information retrieval) väga mitmetähenduslike päringute korral.[9]
  • Lihtsad sõnatähenduse induktsiooni algoritmid parandavad märgatavalt veebi otsingu tulemuste klasterdamist ja parandavad otsingumootorite (nt Yahoo!) tagastatud otsingutulemuste mitmekesisust.[13]
  • Sõnatähenduse induktsiooni on kasutatud leksiliste allikate (nt WordNet) rikastamiseks.[14]
  • Senseclusters on vabalt kättesaadav avatud lähtekoodiga tarkvarapakett, mis klasterdab nii kontekstipõhiselt kui ka sõnapõhiselt.[15]
  1. Navigli, R. (2009). "Word Sense Disambiguation: A Survey" (PDF). ACM Computing Surveys. 41 (2): 1–69. DOI:10.1145/1459352.1459355. Vaadatud 27.11.2018.
  2. Hinrich, Schütze (1998). "Automatic Word Sense Discrimination". Vaadatud 27.11.2018. {{cite journal}}: viitemall journal nõuab parameetrit |journal= (juhend)
  3. Schütze, H. (1998). Dimensions of meaning. 1992 ACM/IEEE Conference on Supercomputing. Los Alamitos, CA: IEEE Computer Society Press. Lk 787–796. Vaadatud 27.11.2018.
  4. Lin, D. (1998). Automatic retrieval and clustering of similar words. 17th International Conference on Computational linguistics (COLING). Montreal, Canada. Lk 768–774. Vaadatud 27.11.2018.
  5. Van de Cruys, Tim; Apidianaki, Marianna (2011). "Latent Semantic Word Sense Induction and Disambiguation" (PDF). Originaali (PDF) arhiivikoopia seisuga 25.03.2018. Vaadatud 27.11.2018. {{cite journal}}: viitemall journal nõuab parameetrit |journal= (juhend)
  6. Lin, D.; Pantel, P. (2002). Discovering word senses from text (PDF). 8th International Conference on Knowledge Discovery and Data Mining (KDD). Edmonton, Canada. Lk 613–619. CiteSeerX 10.1.1.12.6771. Vaadatud 27.11.2018.
  7. Bollegala, Danushka; Maehara, Takanori; Yoshida, Yuichi; Kawarabayashi, Ken-ichi (2014). "Learning Word Representations from Relational Graphs": 2148. Vaadatud 27.11.2018. {{cite journal}}: viitemall journal nõuab parameetrit |journal= (juhend)
  8. Widdows, D.; Dorow, B. (2002). A graph model for unsupervised lexical acquisition. 19th International Conference on Computational Linguistics (COLING). Taipei, Taiwan. Lk 1–7. Vaadatud 27.11.2018.
  9. 9,0 9,1 Véronis, J. (2004). "Hyperlex: Lexical cartography for information retrieval". Computer Speech and Language. 18 (3): 223–252. DOI:10.1016/j.csl.2004.05.002.
  10. 10,0 10,1 Agirre, E.; Martinez, D.; De Lacalle, O. Lopez; Soroa, A. Two graph-based algorithms for state-of-the-art WSD. 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP). Sydney, Australia. Lk 585–593. Vaadatud 27.11.2018.
  11. Di Marco, A.; Navigli, R. (2013). "Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction". Computational Linguistics. MIT Press. 39 (3): 709–754. DOI:10.1162/coli_a_00148. Vaadatud 27.11.2018.
  12. Biemann, C. (2006). "Chinese Whispers – an Efficient Graph Clustering Algorithm and its Application to Natural Language Processing Problems". Vaadatud 27.11.2018. {{cite journal}}: viitemall journal nõuab parameetrit |journal= (juhend)
  13. Navigli, R.; Crisafulli, G. Inducing Word Senses to Improve Web Search Result Clustering (PDF). 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010). Massachusetts, USA: MIT Stata Center. Lk 116–126. Vaadatud 27.11.2018.
  14. Nasiruddin, M.; Schwab, D.; Tchechmedjiev, A.; Sérasset, G.; Blanchon, H. Induction de sens pour enrichir des ressources lexicales (Word Sense Induction for the Enrichment of Lexical Resources). 21ème conférence sur le Traitement Automatique des Langues Naturelles (TALN 2014). Marseille, France. Lk 598–603. Vaadatud 27.11.2018.
  15. "SenseClusters". Vaadatud 27.11.2018.

Välislingid

[muuda | muuda lähteteksti]