আরোহী পদ্ধতিতে শব্দার্থে উপনয়ন

পরিগণনামূলক ভাষাবিজ্ঞানে, আরোহী পদ্ধতিতে শব্দার্থে উপনয়ন (ইংরেজি: Word Sense Induction; সংক্ষেপে WSI) অথবা বৈষম্য, প্রাকৃতিক ভাষা প্রক্রিয়াকরণের একটি খোলা সমস্যা, যা একটি শব্দের শব্দার্থ (অর্থাত অর্থ) স্বয়ংক্রিয় সনাক্তকরণ সম্পৃক্তি প্রকাশ করে। প্রদত্ত যে, অর্থপূর্ন শব্দ আরোহের উত্পাদ উদ্দিষ্ট শব্দের জন্য একটি অর্থের সেট (অর্থ জায়), এই কার্যতালিকা কঠোরভাবে শব্দার্থে দ্ব্যর্থতা নিরসনের সাথে সম্পর্কযুক্ত, যা একটি পূর্বনির্ধারিত অর্থ জায়ের উপর নির্ভর করে এবং শব্দের অণুষঙ্গে দ্ব্যর্থতা সমাধানের লক্ষ্যে কাজ করে।

পন্থা ও পদ্ধতি

[সম্পাদনা]

অর্থপূর্ন শব্দ আরোহ আলগোরিদিমগুলি উত্পাদ হল একটি অণুষঙ্গের গুচ্ছবদ্ধতা, যেখানে উদ্দিষ্ট শব্দ অথবা একটি শব্দের গুচ্ছবদ্ধতা সম্পর্কযুক্ত উদ্দিষ্ট শব্দ উৎপন্ন করে। সাহিত্যের তিনটি প্রধান পদ্ধতি প্রস্তাব করা হয়েছে[]:

  • প্রসঙ্গ গুচ্ছবদ্ধতা
  • শব্দ গুচ্ছবদ্ধতা
  • সহ-ঘটন চিত্র

প্রসঙ্গ গুচ্ছবদ্ধতা

[সম্পাদনা]

প্রসঙ্গ গুচ্ছবদ্ধতায় একটি উদ্দিষ্ট শব্দের প্রতিটি সংঘটন একটি প্রসঙ্গ একমাত্রিক সারি হিসাবে প্রতিনিধিত্ব করা হয়। এই একমাত্রিক সারিগুলো পরে গুচ্ছবদ্ধভাবে দলবদ্ধ করা হয়, প্রতিটি উদ্দিষ্ট শব্দটির বিভিন্ন অর্থ প্রতিনিধিত্ব করে। এই ধরনের ধাতুগত পদ্ধতি শব্দ স্থান ধারণার উপর ভিত্তি করে নির্মিত,[] যা একটি একটি একমাত্রিক সারি যার আয়তন হচ্ছে শব্দ।

শব্দ গুচ্ছবদ্ধতা

[সম্পাদনা]

দ্বিতীয় পদ্ধতিটি উপলক্ষিত গুচ্ছবদ্ধ শব্দগুলোর পদ্ধতি দ্বারা গঠিত যা শব্দার্থগতভাবে অনুরূপ এবং এইভাবে একটি সুনির্দিষ্ট অর্থ বহন করতে পারে। এর মধ্যে রয়েছে লিন-এর কলনবিধি[] এবং সমিতি দ্বারা গুচ্ছবদ্ধতা কলনবিধি.[]

সহ-ঘটন চিত্র

[সম্পাদনা]

অর্থপূর্ন শব্দ আরোহের তৃতীয় প্রধান পদ্ধতি সহ-ঘটন চিত্র ধারণার উপর ভিত্তি করে তৈরি, যা একটি চিত্র যার উদ্দিষ্ট সম্পর্কযুক্ত শব্দের ছেদবিন্দুগুলো হল শব্দসমষ্টি এবং প্রান্ত সহ-ঘটনা শব্দগুলির জোড়া সংযোগ। পন্থার অন্তর্ভুক্ত: মার্কভ গুচ্ছবদ্ধতা কলনবিধি ব্যবহার করা,[] হাইপারলেক্স[] এবং উহার রূপগুলোর ব্যবহার[]

প্রয়োগ

[সম্পাদনা]
  • যখন অত্যন্ত দ্ব্যর্থক কোয়েরি নিযুক্ত করা হয় তখন অর্থপূর্ন শব্দ আরোহে ওয়েব তথ্য উদ্ধারের সুফল লাভ দেখানো হয়েছে।[]
  • সাধারণ অর্থপূর্ন শব্দ আরোহ কলনবিধিগুলি ওয়েব অনুসন্ধান ফলাফল গুচ্ছবদ্ধতার যথেষ্ট উন্নতিসাধন করে এবং অনুসন্ধান যন্ত্র কর্তৃক ফেরত অনুসন্ধান ফলাফল বহুমুখীতা উন্নত করে, যেমন ইয়াহু![]

সফ্টওয়্যার

[সম্পাদনা]
  • SenseClusters একটি সহজলভ্য ওপেন সোর্স সফ্টওয়্যার প্যাকেজ যা উভয় প্রসঙ্গ গুচ্ছবদ্ধতা এবং শব্দ গুচ্ছবদ্ধতা সমাপন করে।

আরও দেখুন

[সম্পাদনা]

তথ্যসূত্র

[সম্পাদনা]
  1. R. Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1–69
  2. H. Schutze. Dimensions of meaning. In Proc. of the 1992 ACM/IEEE Conference on Supercomputing. IEEE Computer Society Press, Los Alamitos, CA, 1992, pp. 787–796
  3. D. Lin. Automatic retrieval and clustering of similar words ওয়েব্যাক মেশিনে আর্কাইভকৃত ৪ মার্চ ২০১২ তারিখে. In Proc. of the 17th International Conference on Computational linguistics (COLING), Montreal, Canada, 1998, pp. 768–774.
  4. D. Lin and P. Pantel. Discovering word senses from text. In Proc. of the 8th International Conference on Knowledge Discovery and Data Mining (KDD), Edmonton, Canada, 2002, pp. 613–619.
  5. D. Widdows and B. Dorow. A graph model for unsupervised lexical acquisition ওয়েব্যাক মেশিনে আর্কাইভকৃত ৭ আগস্ট ২০১১ তারিখে. In Proc. of the 19th International Conference on Computational Linguistics (COLING), Taipei, Taiwan, 2002, pp. 1–7
  6. J. Véronis. Hyperlex: Lexical cartography for information retrieval ওয়েব্যাক মেশিনে আর্কাইভকৃত ২৪ জুলাই ২০১১ তারিখে. Computer Speech and Language, 18(3), 2004, pp. 223–252
  7. E. Agirre, D. Martinez, O. Lopez De Lacalle, A. Soroa. Two graph-based algorithms for state-of-the-art WSD ওয়েব্যাক মেশিনে আর্কাইভকৃত ৭ মার্চ ২০১০ তারিখে. In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP), Sydney, Australia, pp. 585–593
  8. R. Navigli, G. Crisafulli. Inducing Word Senses to Improve Web Search Result Clustering. Proc. of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010), MIT Stata Center, Massachusetts, USA, pp. 116–126.