Trong xử lý ngôn ngữ tự nhiên (NLP), vectơ từ (còn được gọi là biểu diễn từ, nhúng từ, hay word embedding) là một cách biểu diễn từ ngữ. Vectơ từ được sử dụng trong phân tích văn bản. Thông thường, cách biểu diễn này là một vectơ giá trị thực mã hóa ý nghĩa của từ theo cách mà các từ gần nhau trong không gian vectơ được kỳ vọng là có ý nghĩa tương tự nhau.[1] Vectơ từ có thể thu được bằng cách sử dụng các kỹ thuật mô hình ngôn ngữ và học đặc trưng (feature learning), trong đó các từ hoặc cụm từ trong từ điển được ánh xạ (mapping) thành các vectơ của số thực.
Các vectơ từ và cụm từ, khi được sử dụng làm biểu diễn đầu vào cơ bản, đã được chứng minh là nâng cao hiệu suất trong các nhiệm vụ NLP như phân tích cú pháp[9] và phân tích tình cảm.[10]
Trong ngữ nghĩa phân bố (distributional semantics), một phương pháp tiếp cận định lượng để hiểu nghĩa trong ngôn ngữ quan sát, các vectơ từ hoặc mô hình không gian đặc trưng ngữ nghĩa (semantic feature space model) đã được sử dụng như một "biểu diễn tri thức" (knowledge representation) từ khá lâu.[11] Các mô hình này nhằm định lượng và phân loại các sự tương đồng về ngữ nghĩa giữa các đơn vị ngôn ngữ dựa trên tính chất phân bố của chúng trong các mẫu dữ liệu ngôn ngữ lớn. Ý tưởng cơ bản là "một từ được xác định qua những từ ngữ mà nó đi kèm", và đã được đề xuất trong một bài viết năm 1957 bởi John Rupert Firth,[12] nhưng ý tưởng này cũng có nguồn gốc từ các nghiên cứu đương thời về hệ thống tìm kiếm[13] và trong tâm lý học nhận thức.[14]
Khái niệm về không gian ngữ nghĩa với các mục từ (từ hoặc các cụm từ có nhiều từ) được biểu diễn dưới dạng các vectơ hoặc vectơ từ dựa trên những thách thức trong việc tính toán các đặc tính phân bố và sử dụng chúng cho các ứng dụng thực tế để đo lường sự tương đồng giữa các từ, cụm từ, hoặc toàn bộ văn bản. Thế hệ đầu tiên của các mô hình không gian ngữ nghĩa là mô hình không gian vectơ dành cho truy xuất thông tin.[15][16][17] Các mô hình không gian vectơ này dành cho từ và dữ liệu phân bố của chúng, khi được triển khai dưới dạng đơn giản nhất, tạo ra một không gian vectơ rất thưa thớt với độ chiều lớn (còn được gọi là lời nguyền của chiều không gian - curse of dimensionality). Việc giảm số lượng chiều bằng cách sử dụng các phương pháp đại số tuyến tính như phân rã giá trị suy biến (singular value decomposition - SVD) đã dẫn đến sự ra đời của phân tích ngữ nghĩa tiềm ẩn vào cuối những năm 1980 và phương pháp chỉ số ngẫu nhiên (random indexing) để thu thập các ngữ cảnh đồng xuất hiện của từ.[18][19][20][21] Năm 2000, Yoshua Bengio và cộng sự đã cung cấp một loạt các bài báo có tựa đề "Các mô hình ngôn ngữ xác suất thần kinh" nhằm giảm số chiều lớn của các biểu diễn từ trong các ngữ cảnh bằng cách "học một biểu diễn phân tán cho các từ".[22][23][24]
Một nghiên cứu được xuất bản tại NeurIPS (NIPS) 2002 đã giới thiệu việc sử dụng cả vectơ từ và vectơ tài liệu bằng cách áp dụng phương pháp kernel CCA cho các kho ngữ liệu song ngữ (và đa ngữ), đồng thời cung cấp một ví dụ sớm về học tự giám sát (self-supervised learning) của các vectơ từ.[25]
Vectơ từ có hai kiểu khác nhau. Một kiểu, trong đó các từ được biểu diễn dưới dạng các vectơ của các từ cùng xuất hiện. Kiểu khác, trong đó các từ được biểu diễn dưới dạng các vectơ ngữ cảnh ngôn ngữ mà các từ xuất hiện; các kiểu này được nghiên cứu bởi Lavelli và cộng sự năm 2004.[26] Roweis và Saul đã công bố trên Science về cách sử dụng "nhúng tuyến tính cục bộ" (locally-linear embedding - LLE) để khám phá các biểu diễn của các cấu trúc dữ liệu có độ chiều lớn.[27] Hầu hết các kỹ thuật vectơ từ mới sau khoảng năm 2005 đều dựa vào kiến trúc mạng nơ-ron thay vì các mô hình xác suất và đại số, sau các công trình nền tảng của Yoshua Bengio và các đồng nghiệp.[28][29]
Cách tiếp cận này đã được nhiều nhóm nghiên cứu áp dụng sau các tiến bộ lý thuyết vào năm 2010 về chất lượng của các vectơ và tốc độ huấn luyện mô hình, cũng như sau khi các tiến bộ về phần cứng cho phép khám phá một không gian tham số rộng hơn một cách có lợi. Vào năm 2013, một nhóm tại Google do Tomas Mikolov dẫn dắt đã tạo ra word2vec, một bộ công cụ vectơ từ có thể huấn luyện các mô hình không gian vectơ nhanh hơn các phương pháp trước đó. Phương pháp word2vec đã được sử dụng rộng rãi trong thử nghiệm và đóng vai trò quan trọng trong việc nâng cao sự quan tâm đến vectơ từ như một công nghệ, đưa hướng nghiên cứu này từ lĩnh vực chuyên biệt sang thử nghiệm rộng rãi hơn và cuối cùng mở đường cho các ứng dụng thực tiễn.[30]
Lịch sử cho thấy, một trong những hạn chế chính của các vectơ từ tĩnh hoặc các mô hình không gian vectơ từ là những từ có nhiều nghĩa bị hợp nhất thành một biểu diễn duy nhất (một vectơ duy nhất trong không gian ngữ nghĩa). Nói cách khác, các hiện tượng từ đa nghĩa và từ đồng âm không được xử lý đúng cách. Ví dụ, trong câu "The club I tried yesterday was great!" (Câu lạc bộ tôi thử hôm qua rất tuyệt!), không rõ liệu từ club có liên quan đến club sandwich, clubhouse, golf club hay bất kỳ từ nào khác mà từ club có thể có. Nhu cầu xử lý nhiều nghĩa cho mỗi từ trong các vectơ khác nhau (vectơ từ đa nghĩa) là động lực cho nhiều đóng góp trong Xử lý Ngôn ngữ Tự nhiên (NLP) để chia nhỏ các biểu diễn đơn nghĩa thành các biểu diễn đa nghĩa.[31][32]
Hầu hết các cách tiếp cận để tạo ra các vectơ từ đa nghĩa có thể chia thành hai loại chính trong việc biểu diễn nghĩa của từ, đó là không giám sát và dựa trên kiến thức.[33] Dựa trên word2vec skip-gram, Multi-Sense Skip-Gram (MSSG)[34] thực hiện việc phân biệt và biểu diễn nghĩa từ một cách đồng thời, cải thiện thời gian huấn luyện, đồng thời giả định một số lượng nghĩa nhất định cho mỗi từ. Trong Multi-Sense Skip-Gram không tham số (NP-MSSG), số lượng nghĩa này có thể thay đổi tùy thuộc vào từng từ. Kết hợp kiến thức trước đó từ các cơ sở dữ liệu từ vựng (ví dụ, WordNet, ConceptNet, BabelNet), Most Suitable Sense Annotation (MSSA)[35] gán nhãn các nghĩa từ thông qua phương pháp không giám sát và dựa trên kiến thức, xem xét ngữ cảnh của từ trong một cửa sổ trượt được định trước. Sau khi các từ được phân biệt, chúng có thể được sử dụng trong một kỹ thuật vectơ từ chuẩn, nhờ đó các vectơ từ đa nghĩa được tạo ra. Kiến trúc của MSSA cho phép quy trình phân biệt và gán nhãn được thực hiện lặp lại một cách tự cải thiện.[36]
Việc sử dụng các vectơ từ đa nghĩa được biết đến là giúp cải thiện hiệu suất trong một số nhiệm vụ NLP, chẳng hạn như gán nhãn từ loại, xác định quan hệ ngữ nghĩa, liên quan ngữ nghĩa, nhận dạng thực thể có tên và phân tích cảm xúc.[37][38]
Từ cuối thập niên 2010, các biểu diễn ngữ nghĩa ngữ cảnh như ELMo và BERT đã được phát triển.[39] Khác với các vectơ từ tĩnh, những biểu diễn này ở mức token, nghĩa là mỗi lần xuất hiện của một từ sẽ có biểu diễn riêng của nó. Các vectơ này phản ánh tốt hơn bản chất đa nghĩa của các từ, vì các lần xuất hiện của từ trong các ngữ cảnh tương tự sẽ được đặt trong các vùng tương tự của không gian vectơ BERT.[40][41]
Vectơ từ cho các n-grams trong các chuỗi sinh học (ví dụ: DNA, RNA và Protein) đã được đề xuất bởi Asgari và Mofrad cho các ứng dụng tin sinh học.[42] Được gọi là bio-vectors (BioVec) để chỉ chung các chuỗi sinh học với protein-vectors (ProtVec) cho các protein (chuỗi axit amin) và gene-vectors (GeneVec) cho các chuỗi gen, biểu diễn này có thể được sử dụng rộng rãi trong các ứng dụng học sâu trong proteomics và genomics. Kết quả được trình bày bởi Asgari và Mofrad[42] cho thấy rằng BioVectors có thể mô tả các chuỗi sinh học theo các giải thích hóa sinh và vật lý sinh học về các mẫu tiềm ẩn.
Vectơ từ với các ứng dụng trong thiết kế trò chơi đã được đề xuất bởi Rabii và Cook[43] như một cách để khám phá lối chơi phát sinh (emergent gameplay) bằng cách sử dụng các nhật ký dữ liệu trò chơi. Quá trình này yêu cầu phiên âm các hành động xảy ra trong một trò chơi thành ngôn ngữ hình thức và sau đó sử dụng văn bản kết quả để tạo vectơ từ. Kết quả do Rabii và Cook[43] trình bày cho thấy rằng các vectơ kết quả có thể nắm bắt kiến thức chuyên môn về các trò chơi như cờ vua mà không được nêu rõ ràng trong quy tắc của trò chơi.
Ý tưởng này đã được mở rộng để biểu diễn cả các câu hoàn chỉnh hoặc thậm chí tài liệu, cũng gần giống như khái niệm "vectơ suy nghĩ" (thought vector). Vào năm 2015, một số nhà nghiên cứu đã đề xuất "vectơ bỏ qua câu" (skip-thought vector) như một phương pháp cải thiện chất lượng của dịch máy.[44] Một phương pháp phổ biến hơn gần đây để biểu diễn câu là Sentence-BERT, hay SentenceTransformers, phương pháp này cải tiến BERT bằng cách sử dụng cấu trúc mạng siamese và triplet.[45]
Phần mềm để huấn luyện và sử dụng vectơ từ bao gồm Word2vec của Tomáš Mikolov, GloVe của Đại học Stanford,[46] GN-GloVe,[47] biểu diễn Flair (Flair embedding),[37] ELMo của AllenNLP,[48]BERT,[49] fastText, Gensim,[50] Indra,[51] và Deeplearning4j. Phép phân tích thành phần chính (PCA) và T-Distributed Stochastic Neighbour Embedding (t-SNE) đều được sử dụng để giảm chiều của không gian vectơ từ và trực quan hóa vectơ từ và cụm từ.[52]
Vectơ từ có thể chứa đựng các định kiến và khuôn mẫu có trong bộ dữ liệu huấn luyện, như Bolukbasi và các cộng sự đã chỉ ra trong bài báo năm 2016 "Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings" rằng một bộ vectơ từ word2vec có sẵn công khai (và phổ biến) được huấn luyện trên văn bản Google News (một tập dữ liệu phổ biến), mặc dù được viết bởi các nhà báo chuyên nghiệp, vẫn cho thấy các liên kết từ ngữ không cân xứng phản ánh những định kiến giới tính và chủng tộc khi trích xuất các phép tương đồng từ.[54] Ví dụ, một trong những phép tương đồng được tạo ra bằng cách sử dụng vectơ từ đã đề cập là "man is to computer programmer as woman is to homemaker".[55][56]
Nghiên cứu của Jieyu Zhou và các cộng sự cho thấy rằng việc áp dụng các vectơ từ được huấn luyện này mà không giám sát cẩn thận có khả năng duy trì các định kiến hiện có trong xã hội, điều này được giới thiệu thông qua dữ liệu huấn luyện không thay đổi. Hơn nữa, vectơ từ thậm chí có thể làm gia tăng những định kiến này.[57][58]
^Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Distributed Representations of Words and Phrases and their Compositionality". arΧiv:1310.4546 [cs.CL].
^Lebret, Rémi; Collobert, Ronan (2013). “Word Emdeddings through Hellinger PCA”. Conference of the European Chapter of the Association for Computational Linguistics (EACL). 2014. arXiv:1312.5542.
^Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). Parsing with compositional vector grammars(PDF). Proc. ACL Conf. Bản gốc(PDF) lưu trữ ngày 11 tháng 8 năm 2016. Truy cập ngày 14 tháng 8 năm 2014.
^Firth, J.R. (1957). “A synopsis of linguistic theory 1930–1955”. Studies in Linguistic Analysis: 1–32. Reprinted in F.R. Palmer biên tập (1968). Selected Papers of J.R. Firth 1952–1959. London: Longman.
^Luhn, H.P. (1953). “A New Method of Recording and Searching Information”. American Documentation. 4: 14–16. doi:10.1002/asi.5090040104.
^Osgood, C.E.; Suci, G.J.; Tannenbaum, P.H. (1957). The Measurement of Meaning. University of Illinois Press.
^Salton, Gerard (1962). “Some experiments in the generation of word and document associations”. Proceedings of the December 4-6, 1962, fall joint computer conference on - AFIPS '62 (Fall). tr. 234–250. doi:10.1145/1461518.1461544. ISBN9781450378796. S2CID9937095.
^Karlgren, Jussi; Sahlgren, Magnus (2001). Uesaka, Yoshinori; Kanerva, Pentti; Asoh, Hideki (biên tập). “From words to understanding”. Foundations of Real-World Intelligence. CSLI Publications: 294–308.
^Sahlgren, Magnus (2005) An Introduction to Random Indexing, Proceedings of the Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering, TKE 2005, August 16, Copenhagen, Denmark
^Lavelli, Alberto; Sebastiani, Fabrizio; Zanoli, Roberto (2004). Distributional term representations: an experimental comparison. 13th ACM International Conference on Information and Knowledge Management. tr. 615–624. doi:10.1145/1031171.1031284.
^Morin, Fredric; Bengio, Yoshua (2005). “Hierarchical probabilistic neural network language model”(PDF). Trong Cowell, Robert G.; Ghahramani, Zoubin (biên tập). Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics. Proceedings of Machine Learning Research. R5. tr. 246–252.
^“word2vec”. Google Code Archive. Truy cập ngày 23 tháng 7 năm 2021.
^Reisinger, Joseph; Mooney, Raymond J. (2010). Multi-Prototype Vector-Space Models of Word Meaning. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Los Angeles, California: Association for Computational Linguistics. tr. 109–117. ISBN978-1-932432-65-7. Truy cập ngày 25 tháng 10 năm 2019.
^Huang, Eric. (2012). Improving word representations via global context and multiple word prototypes. OCLC857900050.
^Camacho-Collados, Jose; Pilehvar, Mohammad Taher (2018). "From Word to Sense Embeddings: A Survey on Vector Representations of Meaning". arΧiv:1805.04032 [cs.CL].
^Neelakantan, Arvind; Shankar, Jeevan; Passos, Alexandre; McCallum, Andrew (2014). “Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space”. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics. tr. 1059–1069. arXiv:1504.06654. doi:10.3115/v1/d14-1113. S2CID15251438.
^ abAkbik, Alan; Blythe, Duncan; Vollgraf, Roland (2018). “Contextual String Embeddings for Sequence Labeling”. Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, USA: Association for Computational Linguistics: 1638–1649.
^Li, Jiwei; Jurafsky, Dan (2015). “Do Multi-Sense Embeddings Improve Natural Language Understanding?”. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics. tr. 1722–1732. arXiv:1506.01070. doi:10.18653/v1/d15-1200. S2CID6222768.
^Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (tháng 6 năm 2019). “Proceedings of the 2019 Conference of the North”. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Association for Computational Linguistics: 4171–4186. doi:10.18653/v1/N19-1423. S2CID52967399.
^Lucy, Li, and David Bamman. "Characterizing English variation across social media communities with BERT." Transactions of the Association for Computational Linguistics 9 (2021): 538-556.
^Reif, Emily, Ann Yuan, Martin Wattenberg, Fernanda B. Viegas, Andy Coenen, Adam Pearce, and Been Kim. "Visualizing and measuring the geometry of BERT." Advances in Neural Information Processing Systems 32 (2019).
^Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks." In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pp. 3982-3992. 2019.
^“Embedding Viewer”. Embedding Viewer. Lexical Computing. Bản gốc lưu trữ ngày 8 tháng 2 năm 2018. Truy cập ngày 7 tháng 2 năm 2018.
^Bolukbasi, Tolga; Chang, Kai-Wei; Zou, James; Saligrama, Venkatesh; Kalai, Adam (2016). "Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings". arΧiv:1607.06520 [cs.CL].
^Bolukbasi, Tolga; Chang, Kai-Wei; Zou, James; Saligrama, Venkatesh; Kalai, Adam (2016-07-21). "Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings". arΧiv:1607.06520 [cs.CL].
Ponyo thực chất là một bộ phim kể về chuyến phiêu lưu đến thế giới bên kia sau khi ch.ết của hai mẹ con Sosuke và Ponyo chính là tác nhân gây nên trận Tsunami hủy diệt ấy.