Phân tích ngữ nghĩa tiềm ẩn

Phân tích ngữ nghĩa tiềm ẩn (tiếng Anh: Latent semantic analysis hay viết tắt thông dụng LSA) là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, đặc biệt là ngữ nghĩa phân phối, phân tích mối quan hệ giữa một tập các tài liệu và các thuật ngữ chứa trong các tài liệu này bằng cách sản sinh ra một tập khái niệm liên quan đến tài liệu và thuật ngữ. LSA giả định các từ gần gũi nhau về ngữ nghĩa sẽ xảy ra trong cùng các mẫu văn bản. Một ma trận chứa tần số từ ở mỗi tài liệu (hàng thể hiện các từ duy nhất và cột thể hiện mỗi tài liệu) được xây dựng từ một mẫu văn bản lớn và một kỹ thuật toán học gọi là phân rã giá trị số ít (SVD), được dùng để giảm thiểu số lượng dòng trong khi vẫn duy trì cấu trúc tương đương giữa các cột. Các tài liệu sau đó được so sánh bằng giá trị cosine của góc giữa hai véctơ (tích vô hướng giữa véctơ đơn vị của 2 véctơ) được hình thành bởi bất kỳ 2 cột nào. Các giá trị gần với 1 thể hiện các tài liệu giống nhau trong khi các giá trị gần 0 nghĩa là các tài liệu có nhiều khác biệt.^[1]

Tham khảo

^ Susan T. Dumais (2005). “Latent Semantic Analysis”. Annual Review of Information Science and Technology. 38: 188–230. doi:10.1002/aris.1440380105.

Đọc thêm

Landauer, Thomas; Foltz, Peter W.; Laham, Darrell (1998). “Introduction to Latent Semantic Analysis” (PDF). Discourse Processes. 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109. doi:10.1080/01638539809545028.
Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). “Indexing by Latent Semantic Analysis” (PDF). Journal of the American Society for Information Science. 41 (6): 391–407. CiteSeerX 10.1.1.33.2447. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Bản gốc (PDF) lưu trữ ngày 17 tháng 7 năm 2012. Original article where the model was first exposed.
Berry, Michael; Dumais, Susan T.; O'Brien, Gavin W. (1995). “Using Linear Algebra for Intelligent Information Retrieval”. Chú thích journal cần |journal= (trợ giúp) (PDF) Lưu trữ 2018-11-23 tại Wayback Machine. Illustration of the application of LSA to document retrieval.
“Latent Semantic Analysis”. InfoVis. Bản gốc lưu trữ ngày 18 tháng 2 năm 2020. Truy cập ngày 10 tháng 5 năm 2020.
Fridolin Wild (ngày 23 tháng 11 năm 2005). “An Open Source LSA Package for R”. CRAN. Truy cập ngày 20 tháng 11 năm 2006.
Thomas Landauer, Susan Dumais. “A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge”. Truy cập ngày 2 tháng 7 năm 2007.

[1] Susan T. Dumais (2005). “Latent Semantic Analysis”. Annual Review of Information Science and Technology. 38: 188–230. doi:10.1002/aris.1440380105.

[1]

x t s Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung	Hiểu ngôn ngữ tự nhiên Ngữ liệu văn bản Ngữ liệu tiếng nói Từ dừng Mô hình túi từ AI-đầy đủ N-gram (Bigram, Trigram)
Khai thác văn bản	Phân đoạn văn bản Gán nhãn từ loại Phân tích cú pháp sơ bộ Compound-term processing Collocation extraction Stemming Lemmatisation Nhận dạng thực thể có tên Coreference Phân tích tình cảm Khai phá khái niệm Phân tích cú pháp Nhập nhằng Ontology learning Trích xuất thuật ngữ Textual entailment Truecasing
Tóm tắt tự động	Tóm tắt đa văn bản Trích xuất câu Đơn giản hóa văn bản
Dịch tự động	Computer-assisted translation Example-based machine translation Rule-based machine translation Dịch máy bằng nơ-ron
Nhận dạng tự động và thu thập dữ liệu	Nhận dạng tiếng nói Tổng hợp giọng nói Nhận dạng ký tự quang học Sinh ngôn ngữ tự nhiên
Mô hình ngữ nghĩa phân phối	BERT Document-term matrix Explicit semantic analysis fastText GloVe Mô hình ngôn ngữ (lớn) Phân tích ngữ nghĩa tiềm ẩn Seq2seq Vectơ từ Word2vec
Mô hình chủ đề	Phân bổ Pachinko Phân bổ Dirichlet tiềm ẩn Phân tích ngữ nghĩa tiềm ẩn
Xem xét với sự trợ giúp máy tính	Automated essay scoring Concordancer Sửa lỗi chính tả Predictive text Spell checker Syntax guessing
Giao diện người dùng ngôn ngữ tự nhiên	Trợ lý ảo Chatbot Interactive fiction Question answering Giao diện giọng nói người dùng