Mô hình ngôn ngữ

Một mô hình ngôn ngữ là mô hình xác suất của một ngôn ngữ tự nhiên[1] có thể tạo ra xác suất của một chuỗi từ, dựa trên ngữ liệu văn bản trong một hoặc nhiều ngôn ngữ mà nó được đào tạo. Năm 1980, mô hình ngôn ngữ thống kê đầu tiên được đề xuất, và trong suốt thập kỷ IBM thực hiện các thử nghiệm theo phong cách 'Shannon', trong đó nhận diện các nguồn tiềm năng để cải thiện mô hình ngôn ngữ thông qua việc quan sát và phân tích khả năng của con người trong việc dự đoán hoặc sửa chữa văn bản.[2]

Mô hình ngôn ngữ hữu ích cho nhiều tác vụ, bao gồm nhận dạng tiếng nói[3] (giúp ngăn chặn dự đoán chuỗi có xác suất thấp (ví dụ: chuỗi không có ý nghĩa)), dịch tự động,[4] sinh ngôn ngữ tự nhiên, nhận dạng ký tự quang học, nhận dạng chữ viết tay,[5]truy hồi thông tin.[6][7]

Mô hình ngôn ngữ, hiện tại là hình thức tiên tiến nhất, kết hợp giữa các bộ dữ liệu lớn hơn (thường sử dụng dữ liệu từ internet công khai), mạng thần kinh truyền thẳng, và transformer. Chúng đã thay thế các mô hình dựa trên mạng thần kinh hồi quy, trước đó đã thay thế các mô hình thống kê thuần túy, như mô hình N-gram.

Chú thích

[sửa | sửa mã nguồn]
  1. ^ Jurafsky, Dan; Martin, James H. (2021). "N-gram Language Models". Speech and Language Processing (ấn bản thứ 3). Lưu trữ bản gốc ngày 22 tháng 5 năm 2022. Truy cập ngày 24 tháng 5 năm 2022.
  2. ^ Rosenfeld, Ronald (2000). "Two decades of statistical language modeling: Where do we go from here?". Proceedings of the IEEE. 88 (8).
  3. ^ Kuhn, Roland, and Renato De Mori (1990). "A cache-based natural language model for speech recognition". IEEE transactions on pattern analysis and machine intelligence 12.6: 570–583.
  4. ^ Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation" Lưu trữ ngày 15 tháng 8 năm 2020 tại Wayback Machine. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
  5. ^ Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition" Lưu trữ ngày 11 tháng 11 năm 2020 tại Wayback Machine. 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
  6. ^ Ponte, Jay M.; Croft, W. Bruce (1998). A language modeling approach to information retrieval. Proceedings of the 21st ACM SIGIR Conference. Melbourne, Australia: ACM. tr. 275–281. doi:10.1145/290941.291008.
  7. ^ Hiemstra, Djoerd (1998). A linguistically motivated probabilistically model of information retrieval. Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries. LNCS, Springer. tr. 569–584. doi:10.1007/3-540-49653-X_34.
Chúng tôi bán
Bài viết liên quan
Giới thiệu AG Izumo the Reinoha - Artery Gear: Fusion
Giới thiệu AG Izumo the Reinoha - Artery Gear: Fusion
Nhìn chung Izumo có năng lực sinh tồn cao, có thể tự buff ATK và xoá debuff trên bản thân, sát thương đơn mục tiêu tạo ra tương đối khủng
That Time I Got Reincarnated as a Slime: Trinity in Tempest
That Time I Got Reincarnated as a Slime: Trinity in Tempest
Trinity in Tempest mang đến cho độc giả những pha hành động đầy kịch tính, những môi trường phong phú và đa dạng, cùng với những tình huống hài hước và lôi cuốn
Nhân vật Yamada Asaemon Sagiri -  Jigokuraku
Nhân vật Yamada Asaemon Sagiri - Jigokuraku
Yamada Asaemon Sagiri (山田やま浅だあェえも門ん 佐さ切ぎり) là Asaemon hạng 12 của gia tộc Yamada, đồng thời là con gái của cựu thủ lĩnh gia tộc, Yamada Asaemon Kichij
Nhân vật Izana Kurokawa trong Tokyo Revengers
Nhân vật Izana Kurokawa trong Tokyo Revengers
Izana là một người đàn ông mang nửa dòng máu Philippines, nửa Nhật Bản, có chiều cao trung bình với đôi mắt to màu tím, nước da nâu nhạt và mái tóc trắng ngắn thẳng được tạo kiểu rẽ ngôi giữa