Phân bổ Pachinko

Trong học máyxử lý ngôn ngữ tự nhiên, mô hình phân bổ Pachinko (tiếng Anh: pachinko allocation model, viết tắt là PAM) là một mô hình chủ đề. Các mô hình chủ đề là một bộ thuật toán khám phá cấu trúc chủ đề (chuyên đề) ẩn của một tập tài liệu.[1] Thuật toán cải tiến dựa trên các mô hình chủ đề trước kia như phân bổ Dirichlet tiềm ẩn (LDA) bằng cách mô hình hóa sự tương quan giữa các chủ đề, bên cạnh các mối tương quan giữa các từ cấu thành nên các chủ đề đó. PAM cung cấp khả năng linh hoạt hơn và biểu đạt tốt hơn so với phân bổ Dirichlet tiềm ẩn.[2] Mặc dù đầu tiên được mô tả và triển khai trong lĩnh vực xử lý ngôn ngữ tự nhiên, thuật toán có thể áp dụng ứng dụng cho các lĩnh vực khác như tin sinh học. Mô hình được đặt tên theo tên các máy Pachinko—một trò chơi phổ biến ở Nhật Bản, trong đó các quả bóng kim loại dội xuống xung quanh một tập các chốt (ghim) phức tạp cho đến khi rơi trong các thùng khác nhau ở phía dưới.[3]

Lịch sử

[sửa | sửa mã nguồn]

Wei Li và Andrew McCallum là hai người đầu tiên giới thiệu phân bổ Pachiko vào năm 2006.[3] Ý tưởng đó được mở rộng với việc phân bổ Pachinko theo phân cấp bởi Li, McCallum, và David Mimno vào năm 2007.[4] Cùng năm, McCallum và các cộng sự đề xuất một Bayes "trước" phi tham số dành cho PAM dựa trên một biến thể của quy trình Dirichlet phân cấp (HDP).[2] Thuật toán đã được triển khai ở gói phần mềm dự án Mallet được xuất bản bởi nhóm McCallum ở Đại học Massachusetts Amherst.

PAM kết nối các từ ở tập V và các chủ đề ở tập T với một đồ thị xoay chiều có hướng (DAG) bất kỳ, với các nút chủ đề phân cấp và các lá là các từ vựng.

Xác suất sinh ra toàn bộ ngữ liệu là tích số của các xác suất đối với mỗi tài liệu[3]:

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Blei, David. "Topic modeling". Bản gốc lưu trữ ngày 2 tháng 10 năm 2012. Truy cập ngày 4 tháng 10 năm 2012.
  2. ^ a b Li, Wei; Blei, David; McCallum, Andrew (2007). "Nonparametric Bayes Pachinko Allocation". arXiv:1206.5270. {{Chú thích tạp chí}}: Chú thích magazine cần |magazine= (trợ giúp)
  3. ^ a b c Li, Wei; McCallum, Andrew (2006). "Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations" (PDF). Proceedings of the 23rd International Conference on Machine Learning.
  4. ^ Mimno, David; Li, Wei; McCallum, Andrew (2007). "Mixtures of Hierarchical Topics with Pachinko Allocation" (PDF). Proceedings of the 24th International Conference on Machine Learning. Bản gốc (PDF) lưu trữ ngày 18 tháng 5 năm 2018. Truy cập ngày 22 tháng 2 năm 2021.
  5. ^ Hofmann, Thomas (1999). "Probabilistic Latent Semantic Indexing" (PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. Bản gốc (PDF) lưu trữ ngày 14 tháng 12 năm 2010.
  6. ^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John (tháng 1 năm 2003). "Latent Dirichlet allocation". Journal of Machine Learning Research. Quyển 3. tr. pp. 993–1022. Bản gốc lưu trữ ngày 1 tháng 5 năm 2012. Truy cập ngày 19 tháng 7 năm 2010.

Liên kết ngoài

[sửa | sửa mã nguồn]


Chúng tôi bán
Bài viết liên quan
Nhân vật Ichika Amasawa - Youkoso Jitsuryoku Shijou Shugi no Kyoushitsu e
Nhân vật Ichika Amasawa - Youkoso Jitsuryoku Shijou Shugi no Kyoushitsu e
Ichika Amasawa (天あま沢さわ 一いち夏か, Amasawa Ichika) là một trong những học sinh năm nhất của Trường Cao Trung Nâng cao.
Tóm tắt chương 221: Cho và nhận - Jujutsu Kaisen
Tóm tắt chương 221: Cho và nhận - Jujutsu Kaisen
Bài viết sẽ tiết lộ nội dung truyện tuy nhiên thì các bạn chắc cũng biết luôn rồi: Gojo Satoru quay trở lại
Shadow Of Death: Premium Games
Shadow Of Death: Premium Games
Trong tựa game này người chơi sẽ vào vai một người chiến binh quả cảm trên chuyến hành trình chiến đấu và cố gắng dẹp tan bè lũ hắc ám ra khỏi vương quốc
Nhân vật Anya Forger - ∎ SPY×FAMILY ∎
Nhân vật Anya Forger - ∎ SPY×FAMILY ∎
Một siêu năng lực gia có khả năng đọc được tâm trí người khác, kết quả của một nghiên cứu thuộc tổ chức nào đó