Học nửa giám sát

Trong khoa học máy tính, học nửa giám sát là một lớp của kỹ thuật học máy, sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu chưa gán nhãn. Học nửa giám sát đứng giữa học không giám sát (không có bất kì dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều được gán nhãn). Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn, khi được sử dụng kết hợp với một chút dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác. Để gán nhãn dữ liệu cho một bài toán học máy thường đòi hỏi một chuyên viên có kĩ năng để phân loại bằng tay các ví dụ huấn luyện. Chi phí cho quy trình này khiến tập dữ liệu được gán nhãn hoàn toàn trở nên không khả thi, trong khi dữ liệu không gán nhãn thường tương đối rẻ tiền. Trong tình huống đó, học nửa giám sát có giá trị thực tiễn lớn lao.

Một ví dụ cho kỹ thuật học máy nửa giám sát là đồng huấn luyện (co-training), trong đó một hay nhiều bộ học được huấn luyện cùng một tập ví dụ nhưng mỗi bộ sử dụng một tập đặc trưng khác nhau, lý tưởng nhất là độc lập với nhau.

Một cách tiếp cận khác là mô hình hoá phân phối xác suất đồng thời của các đặc trưng và nhãn. Với dữ liệu chưa gán nhãn, có thể coi nhãn là "dữ liệu còn thiếu". Các kỹ thuật xử lý dữ liệu còn thiếu như là lấy mẫu Gibbs và tối ưu kỳ vọng có thể được sử dụng để ước lượng tham số.

Tham khảo

[sửa | sửa mã nguồn]

Sách tham khảo

[sửa | sửa mã nguồn]
  1. Abney, S., Semisupervised Learning for Computational Linguistics. Chapman & Hall/CRC, 2008.
  2. Blum, A., Mitchell, T. Combining labeled and unlabeled data with co-training Lưu trữ 2011-09-04 tại Wayback Machine. COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan Kaufmann, 1998, p. 92-100.
  3. Chapelle, O., B. Schölkopf and A. Zien: Semi-Supervised Learning. MIT Press, Cambridge, MA (2006). Further information Lưu trữ 2010-01-12 tại Wayback Machine.
  4. Huang T-M., Kecman V., Kopriva I. [1], Kernel Based Algorithms for Mining Huge Data Sets, Supervised, Semisupervised and Unsupervised Learning, Springer-Verlag, Berlin, Heidelberg, 260 pp. 96 illus., Hardcover, ISBN 3-540-31681-7, 2006.
  5. O'Neill, T. J. (1978) "Normal discrimination with unclassified observations". Journal of the American Statistical Association, 73, 821–826.
  6. Theodoridis S., Koutroumbas K. (2009) Pattern Recognition, 4th Edition, Academic Press, ISBN 978-1-59749-272-0.
  7. Zhu, X. Semi-supervised learning literature survey.
  8. Zhu, X., Goldberg, A. (2009) Introduction to Semi-Supervised Learning Lưu trữ 2015-05-06 tại Wayback Machine. Synthesis Lectures on Artificial Intelligence and Machine Learning, 3, 1-130. Morgan & Claypool Publishers, 2009.
  9. Song, E. et al. [2], Semi-supervised multi-class Adaboost by exploiting unlabeled data, Expert Systems with Applications, Vol. 38, Issue 6, p. 6720-6726, June 2011.
Chúng tôi bán
Bài viết liên quan
Người anh trai quốc dân Choso - Chú thuật hồi
Người anh trai quốc dân Choso - Chú thuật hồi
Choso của chú thuật hồi chiến: không theo phe chính diện, không theo phe phản diện, chỉ theo phe em trai
"I LOVE YOU 3000" Câu thoại hot nhất AVENGERS: ENDGAME có nguồn gốc từ đâu?
“I love you 3000” dịch nôm na theo nghĩa đen là “Tôi yêu bạn 3000 ”
Giới thiệu nhân vật Kaeya Alberich - Genshin Impact
Giới thiệu nhân vật Kaeya Alberich - Genshin Impact
Đêm mà Kaeya Alberich nhận được Vision trời đổ cơn mưa to
Review Ayato - Genshin Impact
Review Ayato - Genshin Impact
Về lối chơi, khả năng cấp thủy của Ayato theo mình đánh giá là khá yếu so với những nhân vật cấp thủy hiện tại về độ dày và liên tục của nguyên tố