Học nửa giám sát

Trong khoa học máy tính, học nửa giám sát là một lớp của kỹ thuật học máy, sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu chưa gán nhãn. Học nửa giám sát đứng giữa học không giám sát (không có bất kì dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều được gán nhãn). Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn, khi được sử dụng kết hợp với một chút dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác. Để gán nhãn dữ liệu cho một bài toán học máy thường đòi hỏi một chuyên viên có kĩ năng để phân loại bằng tay các ví dụ huấn luyện. Chi phí cho quy trình này khiến tập dữ liệu được gán nhãn hoàn toàn trở nên không khả thi, trong khi dữ liệu không gán nhãn thường tương đối rẻ tiền. Trong tình huống đó, học nửa giám sát có giá trị thực tiễn lớn lao.

Một ví dụ cho kỹ thuật học máy nửa giám sát là đồng huấn luyện (co-training), trong đó một hay nhiều bộ học được huấn luyện cùng một tập ví dụ nhưng mỗi bộ sử dụng một tập đặc trưng khác nhau, lý tưởng nhất là độc lập với nhau.

Một cách tiếp cận khác là mô hình hoá phân phối xác suất đồng thời của các đặc trưng và nhãn. Với dữ liệu chưa gán nhãn, có thể coi nhãn là "dữ liệu còn thiếu". Các kỹ thuật xử lý dữ liệu còn thiếu như là lấy mẫu Gibbs và tối ưu kỳ vọng có thể được sử dụng để ước lượng tham số.

Tham khảo

[sửa | sửa mã nguồn]

Sách tham khảo

[sửa | sửa mã nguồn]
  1. Abney, S., Semisupervised Learning for Computational Linguistics. Chapman & Hall/CRC, 2008.
  2. Blum, A., Mitchell, T. Combining labeled and unlabeled data with co-training Lưu trữ 2011-09-04 tại Wayback Machine. COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan Kaufmann, 1998, p. 92-100.
  3. Chapelle, O., B. Schölkopf and A. Zien: Semi-Supervised Learning. MIT Press, Cambridge, MA (2006). Further information Lưu trữ 2010-01-12 tại Wayback Machine.
  4. Huang T-M., Kecman V., Kopriva I. [1], Kernel Based Algorithms for Mining Huge Data Sets, Supervised, Semisupervised and Unsupervised Learning, Springer-Verlag, Berlin, Heidelberg, 260 pp. 96 illus., Hardcover, ISBN 3-540-31681-7, 2006.
  5. O'Neill, T. J. (1978) "Normal discrimination with unclassified observations". Journal of the American Statistical Association, 73, 821–826.
  6. Theodoridis S., Koutroumbas K. (2009) Pattern Recognition, 4th Edition, Academic Press, ISBN 978-1-59749-272-0.
  7. Zhu, X. Semi-supervised learning literature survey.
  8. Zhu, X., Goldberg, A. (2009) Introduction to Semi-Supervised Learning Lưu trữ 2015-05-06 tại Wayback Machine. Synthesis Lectures on Artificial Intelligence and Machine Learning, 3, 1-130. Morgan & Claypool Publishers, 2009.
  9. Song, E. et al. [2], Semi-supervised multi-class Adaboost by exploiting unlabeled data, Expert Systems with Applications, Vol. 38, Issue 6, p. 6720-6726, June 2011.
Chúng tôi bán
Bài viết liên quan
Tổng quan về Ma Tố trong Tensura
Tổng quan về Ma Tố trong Tensura
Ma Tố, mặc dù bản thân nó có nghĩa là "phân tử ma pháp" hoặc "nguyên tố ma pháp", tuy vậy đây không phải là ý nghĩa thực sự của nó
Câu hỏi hiện sinh được giải đáp qua
Câu hỏi hiện sinh được giải đáp qua "SOUL" như thế nào
Dù nỗ lực đến một lúc nào đó có lẽ khi chúng ta nhận ra cuộc sống là gì thì niềm tiếc nuối bao giờ cũng nhiều hơn sự hài lòng.
Hướng dẫn cân bằng chỉ số bạo kích trong Genshin Impact
Hướng dẫn cân bằng chỉ số bạo kích trong Genshin Impact
Tôi theo dõi cũng kha khá thời gian rồi và nhận thấy nhiều bạn vẫn còn đang gặp vấn đề trong việc cân bằng chỉ số bạo kích.
Chuỗi phim Halloween: 10 bộ phim tuyển tập kinh dị hay có thể bạn đã bỏ lỡ
Chuỗi phim Halloween: 10 bộ phim tuyển tập kinh dị hay có thể bạn đã bỏ lỡ
Hãy cùng khởi động cho mùa lễ hội Halloween với list phim kinh dị dạng tuyển tập. Mỗi bộ phim sẽ bao gồm những mẩu chuyện ngắn đầy rùng rợn