Phân loại xác suất

Trong học máy, một bộ phân loại xác suất là một bộ phân loại có khả năng dự đoán, dựa trên việc quan sát một đầu vào, một phân phối xác suất trên tập hợp các lớp thay vì chỉ đưa ra lớp có khả năng xảy ra cao nhất mà đầu vào đó thuộc về. Các bộ phân loại xác suất cung cấp kết quả phân loại không chỉ hữu ích tự thân ^[1] mà còn có giá trị khi được kết hợp trong các mô hình tổng hợp ensembles.

Các loại phân loại

Một cách chính thức, một bộ phân loại "thông thường" là một quy tắc hoặc hàm số, gán cho một mẫu $x$ một nhãn lớp $ŷ$

{\hat {y}}=f(x)

Các mẫu dữ liệu được lấy từ một tập hợp $X$ (ví dụ, tập hợp tất cả các tài liệu hoặc tập hợp tất cả các hình ảnh), trong khi các nhãn lớp tạo thành một tập hợp hữu hạn $Y$ được xác định trước khi tiến hành quá trình huấn luyện.

Các bộ phân loại xác suất mở rộng khái niệm này của bộ phân loại: thay vì là các hàm, chúng được biểu diễn dưới dạng các phân phối xác suất có điều kiện $\Pr(Y\vert X)$ . Điều này có nghĩa là, đối với một giá trị đầu vào $x\in X$ , chúng gán các xác suất cho tất cả $y\in Y$ (với tổng các xác suất này bằng 1). Việc phân loại "cứng" (hard classification) sau đó có thể được thực hiện bằng cách áp dụng quy tắc ra quyết định tối ưu^[2]^:39–40

{\hat {y}}=\operatorname {\arg \max } _{y}\Pr(Y=y\vert X)

Hoặc, nói cách khác, lớp được dự đoán là lớp có xác suất cao nhất.

Các bộ phân loại xác suất nhị phân còn được gọi là các mô hình hồi quy nhị phân trong thống kê. Trong kinh tế lượng, phân loại xác suất nói chung được gọi là lựa chọn rời rạc (discrete choice).Một số mô hình phân loại, chẳng hạn như Naive Bayes,hồi quy logistic và perceptron nhiều lớp (khi được huấn luyện với hàm mất mát phù hợp), vốn dĩ mang tính chất xác suất. Ngược lại, các mô hình khác như máy vector hỗ trợ (SVM) không có tính chất xác suất tự nhiên, nhưng vẫn có các phương pháp để chuyển đổi chúng thành các bộ phân loại xác suất.

Huấn luyện sinh và huấn luyện có điều kiện

Một số mô hình, chẳng hạn như hồi quy logistic, được huấn luyện theo cách có điều kiện: chúng tối ưu hóa trực tiếp xác suất có điều kiện $\Pr(Y\vert X)$ trên tập dữ liệu huấn luyện (xem thêm khái niệm giảm thiểu rủi ro thực nghiệm - empirical risk minimization). Các bộ phân loại khác, chẳng hạn như Naive Bayes, được huấn luyện theo phương pháp sinh: trong quá trình huấn luyện, phân phối có điều kiện theo lớp $\Pr(X\vert Y)$ và phân phối tiên nghiệm của lớp $\Pr(Y)$ được tìm ra, sau đó phân phối có điều kiện $\Pr(Y\vert X)$ được suy ra bằng cách sử dụng định lý Bayes.^[2]^:43

Hiệu chỉnh xác suất

Không phải tất cả các mô hình phân loại đều mang tính xác suất tự nhiên, và một số mô hình vốn dĩ có tính xác suất, điển hình như bộ phân loại Naive Bayes, cây quyết định và các phương pháp boosting, lại sinh ra các phân phối xác suất lớp bị biến dạng^[3]. Trong trường hợp của cây quyết định, nơi mà $Pr(y | x)$ là tỷ lệ các mẫu huấn luyện có nhãn $y$ trong lá mà $x$ kết thúc, những biến dạng này xảy ra vì các thuật toán học máy như C4.5 hoặc CART rõ ràng nhắm đến việc tạo ra các lá đồng nhất (cung cấp các xác suất gần bằng không hoặc một, từ đó tạo ra độ chệch cao) trong khi sử dụng ít mẫu để ước lượng tỷ lệ liên quan (độ phương sai cao)^[4].

Hiệu chỉnh có thể được đánh giá bằng cách sử dụng đồ thị hiệu chỉnh (còn được gọi là biểu đồ độ tin cậy)^[3]^[5]. Một đồ thị hiệu chỉnh thể hiện tỷ lệ các đối tượng trong mỗi lớp đối với các khoảng xác suất hoặc điểm số dự đoán (chẳng hạn như phân phối xác suất bị biến dạng hoặc "khoảng cách có dấu đến siêu phẳng" trong máy vector hỗ trợ). Các sai lệch so với hàm đồng nhất chỉ ra một bộ phân loại được hiệu chỉnh kém, trong đó các xác suất hoặc điểm số dự đoán không thể được sử dụng như các xác suất thực tế. Trong trường hợp này, có thể sử dụng một phương pháp để chuyển các điểm số này thành các xác suất thành viên lớp được hiệu chỉnh một cách chính xác.

Trong trường hợp nhị phân, một phương pháp phổ biến là áp dụng hiệu chỉnh Platt, phương pháp này học một mô hình hồi quy logistic trên các điểm số^[6]. Một phương pháp thay thế sử dụng hồi quy isotonic^[7] thường vượt trội hơn phương pháp của Platt khi có đủ dữ liệu huấn luyện^[3].

Trong trường hợp [phân loại đa lớp]], có thể sử dụng phương pháp giảm bớt thành các nhiệm vụ nhị phân, sau đó thực hiện hiệu chỉnh đơn biến với một thuật toán như đã mô tả ở trên và tiếp tục áp dụng thuật toán ghép cặp theo cặp của Hastie và Tibshirani^[8].

Đánh giá phân loại xác suất

Các chỉ số đánh giá thường được sử dụng để so sánh xác suất dự đoán với kết quả quan sát bao gồm log loss, điểm Brier và một loạt các lỗi hiệu chỉnh. Chỉ số log loss cũng được sử dụng như một hàm mất mát trong quá trình huấn luyện các mô hình hồi quy logistic.

Các chỉ số lỗi hiệu chỉnh nhằm mục đích định lượng mức độ mà đầu ra của bộ phân loại xác suất được hiệu chỉnh tốt. Như Philip Dawid đã phát biểu, "một người dự báo được hiệu chỉnh tốt nếu, ví dụ, đối với những sự kiện mà anh ta gán xác suất 30%, tỷ lệ sự kiện thực sự xảy ra trong dài hạn là 30%."^[9]. Công trình nền tảng trong lĩnh vực đo lường lỗi hiệu chỉnh là chỉ số Lỗi Hiệu Chỉnh Mong Đợi (Expected Calibration Error - ECE)^[10]. Các công trình gần đây đề xuất các biến thể của ECE nhằm giải quyết các hạn chế của chỉ số ECE có thể phát sinh khi các điểm số của bộ phân loại tập trung vào một tập con hẹp của khoảng [0,1], bao gồm Lỗi Hiệu Chỉnh Thích Ứng (Adaptive Calibration Error - ACE)^[11] và Lỗi Hiệu Chỉnh Dựa Trên Kiểm Tra (Test-based Calibration Error - TCE)^[12] .

Một phương pháp được sử dụng để gán điểm số cho các cặp xác suất dự đoán và kết quả rời rạc thực tế, nhằm so sánh các phương pháp dự đoán khác nhau, được gọi là quy tắc tính điểm (scoring rule).

Các Triển Khai Phần Mềm

MoRPE^[13] là một bộ phân loại xác suất có thể huấn luyện, sử dụng hồi quy isotonic để hiệu chỉnh xác suất. Nó giải quyết bài toán phân loại đa lớp thông qua phương pháp giảm bớt thành các nhiệm vụ nhị phân. Đây là một loại máy hạt nhân sử dụng hạt nhân đa thức không đồng nhất.

Tài liệu tham khảo

^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. tr. 348. Bản gốc lưu trữ ngày 26 tháng 1 năm 2015. [I]n data mining applications the interest is often more in the class probabilities $p_{\ell }(x),\ell =1,\dots ,K$ themselves, rather than in performing a class assignment.
^ ^a ^b Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer.
^ ^a ^b ^c Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicting good probabilities with supervised learning (PDF). ICML. doi:10.1145/1102351.1102430. Bản gốc (PDF) lưu trữ ngày 11 tháng 3 năm 2014.
^ Zadrozny, Bianca; Elkan, Charles (2001). Obtaining calibrated probability estimates from decision trees and naive Bayesian classifiers (PDF). ICML. tr. 609–616.
^ “Probability calibration”. jmetzen.github.io. Truy cập ngày 18 tháng 6 năm 2019.
^ Platt, John (1999). “Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods”. Advances in Large Margin Classifiers. 10 (3): 61–74.
^ Zadrozny, Bianca; Elkan, Charles (2002). “Transforming classifier scores into accurate multiclass probability estimates” (PDF). Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '02. tr. 694–699. CiteSeerX 10.1.1.164.8140. doi:10.1145/775047.775151. ISBN 978-1-58113-567-1. S2CID 3349576. CiteSeerX: 10.1.1.13.7457.
^ Hastie, Trevor; Tibshirani, Robert (1998). “Classification by pairwise coupling”. The Annals of Statistics. 26 (2): 451–471. CiteSeerX 10.1.1.309.4720. doi:10.1214/aos/1028144844. Zbl 0932.62071. CiteSeerX: 10.1.1.46.6032.
^ Dawid, A. P (1982). “The Well-Calibrated Bayesian”. Journal of the American Statistical Association. 77 (379): 605–610. doi:10.1080/01621459.1982.10477856.
^ Naeini, M.P.; Cooper, G.; Hauskrecht, M. (2015). “Obtaining well calibrated probabilities using bayesian binning” (PDF). Proceedings of the AAAI Conference on Artificial Intelligence.
^ Nixon, J.; Dusenberry, M.W.; Zhang, L.; Jerfel, G.; Tran, D. (2019). “Measuring Calibration in Deep Learning” (PDF). CVPR workshops.
^ Matsubara, T.; Tax, N.; Mudd, R.; Guy, I. (2023). “TCE: A Test-Based Approach to Measuring Calibration Error”. Proceedings of the Thirty-Ninth Conference on Uncertainty in Artificial Intelligence (UAI). arXiv:2306.14343.
^ “MoRPE”. GitHub. Truy cập ngày 17 tháng 2 năm 2023.

[1] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. tr. 348. Bản gốc lưu trữ ngày 26 tháng 1 năm 2015. [I]n data mining applications the interest is often more in the class probabilities $p_{\ell }(x),\ell =1,\dots ,K$ themselves, rather than in performing a class assignment.

[bishop-2] Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer.

[Niculescu-3] Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicting good probabilities with supervised learning (PDF). ICML. doi:10.1145/1102351.1102430. Bản gốc (PDF) lưu trữ ngày 11 tháng 3 năm 2014.

[4] Zadrozny, Bianca; Elkan, Charles (2001). Obtaining calibrated probability estimates from decision trees and naive Bayesian classifiers (PDF). ICML. tr. 609–616.

[5] “Probability calibration”. jmetzen.github.io. Truy cập ngày 18 tháng 6 năm 2019.

[platt99-6] Platt, John (1999). “Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods”. Advances in Large Margin Classifiers. 10 (3): 61–74.

[7] Zadrozny, Bianca; Elkan, Charles (2002). “Transforming classifier scores into accurate multiclass probability estimates” (PDF). Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '02. tr. 694–699. CiteSeerX 10.1.1.164.8140. doi:10.1145/775047.775151. ISBN 978-1-58113-567-1. S2CID 3349576. CiteSeerX: 10.1.1.13.7457.

[8] Hastie, Trevor; Tibshirani, Robert (1998). “Classification by pairwise coupling”. The Annals of Statistics. 26 (2): 451–471. CiteSeerX 10.1.1.309.4720. doi:10.1214/aos/1028144844. Zbl 0932.62071. CiteSeerX: 10.1.1.46.6032.

[9] Dawid, A. P (1982). “The Well-Calibrated Bayesian”. Journal of the American Statistical Association. 77 (379): 605–610. doi:10.1080/01621459.1982.10477856.

[10] Naeini, M.P.; Cooper, G.; Hauskrecht, M. (2015). “Obtaining well calibrated probabilities using bayesian binning” (PDF). Proceedings of the AAAI Conference on Artificial Intelligence.

[11] Nixon, J.; Dusenberry, M.W.; Zhang, L.; Jerfel, G.; Tran, D. (2019). “Measuring Calibration in Deep Learning” (PDF). CVPR workshops.

[12] Matsubara, T.; Tax, N.; Mudd, R.; Guy, I. (2023). “TCE: A Test-Based Approach to Measuring Calibration Error”. Proceedings of the Thirty-Ninth Conference on Uncertainty in Artificial Intelligence (UAI). arXiv:2306.14343.

[13] “MoRPE”. GitHub. Truy cập ngày 17 tháng 2 năm 2023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]