Thuật toán cực đại hóa kỳ vọng

Thuật toán cực đại hóa kỳ vọng (tiếng Anh hay được gọi là EM viết tắt của Expectation-Maximization) là một kỹ thuật được dùng rộng rãi trong thống kêhọc máy để giải bài toán tìm hợp lý cực đại (MLE) hoặc hậu nghiệm cực đại (MAP) của một mô hình xác suất có các biến ẩn. EM sở dĩ được gọi vậy một phần do thuật toán này bao gồm việc thực hiện liên tiếp tại mỗi vòng lặp 2 quá trình (E): tính kỳ vọng của hàm hợp lý của giá trị các ẩn biến dựa theo ước lượng đang có về các tham số của mô hình và (M): ước lượng tham số của mô hình để cực đại hóa giá trị của hàm tính được ở (E). Các giá trị tìm được ở (E) và (M) tại mỗi vòng lặp sẽ được dùng cho việc tính toán ở vòng lặp kế tiếp.

Lịch sử

[sửa | sửa mã nguồn]

Năm 1977, ba nhà khoa học máy tính Arthur Dempster, Nan Laird, and Donald Rubin viết một bài báo giới thiệu về thuật toán EM [1] và các tính chất và áp dụng của nó trong bài toán hợp lý cực đại trong trường hợp dữ liệu không đầy đủ (thiếu dữ liệu hoặc có chứa biến ẩn) qua đó phổ biến tên gọi trên. Dù sao, các tác giả có ghi lưu ý rằng ý tưởng trên đã xuất hiện ở một số công trình của nhiều ngành khác nhau từ trước đó.

Giới thiệu

[sửa | sửa mã nguồn]

Trong thống kê học, nếu một mô hình xác suất có chứa các biến ẩn hoặc thiếu dữ liệu thì việc tính toán ước lượng của các tham số trở nên khó khăn hoặc không thực hiện được. Thật vậy, thông thường ta cần một trong 2 đại lượng trên (biến ẩn và tham số) để ước lượng giá trị của cái còn lại.

Giải thuật EM cho ta một phương pháp giải quyết bài toán trên một lớp bài toán tương đối rộng. Nguyên lý của nó là tại mỗi bước (E) ta giả thiết rằng tham số đã biết và cố gắng ước lượng giá trị của biến ẩn này và dùng giá trị tìm được này ở bước (M) để tìm giá trị của các tham số. Ta có thể chứng minh được rằng tại mỗi vòng lặp, ta luôn tìm được kết quả tốt hơn của vòng lặp trước đó, vì thế EM luôn hội tụ về giá trị tối ưu (địa phương).

Phát biểu bài toán

[sửa | sửa mã nguồn]

Xét một mô hình thống kê bao gồm 1 tập dữ liệu quan sát được , 1 tập dữ liệu bị thiếu hoặc ẩn biến và 1 vector tham số , cùng hàm số hợp lý (likelihood) .

Đầu tiên giải thuật EM sẽ gán với một bộ giá trị khởi điểm. Sau đó, EM sẽ tuần tự thực hiện các vòng lặp bằng cách áp dụng tại mỗi vòng 2 bước sau: Tại vòng lặp thứ :

  • (E): Tính kỳ vọng của log hàm hợp lý (log-likelihood) của phân phối có điều kiện của cho trước giá trị của và ước lượng của có được ở vòng sát trước:
  • (M): Ước lượng giá trị tham số để cực đại hoá đại lượng ở (E):

Thuật toán lặp lại (E) và (M) liên tiếp cho đến khi điều kiện dừng được thoả mãn.

Ứng dụng

[sửa | sửa mã nguồn]

EM được dùng rộng rãi trong thống kê, học máy, Xử lý ngôn ngữ tự nhiên v.v. Thuật toán K-Means phổ biến trong phân cụm dữ liệu có thể xem là một trường hợp riêng của EM.


Chú thích

[sửa | sửa mã nguồn]
  1. ^ Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). “Maximum Likelihood from Incomplete Data via the EM Algorithm”. Journal of the Royal Statistical Society, Series B. 39 (1): 1–38. JSTOR 2984875. MR 0501537.

Liên kết ngoài

[sửa | sửa mã nguồn]
Chúng tôi bán
Bài viết liên quan
Sự cần thiết của Tự mình suy tư vấn đề
Sự cần thiết của Tự mình suy tư vấn đề
Trước đây, mình hay có thói quen hễ thấy vấn đề gì khó xíu là chạy đi tham khảo Google cho tiện
Công thức nước chấm thần thánh
Công thức nước chấm thần thánh
Nước chấm rất quan trọng trong bữa ăn cơm của người Việt Nam. Các bữa cơm hầu như không thể thiếu nó
Bốn nguyên tắc khi mở miệng của đàn ông
Bốn nguyên tắc khi mở miệng của đàn ông
Ăn nói thời nay không chỉ gói gọn trong giao tiếp, nó còn trực tiếp liên quan đến việc bạn kiếm tiền, xây dựng mối quan hệ cũng như là duy trì hạnh phúc cho mình
[Preview] Koigoku No Toshi – Thành phố chúng ta đang sống là giả?
[Preview] Koigoku No Toshi – Thành phố chúng ta đang sống là giả?
Makoto, một thanh niên đã crush Ai- cô bạn thời thơ ấu của mình tận 10 năm trời, bám theo cô lên tận đại học mà vẫn chưa có cơ hội tỏ tình