Suy luận Bayes hay thống kê Bayes (tiếng Anh: Bayesian inference, Bayesian statistics hay ngắn gọn là Bayesian) là một kiểu suy luận thống kê mà trong đó các quan sát hay bằng chứng được dùng để cập nhật hoặc suy luận ra xác suất cho việc một giả thuyết có thể là đúng. Khác với suy luận thống kê theo mẫu lặp (frequentist), suy luận Bayes yêu cầu một niềm tin trước (prior belief) về xác suất xảy ra một giả thuyết, và được cập nhật liên tục thông qua các dữ liệu hay bằng chứng quan sát được. Trong khi đó, suy luận theo mẫu lặp thường tập trung vào xác suất cũng như ước lượng dài hạn, và chỉ phụ thuộc vào một mẫu dữ liệu đủ lớn cùng với đó việc lấy mẫu được lặp đi lặp lại. Suy luận Bayes thường hữu ích trong trường hợp dữ liệu khan hiếm cũng như là khi ước lượng từ suy luận mẫu lặp được cho là không đáng tin cậy. Cái tên "Bayes" bắt nguồn từ việc sử dụng thường xuyên Định lý Bayes trong quá trình suy luận.
Suy luận Bayes sử dụng các khía cạnh của phương pháp khoa học, trong đó có việc thu thập các bằng chứng nhất quán hoặc không nhất quán với một giả thuyết nào đó. Khi các bằng chứng tích lũy, mức độ tin tưởng vào một giả thuyết thay đổi. Khi có đủ bằng chứng, mức độ tin tưởng này thường trở nên rất cao hoặc rất thấp. Do đó, theo lý thuyết, đây có thể được coi là một cơ sở lôgic thích hợp cho việc phân biệt các giả thuyết mâu thuẫn nhau - các giả thuyết với mức độ tin tưởng cao được chấp nhận là đúng; các giả thuyết với độ tin tưởng rất thấp nên bị coi là sai và loại bỏ. Trong thực tiễn, tuy khung toán học tổng quát của suy luận Bayes là đúng đắn, nó đòi hòi việc gán các xác suất tiền nghiệm cho các giả thuyết, trong khi các xác suất này có thể là đối tượng của sự sai lệch chủ quan
Suy luận Bayes sử dụng một ước lượng bằng số về mức độ tin tưởng vào một giả thuyết trước khi quan sát được bằng chứng, và tính toán một ước lượng bằng số về mức độ tin tưởng vào giả thuyết đó sau khi đã quan sát được bằng chứng. Trong quá trình quy nạp, suy luận Bayes thường dựa vào các mức độ tin tưởng, hay là các xác suất chủ quan, và không nhất thiết khẳng định về việc cung cấp một phương pháp quy nạp khách quan. Tuy nhiên, một số nhà thống kê theo trường phái Bayes tin rằng các xác suất có thể có một giá trị khách quan, và do đó suy luận Bayes có thể cung cấp một phương pháp quy nạp khách quan. Xem phương pháp khoa học.
Định lý Bayes điều chỉnh các xác suất khi được cho bằng chứng mới theo cách sau đây:
trong đó chúng ta sẽ sủ dụng phương thức như sau
Hệ số đại diện cho ảnh hưởng của bằng chứng đối với mức độ tin tưởng vào giả thuyết. Nếu rất có khả năng quan sát được bằng chứng khi giả thuyết đang xét là đúng, thì hệ số này sẽ có giá trị lớn. Khi nhân xác suất tiền nghiệm của giả thuyết với hệ số này, ta được một xác suất hậu nghiệm lớn của giả thuyết khi có bằng chứng. Nhờ đó, trong suy luận Bayes, định lý Bayes đo được mức độ mà bằng chứng mới sẽ làm thay đổi sự tin tưởng vào một giả thuyết.
Các nhà thống kê Bayes lập luận rằng ngay cả khi người ta có các xác suất chủ quan tiền nghiệm rất khác nhau, bằng chứng mới từ các quan sát lặp đi lặp lại sẽ có xu hướng đưa các xác suất hậu nghiệm của họ lại gần nhau hơn. Trong khi điều này đúng đối với những người duy lý hoàn hảo với các khuynh hướng tương đồng trong việc suy xét mức độ tin tưởng, các khác biệt đủ lớn trong các khuynh hướng này có thể (và thường) gây cản trở lớn lao đối với quá trình hội tụ này.
Việc nhân xác suất tiên nghiệm với hệ số sẽ không bao giờ cho ra một xác suất lớn hơn 1. Đó là vì không nhỏ hơn , mà đại lượng này thì bằng (xem xác suất hợp (joint probability)).
, xác suất của khi biết , có thể được biểu diễn bởi một hàm của tham số thứ hai với tham số thứ nhất giữ một giá trị cho trước. Một hàm như vậy được gọi là hàm khả dĩ; đây là một hàm của khi cho trước . Một tỷ lệ giữa hai hàm khả dĩ được gọi là tỉ số khả dĩ (likelihood ratio), . Ví dụ,
Xác suất biên còn có thể được biểu diễn bằng tổng của tích tất cả các xác suất đôi một loại trừ nhau với các xác suất có điều kiện tương ứng: .
Do đó, ta có thể viết lại định lý Bayes như sau
Với 2 bằng chứng độc lập và , ta có thể áp dụng suy luận Bayes lặp đi lặp lại. Ta có thể dùng bằng chứng thứ nhất để tính một xác suất hậu nghiệm ban đầu, rồi dùng xác suất hậu nghiệm đó làm một xác suất tiền nghiệm để tính một xác suất hậu nghiệm thứ hai theo bằng chứng thứ hai.
Tính độc lập của bằng chứng hàm ý rằng
Định lý Bayes được sử dụng lặp đi lặp lại hàm ý rằng
Sử dụng các tỉ số khả dĩ, ta thấy rằng
Quá trình lặp này của suy luận Bayes có thể được mở rộng khi có thêm các bằng chứng độc lập khác.
Suy luận Bayes được dùng để tính các xác suất cho việc đưa ra quyết định trong tình huống không chắc chắn. Bên cạnh các xác suất, ta nên tính một hàm mất mát (loss function) nhằm mục đích phản ánh các hậu quả của việc phạm sai lầm. Các xác suất đại diện cho khả năng hoặc niềm tin về việc phạm sai lầm. Một hàm mất mát đại diện cho các hậu quả của việc phạm sai lầm.
Để minh họa, giả sử có hai hộp đựng đầy bánh quy. Hộp thứ nhất có 10 chiếc bánh quy sô-cô-la và 30 chiếc bánh quy bơ. Hộp thứ hai đựng mỗi loại bánh 20 chiếc. Bé Khoai chọn ngẫu nhiên một hộp, rồi nhặt đại một chiếc bánh. Ta có thể giả thiết rằng bé Khoai còn rất nhỏ nên không phân biệt hộp này hộp kia, và bé thích tất cả các loại bánh kẹo nên bánh loại nào với bé cũng vậy. Và chiếc bánh mà bé Khoai chọn té ra là một chiếc bánh quy bơ. Vậy khả năng Khoai nhặt chiếc bánh đó từ trong hộp thứ nhất là bao nhiêu?
Một cách trực quan, có vẻ rõ ràng là câu trả lời phải lớn hơn 1/2, do trong hộp 1 có nhiều bánh quy bơ hơn. Câu trả lời chính xác được tính theo định lý Bayes. Giả sử H1 tương ứng với hộp 1, và H2 tương ứng với hộp 2. Ta biết rằng đối với bé Khoai, hai hộp là như nhau, do đó, P(H1) = P(H2), và tổng của chúng phải bằng 1, do đó cả hai đều bằng 0,5. Dữ liệu D là quan sát về chiếc bánh quy bơ. Từ nội dung của hai hộp bánh, ta biết rằng P(D | H1) = 30/40 = 0,75 và P(D | H2) = 20/40 = 0,5. Khi đó, công thức Bayes cho ra kết quả:
Trước khi quan sát thấy chiếc bánh mà bé Khoai nhặt, xác suất cho việc Khoai chọn hộp 1 là xác suất tiên nghiệm, P(H1), có giá trị 0,5. Sau khi đã nhìn thấy chiếc bánh, ta chỉnh lại xác suất đó thành P(H1|D), có giá trị 0,6.
Nên lưu ý là việc ta tin rằng việc quan sát thấy chiếc bánh quy bơ nên có ảnh hưởng theo cách nào đó tới xác suất tiên nghiệm đã tạo nên xác suất hậu nghiệm , với giá trị tăng từ 0,5 lên 0,6. Điều này phản ánh trực giác của ta rằng chiếc bánh có khả năng được lấy từ hộp 1 hơn, do hộp này có tỉ lệ bánh quy bơ so với bánh quy sô-cô-la cao hơn hộp kia. Quyết định được cho dưới dạng một xác suất, điều này khác với thống kê cổ điển.
Ta thu được các kết quả dương tính sai khi một kiểm nghiệm cho ra kết quả dương tính một cách sai lầm. Ví dụ, một xét nghiệm y học cho một bệnh có thể trả về một kết quả dương tính với hàm ý rằng bệnh nhân có mắc căn bệnh đó ngay cả nếu bệnh nhân đó không hề mắc căn bệnh đó. Ta dùng định lý Bayes để tính xác suất mà một kết quả dương tính thực ra lại là một dương tính sai. Kết quả là nếu một căn bệnh hiếm gặp thì đa số các kết quả dương tính có thể là dương tính sai, ngay cả nếu xét nghiệm có độ chính xác cao.
Giả sử rằng một xét nghiệm cho một căn bệnh cho ra các kết quả sau:
Giả sử rằng chỉ có 0,1% dân số mắc căn bệnh này, nghĩa là nếu chọn ngẫu nhiên một người thì việc người đó mắc bệnh có xác suất tiên nghiệm là 0,001.
Ta có thể dùng định lý Bayes để tính xác suất cho việc một kết quả xét nghiệm dương tính là một dương tính sai.
Giả sử A là tình huống người bệnh mắc căn bệnh đó, và B biểu diễn bằng chứng - một kết quả xét nghiệm dương tính. Khi đó, xác suất người bệnh thực sự mắc bệnh khi biết rằng kết quả xét nghiệm là dương tính là
và do đó, xác suất cho việc kết quả xét nghiệm dương tính là một dương tính sai là khoảng (1 − 0,019) = 0,981.
Mặc dù xét nghiệm có độ chính xác cao, nhưng tỷ lệ dân số mắc bệnh lại thấp đến mức đại đa số người bệnh có kết quả xét nghiệm dương tính thực ra không mắc bệnh đó. Tuy nhiên, tỷ lệ giữa người có kết quả xét nghiệm dương tính thực sự mắc bệnh (0,019) cao gấp 19 lần tỷ lệ người dương tính nhưng lại chưa xét nghiệm (0,001). Do đó, xét nghiệm không phải vô dụng, và việc xét nghiệm lại có thể làm tăng độ tin cậy của kết quả.
Để giảm vấn đề dương tính sai, một xét nghiệm cần rất chính xác khi cho kết quả âm tính đối với người không có bệnh. Nếu xét nghiệm cho ra kết quả âm tính đối với người không có bệnh với xác suất 0,999, thì
khi đó, xác suất của một kết quả dương tính sai giờ là 1- 0,5 = 0,5.
Mặt khác, kết quả âm tính sai là khi một xét nghiệm đối với một người có bệnh nhưng lại cho ra kết quả âm tính. Ta cũng có thể dùng định lý Bayes để tính xác suất của một âm tính sai. Trong ví dụ trên,
Xác suất một kết quả âm tính là âm tính sai là khoảng 0,0000105 hay 0,00105%.
Khi một bệnh hiếm gặp, các âm tính sai sẽ không phải là một vấn đề lớn đối với xét nghiệm, do xác suất đó thấp. Nhưng nếu 60% dân số mắc bệnh, thì xác suất của một âm tính sai sẽ lớn hơn. Với xét nghiệm trên, xác suất của một âm tính sai sẽ là
Xác suất rằng kết quả xét nghiệm là một âm tính sai tăng lên mức 0,0155 hay 1,55%.
Trong một phiên tòa, một thành viên bồi thẩm đoàn có thể dùng suy luận Bayes để tính lũy các bằng chứng chống và bằng chứng bảo vệ bị cáo, và để xem tổng lại thì nó đã vượt qua ngưỡng của cá nhân vị bồi thẩm cho một nghi ngờ hay chưa.
Giả sử:
Suy luận Bayes cho ta biết rằng nếu ta có thể gán một xác suất p(G) cho khả năng bị cáo có tội trước khi ta xét đến bằng chứng về DNA, thì ta có thể tính lại xác suất này theo xác suất có điều kiện , do
Giả sử, dựa trên cơ sở gồm các bằng chứng khác, một vị bồi thẩm quyết định rằng khả năng bị cáo có tội là 30%. Cũng giả sử rằng bằng chứng pháp y là: xác suất một người được chọn ngẫu nhiên có DNA khớp với DNA tại hiện trường vụ án là một phần 1 triệu, hoặc 10−6.
Biến cố E có thể xuất hiện theo 2 cách. Hoặc là bị cáo có tội (với xác suất tiên nghiệm 0,3) và do đó DNA của chính anh ta có mặt tại hiện trường với xác suất 1. Hoặc anh ta vô tội (với xác suất tiên nghiệm 0,7) và anh ta không may đến mức là một trong số một phần triệu dân số có DNA trùng khớp.
Từ đó, vị bồi thẩm có thể tính lại quan điểm của mình để tính đến cả bằng chứng DNA theo cách sau:
Việc áp dụng suy luận Bayes có lợi ích là nó đã cho vị bồi thẩm một cơ chế hình thức cho việc kết hợp các bằng chứng được đưa ra. Cách tiếp cận này có thể được áp dụng một cách liên tiếp cho từng mẩu bằng chứng được trình trước tòa, với xác suất hậu nghiệm của bước này trở thành xác suất tiên nghiệm cho bước tiếp theo.
Nhưng vị bồi thẩm vẫn phải có một xác suất tiên nghiệm cho khả năng phạm tội trước khi bằng chứng đầu tiên được xét đến. Người ta khuyên rằng có thể lấy giá trị này bằng xác suất phạm tội của một người ngẫu nhiên thuộc giới tính tương ứng, lấy tại địa phương nơi xảy ra vụ án. Do đó, đối với một vụ án thực hiện bởi một người đàn ông trưởng thành trong một thành phố có 50.000 nam giới trưởng thành, xác suất tiên nghiệm khởi đầu có thể là 1/50.000.
Tháng 5 năm 1968, Scorpion (SSN-589), tàu ngầm hạt nhân của Mỹ, đã không trở về cảng Norfolk, Virginia như mong đợi. Hải quân Mỹ tin rằng con tàu đã bị đắm ở vùng bờ biển phía Đông, nhưng một cuộc tìm kiếm rộng đã không tìm thấy xác con tàu. John Craven USN, chuyên gia nước sâu của Hải quân Mỹ, tin rằng xác tàu ở nơi khác và ông đã tổ chức một cuộc tìm kiếm ở phía Tây Nam Açores, dựa vào một phương pháp gây tranh cãi - phép đạc tam giác xấp xỉ bằng ống nghe dưới nước (approximate triangulation by hydrophones). Ông chỉ được cấp một con tàu, chiếc Mizar, và ông lấy lời khuyên từ một số chuyên viên tư vấn toán học để tận dụng tối đa các tài nguyên của mình. Một phương pháp tìm kiếm Bayes đã được sử dụng. Các chỉ huy tàu ngầm có kinh nghiệm đã được phỏng vấn để xây dựng các giả thuyết về cái gì có thể đã gây ra vụ đắm tàu Scorpion.
Vùng biển được chia thành lưới các ô vuông. Dưới mỗi một giả thuyết, mỗi ô được gán một xác suất. Kết quả là với mỗi giả thuyết có một lưới các xác suất. Các xác suất này được cộng lại với nhau để tạo một lưới xác suất toàn cục. Khi đó, xác suất gắn với mỗi ô sẽ là xác suất rằng vụ đắm tàu đã xảy ra tại ô đó. Một lưới thứ hai được xây dựng với các xác suất đại diện cho xác suất tìm thấy xác tàu nếu ô đó được tìm kiếm và xác tàu quả thực nằm tại ô đó. Đây là một hàm đã biết tính theo độ sâu của nước. Kết quả của việc kết hợp lưới này với lưới trước là một lưới cho ra xác suất tìm thấy xác tàu trong từng ô vuông của vùng biển nếu ô đó được tìm kiếm.
Lưới các ô trên vùng biển được tìm kiếm một cách hệ thống bắt đầu từ các vùng có xác suất cao nhất và tiến dần xuống các vùng có xác suất thấp hơn. Mỗi lầm một ô được tìm kiếm và không thấy xác tàu, xác suất của nó được tính lại theo Định lý Bayes. Điều này buộc xác suất của tất cả các ô khác phải được tính lại (tăng lên), cũng theo Định lý Bayes. Thời đó, việc sử dụng cách tiếp cận này đã là một thách thức lớn về mặt tính toán, nhưng cuối cùng nó đã thành công, và Scorpion đã được tìm thấy vào tháng 10 năm đó.
Giả sử một ô vuông có xác suất xác tàu nằm tại đó là p và xác suất tìm thấy xác tàu nếu nó nằm tại đó là q. Nếu ô đó được tìm và không thấy gì, thì theo định lý Bayes, xác suất được tính lại cho việc xác tàu nằm tại ô đó là
Suy luận có các ứng dụng trong trí tuệ nhân tạo và các hệ chuyên gia. Các kỹ thuật suy luận Bayes đã là một phần căn bản của các kỹ thuật nhận dạng mẫu bằng máy tính kể từ cuối thập kỷ 1950. Còn có một mối quan hệ ngày càng chặt chẽ giữa các phương pháp Bayes và các kỹ thuật giả lập Monte Carlo do không thể xử lý các mô hình phức tạp trong hình thức đóng (closed form) bằng một phân tích Bayes, trong khi cấu trúc mô hình đồ thị cố hữu đối với tất cả các mô hình thống kê, ngay cả các mô hình phức tạp nhất, tạo điều kiện cho các thuật toán giả lập hiệu quả như lấy mẫu Gibbs (Gibbs sampling) và các dạng khác của thuật toán Metropolis-Hastings. Gần đây, suy luận Bayes đã trở nên thông dụng trong cộng đồng phylogenetics vì các lý do này; các ứng dụng như BEAST Lưu trữ 2007-02-16 tại Wayback Machine và MrBayes Lưu trữ 2007-01-20 tại Wayback Machine cho phép ước lượng đồng thời nhiều tham số nhân khẩu học và tiến hóa.
Khi áp dụng cho phân loại thống kê (statistical classification) trong những năm gần đây, suy luận Bayesian đã được sử dụng để nhận diện spam (thư nhũng lạm). Các ứng dụng dùng suy luận Bayes để lọc spam bao gồm Bogofilter, SpamAssassin, InBoxer, và Mozilla. Việc phân loại spam được giới thiệu chi tiết trong bài Bộ phân loại Bayes đơn giản (naive Bayes classifier).
Trong một số ứng dụng, lôgic mờ là một lựa chọn thay thế suy luận Bayes. Tuy nhiên, lôgic mờ và suy luận Bayes không tương thích về toán học và ngữ nghĩa: nói chung, ta không thể hiểu mức độ đúng trong lôgic mờ là xác suất và ngược lại.
Tiếng Anh
Tiếng Việt