Phân loại nhị phân (tiếng Anh: Binary classification) là nhiệm vụ phận loại các phần tử của một tập hợp các đối tượng ra thành 2 nhóm dựa trên cơ sở là chúng có một thuộc tính nào đó hay không (hay còn gọi là tiêu chí). Một số nhiệm vụ phân loại nhị phân điển hình:
Phân loại nói chung là một trong những vấn đề được nghiên cứu trong khoa học máy tính với mục đích học tự động các hệ thống phân loại. Một số phương pháp thích hợp cho việc học phân loại nhị phân gồm có: cây quyết định, mạng Bayes, support vector machine, và mạng nơron.
Để đánh giá độ hiệu quả của một xét nghiệm y khoa, người ta thường sử dụng các khái niệm độ nhạy và đặc trưng. Những khái niệm này rất hữu ích cho việc đánh giá bộ phân loại nhị phân. Giả sử chúng ta xét nghiệm xem một vài người nào đó có bệnh hay không.
Tổng số người dương tính đúng, âm tính đúng, dương tính sai, âm tính sai chiếm 100% tổng số người được xét nghiệm.
Độ nhạy (sensitivity) là tỉ lệ của số người bị bệnh được xác định đúng là có bệnh trên tổng số người bị bệnh, nghĩa là (dương tính đúng)/(dương tính đúng + âm tính sai). Nó có thể được coi là "xác suất xét nghiệm cho kết quả dương tính khi người được xét nghiệm có bị bệnh". Độ nhạy càng cao, càng ít khả năng bệnh không được phát hiện (hoặc, trong trường hợp quản lý chất lượng ở nhà máy, càng ít sản phẩm lỗi được đưa ra thị trường).
Đặc trưng (specificity) là tỉ lệ của số người không bị bệnh có kết quả xét nghiệm âm tính trên tổng số người không có bệnh (thực), nghĩa là (âm tính đúng)/(âm tính đúng + dương tính sai). Nó còn được coi là xác suất xét nghiệm cho kết quả âm tính đối với người không có bệnh. Độ đặc trưng càng cao, càng ít người mạnh khỏe được coi là bị bệnh (hoặc trong trường hợp nhà máy, càng ít tiền bị tốn phí do loại bỏ các sản phẩm chất lượng tốt thay vì đem bán chúng).
Về mặt lý thuyết, độ nhạy và đặc trưng là độc lập, tức là cả hai đều có thể đạt đến 100%. Trong thực tế, chúng ta phải đánh đổi cái này để được cái kia - cái này tốt lên thì cái kia xấu đi, không thể đạt được cả hai.
Một điểm cần chú ý nữa, là độ nhạy và đặc trưng là độc lập với tỉ lệ giữa số cá thể âm tính và số cá thể dương tính. Tuy nhiên, giá trị của chúng thì lại phụ thuộc vào tổng số cá thể kiểm tra (population). Ví dụ: kiểm tra có kết quả: độ nhạy 99%, đặc trưng 99%.
Như vậy, tỉ lệ dự đoán trúng dương tính là 99/(99+19)= 84%, còn dự đoán trúng âm tính là 1881/(1881+1)= 99,9%. Nghĩa là, nếu bạn đi xét nghiệm được kết quả dương tính thì khả năng bạn bị bệnh là 84%, còn nếu kết quả là âm tính thì khả năng bạn bị bệnh chỉ là 1/1881, hay 0,05%.