Hàng xóm gần nhất (nhận dạng mẫu)

Giải thuật người hàng xóm gần nhất trong nhận dạng mẫu là một phương pháp để phân loại các hiện tượng dựa trên các đặc trưng quan sát được.

Trong giải thuật, mỗi đặc trưng được gán cho một chiều để tạo thành một không gian đặc trưng đa chiều. Một tập huấn luyện các đối tượng với lớp (class) đã biết trước (đã phân loại sẵn) sẽ được xử lý bằng cách trích rút đặc trưng (lấy ra một số đặc trưng) và được biểu diễn (vẽ sơ đồ) vào trong không gian đặc trưng đa chiều đó. Khoảng cách đến gốc (offset) trong mỗi chiều được xem là vec-tơ đặc trưng. Đây là giai đoạn huấn luyện hay học. Vì động cơ có thể được huấn luyện lại để phân loại nhiều hiện tượng khác nhau, nhận dạng mẫu là một phần của ngành học máy.

Giai đoạn kiểm tra bắt đầu với các hiện tượng (phenomena) cần phân loại (lớp của từng hiện tượng chưa được biết trước) và trích rút ra cùng tập các đặc trưng như với tập huấn luyện. Khoảng cách hình học được tính toán giữa vec-tơ đặc trưng mới với mỗi vec-tơ đặc trưng có sẵn từ tập huấn luyện. Khoảng cách ngắn nhất tính toán được, đến vec-tơ đặc trưng trong tập huấn luyện, chính là họ hàng gần nhất. Và lớp (loại) biết trướccủa họ hàng gần nhất đó sẽ cũng là lớp của hiện tượng mà ta đang cần phân loại.

Hiển nhiên, giải thuật này sẽ đòi hỏi cường độ tính toán cao khi tập huấn luyên trở nên lớn. Nhiều sự tối ưu đã và đang được đưa ra, chúng chủ yếu tìm kiếm nhằm giảm số lượng khoảng cách được thực sự tính toán. Một số tối ưu bao gồm phân hoạch không gian đặc trưng, và chỉ tính các khoảng cách với các vec-tơ thuộc một vùng lân cận cụ thể nào đó.

Một số biến thể khác của giải thuật bao gồm giải thuật k hàng xóm gần nhất với k vec-tơ đặc trưng gần nhất sẽ được tính toán, và việc phân loại sẽ dựa vào độ tin cậy cao nhất chỉ khi mọi mọi hàng xóm gần nhất đó nều cùng thuộc một loại (lớp).

Người hàng xóm gần nhất cho ra một số kết quả ổn định vững chắc. Vì số lượng dữ liệu tiếp cận được xem là vô hạn, người hàng xóm gần nhất đảm bảo cho ra tỉ lệ lỗi không vượt quá hai lần tỉ lệ lỗi Bayes (là tỉ lệ lỗi đạt được tối thiểu khi biết sự phân bố dữ liệu). k-người hàng xóm gần nhất được đảm bảo là sẽ tiến tới tỉ lệ lỗi Bayes, với một giá trị nào đó của k.

hang xom gan nhat

Tham khảo

[sửa | sửa mã nguồn]
  • Belur V. Dasarathy, editor (1991) Nearest Neighbor (NN) Norms: NN Pattern Classification Techniques, ISBN 0-8186-8930-0
Chúng tôi bán
Bài viết liên quan
Cảm nhận về nhân vật Nico Robin
Cảm nhận về nhân vật Nico Robin
Đây là nhân vật mà tôi cảm thấy khó có thể tìm một lời bình thích hợp. Ban đầu khi tiếp cận với One Piece
Vì sao Ryomen Sukuna là kẻ mạnh nhất trong Jujutsu Kaisen
Vì sao Ryomen Sukuna là kẻ mạnh nhất trong Jujutsu Kaisen
Con người tụ tập với nhau. Lời nguyền tụ tập với nhau. So sánh bản thân với nhau, khiến chúng trở nên yếu đuối và không phát triển
Haruka Hasebe - Classroom of the Elite
Haruka Hasebe - Classroom of the Elite
Haruka Hasebe (長は谷せ部べ 波は瑠る加か, Hasebe Haruka) là một trong những học sinh của Lớp 1-D.
Thấy gì qua Upstream (2024) của Từ Tranh
Thấy gì qua Upstream (2024) của Từ Tranh
Theo số liệu của Trung tâm Nghiên cứu Việc làm mới của Trung Quốc, mức thu nhập trung bình của các tài xế loanh quanh 7000 NDT, tương ứng với 30 đơn giao mỗi ngày trong 10 ca làm 10 giờ liên tục