Phân vùng quang phổ

Trong điện toán lý thuyết, phân vùng phổ hoặc phân vùng spectral clustering trong tiếng Anh là một loại phân vùng dữ liệu có tính đến các hiệu ứng quang phổ của đầu vào của nó. Phân vùng quang phổ thường sử dụng các hàm riêng của một ma trận tương tự nhau. So với các thuật toán cổ điển như trung bình K, thì kỹ thuật này cung cấp lợi thế của việc phân loại các bộ dữ liệu cấu trúc "phi hình cầu" trong một không gian biểu diễn phù hợp.

Định nghĩa

Phân vùng quang phổ là một phương pháp phân vùng trong các nhóm K dựa trên việc giảm thiểu tiêu chí loại " cắt " (cắt đơn giản tại K = 2 hoặc cắt nhiều lần tại K≥2). Hai biện pháp này thể hiện sự gắn kết nội bộ của các nhóm công thức, liên quan đến sự phân ly của chúng với nhau. Chúng là các hàm trực tiếp của một ma trận tương tự nhau giữa các đối tượng, được ký hiệu là S.

Phân vùng dữ liệu trong không gian quang phổ

Phân vùng dữ liệu được thực hiện trên ma trận X. Thật vậy, bước đầu tiên của nó là xem xét từng hàng của ma trận này là đại diện cho một đối tượng trong không gian quang phổ (theo kích thước K). Bước thứ hai là áp dụng thuật toán phân loại không giám sát trên ma trận này. Việc phân vùng dữ liệu trong các nhóm K được giới hạn trong việc gán đối tượng ban đầu x _i cho nhóm k khi và chỉ khi dòng ^thứ i của X được gán cho nhóm k.

Ứng dụng

Lập chỉ mục và tìm kiếm theo nội dung ^[1],
Tìm kiếm tài liệu Web ^[2],
Phân đoạn hình ảnh ^[3],
Phân tích thị trường,
Phân tích tài liệu ^[4],
Phân loại không giám sát.

^ « Deerwester S., Dumais S., Landauer T., Furnas G., Harshman R., Indexing by latent semantic analysis. Journal of the American Society of Information Science, vol. 41(6), p. 391-407, 1990 »
^ « Kurucz M., Benczur A., Csalogany K., Lucacs L., Spectral Clustering in Social Networks. Advances in Web Mining and Web usage Analysis, 2009 »
^ « Meila M., Shi J., Learning segmentation by random walks. Advances in Neural Information Processing Systems, p. 470-477, 2000 »
^ « Brew C., Schulte im Walde S., Spectral clustering for german verbs. Proceedings of EMNLP-2002, 2002 »

[Deer-1] « Deerwester S., Dumais S., Landauer T., Furnas G., Harshman R., Indexing by latent semantic analysis. Journal of the American Society of Information Science, vol. 41(6), p. 391-407, 1990 »

[2] « Kurucz M., Benczur A., Csalogany K., Lucacs L., Spectral Clustering in Social Networks. Advances in Web Mining and Web usage Analysis, 2009 »

[Systems,_p._470-477-3] « Meila M., Shi J., Learning segmentation by random walks. Advances in Neural Information Processing Systems, p. 470-477, 2000 »

[4] « Brew C., Schulte im Walde S., Spectral clustering for german verbs. Proceedings of EMNLP-2002, 2002 »

[1]

[2]

[3]

[4]