Giảm chiều dữ liệu

Giảm chiều dữ liệu (tiếng Anh: dimensionality reduction, hay dimension reduction), là sự biến đổi dữ liệu từ không gian chiều-cao thành không gian chiều-thấp để biểu diễn ở dạng chiều-thấp đồng thời giữ lại một số thuộc tính có ý nghĩa của dữ liệu gốc, có ý tưởng là gần với chiều nội tại (intrinsic dimension).

Phân tích dữ liệu trong không gian chiều-cao có thể khó khăn vì nhiều lý do; dữ liệu thô thường có tính thưa thớt (sparse matrix) là một hậu quả của lời nguyền chiều, và do đó việc phân tích thường khó tính toán; hơn nữa các thuật toán có thể mất rất nhiều thời gian để xử lý dữ liệu. Giảm chiều dữ liệu là phổ biến trong các lĩnh vực có số lượng quan sát lớn và/hoặc số lượng biến lớn, chẳng hạn như xử lý tín hiệu, nhận dạng tiếng nói, thông tin học thần kinh (tin học thần kinh, neuroinformatics), và tin sinh học.[1]

Các phương pháp giảm chiều dữ liệu thông thường được chia thành cách tiếp cận tuyến tính và phi tuyến tính.[1] Các cách tiếp cận cũng được chia thành chọn đặc tính (feature selection) và trích chọn đặc trưng (feature extraction).[2] Giảm chiều dữ liệu có thể được sử dụng cho giảm nhiễu (noise reduction), trực quan hóa dữ liệu (data visualization), phân tích cụm, hoặc là một bước trung gian để tạo điều kiện thuận lợi cho các phân tích khác.

Trích chọn đặc trưng

[sửa | sửa mã nguồn]

Các cách tiếp cận trích chọn đặc trưng cố gắng tìm ra một tập hợp con của các biến đầu vào (còn được gọi là tính năng hoặc thuộc tính). Ba chiến lược đó là: chiến lược lọc (filter, ví dụ thông tin thu được trong cây quyết định), chiến lược bao bọc (wrapper, ví dụ tìm kiếm được hướng dẫn theo độ chính xác), và chiến lược nhúng (embedded, các tính năng đã chọn có thể được thêm hoặc bị xóa trong khi xây dựng mô hình dựa trên các lỗi dự đoán).

Phân tích dữ liệu chẳng hạn như phân tích hồi quy hay phân loại bằng thống kê có thể được thực hiện trong không gian giảm chiều chính xác hơn trong không gian ban đầu (gốc).[3]

Các ứng dụng

[sửa | sửa mã nguồn]

Một kỹ thuật giảm chiều dữ liệu đôi khi được sử dụng trong khoa học thần kinhkích thước thông tin tối đa (maximally informative dimensions),[cần dẫn nguồn] trong đó tìm thấy biểu diễn theo chiều-thấp hơn của một tập dữ liệu, chẳng hạn như thông tin và cũng về dữ liệu gốc được bảo quản.

  1. ^ a b van der Maaten, Laurens; Postma, Eric; van den Herik, Jaap (ngày 26 tháng 10 năm 2009). "Dimensionality Reduction: A Comparative Review" (PDF). J Mach Learn Res. Quyển 10. tr. 66–71.
  2. ^ Pudil, P.; Novovičová, J. (1998). "Novel Methods for Feature Subset Selection with Respect to Problem Knowledge". Trong Liu, Huan; Motoda, Hiroshi (biên tập). Feature Extraction, Construction and Selection. tr. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
  3. ^ Rico-Sulayes, Antonio (2017). "Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution". Revista Ingeniería Electrónica, Automática y Comunicaciones. Quyển 38 số 3. tr. 26–35.

Tham khảo

[sửa | sửa mã nguồn]

Liên kết ngoài

[sửa | sửa mã nguồn]
Chúng tôi bán
Bài viết liên quan
Hướng dẫn cân bằng chỉ số bạo kích trong Genshin Impact
Hướng dẫn cân bằng chỉ số bạo kích trong Genshin Impact
Tôi theo dõi cũng kha khá thời gian rồi và nhận thấy nhiều bạn vẫn còn đang gặp vấn đề trong việc cân bằng chỉ số bạo kích.
Tiểu thuyết ma quái Ponyo: Liệu rằng tất cả mọi người đều đã biến mất
Tiểu thuyết ma quái Ponyo: Liệu rằng tất cả mọi người đều đã biến mất
Ponyo thực chất là một bộ phim kể về chuyến phiêu lưu đến thế giới bên kia sau khi ch.ết của hai mẹ con Sosuke và Ponyo chính là tác nhân gây nên trận Tsunami hủy diệt ấy.
[Review Game] Silent Hill: The Short Messenger
[Review Game] Silent Hill: The Short Messenger
Tựa game Silent Hill: The Short Messenger - được phát hành gần đây độc quyền cho PS5 nhân sự kiện State of Play
[Review] Bí Mật Nơi Góc Tối – Từ tiểu thuyết đến phim chuyển thể
[Review] Bí Mật Nơi Góc Tối – Từ tiểu thuyết đến phim chuyển thể
Dù bạn vẫn còn ngồi trên ghế nhà trường, hay đã bước vào đời, hy vọng rằng 24 tập phim sẽ phần nào truyền thêm động lực, giúp bạn có thêm can đảm mà theo đuổi ước mơ, giống như Chu Tư Việt và Đinh Tiễn vậy