Một phần của loạt bài về |
Học máy và khai phá dữ liệu |
---|
Diễn đàn/tạp chí |
Trong học máy, học đặc trưng (feature learning) hay học biểu diễn (representation learning)[2] là tập hợp các kỹ thuật cho phép hệ thống tự động khám phá các biểu diễn cần thiết cho việc phát hiện hoặc phân loại đặc trưng từ dữ liệu thô. Điều này thay thế cho việc xây dựng đặc trưng (feature engineering) thủ công và cho phép máy học cả đặc trưng lẫn thực hiện nhiệm vụ cụ thể.
Học đặc trưng được thúc đẩy bởi thực tế rằng các bài toán trong học máy như phân loại thường yêu cầu đầu vào dễ dàng và thuận tiện cho việc xử lý toán học và tính toán. Tuy nhiên, dữ liệu thực tế như hình ảnh, video và dữ liệu từ cảm biến không thể dễ dàng xác định các đặc trưng cụ thể thông qua các thuật toán rõ ràng. Một phương pháp thay thế là khám phá các đặc trưng hoặc biểu diễn này thông qua quá trình quan sát, mà không phụ thuộc vào các thuật toán cụ thể.
Học đặc trưng có thể là có giám sát, không giám sát hoặc tự giám sát.
Học đặc trưng có giám sát là học các đặc trưng từ dữ liệu có nhãn. Nhãn dữ liệu cho phép hệ thống tính toán một đại lượng lỗi, mức độ mà hệ thống không thành công trong việc tạo ra nhãn. Đại lượng lỗi này sau đó được sử dụng làm phản hồi để điều chỉnh quá trình học (giảm/ tối thiểu hóa lỗi). Các phương pháp tiếp cận bao gồm:
Học từ điển phát triển một tập hợp (từ điển) các phần tử đại diện từ dữ liệu đầu vào sao cho mỗi điểm dữ liệu có thể được biểu diễn dưới dạng tổng trọng số của các phần tử đại diện. Các phần tử của từ điển và các trọng số có thể được tìm thấy bằng cách giảm thiểu lỗi trung bình trong quá trình biểu diễn (trên dữ liệu đầu vào), cùng với chính quy hóa L1 (L1 regularization) đối với các trọng số để tạo ra độ thưa (tức là, biểu diễn của mỗi điểm dữ liệu chỉ có một vài trọng số khác không).
Học từ điển có giám sát khai thác cả cấu trúc cơ bản của dữ liệu đầu vào và các nhãn để tối ưu hóa các phần tử từ điển. Ví dụ, phương pháp[12] học từ điển có giám sát này áp dụng học từ điển vào các bài toán phân loại bằng cách tối ưu hóa đồng thời các phần tử từ điển, các trọng số để biểu diễn các điểm dữ liệu, và các tham số của bộ phân loại dựa trên dữ liệu đầu vào. Cụ thể, một bài toán tối ưu hóa được hình thành, trong đó hàm mục tiêu bao gồm lỗi phân loại, lỗi biểu diễn, chính quy hóa L1 trên các trọng số biểu diễn của mỗi điểm dữ liệu (để tạo ra biểu diễn thưa của dữ liệu), và chính quy hóa L2 trên các tham số của bộ phân loại.
Mạng thần kinh nhân tạo là một họ các thuật toán học sử dụng một "mạng" gồm nhiều lớp các nút kết nối với nhau. Nó được lấy cảm hứng từ hệ thần kinh của động vật, trong đó các nút được xem như là các tế bào thần kinh và các cạnh là các khớp thần kinh. Mỗi cạnh có một trọng số liên kết, và mạng định nghĩa các quy tắc tính toán để chuyển dữ liệu đầu vào từ lớp đầu vào của mạng đến lớp đầu ra. Một hàm mạng (network function) liên quan đến mạng thần kinh đặc trưng hóa mối quan hệ giữa các lớp đầu vào và đầu ra, được tham số hóa bởi các trọng số. Với các hàm mạng được định nghĩa một cách hợp lý, có thể thực hiện các nhiệm vụ học bằng cách giảm thiểu một hàm mất mát (cost function) trên hàm mạng (các trọng số).
Các mạng thần kinh đa tầng có thể được sử dụng để thực hiện học đặc trưng, vì chúng học một biểu diễn của đầu vào tại các lớp ẩn, sau đó được sử dụng để phân loại hoặc hồi quy ở lớp đầu ra. Kiến trúc mạng phổ biến nhất thuộc loại này là "mạng thần kinh song sinh" (Siamese neural network).
Học đặc trưng không giám sát là quá trình học các đặc trưng từ dữ liệu không được gán nhãn. Mục tiêu của học đặc trưng không giám sát thường là khám phá ra các đặc trưng có kích thước thấp hơn mà nắm bắt được một số cấu trúc cơ bản trong dữ liệu đầu vào có kích thước cao. Khi học đặc trưng được thực hiện theo cách không giám sát, nó cho phép một dạng học bán giám sát, nơi các đặc trưng học được từ tập dữ liệu không có nhãn được sử dụng để cải thiện hiệu suất trong môi trường học có giám sát với dữ liệu có nhãn.[13][14] Một số phương pháp được giới thiệu dưới đây.
Phân cụm K-means là một phương pháp lượng hóa vectơ. Cụ thể, với một tập hợp gồm n vectơ, phân cụm K-means sẽ nhóm chúng vào k cụm (tức là các tập con) sao cho mỗi vectơ thuộc về cụm có trung bình gần nhất. Bài toán này có tính toán phức tạp thuộc loại NP-khó, mặc dù đã có các thuật toán tham lam cận tối ưu được phát triển.
Phân cụm K-means có thể được sử dụng để nhóm một tập dữ liệu không có nhãn vào các cụm k, sau đó sử dụng các "trọng tâm" (centroid) của các cụm này để tạo ra các đặc trưng. Các đặc trưng này có thể được tạo ra theo nhiều cách. Cách đơn giản nhất là thêm k đặc trưng nhị phân vào mỗi mẫu, trong đó mỗi đặc trưng j có giá trị bằng một khi và chỉ khi trọng tâm thứ j học được từ K-means là gần nhất với mẫu đang xét.[6] Cũng có thể sử dụng các khoảng cách tới các cụm làm đặc trưng, có thể sau khi biến đổi chúng thông qua một "hàm cơ sở xuyên tâm" (radial basis function - một kỹ thuật đã được sử dụng để huấn luyện mạng thần kinh cơ sở xuyên tâm hoặc 'radial basis function network'[15]). Coates và Ng lưu ý rằng các biến thể nhất định của K-means hoạt động tương tự như các thuật toán mã hóa thưa thớt (sparse coding).[16]
Trong một đánh giá so sánh các phương pháp học đặc trưng không giám sát, Coates, Lee và Ng phát hiện rằng phân cụm K-means với một biến đổi thích hợp vượt trội hơn so với các phương pháp tự mã hóa và RBM (Restricted Boltzmann Machine) gần đây trong bài toán phân loại hình ảnh.[6] K-means cũng cải thiện hiệu suất trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP), đặc biệt là trong nhận dạng thực thể có tên (named-entity recognition);[17] ở đó, nó cạnh tranh với phân cụm Brown (Brown clustering), cũng như với các biểu diễn từ phân tán (còn được gọi là các "biểu diễn từ" bằng mạng thần kinh).[14]
Phép phân tích thành phần chính (Principal component analysis - PCA) thường được sử dụng để giảm chiều dữ liệu. Với một tập hợp không nhãn gồm n vectơ dữ liệu đầu vào, PCA tạo ra p (thường nhỏ hơn nhiều so với chiều của dữ liệu đầu vào) các "vectơ kỳ dị bên phải" tương ứng với p giá trị kỳ dị lớn nhất của ma trận dữ liệu, trong đó hàng thứ k của ma trận dữ liệu là vectơ dữ liệu đầu vào thứ k đã được dịch chuyển bởi trung bình mẫu (sample mean) của đầu vào (tức là trừ trung bình mẫu khỏi vectơ dữ liệu). Tương đương, các vectơ kỳ dị này là các vectơ riêng tương ứng với p giá trị riêng lớn nhất của "ma trận hiệp phương sai mẫu" (sample covariance matrix) của các vectơ đầu vào. Các vectơ kì dị p này là các vectơ đặc trưng học được từ dữ liệu đầu vào và chúng đại diện cho các hướng mà dữ liệu có sự biến đổi lớn nhất.
PCA là một phương pháp học đặc trưng tuyến tính vì các vectơ kỳ dị p là các hàm tuyến tính của ma trận dữ liệu. Các vectơ kỳ dị có thể được tạo ra thông qua một thuật toán đơn giản với p vòng lặp. Trong vòng lặp thứ i, phép chiếu của ma trận dữ liệu lên vectơ riêng thứ (i-1) được trừ đi, và vectơ kỳ dị thứ i được tìm thấy là vectơ kỳ dị bên phải tương ứng với giá trị kỳ dị lớn nhất của ma trận dữ liệu dư thừa.
PCA có một số hạn chế. Thứ nhất, nó giả định rằng các hướng có phương sai lớn là quan trọng nhất, điều này có thể không đúng. PCA chỉ dựa vào các phép biến đổi trực giao của dữ liệu gốc và chỉ khai thác các mô men bậc nhất và bậc hai của dữ liệu, điều này có thể không mô tả tốt phân bố dữ liệu. Hơn nữa, PCA chỉ có thể giảm chiều một cách hiệu quả khi các vectơ dữ liệu đầu vào có sự tương quan (dẫn đến một vài giá trị riêng chiếm ưu thế).
Nhúng tuyến tính cục bộ (Nonlinear dimensionality reduction - LLE) là một phương pháp học phi tuyến tính để tạo ra các "biểu diễn bảo toàn lân cận" có chiều thấp từ đầu vào có kích thước cao (không nhãn). Phương pháp này được đề xuất bởi Roweis và Saul (2000).[18][19] Ý tưởng chung của LLE là tái tạo dữ liệu đầu vào có kích thước cao bằng các điểm có kích thước thấp hơn trong khi bảo toàn một số tính chất hình học của các lân cận (hoặc còn được gọi là "hàng xóm", "láng giềng") trong tập dữ liệu gốc.
LLE bao gồm hai bước chính. Bước đầu tiên là "bảo toàn lân cận", trong đó mỗi điểm dữ liệu đầu vào Xi được tái tạo như một tổng trọng số của giải thuật k hàng xóm gần nhất và các trọng số tối ưu được tìm ra bằng cách giảm thiểu lỗi tái tạo bình phương trung bình (tức là sự khác biệt giữa một điểm đầu vào và tái tạo của nó) dưới ràng buộc rằng tổng các trọng số liên quan đến mỗi điểm bằng một. Bước thứ hai là "giảm chiều", bằng cách tìm các vectơ trong không gian có kích thước thấp hơn mà giảm thiểu lỗi biểu diễn sử dụng các trọng số tối ưu trong bước đầu tiên. Lưu ý rằng trong bước đầu tiên, các trọng số được tối ưu hóa với dữ liệu cố định, có thể giải quyết được như một bài toán bình phương tối thiểu. Trong bước thứ hai, các điểm có kích thước thấp hơn được tối ưu hóa với các trọng số cố định, có thể giải quyết thông qua phân rã giá trị riêng thưa thớt (sparse eigenvalue decomposition).
Các trọng số tái tạo thu được trong bước đầu tiên nắm bắt được các "tính chất hình học nội tại" (intrinsic geometric property) của hàng xóm trong dữ liệu đầu vào.[19] Giả định rằng dữ liệu gốc nằm trên một đa tạp (manifold) mượt mà có kích thước thấp hơn và các "tính chất hình học nội tại" được nắm bắt bởi các trọng số của dữ liệu gốc cũng được kỳ vọng nằm trên đa tạp đó. Đây là lý do tại sao các trọng số giống nhau được sử dụng trong bước thứ hai của LLE. So với PCA, LLE mạnh mẽ hơn trong việc khai thác cấu trúc dữ liệu cơ bản.
Phân tích thành phần độc lập (Independent component analysis - ICA) là một kỹ thuật để hình thành "biểu diễn dữ liệu" sử dụng tổng trọng số của các "thành phần độc lập phi Gauss" (independent non-Gaussian component).[20] Giả định về tính "phi Gauss" được áp đặt vì trọng số không thể được xác định duy nhất khi tất cả các thành phần đều tuân theo phân phối Gauss.
Học từ điển không giám sát không sử dụng nhãn dữ liệu và khai thác cấu trúc tiềm ẩn trong dữ liệu để tối ưu hóa các phần tử của từ điển. Một ví dụ về học từ điển không giám sát là "mã hóa thưa thớt" (sparse coding), với mục tiêu học các hàm cơ sở (phần tử từ điển) để biểu diễn dữ liệu từ dữ liệu đầu vào không có nhãn. Mã hóa thưa thớt có thể được áp dụng để học các từ điển thừa, nơi số lượng phần tử từ điển lớn hơn kích thước của dữ liệu đầu vào.[21] Michal Aharon và cộng sự đã đề xuất thuật toán K-SVD để học một từ điển các phần tử cho phép biểu diễn thưa thớt (sparse representation).[22]
Kiến trúc phân cấp của hệ thống thần kinh sinh học đã truyền cảm hứng cho các kiến trúc học sâu để học đặc trưng bằng cách xếp chồng nhiều lớp nút học (learning node).[23] Các kiến trúc này thường được thiết kế dựa trên giả thuyết về "biểu diễn phân tán" (distributed representation): dữ liệu quan sát được tạo ra bởi sự tương tác của nhiều yếu tố khác nhau trên nhiều cấp độ. Trong một kiến trúc học sâu, đầu ra của mỗi lớp trung gian có thể được xem như một biểu diễn của dữ liệu đầu vào gốc. Mỗi cấp độ sử dụng biểu diễn do cấp thấp hơn tạo ra làm đầu vào, và sản xuất các biểu diễn mới làm đầu ra, sau đó được chuyển đến các cấp độ cao hơn. Đầu vào ở lớp thấp nhất là dữ liệu thô, và đầu ra của lớp cuối cùng, lớp cao nhất là đặc trưng hoặc biểu diễn cuối cùng có kích thước thấp.
Máy Boltzmann hạn chế hay Máy Boltzmann giới hạn (Restricted Boltzmann machine - RBM) thường được sử dụng như một khối xây dựng cho các kiến trúc học nhiều tầng.[6][24] Một RBM có thể được biểu diễn dưới dạng một đồ thị hai phía không có hướng bao gồm một nhóm các biến nhị phân, các biến tiềm ẩn, một nhóm các biến nhìn thấy, và các cạnh kết nối các nút ẩn và nút nhìn thấy. Đây là một trường hợp đặc biệt của máy Boltzmann tổng quát hơn với giới hạn không có kết nối nội bộ giữa các nút. Mỗi cạnh trong RBM được gán với một trọng số. Các trọng số cùng với các kết nối xác định một "hàm năng lượng" (energy function), dựa trên đó có thể tạo ra một phân phối xác suất đồng thời của các nút ẩn và nút nhìn thấy. Dựa trên cấu trúc của RBM, các biến ẩn (biến nhìn thấy) là độc lập, khi được điều kiện hoá theo các biến nhìn thấy (biến ẩn). Sự độc lập điều kiện này tạo thuận lợi cho việc tính toán.
RBM có thể được xem như một kiến trúc một lớp cho học đặc trưng không giám sát. Cụ thể, các biến nhìn thấy tương ứng với dữ liệu đầu vào, và các biến ẩn tương ứng với bộ phát hiện đặc trưng. Các trọng số có thể được huấn luyện bằng cách tối đa hóa xác suất của các biến nhìn thấy sử dụng thuật toán "divergence tương phản" (contrastive divergence - CD) của Geoffrey Hinton.[24]
Thông thường, việc huấn luyện RBM bằng cách giải quyết bài toán tối đa hóa có xu hướng tạo ra các biểu diễn không thưa thớt. RBM thưa thớt[25] đã được đề xuất để cho phép các biểu diễn thưa thớt. Ý tưởng là thêm một thuật toán chính quy hóa trong hàm mục tiêu của khả năng dữ liệu, để phạt việc sai lệch của các biến ẩn kỳ vọng khỏi một hằng số nhỏ . RBM cũng đã được sử dụng để đạt được các biểu diễn "tách biệt" của dữ liệu, trong đó các đặc trưng thú vị được ánh xạ (mapping) tới các đơn vị ẩn riêng biệt.[26]
Một bộ tự mã hóa (autoencoder) bao gồm bộ mã hóa và bộ giải mã là một mô hình cho các kiến trúc học sâu. Một ví dụ được cung cấp bởi Hinton và Salakhutdinov[24] trong đó bộ mã hóa sử dụng dữ liệu thô (ví dụ: hình ảnh) làm đầu vào và tạo ra đặc trưng hoặc biểu diễn làm đầu ra, và bộ giải mã sử dụng đặc trưng trích xuất từ bộ mã hóa làm đầu vào và tái tạo lại dữ liệu thô ban đầu làm đầu ra. Bộ mã hóa và bộ giải mã được xây dựng bằng cách xếp chồng nhiều lớp RBM. Các tham số tham gia trong kiến trúc ban đầu được huấn luyện theo cách tham lam theo từng lớp: sau khi một lớp của "bộ phát hiện đặc trưng" (feature detectors) được học, chúng sẽ được cung cấp như các biến nhìn thấy để huấn luyện RBM tương ứng. Các phương pháp hiện tại thường áp dụng huấn luyện đầu-cuối với các phương pháp suy giảm độ dốc ngẫu nhiên" (stochastic gradient descent). Việc huấn luyện có thể lặp lại cho đến khi đạt được các tiêu chí dừng.
Học biểu diễn tự giám sát là học các đặc trưng bằng cách huấn luyện trên cấu trúc của dữ liệu không có nhãn thay vì dựa vào các nhãn rõ ràng cho một tín hiệu thông tin. Cách tiếp cận này cho phép kết hợp sử dụng các kiến trúc mạng thần kinh sâu và các bộ dữ liệu không có nhãn lớn hơn để tạo ra các biểu diễn đặc trưng sâu.[9] Các nhiệm vụ huấn luyện thường thuộc vào hai loại là tương phản hoặc tạo sinh, hoặc kết hợp cả hai.[27] Học biểu diễn tương phản huấn luyện các biểu diễn cho các cặp dữ liệu liên quan, được gọi là mẫu dương (posive sample), để chúng đồng bộ, trong khi các cặp không có mối quan hệ, được gọi là mẫu âm (negative sample), bị đối chiếu. Thông thường, một phần lớn hơn các mẫu âm là cần thiết để ngăn chặn hiện tượng sụp đổ thảm khốc, đó là khi tất cả các đầu vào đều được ánh xạ đến cùng một biểu diễn (vectơ).[9] Học biểu diễn tạo sinh đặt nhiệm vụ cho mô hình sản xuất dữ liệu chính xác để phù hợp với đầu vào bị hạn chế hoặc tái tạo đầu vào đầy đủ từ một biểu diễn có chiều thấp hơn.[27]
Một thiết lập phổ biến cho "học biểu diễn tự giám sát" của một loại dữ liệu cụ thể (ví dụ: văn bản, hình ảnh, âm thanh, video) là huấn luyện trước mô hình bằng cách sử dụng các bộ dữ liệu lớn của ngữ cảnh tổng quát, dữ liệu không có nhãn.[11] Tùy thuộc vào ngữ cảnh, kết quả của điều này có thể là một tập hợp các biểu diễn cho các đoạn dữ liệu phổ biến (ví dụ: từ) mà dữ liệu mới có thể được phân tách, hoặc là một mạng thần kinh có khả năng chuyển đổi mỗi điểm dữ liệu mới (ví dụ: hình ảnh) thành một tập hợp các đặc trưng có chiều thấp hơn.[9] Trong cả hai trường hợp, các biểu diễn đầu ra sau đó có thể được sử dụng như một khởi đầu trong nhiều thiết lập vấn đề khác nhau nơi dữ liệu có nhãn có thể bị giới hạn. Chuyên môn hóa mô hình cho các nhiệm vụ cụ thể thường được thực hiện với học có giám sát, hoặc bằng cách tinh chỉnh mô hình/biểu diễn với các nhãn làm tín hiệu, hoặc đóng băng các biểu diễn và huấn luyện một mô hình bổ sung nhận chúng làm đầu vào.[11]
Nhiều sơ đồ huấn luyện tự giám sát đã được phát triển để sử dụng trong học biểu diễn của các "phương thức" khác nhau, thường đầu tiên cho thấy ứng dụng thành công trong văn bản hoặc hình ảnh trước khi được chuyển sang các loại dữ liệu khác.[9]
Word2vec là một kỹ thuật nhúng từ bằng cách học cách biểu diễn từ thông qua tự giám sát trên mỗi từ và các từ liền kề trong một cửa sổ trượt trên một tập văn bản lớn.[28] Mô hình này có hai sơ đồ huấn luyện khả thi để tạo ra các biểu diễn vectơ từ, một là tạo sinh và một là tương phản.[27] Đầu tiên là dự đoán từ dựa trên mỗi từ liền kề làm đầu vào.[28] Thứ hai là huấn luyện trên sự tương đồng biểu diễn cho các từ liền kề và sự không tương đồng biểu diễn cho các cặp từ ngẫu nhiên.[10] Một hạn chế của word2vec là chỉ sử dụng cấu trúc đồng xuất hiện cặp của dữ liệu, không sử dụng thứ tự hoặc toàn bộ tập từ ngữ ngữ cảnh. Các phương pháp học biểu diễn dựa trên transformer mới hơn cố gắng giải quyết điều này với các nhiệm vụ dự đoán từ.[9] GPT (Generative pre-trained transformer) huấn luyện trước trên dự đoán từ tiếp theo bằng cách sử dụng các từ đầu vào trước đó làm ngữ cảnh,[29] trong khi BERT che dấu các token ngẫu nhiên để cung cấp ngữ cảnh hai chiều.[30]
Các kỹ thuật tự giám sát khác mở rộng các nhúng từ bằng cách tìm các biểu diễn cho các cấu trúc văn bản lớn hơn như "vectơ câu" hoặc "nhúng câu" (sentence embedding) hoặc đoạn văn trong dữ liệu đầu vào.[9] "Doc2vec" mở rộng cách tiếp cận huấn luyện tạo sinh trong word2vec bằng cách thêm một đầu vào bổ sung vào nhiệm vụ dự đoán từ dựa trên đoạn văn mà nó nằm trong đó, và do đó có ý định biểu diễn ngữ cảnh cấp đoạn văn.[31]
Lĩnh vực học biểu diễn hình ảnh đã sử dụng nhiều kỹ thuật huấn luyện tự giám sát khác nhau, bao gồm chuyển đổi (transformation),[32] tô màu lại hình ảnh (inpainting),[33] phân biệt vùng ảnh (patch discrimination)[34] và phân cụm (clustering).[35]
Ví dụ của các phương pháp tạo sinh là Context Encoders, huấn luyện một kiến trúc mạng thần kinh tích chập "AlexNet" để tạo ra một vùng hình ảnh bị loại bỏ dựa trên hình ảnh bị che làm đầu vào,[33] và iGPT, áp dụng kiến trúc mô hình ngôn ngữ GPT-2 cho hình ảnh bằng cách huấn luyện trên dự đoán pixel sau khi giảm độ phân giải hình ảnh.[36]
Nhiều phương pháp tự giám sát khác sử dụng "mạng song sinh" (siamese network), tạo ra các quan điểm khác nhau của hình ảnh thông qua nhiều phép tăng cường khác nhau, sau đó được căn chỉnh để có các biểu diễn tương tự nhau. Thách thức là tránh các giải pháp sụp đổ khi mô hình mã hóa tất cả các hình ảnh thành cùng một biểu diễn.[37] SimCLR là một phương pháp tương phản sử dụng các ví dụ âm để tạo ra các biểu diễn hình ảnh với một mạng thần kinh tích chập "ResNet" (Residual neural network).[34] Bootstrap Your Own Latent (BYOL) loại bỏ sự cần thiết của các mẫu âm bằng cách mã hóa một trong các quan điểm bằng một "trung bình động" (moving average) chậm của các tham số mô hình khi chúng đang được thay đổi trong quá trình huấn luyện.[38]
Mục tiêu của nhiều kỹ thuật học biểu diễn đồ thị là tạo ra một biểu diễn nhúng của mỗi "nút" hoặc "đỉnh" (vertex) dựa trên tổng thể cấu trúc mạng. node2vec mở rộng kỹ thuật huấn luyện word2vec sang các nút trong một đồ thị bằng cách sử dụng đồng xuất hiện trong các "bước đi ngẫu nhiên" (random walk) qua đồ thị như một thước đo sự liên kết.[39] Một cách tiếp cận khác là tối đa hóa "thông tin tương hỗ" (mutual information), một thước đo sự tương đồng, giữa các biểu diễn của các cấu trúc liên quan trong đồ thị.[9] Một ví dụ là Deep Graph Infomax, sử dụng tự giám sát tương phản dựa trên thông tin tương hỗ giữa biểu diễn của một "vùng cục bộ" xung quanh mỗi nút (còn được gọi là lân cận) và biểu diễn tóm tắt của toàn bộ đồ thị. Các mẫu âm (negative sample) được lấy bằng cách ghép cặp biểu diễn đồ thị với các biểu diễn từ đồ thị khác trong một thiết lập huấn luyện đa đồ thị, hoặc các biểu diễn "vùng cục bộ" bị làm hỏng trong huấn luyện đồ thị đơn.[40]
Với các kết quả tương tự trong dự đoán "mặt nạ video" (masked prediction)[41] và phân cụm,[42] các phương pháp học biểu diễn video thường tương tự như các kỹ thuật hình ảnh nhưng phải sử dụng chuỗi khung video như một cấu trúc học thêm. Các ví dụ bao gồm VCP, mặt nạ (mask) các đoạn video và huấn luyện để chọn đoạn chính xác từ một tập hợp các đoạn video, và Xu (và cộng sự), huấn luyện một mạng tích chập 3D để xác định thứ tự ban đầu dựa trên một tập hợp các đoạn video bị xáo trộn.
Các kỹ thuật tự giám sát biểu diễn cũng đã được áp dụng cho nhiều định dạng dữ liệu âm thanh, đặc biệt là cho xử lý giọng nói.[9] Wav2vec 2.0 phân đoạn dạng sóng âm thanh thành các bước thời gian thông qua các phép chập thời gian, và sau đó huấn luyện một transformer trên dự đoán các "mặt nạ bước thời gian" (masked timesteps) ngẫu nhiên bằng cách sử dụng một hàm mất mát tương phản (contrastive loss).[43] Điều này tương tự như mô hình ngôn ngữ BERT, ngoại trừ, như trong nhiều cách tiếp cận học tự giám sát cho video, mô hình chọn từ một tập hợp các lựa chọn thay vì toàn bộ từ vựng.[30][43]
Học tự giám sát cũng đã được sử dụng để phát triển các biểu diễn chung của nhiều loại dữ liệu.[9] Các cách tiếp cận thường dựa vào một sự liên kết tự nhiên hoặc do con người tạo ra giữa các "phương thức" như một nhãn ngầm định, ví dụ như các đoạn video về động vật hoặc vật thể với âm thanh đặc trưng,[44] hoặc các chú thích được viết để mô tả hình ảnh.[45] CLIP tạo ra một không gian biểu diễn "hình ảnh-văn bản" chung bằng cách huấn luyện để căn chỉnh các mã hóa hình ảnh và văn bản từ một tập dữ liệu lớn các cặp "hình ảnh-chú thích" sử dụng một hàm mất mát tương phản.[45] MERLOT Reserve huấn luyện một mã hóa dựa trên transformer để biểu diễn chung âm thanh, phụ đề và khung video từ một tập dữ liệu lớn các video thông qua ba nhiệm vụ huấn luyện chung: dự đoán mặt nạ tương phản (contrastive) của cả đoạn âm thanh hoặc văn bản dựa trên khung video, ngữ cảnh âm thanh và văn bản xung quanh, cùng với sự căn chỉnh tương phản của các khung video với các chú thích tương ứng của chúng.[44]
Các mô hình biểu diễn đa phương thức (multimodal representation) thường không thể giả định sự tương ứng trực tiếp của các biểu diễn trong các "mốt" khác nhau, vì sự căn chỉnh chính xác thường có thể bị nhiễu hoặc mơ hồ. Ví dụ, từ "chó" có thể được ghép với nhiều hình ảnh khác nhau của chó, và tương tự, một bức tranh về một con chó có thể được chú thích với các mức độ cụ thể khác nhau. Hạn chế này có nghĩa là các nhiệm vụ phía sau có thể yêu cầu một mạng ánh xạ sinh bổ sung giữa các dạng thức để đạt được hiệu suất tối ưu, như trong DALLE-2 cho việc tạo hình ảnh từ văn bản.[46]
Các phương pháp học biểu diễn động tạo ra các biểu diễn ẩn cho các hệ thống động như mạng động (dynamic network). Vì các hàm khoảng cách cụ thể không thay đổi dưới các phép biến đổi tuyến tính cụ thể, các tập hợp vectơ biểu diễn khác nhau thực chất có thể biểu diễn cùng một thông tin hoặc thông tin tương tự. Do đó, đối với một hệ thống động, sự khác biệt theo thời gian trong các biểu diễn có thể được giải thích bởi sự sai lệch trong biểu diễn do các phép biến đổi tùy ý và/hoặc do các thay đổi thực sự trong hệ thống.[47] Vì vậy, nói chung, các biểu diễn theo thời gian học được thông qua các phương pháp học biểu diễn động cần được kiểm tra để tìm các thay đổi không hợp lý và cần được căn chỉnh trước khi tiến hành các phân tích động tiếp theo.
|journal=
(trợ giúp)
|journal=
(trợ giúp)
|journal=
(trợ giúp)
|journal=
(trợ giúp)