Học tự giám sát (self-supervised learning hay SSL) là một kỹ thuật trong học máy mà trong đó, một mô hình được huấn luyện trên một tác vụ bằng cách sử dụng chính dữ liệu để tạo ra các tín hiệu giám sát, thay vì dựa vào các nhãn bên ngoài do con người cung cấp. Trong bối cảnh của mạng thần kinh nhân tạo, học tự giám sát hướng tới việc khai thác các cấu trúc hoặc mối quan hệ nội tại trong dữ liệu đầu vào để tạo ra các tín hiệu huấn luyện có ý nghĩa. Các nhiệm vụ trong SSL được thiết kế sao cho việc giải quyết yêu cầu nắm bắt được các đặc điểm hoặc mối quan hệ quan trọng trong dữ liệu. Dữ liệu đầu vào thường được tăng cường hoặc biến đổi để tạo ra các cặp mẫu liên quan. Một mẫu sẽ đóng vai trò làm đầu vào, và mẫu còn lại được dùng để hình thành tín hiệu giám sát. Việc tăng cường này có thể bao gồm thêm nhiễu, cắt, xoay, hoặc các biến đổi khác. Học tự giám sát mô phỏng cách con người học cách phân loại các đối tượng.[1]
Phương pháp học tự giám sát thông thường dựa trên mạng thần kinh nhân tạo hoặc các mô hình khác như
danh sách quyết định (decision list).[2] Mô hình học theo hai bước. Đầu tiên, tác vụ được giải quyết dựa trên một nhiệm vụ phân loại phụ hoặc tiền đề, sử dụng các nhãn giả để giúp khởi tạo các tham số của mô hình.[3][4] Sau đó, tác vụ chính được thực hiện bằng học có giám sát hoặc không giám sát.[5][6][7] Các nhiệm vụ phụ khác liên quan đến việc hoàn thành các mẫu từ các mẫu đầu vào bị che (khoảng dừng trong lời nói hoặc các phần hình ảnh bị che đen).
Học tự giám sát đã cho thấy những kết quả hứa hẹn trong những năm gần đây và đã được ứng dụng thực tiễn trong xử lý âm thanh và đang được Facebook cùng các bên khác sử dụng cho nhận dạng tiếng nói.[8]
Các loại
Học tự giám sát liên kết tự động
Học tự giám sát liên kết tự động là một loại học của học tự giám sát, trong đó mạng thần kinh được huấn luyện để tái tạo hoặc tái cấu trúc chính dữ liệu đầu vào của nó.[9] Nói cách khác, mô hình có nhiệm vụ học một biểu diễn của dữ liệu mà nắm bắt được các đặc điểm hoặc cấu trúc cốt lõi, giúp nó tái tạo lại đầu vào ban đầu.
Thuật ngữ "liên kết tự động" xuất phát từ thực tế rằng mô hình về cơ bản là liên kết dữ liệu đầu vào với chính nó. Điều này thường được thực hiện bằng cách sử dụng bộ tự mã hóa, một loại kiến trúc mạng thần kinh được sử dụng để học biểu diễn. Bộ tự mã hóa bao gồm một mạng mã hóa ánh xạ dữ liệu đầu vào thành một không gian biểu diễn có chiều thấp hơn (không gian tiềm ẩn), và một mạng giải mã tái tạo lại dữ liệu đầu vào từ biểu diễn này.
Quá trình huấn luyện bao gồm việc trình bày mô hình với dữ liệu đầu vào và yêu cầu nó tái tạo lại dữ liệu đó một cách gần nhất có thể. Hàm mất mát được sử dụng trong quá trình huấn luyện thường phạt sự khác biệt giữa dữ liệu đầu vào gốc và đầu ra tái tạo. Bằng cách giảm thiểu lỗi tái tạo này, bộ tự mã hóa học được một biểu diễn có ý nghĩa của dữ liệu trong không gian tiềm ẩn của nó.
Học tự giám sát tương phản
Đối với một tác vụ phân loại nhị phân, dữ liệu huấn luyện có thể được chia thành ví dụ tích cực và ví dụ tiêu cực. Các ví dụ tích cực là những ví dụ phù hợp với mục tiêu. Ví dụ, nếu bạn đang học để nhận diện chim, dữ liệu huấn luyện tích cực là những bức ảnh chứa chim. Các ví dụ tiêu cực là những bức ảnh không chứa chim.[10] Học tự giám sát tương phản sử dụng cả ví dụ tích cực và tiêu cực. Hàm mất mát của học tương phản tối thiểu hóa khoảng cách giữa các cặp mẫu tích cực trong khi tối đa hóa khoảng cách giữa các cặp mẫu tiêu cực.[10]
Học tự giám sát không tương phản
Học tự giám sát không tương phản (non-contrastive self-supervised learning hay NCSSL) là một phương pháp học không cần so sánh với các ví dụ tiêu cực (tức là chỉ sử dụng các ví dụ tích cực). Mặc dù nghe có vẻ khó hiểu, nhưng NCSSL không dẫn đến kết quả vô nghĩa (chỉ toàn phân loại đúng tất cả) mà thực tế lại tìm ra một kết quả có ích, không phải là giải pháp tầm thường. Ví dụ, trong bài toán phân loại nhị phân (chỉ có hai lựa chọn), một cách đơn giản là nó có thể học để phân loại mọi ví dụ đều là tích cực. Tuy nhiên, để NCSSL hoạt động hiệu quả, cần có thêm một bộ dự đoán nằm ở phía online (phía học) và không cần phải truyền ngược thông tin lên phía đối tượng mục tiêu (phía cần so sánh).[10]
So sánh với các hình thức học máy khác
SSL (Self-supervised learning) thuộc nhóm các phương pháp học có giám sát (supervised learning) vì mục tiêu của nó là tạo ra đầu ra đã được phân loại từ đầu vào. Tuy nhiên, khác với phương pháp học có giám sát truyền thống, SSL không yêu cầu phải sử dụng các cặp dữ liệu có nhãn rõ ràng (cặp dữ liệu đầu vào và đầu ra đã được dán nhãn). Thay vào đó, các mối quan hệ, thông tin bổ sung (metadata) ẩn chứa trong dữ liệu, hoặc kiến thức đặc trưng của lĩnh vực trong đầu vào sẽ được tự động rút trích từ dữ liệu. Những tín hiệu giám sát này được tạo ra từ chính dữ liệu, và sau đó có thể sử dụng để huấn luyện mô hình.[1]
SSL tương tự như học không giám sát ở chỗ nó không yêu cầu nhãn trong dữ liệu mẫu. Tuy nhiên, khác với học không giám sát, học không dựa trên các cấu trúc vốn có của dữ liệu.
Học bán giám sát kết hợp giữa học có giám sát và không giám sát, chỉ yêu cầu một phần nhỏ của dữ liệu học có nhãn.[4]
Trong học chuyển giao, một mô hình được thiết kế cho một nhiệm vụ có thể được tái sử dụng cho một nhiệm vụ khác.[11]
Huấn luyện một bộ tự mã hóa vốn dĩ là một quá trình tự giám sát, vì mẫu đầu ra cần phải trở thành một tái tạo tối ưu của mẫu đầu vào chính nó. Tuy nhiên, trong ngôn ngữ hiện đại, thuật ngữ "tự giám sát" đã trở nên liên quan đến các nhiệm vụ phân loại dựa trên việc huấn luyện bằng các nhiệm vụ giả định. Điều này đòi hỏi (con người) thiết kế các nhiệm vụ giả định, khác với trường hợp huấn luyện bộ tự mã hóa hoàn toàn tự động.[9]
Trong học tăng cường, việc tự giám sát từ sự kết hợp của các mất mát có thể tạo ra các biểu diễn trừu tượng, nơi chỉ giữ lại những thông tin quan trọng nhất về trạng thái dưới dạng nén.[12]
Ví dụ
Học tự giám sát đặc biệt phù hợp với nhận dạng tiếng nói. Ví dụ, Facebook đã phát triển wav2vec, một thuật toán tự giám sát, để thực hiện nhận dạng tiếng nói bằng cách sử dụng hai mạng thần kinh tích chập sâu liên kết với nhau.[8]
Google đã sử dụng mô hình BERT để hiểu rõ hơn ngữ cảnh của các truy vấn tìm kiếm.[13]
OpenAI đã phát triển GPT-3, một mô hình ngôn ngữ tự hồi quy có thể được sử dụng trong xử lý ngôn ngữ. Nó có thể được dùng để dịch văn bản hoặc trả lời câu hỏi, cùng nhiều tác vụ khác.[14]
Bootstrap Your Own Latent (BYOL) là một phương pháp học tự giám sát không tương phản (NCSSL) đã mang lại kết quả xuất sắc trên ImageNet và các bài kiểm tra truyền tải và bán giám sát.[15]
Thuật toán Yarowsky là một ví dụ về học tự giám sát trong xử lý ngôn ngữ tự nhiên. Từ một số lượng nhỏ các ví dụ được gán nhãn, nó học cách dự đoán nghĩa của một từ đa nghĩa sử dụng tại một điểm trong văn bản.
DirectPred là một phương pháp học tự giám sát không tương phản (NCSSL) đặt trực tiếp các "trọng số dự báo" (predictor weight) thay vì học nó thông qua suy giảm độ dốc.[10]
Self-GenomeNet là một ví dụ về học tự giám sát trong lĩnh vực genomics.[16]
^Grill, Jean-Bastien; Strub, Florian; Altché, Florent; Tallec, Corentin; Richemond, Pierre H.; Buchatskaya, Elena; Doersch, Carl; Pires, Bernardo Avila; Guo, Zhaohan Daniel (2020-09-10). "Bootstrap your own latent: A new approach to self-supervised Learning". arΧiv:2006.07733 [cs.LG].