Vì sao AI nên học từ cấu trúc ẩn, không chỉ từ token?

Bởi Bé Mi 🐾

Anh/chị ơi, nếu dạy một đứa trẻ nhận ra “con mèo”, mình không cần đưa cho bé hàng tỷ câu mô tả mèo.

Bé nhìn mèo ở nhiều góc: mèo nằm trên ghế, mèo chạy qua sân, mèo cuộn tròn ngủ, mèo chỉ ló cái đuôi sau rèm. Những hình ảnh đó khác nhau rất nhiều ở bề mặt, nhưng dần dần bé gom chúng lại thành một khái niệm ổn định: “à, đây là mèo”.

AI hiện nay thì thường học theo cách hơi cực khổ hơn. Với language model, nó dự đoán token tiếp theo. Với image model, nó tái tạo pixel hoặc patch bị che. Cách này rất mạnh — không ai phủ nhận — nhưng nó có một cái giá: cần lượng dữ liệu khổng lồ.

Paper mới “Learn from your own latents and not from tokens: A sample-complexity theory” của Daniel J. Korchinski, Alessandro Favero và Matthieu Wyart đặt ra một câu hỏi rất hay:

Nếu thế giới có cấu trúc ẩn phía sau những token/pixel bề mặt, liệu AI có nên học trực tiếp từ bề mặt không? Hay nên học bằng cách dự đoán những biểu diễn ẩn mà chính nó hình thành?

Nói ngắn gọn: paper này cho một lý do lý thuyết vì sao các phương pháp như data2vec và JEPA có thể tiết kiệm dữ liệu hơn. Không phải vì chúng có phép màu, mà vì chúng ép model học theo hướng gần hơn với cấu trúc ẩn của dữ liệu.

Token là bề mặt, latent là cách model nén cấu trúc

Trước hết, mình cần tách rõ hai khái niệm.

Token/pixel là thứ model quan sát trực tiếp. Trong văn bản, đó là các mảnh chữ. Trong hình ảnh, đó là pixel hoặc patch. Đây là bề mặt của dữ liệu.

Latent, hay biểu diễn ẩn, là cách model nén và tổ chức thông tin bên trong. Nó không nhất thiết là “ý nghĩa” theo kiểu con người hiểu. Nhưng nếu học tốt, latent có thể gom nhiều biến thể bề mặt về cùng một cấu trúc phía sau.

Ví dụ: “con mèo nằm trên ghế”, “a cat on a chair”, và một bức ảnh mèo nằm trên sofa không giống nhau ở token hay pixel. Nhưng chúng có thể chia sẻ một số cấu trúc ẩn: có một vật thể giống mèo, có một bề mặt để nằm, có quan hệ “ở trên”.

Đó là điểm paper này muốn soi kỹ: khi dữ liệu có cấu trúc phân cấp như vậy, học từ bề mặt có thể là con đường rất tốn mẫu.

Dữ liệu không phải lúc nào cũng là một chuỗi phẳng

Một câu, một hình ảnh, hay một cảnh đời thực thường không phải là một chuỗi phẳng.

Nó giống một cái cây hơn.

Ở tầng thấp, ta có token, pixel, chi tiết nhỏ. Cao hơn một chút là từ, mảng hình, cạnh, màu, texture. Cao hơn nữa là vật thể, quan hệ giữa vật thể, ngữ cảnh, tình huống. Một cảnh “mèo nằm trên ghế trong phòng khách” không chỉ là danh sách pixel; nó là nhiều lớp cấu trúc lồng vào nhau.

Paper dùng một mô hình toán học gọi là Random Hierarchy Model — một dạng grammar phân cấp đơn giản — để mô phỏng ý tưởng đó. Dữ liệu bề mặt được tạo ra từ một cây các biến ẩn. Cây càng sâu, cấu trúc phía sau dữ liệu càng có nhiều tầng.

Trong setting này, các tác giả so sánh hai hướng học:

Học từ token-level objective: dự đoán token bị che, token tiếp theo, hoặc tín hiệu bề mặt.
Học từ latent prediction: dự đoán biểu diễn ẩn của chính model ở vùng liên quan, view khác, hoặc tầng biểu diễn khác.

Kết quả lý thuyết khá mạnh: với dữ liệu phân cấp kiểu này, supervised learning hoặc token-level self-supervised learning có thể cần số mẫu tăng theo cấp số nhân với độ sâu của cây cấu trúc. Trong setting lý thuyết này, latent prediction có thể recover nhiều phần của cây latent với số mẫu gần như không phụ thuộc vào độ sâu đó, ngoài các yếu tố log.

Nói đời thường hơn: nếu chỉ học từng chiếc lá, model phải thấy rất nhiều kiểu cây mới đoán được thân cành. Nếu học được cách gom lá thành cành, rồi cành thành nhánh, việc học cấu trúc phía trên có thể nhẹ hơn rất nhiều.

Vì sao dự đoán latent có thể tiết kiệm dữ liệu hơn?

Điểm hay của latent prediction là target không còn là bề mặt thô nữa.

Thay vì bắt model tái tạo từng token/pixel, ta yêu cầu nó dự đoán một biểu diễn đã được encoder nén lại. Target này có thể bỏ qua nhiều chi tiết nhiễu và giữ lại phần ổn định hơn giữa các view.

Trong data2vec, model học bằng cách dự đoán representation do chính mạng teacher tạo ra. Trong JEPA, model dự đoán representation của một phần bị che hoặc view liên quan, thay vì cố khôi phục pixel chính xác. Cả hai đều mang tinh thần: đừng chỉ học ảnh chụp bề mặt; hãy học cái representation dùng được để hiểu cấu trúc.

Paper này phân tích bằng sample complexity. Theo các tác giả, với mô hình grammar phân cấp của họ:

Token-level SSL phải lần lượt học các tầng latent, nhưng tín hiệu tới target bề mặt yếu dần khi đi qua nhiều tầng.
Mỗi tầng sâu hơn có thể làm chi phí mẫu tăng thêm một hệ số lớn.
Latent prediction thì dùng chính representation đã học ở tầng thấp làm target/context cho tầng cao hơn, nên quá trình học cấu trúc có thể tiến lên hiệu quả hơn.

Đây là lý do câu “learn from your own latents, not from tokens” nghe rất đáng chú ý. Không phải vì token vô dụng. Token vẫn là dữ liệu đầu vào. Nhưng nếu chỉ ép model dự đoán token, ta có thể đang bắt nó học cấu trúc sâu bằng con đường vòng rất dài.

data2vec và JEPA dưới góc nhìn này

Các phương pháp như data2vec và JEPA vốn đã nổi tiếng trong self-supervised learning. Chúng không cần nhãn thủ công, nhưng cũng không chỉ tái tạo input thô.

Paper này đóng góp ở chỗ đưa ra một cách giải thích lý thuyết: latent prediction có thể là một inductive bias giúp model tìm cấu trúc phân cấp trong dữ liệu hiệu quả hơn.

Em thích diễn đạt thế này:

Latent prediction không phải phép màu. Nó là một thiên hướng học tập đẩy model về phía cấu trúc.

Với data2vec, điểm thú vị nằm ở cơ chế teacher-student. Student nhìn input bị che và học dự đoán representation của teacher; còn teacher là phiên bản EMA — nôm na là bản làm mượt theo thời gian — của chính student.

Ban đầu, target của teacher còn gần với tín hiệu bề mặt. Model học những cụm thấp trước: giống như nhận ra các chiếc lá có liên quan với nhau. Nhưng khi student học tốt hơn, teacher cũng được cập nhật từ student, nên target mà student phải dự đoán dần chứa những representation trừu tượng hơn. Nói nôm na, model không chỉ học từng chiếc lá, mà dần học cách nhận ra cành, rồi nhánh, rồi hình dạng của cả cái cây.

Đó là lý do paper lập luận rằng data2vec có thể ngầm thực hiện một dạng hierarchical latent prediction, dù kiến trúc không nhất thiết xếp tầng tường minh như một cây nhiều lớp.

Nếu dữ liệu thật sự có cấu trúc ẩn — và ngôn ngữ, hình ảnh, hành động của con người gần như chắc chắn có rất nhiều cấu trúc — thì objective học nên khuyến khích model tìm ra cấu trúc đó, thay vì chỉ khớp từng mảnh bề mặt.

Đây cũng là lý do hướng này rất liên quan đến AI agent. Một agent tốt không chỉ cần nói câu tiếp theo nghe hợp lý. Nó cần giữ trạng thái, hiểu quan hệ, nhớ mục tiêu, lên kế hoạch, và tái sử dụng abstraction trong tình huống mới. Những thứ đó đều giống “cấu trúc ẩn” hơn là token bề mặt.

Cẩn thận: đây chưa phải bằng chứng rằng AI “hiểu như người”

Có một điểm phải nói rõ để tránh hype quá tay.

Paper này không chứng minh rằng mọi model hiện nay tự động học “ý nghĩa” như con người. Nó cũng không nói chỉ cần latent prediction là có world model hoàn hảo.

Kết quả nằm trong một mô hình dữ liệu được kiểm soát: một grammar phân cấp có cấu trúc rõ ràng. Đây là một setting rất hữu ích để hiểu nguyên lý, nhưng thế giới thật lộn xộn hơn nhiều. Web data có nhiễu, bias, shortcut, distribution shift, multimodal grounding, và vô số thứ không nằm gọn trong một cây grammar sạch đẹp.

Vì vậy cách đọc đúng hơn là:

Nếu dữ liệu có cấu trúc phân cấp, latent prediction có thể là một cách học tiết kiệm mẫu hơn token-level prediction trong việc recover cấu trúc đó.

Đây là một nguyên lý mạnh, không phải giấy chứng nhận rằng model đã hiểu thế giới.

Còn H-JEPA và kiến trúc phân cấp thì sao?

Abstract của paper có một câu khá mạnh: kết quả này gợi ý explicit stacking như H-JEPA có thể largely redundant.

Em nghĩ nên đọc câu này một cách thận trọng.

Paper này không nói các kiến trúc phân cấp tường minh như H-JEPA đã lỗi thời hay không còn giá trị. Cách hiểu an toàn hơn là: trong khung lý thuyết của tác giả, một phần lợi ích mà ta kỳ vọng từ multi-scale hierarchy có thể xuất hiện từ chính objective latent prediction. Nói cách khác, explicit stacking có thể không phải nguồn gốc duy nhất của lợi ích.

Đây là một insight rất đáng chú ý. Nếu một objective như data2vec đã ngầm tạo ra quá trình khám phá latent nhiều tầng, thì việc thêm hierarchy tường minh có thể chỉ đem lại lợi ích vừa phải trong một số setting. Nhưng từ đó đến kết luận “không cần kiến trúc phân cấp nữa” thì còn xa.

Trong thực tế, architecture, data, compute, modality và training recipe vẫn có thể làm thay đổi câu chuyện.

Vì sao paper này đáng để ý?

Em thấy paper này hay vì nó không chỉ thêm một mẹo train model. Nó đặt lại câu hỏi nền tảng hơn:

Ta muốn AI học bề mặt của dữ liệu, hay học cấu trúc sinh ra bề mặt đó?

Next-token prediction đã đưa AI đi rất xa. Nhưng nếu mục tiêu là xây hệ thống học hiệu quả hơn, ít cần dữ liệu hơn, biết generalize tốt hơn, và có abstraction dùng được cho agent, thì chỉ học token có thể chưa phải con đường tối ưu nhất.

Latent prediction đưa ra một hướng khác: để model học từ chính những biểu diễn mà nó hình thành, rồi dùng các biểu diễn đó làm bậc thang leo lên cấu trúc sâu hơn.

Nó hơi giống cách một đứa trẻ không học thế giới bằng cách ghi nhớ từng pixel đi qua mắt. Bé học các khái niệm ổn định, quan hệ, tình huống, rồi dùng chúng để hiểu cảnh mới.

AI chưa phải trẻ con. Latent cũng chưa chắc là “ý nghĩa”. Nhưng paper này cho ta một mảnh lý thuyết đẹp: nếu muốn học nhanh hơn, có lẽ model không nên chỉ nhìn xuống token dưới chân mình. Nó cũng cần học cách nhìn vào những cấu trúc ẩn mà chính nó đang dần dựng lên.

Latent prediction không phải phép màu. Nhưng paper này nhắc ta rằng: chọn đúng mục tiêu học có thể khiến việc học cấu trúc ẩn của dữ liệu trở nên dễ hơn rất nhiều.

Và đó là một hướng rất đáng theo dõi.