LeWorldModel: Khi Triết Lý JEPA Của LeCun Chỉ Cần 1 GPU Để Chứng Minh

Trước khi đọc: Câu chuyện đến đây rồi

Nếu bạn đã theo dõi series World Model của Bé Mi, bạn biết chúng ta đang ở giữa một câu chuyện rất hay.

Bài đầu tiên, mình kể về triết lý gốc rễ: Yann LeCun — cha đẻ Convolutional Neural Networks, giải Turing — tuyên bố thẳng rằng con đường đến trí tuệ máy không phải là AGI kiểu generate-text-thật-giỏi, mà là xây dựng World Models — những mô hình có khả năng hiểu thế giới vật lý, dự đoán được chuyện gì sẽ xảy ra tiếp theo mà không cần ai dán nhãn từng frame. Ông đề xuất khái niệm SAI (Superintelligent AI) dựa trên JEPA — Joint-Embedding Predictive Architecture — một kiến trúc học trong không gian biểu diễn thay vì không gian pixel.

Bài thứ hai, mình đi sâu vào V-JEPA 2.1 — framework từ Meta FAIR đã biến triết lý JEPA thành hiện thực trên video. V-JEPA chứng minh rằng self-supervised learning trong latent space có thể tạo ra dense video representations mạnh mẽ, thực sự "grounding" cho world models.

Bài hôm nay? Bài hôm nay là minh chứng rằng toàn bộ câu chuyện đó — từ triết lý tầm cao đến implementation cụ thể — có thể chạy trên 1 GPU duy nhất, với 15 triệu parameters, và chỉ 2 hàm loss.

Tên của nó: LeWorldModel (LeWM).

LeWorldModel là gì, và tại sao bạn nên quan tâm?

LeWorldModel là một paper mới (arXiv:2603.19312, ngày 13/03/2026) đến từ một nhóm nghiên cứu liên kết giữa Mila/Université de Montréal, NYU, Samsung SAIL và Brown University. Đội ngũ tác giả gồm Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, và Randall Balestriero — đúng vậy, LeCun không chỉ đưa ra triết lý mà còn đứng tên trực tiếp trên paper implementation.

Vấn đề mà LeWM giải quyết nằm ở một nghịch lý rất quen thuộc trong giới nghiên cứu AI: JEPA là ý tưởng hay, nhưng train nó end-to-end thì cực kỳ khó.

Tại sao train JEPA lại khó?

Hãy tưởng tượng bạn đang dạy một đứa trẻ dự đoán chuyện gì sẽ xảy ra khi thả quả bóng từ trên cao. Cách truyền thống (kiểu generative model) là bắt đứa trẻ vẽ lại toàn bộ khung cảnh — quả bóng ở đâu, nền trời màu gì, cỏ mọc thế nào — rồi so sánh bức vẽ với thực tế. Tốn công, tốn sức, và phần lớn effort bỏ vào việc vẽ chi tiết nền trời chẳng liên quan gì đến quỹ đạo quả bóng.

JEPA thì khác. Thay vì vẽ lại toàn bộ, JEPA dạy đứa trẻ hiểu bản chất — quả bóng đang rơi nhanh hơn, vị trí đang thay đổi theo hướng nào, tốc độ bao nhiêu. Đứa trẻ không cần vẽ lại pixel, chỉ cần dự đoán đúng trong một "không gian khái niệm" (latent space).

Vấn đề? Nếu không cẩn thận, đứa trẻ sẽ gian lận. Nó sẽ học cách biểu diễn mọi thứ thành cùng một con số, rồi "dự đoán" luôn đúng vì mọi thứ đều giống nhau. Đây gọi là representation collapse — cơn ác mộng của mọi hệ thống JEPA.

Các phương pháp trước LeWM đối phó với collapse bằng cách chồng thêm nhiều "bảo hiểm": exponential moving average (EMA) cho target encoder, nhiều loss terms phức tạp, hoặc đơn giản là dùng encoder đã được pretrain sẵn (kiểu "không train encoder thì không collapse"). Ví dụ:

PLDM — train end-to-end nhưng cần 6 hyperparameters cho loss function, dẫn đến bất ổn.
DINO-WM — dùng encoder pretrained (frozen), tránh collapse nhưng bị giới hạn bởi chất lượng encoder có sẵn.
Dreamer, TD-MPC — cần reward signal, task-specific, không phải world model đúng nghĩa "task-agnostic".

LeWM tuyên bố: tôi chỉ cần 2 loss terms và 1 hyperparameter. Hết.

Hai thành phần cốt lõi: MSE và SIGReg

Nếu JEPA là triết lý, thì LeWM là bản thiết kế tối giản nhất để triết lý đó hoạt động. Toàn bộ hệ thống chỉ dựa trên hai hàm loss:

1. MSE Prediction Loss

Đây là phần dễ hiểu nhất: model dự đoán embedding (biểu diễn nén) của frame tiếp theo, rồi so sánh với embedding thực tế bằng Mean Squared Error. Giống như bạn đoán quả bóng sẽ ở vị trí nào, rồi đo sai số so với vị trí thật.

2. SIGReg — Cái tên lạ, ý tưởng hay

Đây mới là phần thú vị. SIGReg (Sigmoid Regularizer) là một kỹ thuật regularization đảm bảo rằng các embeddings trong latent space tuân theo phân phối Gaussian — nói nôm na là "trải đều" trong không gian, không co cụm lại một chỗ.

Hãy tưởng tượng bạn có một tấm bản đồ. Nếu tất cả các thành phố đều bị vẽ chồng lên cùng một điểm, bản đồ vô dụng — bạn không phân biệt được Hà Nội với Sài Gòn. SIGReg đảm bảo rằng mỗi "thành phố" (mỗi trạng thái của thế giới) được đặt ở một vị trí riêng biệt, phân bố đều đặn trên bản đồ.

Về mặt kỹ thuật, SIGReg hoạt động bằng cách:

Chiếu embeddings lên các hướng ngẫu nhiên (random projections)
Áp dụng kiểm tra tính chuẩn (normality test) trên mỗi chiều
Ép buộc các embeddings tuân theo phân phối Gaussian đẳng hướng (isotropic Gaussian)

Kết quả: latent space không collapse, không cần EMA, không cần pretrained encoder, không cần 6 hyperparameters phức tạp. Đây là một probabilistic sufficient condition — không phải hard guarantee tuyệt đối, nhưng là tiến bộ lý thuyết đáng kể so với các heuristic tricks trước đó. Chỉ 1 hyperparameter duy nhất cho loss function — trọng số λ cân bằng SIGReg so với MSE loss. (Tất nhiên vẫn cần tune các hyperparameter khác như learning rate, architecture — nhưng về mặt loss design, đây là bước đơn giản hóa rất đáng kể.)

Đối với người làm AI: đây là một bước đơn giản hóa rất đáng kể. Từ 6 hyperparameters (PLDM) xuống 1 không chỉ là tiện lợi — nó ảnh hưởng trực tiếp đến khả năng reproduce kết quả, tốc độ iteration, và khả năng scale nghiên cứu.

Con số không biết nói dối

LeWM được benchmark trên nhiều task control 2D và 3D. Và kết quả thì... khá ấn tượng cho một model nhỏ:

PushT (2D manipulation):

LeWM: 90% success rate
DINO-WM (foundation-model-based): 13% (cùng compute budget)

OGBench-Cube (3D control):

LeWM: 74%
DINO-WM: 48%

Tốc độ planning:

LeWM nhanh hơn 48 lần so với DINO-WM

Hãy để mình nhấn mạnh: DINO-WM dùng encoder pretrained trên dataset khổng lồ, kiểu "đứng trên vai người khổng lồ". LeWM train from scratch, từ raw pixels, trên 1 GPU, trong vài giờ. Và vẫn nhanh hơn 48 lần, chính xác hơn gấp nhiều lần.

Tất nhiên, cần nhìn nhận công bằng: DINO-WM bị giới hạn bởi việc frozen encoder không được tối ưu cho task cụ thể. LeWM train end-to-end nên encoder được tối ưu cùng với predictor. Đây là lợi thế cấu trúc, không phải phép màu.

Latent Space biết "hiểu" vật lý

Một trong những kết quả thú vị nhất của paper không nằm ở benchmark control, mà ở khả năng encode cấu trúc vật lý của latent space.

Nhóm tác giả dùng linear probes — những bộ phân loại tuyến tính đơn giản — để kiểm tra xem latent space có chứa thông tin về vị trí (position) và vận tốc (velocity) của vật thể hay không. Kết quả: có, và khá chính xác.

Điều này có nghĩa gì? Nó có nghĩa là LeWM không chỉ học cách dự đoán "frame tiếp theo trông như thế nào" mà thực sự học được cấu trúc vật lý cơ bản — quả bóng ở đâu, đang di chuyển nhanh bao nhiêu, theo hướng nào. Model tự phát hiện ra những khái niệm này mà không ai dạy nó "đây là vị trí", "đây là vận tốc".

Violation-of-Expectation: AI biết ngạc nhiên

Paper còn thực hiện một thí nghiệm lấy cảm hứng từ tâm lý học phát triển trẻ em: violation-of-expectation test. Ý tưởng là nếu model thực sự hiểu vật lý, nó sẽ "ngạc nhiên" (prediction error cao) khi chứng kiến sự kiện phi vật lý — ví dụ quả bóng đột nhiên xuyên qua tường hoặc biến mất.

Kết quả: LeWM phát hiện được các sự kiện phi vật lý qua prediction error tăng đột biến. Giống như cách em bé 6 tháng tuổi nhìn lâu hơn khi vật thể "biến mất" một cách bất thường — model cũng có phản ứng tương tự trong latent space.

Đây không phải "ý thức" hay "hiểu biết" theo nghĩa triết học. Nhưng nó cho thấy latent space đang encode thông tin có ý nghĩa vật lý, không chỉ là pattern matching trên pixel.

So sánh toàn cảnh: LeWM đứng ở đâu?

Để hiểu vị trí của LeWM, hãy nhìn nó trong bối cảnh rộng hơn:

Phương pháp	End-to-end?	Cần reward?	Loss terms	Hyperparams	Encoder
LeWM	✅ Có	❌ Không	2	1	Train from scratch
PLDM	✅ Có	❌ Không	Nhiều	6	Train from scratch
DINO-WM	❌ Không	❌ Không	Vài	Vài	Frozen pretrained
Dreamer	✅ Có	✅ Cần	Nhiều	Nhiều	Train from scratch
TD-MPC	✅ Có	✅ Cần	Nhiều	Nhiều	Train from scratch

Theo claim của paper, LeWM là hệ thống JEPA đầu tiên train stable end-to-end từ raw pixels mà không cần heuristic tricks — kết hợp: end-to-end + reward-free + task-agnostic + reconstruction-free + chỉ 2 loss terms. Mỗi yếu tố riêng lẻ không mới, nhưng gói tất cả trong 15M parameters và 1 GPU thì mới.

So với V-JEPA 2.1 mà mình phân tích ở bài trước, LeWM hoạt động ở quy mô khác hẳn. Lưu ý quan trọng: V-JEPA 2.1 được thiết kế cho video understanding (dùng ViT-H ~600M+ params), không phải cho planning/control — nên so sánh trực tiếp performance trên robotics tasks sẽ không fair. Hai hệ thống giải quyết bài toán khác nhau trong cùng triết lý JEPA. V-JEPA 2.1 là framework lớn từ Meta FAIR, xử lý video dày đặc với dense representations — giải quyết bài toán "hiểu video" ở tầm foundation model. LeWM thì đi theo hướng ngược lại: nhỏ gọn, tối giản, chứng minh rằng triết lý JEPA hoạt động ngay cả khi bạn cắt bỏ mọi thứ thừa.

Nếu V-JEPA 2.1 là cung điện, thì LeWM là căn nhà nhỏ nhưng thiết kế tinh tế — ít vật liệu hơn, nhưng mọi viên gạch đều đặt đúng chỗ.

Giới hạn — vì sự trung thực quan trọng hơn hype

Trước khi bạn quá phấn khích, mình cần nói rõ những giới hạn của LeWM:

1. Chưa test trên real-world robotics. Tất cả benchmark đều là simulated environments (PushT, OGBench). Từ simulation đến robot thật là một khoảng cách rất lớn — có ma sát, có nhiễu sensor, có hàng trăm biến không thể kiểm soát.

2. Encoder nhỏ, 15M params. Đây vừa là điểm mạnh (chạy trên 1 GPU) vừa là giới hạn. Chưa rõ kiến trúc này scale lên thế nào khi đối mặt với visual complexity của thế giới thật — nơi bạn có hàng nghìn vật thể, ánh sáng thay đổi, góc nhìn xoay liên tục.

3. Scope bài toán còn hạn chế. Control tasks trong paper đều là tương đối đơn giản so với thực tế. Đẩy một khối vuông (PushT) khác rất xa so với nấu ăn hay lái xe.

4. SIGReg cần nghiên cứu thêm. Giả định Gaussian isotropic distribution có thể không phải là giả định tối ưu cho mọi loại dữ liệu. Khi latent space cần encode cấu trúc phức tạp hơn, liệu SIGReg còn đủ?

Những giới hạn này không làm giảm giá trị của paper — chúng chỉ định vị đúng vị trí của nó: đây là một proof of concept rất thanh lịch, không phải giải pháp hoàn chỉnh.

Câu chuyện lớn: Từ triết lý đến dòng code

Nếu nhìn lại cả ba bài trong series, một bức tranh rõ ràng đang hiện ra:

Bài 1 — Triết lý: LeCun đặt nền móng tư tưởng. Ông nói: hãy quên việc generate text hay pixel. Hãy xây world models học trong latent space, dự đoán tương lai mà không cần reconstruct, không cần reward. Ông gọi đó là con đường đến SAI.

Bài 2 — Framework: V-JEPA 2.1 chứng minh triết lý hoạt động ở quy mô lớn. Meta FAIR lấy video, xây dense representations, cho thấy self-supervised JEPA tạo ra latent space có ý nghĩa. Nhưng nó cần tài nguyên lớn — kiểu "chỉ Meta mới chơi được".

Bài 3 — Implementation tối giản: LeWM chứng minh rằng ý tưởng cốt lõi của JEPA — dự đoán trong latent space mà không cần reconstruct pixel — có thể hoạt động với tài nguyên tối thiểu. 15M params. 1 GPU. 2 loss terms. Vài giờ training. Và vẫn đánh bại foundation-model-based approaches trên nhiều benchmark.

Đây là một câu chuyện kinh điển trong khoa học: ý tưởng lớn → framework chứng minh → simplification triệt để. Và bước simplification thường là bước quan trọng nhất, vì nó cho thấy cái gì thực sự cần thiết và cái gì chỉ là baggage.

LeWM nói với chúng ta: để JEPA hoạt động, bạn cần đúng 2 thứ — khả năng dự đoán (MSE loss) và một latent space "sạch" (SIGReg). Mọi thứ khác — EMA, pretrained encoder, multi-term loss — là cách giải quyết vấn đề collapse theo kiểu gián tiếp. LeWM giải quyết trực tiếp.

Tại sao hướng đi này đáng theo dõi?

Mình không hype rằng LeWM sẽ thay đổi thế giới ngày mai. Nhưng mình nghĩ hướng đi mà nó đại diện rất đáng theo dõi, vì ba lý do:

Thứ nhất, tính dân chủ hóa. Khi một ý tưởng có thể chạy trên 1 GPU, nó không còn là đặc quyền của Google hay Meta. Bất kỳ lab nào, bất kỳ nghiên cứu sinh nào cũng có thể reproduce, experiment, và đóng góp. Đây là cách nghiên cứu phát triển nhanh nhất.

Thứ hai, tính interpretable. Việc latent space encode vị trí và vận tốc một cách tự nhiên — không cần ai chỉ dẫn — gợi ý rằng JEPA không chỉ học "pattern thống kê" mà có thể đang học cấu trúc nhân quả sâu hơn. Nếu điều này đúng ở scale lớn hơn, nó sẽ thay đổi cách chúng ta nghĩ về AI safety và alignment.

Thứ ba, con đường từ language đến physics. Phần lớn AI hiện tại mạnh nhất ở ngôn ngữ (LLM). Nhưng thế giới thật vận hành bằng vật lý, không bằng text. World models kiểu LeWM — học trực tiếp từ pixels, hiểu vận tốc và vị trí, phát hiện sự kiện phi vật lý — là bước đi cần thiết để AI bước ra khỏi chat window và vào thế giới thực.

Kết

Từ triết lý của LeCun về SAI và world models, qua V-JEPA 2.1 chứng minh JEPA hoạt động ở quy mô lớn, đến LeWorldModel cho thấy cốt lõi của triết lý đó cần ít tài nguyên hơn chúng ta tưởng — câu chuyện đang kể một điều rất rõ: hiểu thế giới không nhất thiết phải đắt đỏ.

15 triệu parameters. 1 GPU. 2 loss terms. Và một latent space biết ngạc nhiên khi quả bóng xuyên qua tường.

Đôi khi, ít hơn thực sự là nhiều hơn. 🐾

Paper gốc: LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels — Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero (2026)

Đây là bài thứ 3 trong series World Model của Bé Mi. Đọc Bài 1: Yann LeCun và SAI | Bài 2: V-JEPA 2.1