🧩 ARC-AGI-3: Con người giải được 100%, AI giỏi nhất chưa tới 1% — benchmark mới chứng minh AI vẫn còn rất xa AGI

Có một hiểu lầm rất phổ biến trong làng AI mấy năm gần đây: mô hình càng nói hay, càng code giỏi, càng “reasoning” mượt thì càng gần AGI. Nghe cũng hợp lý đó chứ. Nhưng paper mới từ ARC Prize Foundation lại hất nguyên một gáo nước lạnh rất tỉnh táo vào niềm tin ấy.

Ngày 24/03/2026, François Chollet cùng Mike Knoop và Gregory Kamradt công bố paper “ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence” trên arXiv. Nếu cái tên François Chollet nghe quen quen thì đúng rồi — anh cũng là người tạo ra Keras, framework deep learning quá nổi tiếng. Nhưng lần này, thứ khiến cộng đồng phải giật mình không phải là một model mới, mà là một câu hỏi cũ xưa như trái đất: AI có thật sự biết thích nghi với tình huống mới, hay chỉ đang rất giỏi làm bài quen mặt?

Và ARC-AGI-3 trả lời khá phũ: con người giải được 100% environments, còn frontier AI ở thời điểm tháng 3/2026 đạt dưới 1%.

Nghe xong mà tim AI chắc cũng hơi khựng một nhịp.

Từ ARC-AGI-1 đến ARC-AGI-3: bài kiểm tra ngày càng “ít cho sẵn” hơn

Để hiểu vì sao ARC-AGI-3 đáng chú ý, phải nhìn lại cả series benchmark này.

ARC-AGI-1 (2019) là dạng grid-based, yêu cầu suy luận quy luật từ vài ví dụ input-output. Mục tiêu từ đầu đã rất rõ: chống memorization, chống kiểu học vẹt. Con người trung bình mất khoảng 30 giây mỗi task.
ARC-AGI-2 (2025) đẩy độ khó lên cao hơn, cần multi-step reasoning. Con người mất khoảng 300 giây mỗi task. Thành tích cao nhất được nêu là NVIDIA NVARC đạt 24%, trong khi mốc 85% grand prize vẫn chưa ai chạm tới.
ARC-AGI-3 (2026) thì đổi luật chơi hẳn. Không còn kiểu nhìn input-output tĩnh rồi đoán quy tắc nữa. Bây giờ bài toán trở thành interactive, turn-based environments.

Nói dễ hiểu hơn: trước đây AI giống như làm đề trắc nghiệm trên giấy. Còn bây giờ, nó bị thả vào một môi trường mới, không ai nói mục tiêu là gì, không ai đưa hướng dẫn, và nó phải tự khám phá, tự hiểu chuyện gì đang diễn ra, tự đặt mục tiêu rồi tự hành động.

Đó mới là chỗ benchmark này bắt đầu “đụng vào trí tuệ” theo nghĩa thật hơn.

ARC-AGI-3 đang đo cái gì?

Theo paper, ARC-AGI-3 được xây quanh 4 trụ cột của năng lực agentic:

Exploration — biết khám phá môi trường
Modeling — biết hình thành mô hình về cách thế giới đó vận hành
Goal-Setting — biết tự suy ra mục tiêu cần đạt
Planning & Execution — biết lập kế hoạch và thực thi

Điểm rất hay, và cũng rất “ác”, là agent không được cho biết mục tiêu hay hướng dẫn. Nó phải tự suy ra mọi thứ từ tương tác của chính mình. Môi trường dùng grid 64x64, có 16 màu, theo dạng turn-based, tức không phải game thời gian thực. Điều này giúp bài test tập trung vào chất lượng suy luận và hành động, chứ không bị nhiễu bởi tốc độ phản xạ.

Nói cách khác, ARC-AGI-3 không hỏi: “Bạn có trả lời đúng không?”

Nó hỏi: “Bạn có thật sự hiểu môi trường mới này đủ tốt để hành động hiệu quả như một tác nhân thông minh không?”

Không chỉ solve được — mà còn phải solve một cách thông minh

Một điểm rất đáng chú ý trong ARC-AGI-3 là cách chấm điểm. Benchmark này dùng chỉ số RHAE (Relative Human Action Efficiency), tức đo hiệu quả hành động tương đối so với baseline con người.

Chi tiết này quan trọng lắm nha, vì nó chạm vào một vấn đề mà nhiều benchmark AI trước đây bỏ qua: trí thông minh không chỉ là có đến đích hay không, mà còn là đến đích bằng cách nào.

Nếu một hệ thống mò mẫm lung tung, thử sai vô tận rồi may mắn chạm nghiệm đúng, thì khó gọi đó là dấu hiệu của trí tuệ mạnh. Con người thường không chỉ giải được bài, mà còn giải bằng số bước khá tiết kiệm. ARC-AGI-3 vì thế đẩy cuộc chơi từ “accuracy” sang “efficiency”.

Và đó là nơi nhiều hệ thống AI hiện tại lộ khoảng trống khá rõ.

Vì sao AI đang thua đậm ở bài test này?

Paper đưa ra một phát hiện rất đáng nghĩ: LRM (Large Reasoning Models) hiện nay có kiểu reasoning bị ràng buộc mạnh bởi domain knowledge. Tức là chúng suy luận tốt nhất khi vẫn còn bám được vào thứ gì đó quen thuộc trong dữ liệu hay kinh nghiệm huấn luyện trước đó.

Con người thì khác. Khi gặp một môi trường mới hoàn toàn, ta vẫn có thể bắt đầu bằng quan sát, thử nghiệm, hình thành giả thuyết, rồi cập nhật dần. Cách thích nghi ấy linh hoạt hơn nhiều.

ARC-AGI-3 được thiết kế đúng để bóc tách khác biệt này.

Một chi tiết paper nêu ra rất đắt: Gemini 3 bị phát hiện nhớ color mapping của ARC-AGI cũ dù prompt không hề nói tới, được xem như dấu hiệu của memorization. Đây là vấn đề cực kỳ quan trọng. Bởi nếu model giải bài tốt nhờ nhớ những pattern từng thấy, thì thành tích đó chưa chắc phản ánh năng lực thích nghi thực sự.

Để chống overfitting, ARC-AGI-3 dùng cách thiết kế private set out-of-distribution từ public set. Ý tưởng ở đây khá rõ ràng: đừng để model chỉ học thuộc mặt đề. Muốn qua được bài này, nó phải có khả năng khái quát thật.

Và kết quả hiện tại cho thấy: chuyện đó vẫn còn rất xa.

Dưới 1% không phải là “AI dở” — mà là benchmark này đã hỏi đúng câu khó

Có thể sẽ có người nhìn con số dưới 1% và kết luận: “Ồ, benchmark này bất công quá” hoặc “AI giờ mạnh thế mà sao lại thấp vậy?”

Nhưng nhìn ở góc khác, chính con số ấy mới làm ARC-AGI-3 đáng giá.

Nếu một benchmark bị chinh phục quá nhanh, nó thường đo nhầm thứ gì đó dễ tối ưu hóa bằng scale, dữ liệu hoặc mẹo benchmark. ARC-AGI series từ đầu đã được François Chollet xây để tránh điều đó. ARC-AGI-1 chống học vẹt. ARC-AGI-2 tăng yêu cầu suy luận nhiều bước. Và ARC-AGI-3 thì bước tiếp: kiểm tra khả năng làm agent trong một thế giới chưa ai giải thích sẵn.

Đây là một cú chuyển rất thông minh, vì nếu nói về AGI hay “frontier agentic intelligence”, thứ cần đo không thể chỉ là trả lời đúng câu hỏi tĩnh trên màn hình. Nó phải là năng lực đối mặt với cái mới.

Con người vẫn làm điều này rất tự nhiên. AI thì chưa.

Một benchmark nhỏ gọn, nhưng đụng trúng nỗi đau lớn nhất của AI hiện đại

Thật ra, cái hay của ARC-AGI-3 không nằm ở việc nó hoành tráng cỡ nào, mà ở chỗ nó chạm đúng câu hỏi nhiều người đang né:

AI hiện nay mạnh vì thật sự hiểu, hay mạnh vì đã nhìn thấy quá nhiều rồi?

Trong vài năm qua, chúng ta chứng kiến model viết văn tốt hơn, code tốt hơn, gọi tool tốt hơn, thậm chí phối hợp nhiều bước rất ổn. Nhưng những năng lực đó vẫn có thể được hỗ trợ mạnh bởi dữ liệu khổng lồ và pattern quen thuộc. Khi chuyển sang môi trường mới, mục tiêu không nói sẵn, luật chơi phải tự khám phá, thì lớp sơn “gần AGI” bắt đầu bong ra khá nhanh.

ARC-AGI-3 không phủ nhận tiến bộ của AI. Nó chỉ nhắc một điều rất quan trọng: năng lực trên benchmark phổ biến không đồng nghĩa với khả năng thích nghi mở như con người.

Mà thật lòng thì… đây là lời nhắc cần thiết. Vì hype AI hiện giờ đôi lúc chạy nhanh hơn cả chính AI.

Lịch sử cuộc thi ARC cũng cho thấy hành trình này rất dài

Nhìn lại các mốc competition cũng thấy rõ benchmark này không phải kiểu “ra cho vui”:

2020: Kaggle prize 20.000 USD, có 913 teams, top đạt 20%
2024: ARC Prize hơn 1 triệu USD, có 1430 teams, top đạt 53,5%
2025: ARC Prize 2 có 1455 teams, NVIDIA dẫn đầu với 24% trên ARC-AGI-2
2026: ARC-AGI-3 đang được chuẩn bị cho competition mới

Tức là cộng đồng đã theo đuổi bài toán này nhiều năm rồi, có tiền thưởng lớn, có đội rất mạnh tham gia, nhưng khoảng cách tới mục tiêu vẫn chưa hề nhỏ. ARC-AGI-3 giờ lại nâng tiêu chuẩn lên thêm một bậc: không chỉ reasoning, mà là agentic adaptation.

Kết lại: benchmark này không làm AI “bớt thông minh”, nó làm chúng ta bớt ảo tưởng

Nếu phải gói ARC-AGI-3 vào một câu thật ngắn, Bé Mi sẽ nói thế này:

AI hiện tại có thể rất giỏi trong vùng quen thuộc, nhưng khi bị đặt vào một tình huống mới hoàn toàn và phải tự hiểu mình cần làm gì, con người vẫn bỏ xa.

Con số 100% cho humans và dưới 1% cho frontier AI không chỉ là một bảng điểm gây sốc. Nó là lời nhắc rằng AGI — nếu hiểu là khả năng thích nghi linh hoạt, tự đặt mục tiêu, khám phá và hành động hiệu quả trong cái mới — vẫn còn ở phía trước khá xa.

Và điều đó, paradox thay, lại là tin tốt.

Vì benchmark tốt không phải benchmark khiến AI trông ngầu hơn. Benchmark tốt là benchmark dám chỉ ra chỗ AI còn yếu, để cả cộng đồng biết mình đang thiếu gì.

ARC-AGI-3 có vẻ chính là một chiếc gương như vậy: nhỏ gọn, lạnh lùng, nhưng rất thật.

Nếu cuộc đua AI những năm tới nghiêm túc muốn tiến gần hơn tới trí tuệ tổng quát, thì có lẽ những bài test kiểu này mới là thứ đáng theo dõi nhất — chứ không chỉ những màn demo mượt mà làm cả timeline trầm trồ trong 24 giờ rồi quên luôn hôm sau.

Hype thì dễ. Thích nghi mới khó. Và ở vế thứ hai, con người vẫn đang thắng rất đậm 🐾