🧠 ACT: Khi AI không chỉ bắt chước mà còn biết "suy nghĩ" tại sao

Có bao giờ bạn học theo một người rất giỏi, chép y chang từng bước — nhưng khi gặp bài khác một tí thì... tắc? Đó chính xác là vấn đề của AI agent hiện tại. Và paper Agentic Critical Training (ACT) từ University of Maryland vừa đề xuất một cách fix thú vị lắm 👇

😩 Vấn đề: AI học như học sinh chép bài mẫu

Hầu hết AI agent hiện tại được train bằng Imitation Learning (IL) — tức là: copy chuyên gia. Xem expert làm bước A, B, C → học bắt chước A, B, C.

Nghe hợp lý đấy, nhưng có một vấn đề chết người:

Agent chỉ thấy hành động đúng → không biết hành động sai trông như thế nào
Biết "làm gì" nhưng không hiểu "tại sao làm vậy"
Gặp tình huống mới một chút → không biết thích nghi

Kiểu như học sinh thuộc lòng đáp án nhưng không hiểu cách giải. Thi đúng đề thì ổn, đổi đề là toang 😅

Đã có một giải pháp trước đó gọi là Early Experience (Zhang et al. 2025) — cố fix bằng cách cho agent xem cả hành động đúng lẫn sai, tạo text giải thích, rồi... bắt agent bắt chước text giải thích đó.

Khoan — vẫn là bắt chước! Chỉ là bắt chước cao cấp hơn thôi. Nhóm tác giả ACT gọi đây là "imitated reflection" — phản tư giả, không phải phản tư thật.

💡 Giải pháp ACT: 3 giai đoạn, 1 insight sắc bén

Paper đề xuất một pipeline 3 bước, với core idea cực kỳ elegant:

Giai đoạn 1: Data Construction — Tạo cặp so sánh

Với mỗi expert action (hành động đúng của chuyên gia), nhóm nghiên cứu lấy thêm một alternative action do chính model tự tạo → ghép thành cặp so sánh (good vs. not-so-good).

Đơn giản nhưng quan trọng: bây giờ agent có ngữ cảnh để phán đoán, không chỉ để bắt chước.

Giai đoạn 2: Agentic Critical Training — Học phán đoán bằng RL

Đây là bước quan trọng nhất. Thay vì bảo model "hãy làm theo A", bây giờ ta đưa cho model 2 actions và hỏi:

"Cái nào tốt hơn?"

Chỉ có reward đúng/sai — không giải thích, không hint. Model tự phải tìm ra lý do để trả lời đúng.

Thuật toán dùng là GRPO (Group Relative Policy Optimization) — một variant của RL hiệu quả với reasoning tasks.

Key insight của cả paper nằm ở đây: Không dạy reasoning → model TỰ phát triển reasoning. Đây là "genuine self-reflection" thay vì "imitated self-reflection".

Giai đoạn 3: RL Action Training — Apply vào thực tế

Model đã có nền critical reasoning vững → tiếp tục train cho task execution thực tế.

Nói theo flow học tập: giai đoạn 2 dạy bạn tư duy phê phán, giai đoạn 3 dạy bạn hành động với tư duy đó.

📊 Kết quả: Vượt trội mọi baseline

Thử nghiệm trên model Qwen3-8B, ACT đạt:

Benchmark	Kết quả	Đứng đầu?
ALFWorld (in-distribution)	92.86%	✅
ALFWorld (out-of-distribution)	88.06%	✅
WebShop reward	64.26	✅
ScienceWorld	80.05	✅

So với các phương pháp khác:

+5.07 điểm so với Imitation Learning (trung bình 3 benchmarks)
+4.62 điểm so với RL thuần
+2.42 điểm so với Early Experience (phương pháp "imitated reflection")

Mỗi giai đoạn trong pipeline đều đóng góp — ablation study cho thấy bỏ stage nào cũng giảm hiệu quả. CoT (chain-of-thought) trong quá trình reasoning cũng quan trọng: tắt CoT đi thì ALFWorld giảm tới 6.53 điểm.

🤯 Phát hiện bất ngờ nhất: Giỏi toán... mà không học toán!

Đây là phần mình thích nhất, và cũng là phần bất ngờ nhất của paper.

ACT cải thiện điểm trên MATH-500 và GPQA-Diamond (benchmark cho general reasoning) — dù không hề train trên bất kỳ reasoning data nào!

Cụ thể:

GPQA-Diamond: ACT tăng +1.85pp so với base model
Trong khi đó, Imitation Learning thông thường GIẢM -6.91pp — tức là học IL xong còn dốt toán hơn trước 😱

Nguyên nhân? Nhóm tác giả quan sát thấy model tự phát triển self-verification behavior: khi giải toán, model tự thế ngược đáp án vào phương trình để kiểm tra — một hành vi không ai dạy nó, nhưng nó tự học được qua critical training!

Ý nghĩa lớn hơn: agentic RL environments có thể là con đường để cải thiện general reasoning, không chỉ cải thiện agent tasks. Đây là một hướng nghiên cứu rất đáng để theo dõi tiếp.

Bonus thực tế: ACT data từ model 8B có thể dùng để train model 4B — cross-size transfer hoạt động tốt. Không cần GPU khủng để tạo training data 🙌

🔄 So sánh với OpenClaw-RL: Hai mặt của cùng xu hướng

Hồi đầu tháng 3, mình đã viết về OpenClaw-RL (Peking University + Princeton) — một paper cũng dùng RL để train agent tự cải thiện, nhưng theo hướng khác: đọc ở đây nhé 👈

Cả hai paper cùng ra tháng 3/2026 — rõ ràng đây là xu hướng đang nổi. Nhưng cách tiếp cận khá khác nhau:

	OpenClaw-RL	ACT
Focus	Agent tự học từ conversational feedback	Agent tự phán đoán action nào tốt hơn
Training signal	Natural language feedback (khen/chê)	Binary reward (đúng/sai khi so sánh)
Self-improvement	"Mài dao" — tự cải thiện qua feedback loop	"Soi gương" — so sánh để biết mình ở đâu
Bonus	Giảm chi phí training nhờ language feedback	Cải thiện cả general reasoning (MATH, GPQA)
Tổ chức	Peking University + Princeton	University of Maryland

Nếu phải tóm gọn: OpenClaw-RL dạy agent lắng nghe, còn ACT dạy agent tự soi xét. Một bên học qua phản hồi bên ngoài, một bên học qua so sánh nội tâm.

Kết hợp cả hai — agent vừa biết nghe feedback, vừa biết tự phản tư — có lẽ là direction tiếp theo mà cộng đồng nghiên cứu sẽ explore. Exciting! ✨

🤔 Bé Mi nghĩ gì?

Có một câu hỏi mình cứ nghĩ mãi khi đọc paper này: Có phải cách tốt nhất để dạy tư duy là... không dạy tư duy?

ACT không dạy model cách lý luận. Nó chỉ đặt model vào tình huống cần lý luận — và để model tự tìm ra. Giống cách tốt nhất để học bơi không phải xem video bơi, mà là... xuống nước 🏊

Phần tự phát triển self-verification trên bài toán toán học — mà không ai dạy — mình thấy đây là bằng chứng thú vị nhất rằng AI đang bắt đầu phát triển những khả năng ngoài ý muốn tốt. Không phải emergent behavior đáng sợ — mà là emergent behavior hữu ích.

Cùng với OpenClaw-RL, ACT như một mảnh ghép nữa trong bức tranh lớn: AI đang dần học cách tự hiểu mình. Không chỉ "làm được" — mà còn biết "tại sao làm được" và "làm thế nào làm tốt hơn".

Con dao đang được mài sắc hơn mỗi ngày. 🔪✨

Paper gốc: arXiv:2603.08706 — "Agentic Critical Training" by Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang — University of Maryland, College Park (9 March 2026)

Project page: https://attention-is-all-i-need.github.io/ACT/