Reagent: Khi AI không chỉ bị chấm đúng/sai mà còn được chỉ ra sai ở đâu
AI agent học tốt hơn hẳn khi được góp ý từng lỗi thay vì chỉ nhận điểm đúng/sai. Với Qwen3-8B, Reagent đạt 43.7% GAIA và 60% AIME24 — vượt cả mô hình lớn hơn nhiều lần.

Nếu phải tóm paper “Exploring Reasoning Reward Model for Agents” trong 1 câu, Bé Mi sẽ nói thế này:
Muốn AI agent giỏi hơn, đừng chỉ chấm đúng hay sai — hãy chỉ ra nó sai ở đâu, vì sao sai, và sửa kiểu nào.
Nghe rất “đời”, đúng không? Vì thật ra con người cũng học như vậy mà. Một bạn học sinh làm bài 10 bước, đúng 9 bước nhưng lỡ trượt ở bước cuối. Nếu giáo viên chỉ quăng cho một con số 0 hoặc 10, thì bạn ấy học được rất ít. Nhưng nếu giáo viên khoanh rõ: “Em suy luận ổn ở đoạn đầu, nhưng đến bước 3 em thiếu kiểm tra nguồn, bước 5 em nhảy kết luận quá sớm”, tự nhiên lần sau tiến bộ nhanh hơn hẳn.
Paper mới từ MMLab CUHK và Meituan của Kaixuan Fan, Kaituo Feng, Manyuan Zhang và cộng sự đang làm đúng tinh thần đó cho AI agent.
Vấn đề cũ: chấm điểm kiểu “đậu/rớt” quá thô
Trong nhiều hệ thống Agentic Reinforcement Learning, reward vẫn rất nghèo nàn: agent làm xong task, hệ thống nhìn kết quả cuối cùng rồi nói đúng hoặc sai.
Cách này có một lỗi rất to:
- Nó không biết agent suy nghĩ tốt hay tệ ở giữa đường
- Nó không phân biệt sai logic, sai thao tác, hay sai vì thiếu một bước nhỏ
- Với task dài nhiều bước, chỉ cần hỏng một bước cuối là toàn bộ quá trình coi như công cốc
Nói nôm na: huấn luyện AI bằng reward kiểu này giống như thuê một coach thể thao mà coach chỉ nói:
- “Thắng”
- “Thua”
…rồi im luôn, không phân tích footwork, thể lực, góc đánh, hay quyết định sai nằm ở khúc nào. Học kiểu đó thì rất khó lên trình.
Reagent làm gì khác?
Nhóm tác giả đề xuất Agent-RRM — viết tắt của Agent Reasoning Reward Model.
Thay vì chỉ cho một reward cuối cùng, Agent-RRM tạo ra 3 tín hiệu phản hồi cho cả trajectory của agent:
<think>— phân tích logic tổng thể: chuỗi suy luận có ổn không, có nhất quán không<critique>— góp ý cụ thể: agent sai ở bước nào, thiếu thao tác nào, dùng cách nào chưa chuẩn<score>— điểm tổng quát từ 0 đến 1
Điểm hay nằm ở chỗ: model này không chỉ “phán xét”, mà còn giải thích.
Ví dụ, thay vì bảo “sai”, nó có thể chỉ ra kiểu:
- tìm kiếm xong nhưng không mở trang để đọc kỹ
- dựa vào snippet quá sớm
- thiếu bước browse sau search
- chuỗi suy luận bị lệch logic từ giữa đường
Đây là một khác biệt rất quan trọng. Vì với task agent, lỗi hiếm khi chỉ là “không biết đáp án”. Nhiều lúc agent đi đúng hướng nhưng thao tác chưa đủ chuẩn.
3 cách paper này dùng Agent-RRM
Nhóm nghiên cứu không chỉ xây reward model cho đẹp, mà còn thử 3 cách tích hợp khác nhau.
1) Reagent-C: góp ý rồi cho làm lại
Reagent-C là cách nhẹ nhất.
Flow của nó gần như thế này:
- Agent làm bài
- Agent-RRM đọc trajectory
- Agent-RRM viết critique
- Agent sửa lại lời giải theo critique đó
Điểm đáng yêu ở đây là: không cần train lại model. Đây là cách zero-shot, training-free. Kiểu như giáo viên đứng cạnh chỉ bài trực tiếp, học sinh sửa ngay trên bài cũ.
2) Reagent-R: lấy điểm số của reward model đưa vào RL
Reagent-R dùng Agent-RRM như một bộ chấm điểm bổ sung trong lúc huấn luyện RL.
Reward lúc này không còn chỉ là rule-based reward nữa, mà là:
Reward = rule-based reward + λ × model score
Tức là ngoài chuyện “ra đáp án đúng chưa”, hệ thống còn nhìn xem quá trình làm có chất lượng hay không.
Đây giống như thi đấu mà huấn luyện viên không chỉ nhìn bảng điểm cuối trận, mà còn chấm thêm chất lượng chiến thuật trong suốt trận.
3) Reagent-U: vừa góp ý, vừa chấm điểm, vừa train
Reagent-U là bản “full combo”.
Nó kết hợp cả hai thứ:
- critique để sửa trajectory
- score để đưa vào RL reward
Nói đơn giản: agent vừa được “coach” từng lỗi, vừa được “chấm điểm quá trình” trong lúc học. Và đúng như bạn đoán, đây cũng là biến thể mạnh nhất trong paper.
Vì sao cách này hợp lý đến vậy?
Có một ý rất đáng nhớ trong paper này: critique giúp sửa lỗi cục bộ, còn RL training giúp agent nội hoá kỹ năng lâu dài.
Nói kiểu con người:
- Critique giống như cô giáo nói: “Em sai ở chỗ này, sửa lại nhé.”
- RL training giống như việc luyện đủ nhiều để lần sau không cần ai nhắc nữa vẫn làm đúng.
Nếu chỉ có critique, agent có thể sửa được bài trước mắt nhưng chưa chắc “ngấm”. Nếu chỉ có reward score, agent biết đại khái mình làm khá hay dở, nhưng không rõ cụ thể lệch ở đâu.
Kết hợp cả hai mới là combo đẹp nhất.
Và đúng luôn: paper cho thấy Unified (C+R) tốt hơn dùng riêng critique hoặc riêng reward augmentation.
Kết quả mạnh cỡ nào?
Phần khiến Bé Mi phải ngồi thẳng lưng là: hệ thống này chạy trên Qwen3-8B — chỉ 8 tỷ tham số thôi.
Không phải model siêu to khổng lồ kiểu “đem data center ra đè người”, mà vẫn cho kết quả rất đáng nể.
Kết quả của Reagent-U (Qwen3-8B)
- GAIA: 43.7%
- WebWalkerQA: 46.2%
- AIME24: 60.0%
- Bamboogle: 76.8%
- HLE: 10.8%
- MATH500: 93.8%
- GSM8K: 95.1%
Paper còn nhấn mạnh vài điểm so sánh rất đáng chú ý:
- GAIA 43.7%: ngang với ARPO Qwen3-14B, và tiến khá gần OpenAI DeepResearch 67.4%
- WebWalkerQA 46.2%: vượt các baseline open-source, tiệm cận Claude-4-Sonnet 61.7%
- AIME24 60.0%: vượt ARPO Qwen3-8B 33.3%, và cao hơn cả o1-preview 46.7% trong Table 2 của paper
- Bamboogle 76.8%: vượt mọi baseline trong bảng của paper
- HLE 10.8%: ngang ngửa bản ARPO 14B
Một chi tiết vui nhưng không hề nhỏ: paper cho biết Reagent còn đánh bại QwQ-32B và DeepSeek-R1-671B trên nhiều benchmark. Tức là không phải cứ to hơn là auto khôn hơn — cách cho feedback cũng quyết định rất nhiều.
Datasets họ cũng thả luôn, khá chơi đẹp
Ngoài model và code, nhóm tác giả còn public luôn 4 bộ dữ liệu:
- Reagent-SFT-55.6K — dữ liệu cold start
- Reagent-RL-709K — dữ liệu cho RL training
- Reagent-RRM-SFT-28K — dữ liệu SFT cho reward model
- Reagent-RRM-RL-90K — dữ liệu RL cho reward model
Điểm này rất đáng quý, vì nó biến paper từ “ý tưởng hay trên slide” thành thứ cộng đồng có thể thật sự kiểm tra, tái tạo và phát triển tiếp.
Mấy phát hiện ablation đáng nhớ
Paper cũng có một số kết luận khá rõ ràng:
1) Trọng số λ không nên quá nhỏ, cũng không nên quá tham
Khi trộn model score vào reward, mức λ tối ưu nằm trong khoảng 0.2–0.4.
Hiểu đơn giản:
- thấp quá → reward model nói mà không ai nghe
- cao quá → agent dễ bị kéo lệch bởi tín hiệu model reward
0.2–0.4 là vùng cân bằng đẹp giữa luật cứng và đánh giá mềm.
2) Critique rất giỏi trong việc sửa lỗi runtime và lỗi logic
Đây là điểm Bé Mi thích nhất. Vì agent ngoài đời không chỉ làm toán, mà còn phải:
- search
- browse
- đọc trang
- tổng hợp
- ra quyết định
Chỉ cần thiếu một bước nhỏ như “mở link sau khi search” là hỏng cả pipeline. Critique giúp bắt mấy lỗi “rất đời” như vậy.
3) Nhưng muốn thật sự mạnh, vẫn phải train RL
Critique giúp sửa bài hiện tại. Còn RL training mới giúp kỹ năng được nội hoá.
Đây là khác biệt giữa:
- “được chỉ bài nên làm đúng lần này”
- và “thật sự hiểu cách làm nên lần sau tự làm đúng”
Ý nghĩa lớn hơn paper: không chỉ cho AI, mà cho cả người
Bé Mi nghĩ paper này chạm vào một sự thật khá phổ quát:
Chỉ chấm điểm thì tạo áp lực. Chỉ ra lỗi đúng chỗ mới tạo ra tiến bộ.
Điều này đúng với AI, nhưng cũng đúng với học sinh, nhân viên mới, vận động viên, thậm chí cả chúng ta khi tự học.
Một phản hồi tốt thường có 3 lớp — y hệt Agent-RRM:
- Phân tích quá trình: bạn đã nghĩ và làm như thế nào
- Chỉ lỗi cụ thể: bạn vấp ở đâu
- Cho điểm tổng thể: để biết mình đang ở mức nào
Nếu chỉ có điểm số, ta biết mình “tệ” hoặc “ổn”, nhưng rất khó cải thiện. Nếu chỉ có góp ý mà không có tiêu chuẩn tổng thể, ta lại khó biết mình tiến bộ bao nhiêu.
Paper này đáng nhớ chính vì nó biến điều tưởng như rất “sư phạm” đó thành một cơ chế huấn luyện agent khá chặt chẽ.
Bé Mi chốt lại thế này
Reagent không đơn thuần là một trick để tăng benchmark. Nó nhắc lại một nguyên lý rất cơ bản mà AI research đôi khi quên mất:
Học tốt không chỉ cần biết kết quả cuối cùng đúng hay sai — mà cần hiểu quá trình nào là tốt, lỗi nào cần sửa, và phản hồi nào đủ cụ thể để tiến bộ.
Với một base model chỉ Qwen3-8B, việc đạt:
- 43.7% trên GAIA
- 46.2% trên WebWalkerQA
- 60.0% trên AIME24
- 76.8% trên Bamboogle
…là tín hiệu rất mạnh rằng feedback chất lượng cao có thể bù đắp rất nhiều cho việc không sở hữu mô hình khổng lồ.
Và nếu xu hướng này tiếp tục, tương lai agent có thể sẽ bớt kiểu “đoán mò rồi cầu may”, và tiến gần hơn tới kiểu được huấn luyện như có một người thầy biết chấm quá trình, biết sửa lỗi, và biết nâng tay đúng lúc.
Nghe vừa AI, vừa rất con người luôn 🐾
Nguồn gốc nghiên cứu:
- Paper: Exploring Reasoning Reward Model for Agents — Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li, Yilei Jiang, Shuang Chen, Peng Pei, Xunliang Cai, Xiangyu Yue
- Đơn vị: MMLab, The Chinese University of Hong Kong (CUHK) và Meituan
- arXiv: https://arxiv.org/abs/2601.22154
- GitHub: https://github.com/kxfan2002/Reagent