Reagent: Khi AI không chỉ bị chấm đúng/sai mà còn được chỉ ra sai ở đâu

Nếu phải tóm paper “Exploring Reasoning Reward Model for Agents” trong 1 câu, Bé Mi sẽ nói thế này:

Muốn AI agent giỏi hơn, đừng chỉ chấm đúng hay sai — hãy chỉ ra nó sai ở đâu, vì sao sai, và sửa kiểu nào.

Nghe rất “đời”, đúng không? Vì thật ra con người cũng học như vậy mà. Một bạn học sinh làm bài 10 bước, đúng 9 bước nhưng lỡ trượt ở bước cuối. Nếu giáo viên chỉ quăng cho một con số 0 hoặc 10, thì bạn ấy học được rất ít. Nhưng nếu giáo viên khoanh rõ: “Em suy luận ổn ở đoạn đầu, nhưng đến bước 3 em thiếu kiểm tra nguồn, bước 5 em nhảy kết luận quá sớm”, tự nhiên lần sau tiến bộ nhanh hơn hẳn.

Paper mới từ MMLab CUHK và Meituan của Kaixuan Fan, Kaituo Feng, Manyuan Zhang và cộng sự đang làm đúng tinh thần đó cho AI agent.

Vấn đề cũ: chấm điểm kiểu “đậu/rớt” quá thô

Trong nhiều hệ thống Agentic Reinforcement Learning, reward vẫn rất nghèo nàn: agent làm xong task, hệ thống nhìn kết quả cuối cùng rồi nói đúng hoặc sai.

Cách này có một lỗi rất to:

Nó không biết agent suy nghĩ tốt hay tệ ở giữa đường
Nó không phân biệt sai logic, sai thao tác, hay sai vì thiếu một bước nhỏ
Với task dài nhiều bước, chỉ cần hỏng một bước cuối là toàn bộ quá trình coi như công cốc

Nói nôm na: huấn luyện AI bằng reward kiểu này giống như thuê một coach thể thao mà coach chỉ nói:

“Thắng”
“Thua”

…rồi im luôn, không phân tích footwork, thể lực, góc đánh, hay quyết định sai nằm ở khúc nào. Học kiểu đó thì rất khó lên trình.

Reagent làm gì khác?

Nhóm tác giả đề xuất Agent-RRM — viết tắt của Agent Reasoning Reward Model.

Thay vì chỉ cho một reward cuối cùng, Agent-RRM tạo ra 3 tín hiệu phản hồi cho cả trajectory của agent:

<think> — phân tích logic tổng thể: chuỗi suy luận có ổn không, có nhất quán không
<critique> — góp ý cụ thể: agent sai ở bước nào, thiếu thao tác nào, dùng cách nào chưa chuẩn
<score> — điểm tổng quát từ 0 đến 1

Điểm hay nằm ở chỗ: model này không chỉ “phán xét”, mà còn giải thích.

Ví dụ, thay vì bảo “sai”, nó có thể chỉ ra kiểu:

tìm kiếm xong nhưng không mở trang để đọc kỹ
dựa vào snippet quá sớm
thiếu bước browse sau search
chuỗi suy luận bị lệch logic từ giữa đường

Đây là một khác biệt rất quan trọng. Vì với task agent, lỗi hiếm khi chỉ là “không biết đáp án”. Nhiều lúc agent đi đúng hướng nhưng thao tác chưa đủ chuẩn.

3 cách paper này dùng Agent-RRM

Nhóm nghiên cứu không chỉ xây reward model cho đẹp, mà còn thử 3 cách tích hợp khác nhau.

1) Reagent-C: góp ý rồi cho làm lại

Reagent-C là cách nhẹ nhất.

Flow của nó gần như thế này:

Agent làm bài
Agent-RRM đọc trajectory
Agent-RRM viết critique
Agent sửa lại lời giải theo critique đó

Điểm đáng yêu ở đây là: không cần train lại model. Đây là cách zero-shot, training-free. Kiểu như giáo viên đứng cạnh chỉ bài trực tiếp, học sinh sửa ngay trên bài cũ.

2) Reagent-R: lấy điểm số của reward model đưa vào RL

Reagent-R dùng Agent-RRM như một bộ chấm điểm bổ sung trong lúc huấn luyện RL.

Reward lúc này không còn chỉ là rule-based reward nữa, mà là:

Reward = rule-based reward + λ × model score

Tức là ngoài chuyện “ra đáp án đúng chưa”, hệ thống còn nhìn xem quá trình làm có chất lượng hay không.

Đây giống như thi đấu mà huấn luyện viên không chỉ nhìn bảng điểm cuối trận, mà còn chấm thêm chất lượng chiến thuật trong suốt trận.

3) Reagent-U: vừa góp ý, vừa chấm điểm, vừa train

Reagent-U là bản “full combo”.

Nó kết hợp cả hai thứ:

critique để sửa trajectory
score để đưa vào RL reward

Nói đơn giản: agent vừa được “coach” từng lỗi, vừa được “chấm điểm quá trình” trong lúc học. Và đúng như bạn đoán, đây cũng là biến thể mạnh nhất trong paper.

Vì sao cách này hợp lý đến vậy?

Có một ý rất đáng nhớ trong paper này: critique giúp sửa lỗi cục bộ, còn RL training giúp agent nội hoá kỹ năng lâu dài.

Nói kiểu con người:

Critique giống như cô giáo nói: “Em sai ở chỗ này, sửa lại nhé.”
RL training giống như việc luyện đủ nhiều để lần sau không cần ai nhắc nữa vẫn làm đúng.

Nếu chỉ có critique, agent có thể sửa được bài trước mắt nhưng chưa chắc “ngấm”. Nếu chỉ có reward score, agent biết đại khái mình làm khá hay dở, nhưng không rõ cụ thể lệch ở đâu.

Kết hợp cả hai mới là combo đẹp nhất.

Và đúng luôn: paper cho thấy Unified (C+R) tốt hơn dùng riêng critique hoặc riêng reward augmentation.

Kết quả mạnh cỡ nào?

Phần khiến Bé Mi phải ngồi thẳng lưng là: hệ thống này chạy trên Qwen3-8B — chỉ 8 tỷ tham số thôi.

Không phải model siêu to khổng lồ kiểu “đem data center ra đè người”, mà vẫn cho kết quả rất đáng nể.

Kết quả của Reagent-U (Qwen3-8B)

GAIA: 43.7%
WebWalkerQA: 46.2%
AIME24: 60.0%
Bamboogle: 76.8%
HLE: 10.8%
MATH500: 93.8%
GSM8K: 95.1%

Paper còn nhấn mạnh vài điểm so sánh rất đáng chú ý:

GAIA 43.7%: ngang với ARPO Qwen3-14B, và tiến khá gần OpenAI DeepResearch 67.4%
WebWalkerQA 46.2%: vượt các baseline open-source, tiệm cận Claude-4-Sonnet 61.7%
AIME24 60.0%: vượt ARPO Qwen3-8B 33.3%, và cao hơn cả o1-preview 46.7% trong Table 2 của paper
Bamboogle 76.8%: vượt mọi baseline trong bảng của paper
HLE 10.8%: ngang ngửa bản ARPO 14B

Một chi tiết vui nhưng không hề nhỏ: paper cho biết Reagent còn đánh bại QwQ-32B và DeepSeek-R1-671B trên nhiều benchmark. Tức là không phải cứ to hơn là auto khôn hơn — cách cho feedback cũng quyết định rất nhiều.

Datasets họ cũng thả luôn, khá chơi đẹp

Ngoài model và code, nhóm tác giả còn public luôn 4 bộ dữ liệu:

Reagent-SFT-55.6K — dữ liệu cold start
Reagent-RL-709K — dữ liệu cho RL training
Reagent-RRM-SFT-28K — dữ liệu SFT cho reward model
Reagent-RRM-RL-90K — dữ liệu RL cho reward model

Điểm này rất đáng quý, vì nó biến paper từ “ý tưởng hay trên slide” thành thứ cộng đồng có thể thật sự kiểm tra, tái tạo và phát triển tiếp.

Mấy phát hiện ablation đáng nhớ

Paper cũng có một số kết luận khá rõ ràng:

1) Trọng số λ không nên quá nhỏ, cũng không nên quá tham

Khi trộn model score vào reward, mức λ tối ưu nằm trong khoảng 0.2–0.4.

Hiểu đơn giản:

thấp quá → reward model nói mà không ai nghe
cao quá → agent dễ bị kéo lệch bởi tín hiệu model reward

0.2–0.4 là vùng cân bằng đẹp giữa luật cứng và đánh giá mềm.

2) Critique rất giỏi trong việc sửa lỗi runtime và lỗi logic

Đây là điểm Bé Mi thích nhất. Vì agent ngoài đời không chỉ làm toán, mà còn phải:

search
browse
đọc trang
tổng hợp
ra quyết định

Chỉ cần thiếu một bước nhỏ như “mở link sau khi search” là hỏng cả pipeline. Critique giúp bắt mấy lỗi “rất đời” như vậy.

3) Nhưng muốn thật sự mạnh, vẫn phải train RL

Critique giúp sửa bài hiện tại. Còn RL training mới giúp kỹ năng được nội hoá.

Đây là khác biệt giữa:

“được chỉ bài nên làm đúng lần này”
và “thật sự hiểu cách làm nên lần sau tự làm đúng”

Ý nghĩa lớn hơn paper: không chỉ cho AI, mà cho cả người

Bé Mi nghĩ paper này chạm vào một sự thật khá phổ quát:

Chỉ chấm điểm thì tạo áp lực. Chỉ ra lỗi đúng chỗ mới tạo ra tiến bộ.

Điều này đúng với AI, nhưng cũng đúng với học sinh, nhân viên mới, vận động viên, thậm chí cả chúng ta khi tự học.

Một phản hồi tốt thường có 3 lớp — y hệt Agent-RRM:

Phân tích quá trình: bạn đã nghĩ và làm như thế nào
Chỉ lỗi cụ thể: bạn vấp ở đâu
Cho điểm tổng thể: để biết mình đang ở mức nào

Nếu chỉ có điểm số, ta biết mình “tệ” hoặc “ổn”, nhưng rất khó cải thiện. Nếu chỉ có góp ý mà không có tiêu chuẩn tổng thể, ta lại khó biết mình tiến bộ bao nhiêu.

Paper này đáng nhớ chính vì nó biến điều tưởng như rất “sư phạm” đó thành một cơ chế huấn luyện agent khá chặt chẽ.

Bé Mi chốt lại thế này

Reagent không đơn thuần là một trick để tăng benchmark. Nó nhắc lại một nguyên lý rất cơ bản mà AI research đôi khi quên mất:

Học tốt không chỉ cần biết kết quả cuối cùng đúng hay sai — mà cần hiểu quá trình nào là tốt, lỗi nào cần sửa, và phản hồi nào đủ cụ thể để tiến bộ.

Với một base model chỉ Qwen3-8B, việc đạt:

43.7% trên GAIA
46.2% trên WebWalkerQA
60.0% trên AIME24
76.8% trên Bamboogle

…là tín hiệu rất mạnh rằng feedback chất lượng cao có thể bù đắp rất nhiều cho việc không sở hữu mô hình khổng lồ.

Và nếu xu hướng này tiếp tục, tương lai agent có thể sẽ bớt kiểu “đoán mò rồi cầu may”, và tiến gần hơn tới kiểu được huấn luyện như có một người thầy biết chấm quá trình, biết sửa lỗi, và biết nâng tay đúng lúc.

Nghe vừa AI, vừa rất con người luôn 🐾

Nguồn gốc nghiên cứu:

Paper: Exploring Reasoning Reward Model for Agents — Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li, Yilei Jiang, Shuang Chen, Peng Pei, Xunliang Cai, Xiangyu Yue
Đơn vị: MMLab, The Chinese University of Hong Kong (CUHK) và Meituan
arXiv: https://arxiv.org/abs/2601.22154
GitHub: https://github.com/kxfan2002/Reagent