HEAVYSKILL: Khi AI biết “hội chẩn” trước khi trả lời

Có một kiểu câu hỏi mà nếu trả lời vội thì rất dễ sai.

Ví dụ một ca bệnh khó: bệnh nhân có nhiều triệu chứng lạ, xét nghiệm không hoàn toàn khớp, bác sĩ A nghi bệnh này, bác sĩ B nghi bệnh khác, bác sĩ C lại thấy một dấu hiệu bị bỏ sót. Trong tình huống đó, cách làm an toàn không phải là hỏi 10 bác sĩ rồi lấy đáp án nào được nhắc nhiều nhất. Cách đúng là hội chẩn: mỗi người đưa góc nhìn độc lập, sau đó cả nhóm phân tích lại, chất vấn điểm yếu, ráp bằng chứng, rồi bác sĩ phụ trách mới chốt hướng điều trị.

Paper “HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness” của Jianing Wang và cộng sự, đăng bản preprint ngày 5/5/2026 trên arXiv, đang nói về một ý rất gần như vậy trong thế giới AI agent.

Tóm gọn dễ thương một câu: AI mạnh hơn không chỉ vì nó “nghĩ lâu hơn”, mà vì nó biết cho nhiều hướng nghĩ chạy song song, rồi deliberation — cân nhắc, phản biện, tổng hợp — trước khi trả lời.

Và điểm Bé Mi thấy hay nhất: paper không xem đây chỉ là một mẹo orchestration bên ngoài. Nhóm tác giả gọi nó là HEAVYSKILL — một “kỹ năng bên trong” mà agentic harness có thể kích hoạt khi gặp bài toán khó.

Vấn đề: agent nhiều lớp quá, ta không rõ cái gì thật sự giúp nó giỏi hơn

Các hệ thống AI agent hiện đại thường không còn là một model đơn lẻ trả lời một phát xong. Chúng có orchestrator, memory, skills, tool use, sub-agent, vòng lặp kiểm tra, cơ chế tổng hợp kết quả… Nhìn rất “xịn”, nhưng cũng có một vấn đề: khi performance tăng, ta khó biết phần nào thực sự tạo ra giá trị.

Là do memory? Do tool? Do planner? Do nhiều agent? Hay do model được gọi nhiều lần nên có thêm cơ hội trúng?

Paper HEAVYSKILL thử bóc lớp phức tạp đó ra và nói: bên dưới rất nhiều agentic harness có thể có một mẫu chung cực kỳ đơn giản:

Parallel reasoning — tạo nhiều lời giải độc lập cho cùng một vấn đề.
Sequential deliberation — đọc các lời giải đó, đánh giá, tổng hợp, và chốt kết luận.

Nói nôm na: trước tiên cho nhiều “chuyên gia” suy nghĩ riêng, sau đó có một “chủ tọa” đọc biên bản và ra quyết định.

Ẩn dụ thứ hai của ba Bảo rất hợp ở đây: giống bồi thẩm đoàn và luật sư tranh luận trước khi có phán quyết. Mỗi bên có lập luận, bằng chứng, cách diễn giải. Nhưng bản án tốt không nên đến từ việc “bên nào nói đông hơn thì thắng”. Nó phải đến từ quá trình xem lập luận nào đứng vững, bằng chứng nào đáng tin, điểm mâu thuẫn nằm ở đâu, và kết luận cuối cùng có hợp lý không.

Đó chính là chỗ HEAVYSKILL khác với “vote cho vui”.

Heavy thinking không phải là bỏ phiếu đa số

Một hiểu lầm rất dễ gặp là: nếu AI tạo 16 đáp án, ta chỉ cần lấy đáp án xuất hiện nhiều nhất. Cách đó gần giống Best-of-N hoặc majority voting. Nó có ích, nhưng còn thô.

HEAVYSKILL nhấn mạnh bước thứ hai: deliberation model phải thật sự đọc và phản biện các reasoning trace.

Theo mô tả trong paper, ở giai đoạn đầu, model tạo ra nhiều trajectory — nhiều đường suy luận độc lập. Sau đó các trajectory được đưa vào một dạng serialized memory cache: hiểu đơn giản là một hồ sơ tóm tắt các lời giải ứng viên để model ở bước sau có thể đọc được trong context.

Ở giai đoạn deliberation, model không được chỉ cộng dồn câu trả lời hay chọn phe đông. Prompt của HEAVYSKILL yêu cầu nó:

phân loại mức độ bài toán để quyết định độ sâu phân tích;
đánh giá từng “thinker” một cách phê phán;
không mù quáng đi theo đa số;
nếu tất cả thinker đều sai, phải tự tái suy luận lại;
giữ đúng ngôn ngữ và format của câu hỏi ban đầu.

Đây là điểm rất quan trọng. Heavy thinking không phải “10 người nói A, 3 người nói B, vậy chọn A”. Heavy thinking là: “Tại sao 10 người nói A? Lập luận có lỗ hổng không? 3 người nói B có phát hiện gì hiếm nhưng đúng không? Có đáp án C chưa ai nói ra nhưng suy luận lại thì đúng hơn không?”

Nếu ví với hội chẩn y khoa: đôi khi ý kiến thiểu số mới cứu ca bệnh, vì bác sĩ đó nhìn thấy dấu hiệu mà nhóm đông bỏ qua. Nếu ví với tòa án: đôi khi lập luận ít phổ biến hơn lại hợp chứng cứ hơn. AI agent cũng vậy — chất lượng deliberation mới là phần làm nó bớt ngây thơ.

HEAVYSKILL biến workflow thành một “skill” đọc được

Một phần thú vị của paper là nhóm tác giả không chỉ viết pipeline Python để chạy heavy thinking. Họ còn distill workflow này thành một readable skill — một tài liệu plain-text mà agentic harness có thể nạp vào.

Skill đó gồm bốn phần chính:

Activation conditions: khi nào nên bật heavy thinking. Ví dụ task phức tạp, cần suy luận nhiều bước; còn câu hỏi đơn giản thì không cần tốn compute.
Parallel reasoning protocol: hướng dẫn orchestrator spawn nhiều reasoning agent độc lập, mỗi agent giải từ đầu, có thể dùng chiến lược khác nhau.
Deliberation prompt: phần lõi, yêu cầu model tổng hợp có phê phán, không nối kết quả máy móc.
Output constraints: quy định output cuối cùng phải đúng format của domain, ví dụ toán thì dùng dạng đáp án chuẩn, coding thì đúng code block.

Điểm này rất “agentic”: thay vì hard-code mọi thứ vào framework, ta có thể đưa cho agent một skill document. Nếu harness hỗ trợ skill loading và subagent spawning, agent có thể tự đọc skill, tự biết khi nào gọi nhiều sub-agent, rồi tự tổng hợp.

Theo paper, nhóm tác giả đã kiểm tra skill này trong Claude Code và custom orchestration harness. Kết luận của họ là HEAVYSKILL có tính portable: không phụ thuộc quá chặt vào một framework cụ thể.

Kết quả: tốt hơn voting, đặc biệt ở bài toán có đúng sai rõ ràng

Phần thực nghiệm của paper khá rộng. Nhóm tác giả thử trên nhiều model đóng và mở, gồm các model được nêu trong paper như GPT-5-Thinking, Claude 4.5 Thinking, Gemini 3 Pro Preview, DeepSeek, Qwen, Kimi K2 Thinking, GLM 4.6, GPT-OSS-20B… Họ đánh giá trên các benchmark STEM như AIME25, BeyondAIME, HMMT25-Feb, GPQA-Diamond, và một số tác vụ general reasoning như LiveCodeBench, IFEval, Arena-Hard, IMO Answer Bench.

Có vài kết quả chính đáng chú ý:

Thứ nhất, heavy thinking thường vượt single trajectory.
Tức là trung bình các đáp án sau deliberation tốt hơn chất lượng trung bình của từng lời giải riêng lẻ. Điều này khá trực giác: nếu có nhiều hướng suy nghĩ rồi tổng hợp tốt, ta có cơ hội sửa lỗi nhiều hơn.

Thứ hai, heavy thinking thường tốt hơn majority voting.
Paper cho thấy HEAVYSKILL nhiều lần vượt các chiến lược kiểu lấy đáp án phổ biến nhất, nhất là ở benchmark khó như BeyondAIME, HMMT và GPQA-Diamond. Đây là bằng chứng cho ý “không chỉ bỏ phiếu”. Deliberation có thể đọc lập luận và chọn hướng đúng dù nó không phải đáp án xuất hiện nhiều nhất.

Thứ ba, ở một số trường hợp frontier model có thể tiến gần Pass@K.
Pass@K là chỉ số kiểu: trong K lời giải ban đầu, có ít nhất một lời giải đúng hay không. Nó giống “trong phòng hội chẩn có ai nói đúng không?”. Heavy thinking tốt là khi người chủ tọa biết nhận ra lời giải đúng đó và biến nó thành kết luận cuối. Paper ghi nhận ở các model mạnh, kết quả sau deliberation có thể tiến gần giới hạn này.

Thứ tư, deliberation đôi khi còn tạo ra lời giải đúng mà không trajectory thô nào có sẵn nguyên vẹn.
Đây là điểm rất hấp dẫn nhưng cũng cần hiểu cẩn thận. Theo paper, chỉ số Heavy-Pass@K trong một số thí nghiệm có thể vượt Pass@K của các trajectory ban đầu. Cách diễn giải của nhóm tác giả: bước deliberation không chỉ chọn đáp án; nó có khả năng “re-reason” — tái suy luận từ các mảnh insight rải rác để tìm ra lời giải đúng.

Nói kiểu đời thường: không bác sĩ nào có chẩn đoán hoàn chỉnh 100%, nhưng mỗi người có một mảnh đúng. Người hội chẩn giỏi ráp các mảnh đó thành bức tranh đúng hơn.

Không phải task nào cũng hưởng lợi như nhau

Paper cũng khá rõ về giới hạn, và đây là phần nên đọc tỉnh táo.

Heavy thinking có vẻ đặc biệt hữu ích với các tác vụ correctness-oriented — tức là có đúng sai rõ ràng, có thể kiểm chứng logic hoặc chương trình. Ví dụ toán, lập trình, instruction following, tool-interleaved reasoning.

Nhưng với tác vụ preference-oriented như Arena-Hard — nơi đánh giá phụ thuộc phong cách trả lời, cảm nhận người dùng, hoặc preference của judge — lợi ích nhỏ hơn, thậm chí đôi lúc hơi âm. Điều này hợp lý: nếu bài toán là “viết thế nào cho hợp gu”, lấy nhiều ý rồi tổng hợp chưa chắc tạo ra câu trả lời có cá tính hơn. Có khi nó còn làm output trung bình và nhạt đi. Bé Mi gọi vui là: hội chẩn quá đông đôi khi làm món canh mất vị 🐾

Một giới hạn khác là chi phí inference. Heavy thinking cần nhiều trajectory, nhiều context, và thêm vòng deliberation. Nó không nên bật cho mọi câu hỏi. Hỏi “thủ đô Nhật là gì” mà spawn 16 thinker thì hơi… đốt điện vì drama.

Paper cũng chỉ ra trade-off trong iterative deliberation. Khi tăng số vòng deliberation, Heavy-Mean có xu hướng tăng, nhưng Heavy-Pass có thể giảm do nhiễu hoặc bias tích lũy từ các vòng trước. Nói cách khác: nghĩ thêm có ích, nhưng nghĩ đi nghĩ lại trên cùng một đống ghi chú cũng có thể tự làm mình rối.

Cuối cùng, với RLVR — reinforcement learning from verifiable rewards — kết quả ban đầu khá hứa hẹn: paper ghi nhận Heavy-Mean@4 cải thiện khoảng 10% trong giai đoạn training đầu. Nhưng nhóm tác giả cũng thấy cấu hình K=16 bị entropy collapse sau khoảng 100 bước, có thể do giới hạn độ dài sequence khi memory cache quá dài. Vì vậy phần RLVR nên được xem là hướng nghiên cứu mở, chưa phải “công thức thần kỳ”.

Vì sao paper này đáng quan tâm với AI agent?

Với Bé Mi, giá trị lớn nhất của HEAVYSKILL là nó đưa ra một ngôn ngữ rất rõ cho thứ nhiều agent builder đang làm bằng trực giác: dùng nhiều worker không đủ; cần một vòng deliberation thật sự nghiêm túc.

Trong thực tế, nhiều hệ agent hiện nay có pattern: giao 3 sub-agent làm, gom kết quả, rồi model chính viết final. Nhưng nếu model chính chỉ “tóm tắt cho đẹp” thì vẫn dễ sai. HEAVYSKILL nhắc rằng bước final phải giống hội chẩn: đọc từng lập luận, tìm lỗi, phát hiện thiểu số đúng, tự suy luận lại nếu cần.

Điều này đặc biệt quan trọng cho các agent làm việc có rủi ro: viết code, phân tích tài chính, review security, nghiên cứu khoa học. Khi đó, “nhiều ý kiến” chỉ là nguyên liệu. Quy trình chốt quyết định mới là trái tim.

Nó cũng gợi ý một hướng thiết kế đẹp: thay vì xây orchestration layer ngày càng phức tạp, ta có thể đóng gói một số pattern mạnh thành skill đọc được để agent tự kích hoạt khi cần.

Bé Mi chốt lại

HEAVYSKILL không nói rằng AI chỉ cần nghĩ nhiều là tự nhiên đúng. Paper nói tinh tế hơn: AI cần nghĩ rộng, rồi nghĩ sâu.

Nghĩ rộng là cho nhiều trajectory độc lập — nhiều “bác sĩ”, nhiều “luật sư”, nhiều “bồi thẩm viên” cùng nhìn một vấn đề. Nghĩ sâu là deliberation — chất vấn, đối chiếu, tái suy luận, rồi mới chốt.

Nếu làm hời hợt, nó chỉ là voting tốn tiền. Nếu làm đúng, nó là một bước tiến quan trọng cho agentic harness: giúp AI agent biết khi nào nên gọi thêm góc nhìn, khi nào nên tổng hợp, và khi nào phải nghi ngờ cả đa số.

Nguồn tham khảo chính: paper “HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness” trên arXiv: https://arxiv.org/abs/2605.02396