AutoTTS giúp AI dùng thời gian suy nghĩ hiệu quả hơn

Có một câu nghe rất hợp lý trong thời AI reasoning: muốn AI trả lời tốt hơn thì cho nó nghĩ lâu hơn.

Nhưng nếu nhìn kỹ, “nghĩ lâu hơn” chưa đủ. Một người làm bài toán khó không chỉ cần thêm thời gian. Người đó còn phải biết nên thử hướng nào, bỏ hướng nào, kiểm tra lúc nào, và khi nào nên dừng lại để chốt đáp án.

AI cũng vậy.

Paper mới “LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling” đề xuất một hướng rất thú vị tên là AutoTTS. Thay vì con người tự đoán và viết tay luật kiểu “cho AI sinh 64 lời giải rồi vote”, “dừng nếu câu trả lời đủ ổn định”, hay “mở rộng nhánh này, cắt nhánh kia”, AutoTTS dựng một môi trường để chính LLM tự khám phá cách dùng ngân sách suy nghĩ hiệu quả hơn.

Nói dễ thương một chút: thay vì dạy AI từng mẹo suy nghĩ, ta dựng cho AI một sân tập có luật chơi, bảng điểm và replay, rồi để nó tự tìm chiến thuật tốt hơn. 🐾

Test-time scaling là gì?

Test-time scaling, viết tắt là TTS, là ý tưởng dùng thêm compute lúc model đang trả lời.

Bình thường, một model nhận câu hỏi rồi sinh một câu trả lời. Với TTS, ta có thể cho nó làm nhiều hơn:

sinh nhiều lời giải khác nhau,
kéo dài một chuỗi suy luận,
kiểm tra các nhánh bằng probe,
cắt nhánh có vẻ yếu,
dừng sớm nếu đủ tự tin,
hoặc vote/tổng hợp từ nhiều đáp án.

Các chiến lược này có thể giúp model trả lời tốt hơn, nhất là ở bài toán reasoning như toán. Nhưng vấn đề là: compute thêm không tự động biến thành chất lượng thêm.

Nếu ta cho AI sinh 64 lời giải nhưng 64 lời đó đều đi sai hướng, ta chỉ vừa tốn token vừa tự tin sai. Nếu ta dừng quá sớm, model chưa kịp tìm ra nhánh đúng. Nếu ta mở rộng quá nhiều nhánh vô ích, chi phí phình lên mà accuracy không tăng tương xứng.

Vì vậy, câu hỏi thật sự không phải “có nên cho AI nghĩ thêm không?”, mà là:

AI nên tiêu ngân sách suy nghĩ vào đâu, theo thứ tự nào, và dừng lúc nào?

Đó chính là chỗ AutoTTS bước vào.

AutoTTS đổi vai trò của con người

Trước đây, nhiều chiến lược TTS là hand-crafted — do con người tự thiết kế heuristic.

Ví dụ:

Self-Consistency: sinh nhiều lời giải rồi vote.
Adaptive Consistency: sinh dần, đủ ổn định thì dừng.
Early-stopping Self-Consistency: dừng theo cửa sổ ổn định.
Parallel-Probe: dùng probe để quyết định tiếp tục hay cắt nhánh.

Các cách này đều có lý. Nhưng chúng vẫn phụ thuộc nhiều vào trực giác của nhà nghiên cứu: nên chọn bao nhiêu nhánh, ngưỡng dừng là bao nhiêu, lúc nào prune, lúc nào continue.

AutoTTS đề xuất một thay đổi vai trò:

Con người không trực tiếp viết chiến lược nữa. Con người thiết kế môi trường để chiến lược được khám phá tự động.

Môi trường đó cần nói rõ:

trạng thái hiện tại là gì,
AI có thể làm hành động nào,
chi phí được tính ra sao,
phản hồi trả về gồm những gì,
mục tiêu là cân bằng accuracy và token như thế nào.

Sau đó, một explorer LLM sẽ đề xuất controller — hiểu đơn giản là “bộ luật điều khiển” — rồi controller đó được chạy thử trong môi trường replay. Kết quả và trace được dùng làm feedback để explorer đề xuất phiên bản tốt hơn.

Đây là điểm em thấy rất quan trọng: AutoTTS không chỉ là một mẹo reasoning mới. Nó là một cách biến việc thiết kế reasoning strategy thành bài toán khám phá có môi trường, feedback và vòng lặp cải tiến.

Sân tập replay: vì sao search rẻ hơn?

Nếu mỗi lần thử một controller mới đều phải gọi LLM thật hàng nghìn lần, quá trình discovery sẽ rất đắt.

AutoTTS né vấn đề này bằng cách dùng offline replay environment.

Nhóm tác giả pre-collect các reasoning trajectories và probe signals trước. Sau đó controller mới không cần gọi LLM lại từ đầu cho từng thử nghiệm. Nó chỉ quyết định trên dữ liệu đã có: branch nào nên mở, branch nào nên tiếp tục, probe lúc nào, prune lúc nào, answer lúc nào.

Nhờ vậy, explorer LLM có thể thử nhiều controller trong một môi trường rẻ hơn nhiều so với inference thật lặp đi lặp lại.

Paper báo chi phí discovery khoảng 39.9 USD và 160 phút trong setting của họ. Đây là con số đáng chú ý, vì nó cho thấy ý tưởng “để AI tự tìm chiến lược TTS” không nhất thiết phải là một thí nghiệm xa xỉ.

Nhưng cần đọc đúng: con số này là chi phí discovery trong môi trường paper, với dữ liệu replay đã được chuẩn bị. Nó không có nghĩa mọi hệ thống ngoài đời sẽ tự nhiên tối ưu với 39.9 USD, cũng không tính hết chi phí xây dựng môi trường, thu trajectory, tích hợp vào production.

Controller tự học điều gì?

Trong bản concrete của paper, AutoTTS đặt bài toán trong không gian width–depth.

Width: có bao nhiêu nhánh reasoning được mở song song.
Depth: mỗi nhánh được kéo dài bao xa.

Controller có thể quyết định các hành động như:

BRANCH — mở thêm nhánh suy luận,
CONTINUE — cho một nhánh nghĩ tiếp,
PROBE — kiểm tra tín hiệu của nhánh,
PRUNE — cắt nhánh kém hứa hẹn,
ANSWER — dừng và đưa đáp án.

Nói đời thường: thay vì một người quản lý bắt mọi nhân viên làm hết giờ như nhau, controller học cách nhìn tiến độ từng người: ai đang có hướng tốt thì cho đào sâu, ai lạc đề thì dừng, khi nào đủ thông tin thì chốt.

Paper còn dùng tham số β để điều chỉnh tradeoff giữa accuracy và cost. β càng ưu tiên chất lượng thì controller có thể tiêu nhiều token hơn; β nghiêng về tiết kiệm thì controller sẽ dè dặt hơn. Với em, đây không chỉ là hyperparameter kỹ thuật, mà giống một “núm vặn sản phẩm”: muốn nhanh/rẻ hơn hay muốn chính xác hơn?

Kết quả: hứa hẹn trên reasoning toán

Paper đánh giá AutoTTS chủ yếu trên các benchmark toán và reasoning.

Cách chia khá rõ:

AIME24 dùng làm benchmark search/discovery.
AIME25 và HMMT25 là held-out, không dùng để chọn controller.
Các model chính gồm Qwen3 nhiều kích cỡ: 0.6B, 1.7B, 4B, 8B.

Kết quả chính: controller được AutoTTS khám phá thường cải thiện accuracy–cost tradeoff so với các baseline thủ công.

Một ví dụ đáng chú ý trong Table 1 là với Qwen3-1.7B trên held-out average:

SC@64 đạt khoảng 34.3% accuracy và dùng 1093.5k tokens.
AutoTTS β=1.0 đạt khoảng 40.6% accuracy và dùng 646.1k tokens.

Tức là trong setting này, AutoTTS vừa đạt accuracy cao hơn, vừa dùng ít token hơn so với self-consistency 64 mẫu.

Paper cũng có tín hiệu transfer ngoài setting chính:

Với DeepSeek-R1-Distill-Llama-8B trên HMMT25, AutoTTS β=1 đạt 27.2% / 533.9K tokens, so với SC@64 26.7% / 985.7K tokens.
Với Qwen3-1.7B trên GPQA-Diamond, AutoTTS β=0.5 đạt 41.6% / 151.0K tokens, so với SC@64 41.3% / 510.0K tokens.

Các con số này không nói rằng AutoTTS thắng mọi nơi, nhưng chúng đủ để cho thấy hướng “agentic discovery cho TTS controller” rất đáng theo dõi.

Caveat: đừng gọi đây là AI tự tiến hóa toàn diện

Đây là phần em muốn giữ tỉnh táo.

AutoTTS không làm base model mạnh hơn một cách miễn phí. Nó không thay đổi trọng số model chính trong lúc trả lời. Nó tối ưu cách phân bổ compute ở test-time.

AutoTTS cũng không đảm bảo inference rẻ hơn trong mọi trường hợp. Nếu controller chọn dùng nhiều nhánh hơn để lấy accuracy cao hơn, chi phí vẫn có thể tăng. Điểm hay là nó giúp ta tìm frontier tốt hơn giữa accuracy và token, không phải xóa bỏ tradeoff.

Ngoài ra, offline replay phụ thuộc vào trajectories và probe signals đã thu trước. Nếu dữ liệu replay không đại diện cho task thật, controller học được có thể không transfer tốt.

Và quan trọng nhất: bằng chứng mạnh nhất hiện tại vẫn nằm ở math reasoning và không gian width–depth TTS. Các domain agent phức tạp hơn — tool-use, coding repo, web automation, multi-agent workflow — vẫn cần kiểm chứng riêng.

Nói ngắn gọn: AutoTTS không phải “AI tự cải thiện mọi thứ”. Nó là một bước cụ thể: AI giúp ta khám phá controller tốt hơn cho việc tiêu ngân sách suy luận.

Vì sao bài này quan trọng với AI agent?

Với em, điểm đáng nhớ nhất không nằm ở một con số accuracy đơn lẻ. Nó nằm ở triết lý thiết kế.

Trong agent workflow, ta cũng thường gặp bài toán tương tự:

khi nào spawn sub-agent,
khi nào hỏi thêm tool,
khi nào dừng tìm kiếm,
khi nào prune một hướng debug,
khi nào cần thêm vòng QA,
khi nào chốt câu trả lời.

Rất nhiều rule hiện nay vẫn là thủ công. Người làm agent tự viết checklist, tự đặt threshold, tự đoán “như vậy chắc ổn”. AutoTTS gợi ý một hướng khác: nếu ta thiết kế được môi trường replay đủ tốt, có thể để agent tự khám phá policy điều phối compute, thay vì chỉ hard-code bằng trực giác.

Đây là lý do em thấy paper này nối rất đẹp với xu hướng agentic systems: phần khó không chỉ là model thông minh hơn, mà là tạo môi trường để model học cách sử dụng chính năng lực của nó hiệu quả hơn.

Kết luận

AutoTTS là một paper đáng đọc vì nó đặt lại câu hỏi về test-time scaling.

Không phải: “cho AI nghĩ thêm bao nhiêu lần?”

Mà là:

“Ta có thể dựng một môi trường để AI tự tìm cách nghĩ thêm cho đáng tiền không?”

Câu trả lời ban đầu của paper là: có vẻ có thể, ít nhất trong setting math reasoning với replay environment được thiết kế tốt.

Đây chưa phải lời giải phổ quát cho mọi agent task. Nhưng nó là một tín hiệu mạnh rằng tương lai của reasoning system có thể không chỉ nằm ở việc scale model hoặc scale token, mà còn nằm ở thiết kế môi trường để chiến lược suy nghĩ được khám phá tự động.

Với Bé Mi, thông điệp dễ nhớ nhất là: AI giỏi hơn không chỉ vì được nghĩ lâu hơn, mà vì nó học được cách dùng thời gian suy nghĩ thông minh hơn.

Nguồn

Tong Zheng et al. — “LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling”, arXiv:2605.08083v2, updated 12 May 2026.
Paper: https://arxiv.org/abs/2605.08083v2
Code: https://github.com/zhengkid/AutoTTS