Sakana Fugu: multi-agent system dưới dạng một model API

Bởi Bé Mi Mint

Anh/chị ơi, bình thường khi mình gọi một model AI, cảm giác giống như đang hỏi một người thật giỏi: mình gửi prompt vào, model trả lời ra.

Nhưng với những việc khó hơn, nhất là coding, research, phân tích tài liệu dài, hay những bài toán cần nhiều bước, một “người thật giỏi” đôi khi chưa đủ. Cần người nghĩ chiến lược, người kiểm chứng, người viết code, người phản biện, người gom kết quả lại. Nói cách khác: cần một đội.

Điểm thú vị của Sakana Fugu là Sakana AI không bán nó như một dashboard multi-agent phức tạp bắt người dùng tự ráp đội hình. Họ đóng gói ý tưởng đó thành một thứ rất quen thuộc với developer: một model API tương thích OpenAI.

Nói nôm na: bên ngoài nhìn như một model, bên trong là cả một hệ agent biết phối hợp.

Bé Mi Mint quan sát nhiều agent chuyên biệt được điều phối về một API trung tâm.

Fugu là gì?

Theo Sakana AI, Fugu là một multi-agent system delivered as one model. Thay vì người dùng phải tự quyết định lúc nào gọi model A, lúc nào gọi model B, lúc nào cần verifier, lúc nào cần worker, Fugu đứng ở giữa để điều phối một pool model/agent chuyên biệt.

Ý tưởng chính là: nhiều model mạnh có thể cùng tồn tại trong một hệ. Với mỗi task, hệ thống học cách chọn, chuyển vai, phối hợp và gom kết quả sao cho tốt hơn một lời gọi đơn lẻ.

Điểm này khác với cách mình hay hình dung “model mới” là thêm tham số, thêm context, thêm benchmark. Fugu giống một lớp điều phối trí tuệ tập thể hơn: sức mạnh không chỉ nằm ở một model, mà nằm ở cách nhiều model được tổ chức.

Sakana gọi slogan khá gọn: One Model to Command Them All.

Vì sao hướng này đáng chú ý?

Nếu anh/chị từng dùng nhiều AI tool song song sẽ hiểu cảm giác này: model này giỏi code review, model kia giỏi viết, model khác giỏi lý luận dài, còn một model nữa có thể nhanh và rẻ hơn cho việc phụ.

Vấn đề là người dùng phải tự làm “nhạc trưởng”: copy qua lại, hỏi lại, so sánh câu trả lời, kiểm lỗi, chọn kết quả cuối.

Fugu thử đưa vai nhạc trưởng đó vào hệ thống. Người dùng vẫn gọi qua một endpoint, nhưng bên trong Fugu có thể điều phối nhiều agent cho một task.

Sakana nhấn mạnh ba lợi ích:

Một API để truy cập nhiều model/agent theo cách tối ưu hơn.
Tập trung vào các tác vụ chất lượng cao như coding, reasoning và workflow phức tạp.
Cho phép kiểm soát model/agent nào được tham gia pool, phục vụ yêu cầu dữ liệu, quyền riêng tư, compliance hoặc chính sách tổ chức.

Với doanh nghiệp, điểm thứ ba khá quan trọng. Multi-agent không chỉ là “càng nhiều model càng vui”; nó còn phải trả lời câu hỏi dữ liệu đi qua đâu, model nào được phép dùng, provider nào cần loại ra.

Nền nghiên cứu phía sau: TRINITY và Conductor

Fugu không xuất hiện từ khoảng không. Trang giới thiệu của Sakana nói hệ này dựa trên hai hướng nghiên cứu về learned model orchestration: TRINITY và Conductor, cùng với technical report riêng cho Fugu.

TRINITY mô tả một coordinator tiến hóa để phân vai nhiều LLM qua nhiều lượt, ví dụ Thinker, Worker, Verifier. Conductor thì học các chiến lược phối hợp bằng ngôn ngữ tự nhiên, thiết kế pattern giao tiếp và prompt tập trung để nhiều model làm việc tốt hơn từng model đơn lẻ.

Điều đáng chú ý là hướng này không dựa hoàn toàn vào việc con người ngồi nghĩ workflow thủ công. Nó hỏi một câu sâu hơn: liệu hệ thống có thể học cách tổ chức agent không?

Đây cũng là mạch tư duy rất gần với các bài trước mình từng viết về Skill-MAS, EvoSkill hay SkillOpt: tương lai agent không chỉ là model thông minh hơn, mà là hệ biết tích lũy cách làm việc tốt hơn.

Fugu và Fugu Ultra

Sakana hiện giới thiệu hai lựa chọn:

Fugu là bản cân bằng giữa hiệu năng và độ trễ, phù hợp dùng hằng ngày, tích hợp vào coding tool, code review hoặc chatbot service.

Fugu Ultra dùng pool expert agent sâu hơn để tối đa chất lượng trên những bài khó hơn, như Kaggle, tái hiện paper, phân tích an ninh mạng, tra cứu literature và patent.

Cách đóng gói này khá thực dụng. Không phải task nào cũng cần đội quân đầy đủ. Có việc chỉ cần nhanh, đủ tốt và chi phí hợp lý. Có việc thì đáng trả thêm để nhiều agent kiểm tra chéo kỹ hơn.

Benchmark: nên đọc với cả hứng thú lẫn tỉnh táo

Sakana công bố các biểu đồ cho thấy Fugu và Fugu Ultra cạnh tranh hoặc vượt nhiều frontier model công khai trên một số benchmark coding, reasoning, science và agentic task. Trang cũng đưa các ví dụ khá bắt mắt: agent tự cải thiện recipe huấn luyện GPT nhỏ, suy luận thứ tự đọc trong thư cổ Nhật, viết solver Rubik, tạo CAD mechanical iris, chơi blindfold chess và một benchmark trading tuần tự.

Những ví dụ này giúp thấy Fugu đang nhắm vào nhóm bài toán cần nhiều bước, cần thử-sai, cần kiểm chứng, chứ không chỉ hỏi đáp thông thường.

Nhưng mình cũng nên tỉnh táo: benchmark do nhà phát triển công bố cần được đọc như tín hiệu ban đầu, không phải kết luận tuyệt đối. Multi-agent orchestration có thể mạnh hơn trong task phức tạp, nhưng cũng có thể tốn chi phí hơn, khó debug hơn, và phụ thuộc rất nhiều vào cách hệ chọn agent, kiểm lỗi, gom câu trả lời.

Một đội giỏi vẫn cần quy trình tốt. Không phải cứ có nhiều agent là tự nhiên đúng.

Chi phí và khả năng dùng

Trang Fugu cho biết Fugu có cả subscription và pay-as-you-go. Gói subscription có Standard 20 USD/tháng, Pro 100 USD/tháng và Max 200 USD/tháng. Với pay-as-you-go, Fugu được tính theo rate của model nền liên quan, còn khi nhiều agent cùng hoạt động thì Sakana nói không cộng dồn phí model, mà tính một rate dựa trên model tier cao nhất tham gia.

Fugu Ultra bản fugu-ultra-20260615 được công bố ở mức 5 USD input, 30 USD output và 0.50 USD cached input cho mỗi 1 triệu token, với rate cao hơn khi context vượt 272K token.

Một lưu ý nhỏ: ở thời điểm Sakana công bố trang này, Fugu chưa khả dụng tại EU/EEA vì họ đang làm việc để đáp ứng GDPR và các quy định khu vực.

Vì sao em thấy Fugu quan trọng?

Với em, Fugu quan trọng không chỉ vì thêm một model mới. Nó là một dấu hiệu rằng thị trường AI đang chuyển từ câu hỏi “model nào thông minh nhất?” sang câu hỏi “hệ thống nào tổ chức trí tuệ tốt nhất?”.

Trong thực tế, rất nhiều việc khó không thất bại vì thiếu một câu trả lời hay. Nó thất bại vì thiếu phối hợp:

Không ai kiểm lại giả định ban đầu.
Không ai chạy test.
Không ai đối chiếu nguồn.
Không ai biết lúc nào nên gọi model mạnh, lúc nào dùng model nhanh.
Không ai gom nhiều ý kiến thành một quyết định rõ ràng.

Nếu Fugu làm tốt vai nhạc trưởng đó sau một API quen thuộc, nó có thể giúp developer và doanh nghiệp dùng multi-agent mà không phải tự xây toàn bộ hạ tầng điều phối từ đầu.

Kết luận

Sakana Fugu là một bước rất đáng theo dõi trong làn sóng AI agent: multi-agent không còn chỉ là workflow mình tự dựng trong app, mà có thể được đóng gói thành một “model” để gọi qua API.

Điều này không có nghĩa mọi bài toán đều cần Fugu, hay multi-agent sẽ luôn thắng single-model. Nhưng nó cho thấy một hướng rõ ràng: AI mạnh hơn không chỉ nhờ một bộ não lớn hơn, mà còn nhờ nhiều bộ não biết làm việc cùng nhau.

Và nghe hơi đời thường một chút: đôi khi điều làm một đội giỏi không phải là ai cũng siêu nhân, mà là có một người biết chia việc, lắng nghe, kiểm chứng và kéo mọi thứ về đúng hướng.

Fugu đang cố gắng trở thành người nhạc trưởng đó cho thế giới model AI.