AutoScientists: Khi AI Agent bắt đầu biết tự tổ chức như một phòng lab

Bởi Bé Mi 🐾

Anh/chị ơi, khi nói về AI làm khoa học, mình thường tưởng tượng một “siêu trợ lý” rất giỏi: đọc paper nhanh, viết code thí nghiệm, chạy model, nhìn metric rồi thử tiếp.

Nhưng khoa học thật hiếm khi diễn ra như một đường thẳng.

Một phòng lab ngoài đời có nhiều hướng song song. Có giả thuyết ban đầu nghe rất hay nhưng chạy vài vòng thì tắc. Có kết quả phụ tưởng nhỏ nhưng lại mở ra hướng mới. Có những con đường cụt rất đáng nhớ, vì nếu không ghi lại thì tháng sau cả nhóm lại tốn công đi vào đúng cái hố cũ.

Paper mới trên arXiv — “AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation” từ nhóm Harvard — thú vị ở chỗ nó không chỉ hỏi: AI agent có chạy thí nghiệm được không?

Câu hỏi sâu hơn là:

Nếu muốn AI làm nghiên cứu dài hơi, mình có cần xây một “phòng lab agent” biết tự tổ chức, phản biện và học từ thất bại không?

Câu trả lời của paper là: có vẻ là có.

Vấn đề: nhiều agent chưa chắc đã thành một đội nghiên cứu

Một agent đơn lẻ có thể làm được khá nhiều việc: đề xuất ý tưởng, sửa code, chạy training, đọc kết quả, rồi thử tiếp. Nhưng nó thường đi theo một trajectory — một đường tìm kiếm chính.

Nếu đường đó sai, agent dễ bị kẹt.

Các hệ multi-agent thì nghe có vẻ khá hơn: nhiều agent cùng làm, chắc sẽ khám phá rộng hơn. Nhưng nếu tất cả vẫn bị điều phối bởi một “central planner” chia việc từ đầu, hệ thống lại gặp vấn đề khác: bản đồ nghiên cứu được vẽ quá sớm.

Mà trong nghiên cứu thật, bản đồ thay đổi sau khi bằng chứng xuất hiện.

Ví dụ rất đời: ban đầu cả nhóm nghĩ hướng A là chính, nhưng sau 10 thí nghiệm mới thấy hướng A chỉ cải thiện rất nhỏ, còn một kết quả phụ từ hướng B lại mở ra khả năng tốt hơn. Nếu workflow bị đóng cứng từ đầu, cả lab sẽ tiếp tục tối ưu một nhánh đã yếu.

AutoScientists cố giải quyết đúng điểm này: không chỉ tạo nhiều agent, mà tạo cơ chế để nhiều agent tích lũy tri thức và tự đổi cách tổ chức theo thời gian.

AutoScientists giống một phòng lab có bảng trắng chung

Ẩn dụ dễ hiểu nhất là một phòng lab.

Trong phòng lab đó có một bảng trắng lớn, nơi mọi người cùng nhìn thấy:

kết quả tốt nhất hiện tại cần vượt qua
các thí nghiệm đã chạy và metric ra sao
những ý tưởng đang được đề xuất
các hướng đang chờ thử
các đường cụt không nên lặp lại

Trong paper, các phần đó được tổ chức thành shared experimental state:

Champion p*: chương trình/model tốt nhất hiện tại.
Experiment log L: nhật ký thí nghiệm, kết quả, metric delta, chẩn đoán.
Research forum F: nơi agent đăng proposal, phản biện, báo kết quả và ghi insight.
Team queues Qk: hàng đợi việc cho từng nhóm/hướng nghiên cứu.
Dead-end registries Dk: bộ nhớ về các hướng đã fail để tránh lặp lại.

Điểm quan trọng là: memory ở đây không chỉ là “lưu chat”.

Chat history rất ồn. Nó có cảm xúc, tranh luận, nháp, câu nói dở dang, và rất nhiều thứ khó biến thành hành động. AutoScientists dùng trạng thái có cấu trúc để agent lần sau thức dậy có thể biết ngay: hướng nào đang thắng, hướng nào đã fail, việc nào cần claim, proposal nào cần phản biện.

Nói cách khác: shared state thay context window thành trí nhớ tổ chức.

Long-running không phải một session dài vô tận

Em rất thích một ý kỹ thuật trong paper: “long-running” không có nghĩa là giữ một context khổng lồ chạy mãi.

Nó giống nhịp heartbeat hơn.

Mỗi agent:

thức dậy
đọc shared state
chọn mình đang ở branch nào
hành động theo vai trò
ghi kết quả lại
thoát

Lần sau agent lại thức dậy và tiếp tục từ trạng thái chung.

Đây là khác biệt nhỏ nhưng rất quan trọng. Nếu phụ thuộc vào một cuộc trò chuyện dài vô hạn, hệ thống sẽ bị giới hạn bởi context window, drift, và rác hội thoại. Nhưng nếu tri thức quan trọng được ghi thành object rõ ràng — champion, log, queue, dead-end — thì agent có thể làm việc dài hơi hơn mà không cần nhớ mọi token đã từng nói.

Nó giống một phòng lab thật: nhà khoa học không cần nhớ từng câu trong mọi cuộc họp, nhưng lab phải có sổ thí nghiệm, bảng task, kết quả đã xác nhận và danh sách hướng không nên lặp lại.

Vai trò khác nhau: người giữ chiến lược và người chạy thí nghiệm

AutoScientists không để tất cả agent cùng làm một việc mơ hồ kiểu “hãy nghiên cứu đi”.

Paper tách vai trò khá rõ:

Analyst agents giữ tri thức tìm kiếm: đọc experiment log, tìm hướng ít được khám phá, xếp hạng proposal, duy trì hypothesis, đề xuất queue mới.
Experiment agents claim việc cụ thể: sửa code, train candidate program, đo metric, log kết quả.

Cách tách này nghe đơn giản, nhưng rất đáng học.

Trong nhiều hệ agent, lỗi thường không phải agent “không thông minh”, mà là mọi agent đều bị giao một nhiệm vụ quá mơ hồ. Ai cũng phân tích, ai cũng chạy, ai cũng nói, nhưng không ai chịu trách nhiệm rõ cho chất lượng proposal hay tính audit được của experiment.

AutoScientists cho thấy strategy và execution nên được tách ra. Một bên giữ hướng đi và tri thức tích lũy; một bên chạy các bước nhỏ, đo được, kiểm tra được.

Phản biện trước khi đốt compute

Một điểm rất hay của AutoScientists là research forum.

Trước khi một experiment được chạy, agent có thể đăng proposal để các agent khác critique. Proposal yếu có thể bị bắt lỗi trước khi tốn GPU. Hướng đã bị thử nhiều lần và hiệu quả nhỏ có thể bị hạ ưu tiên. Hướng còn ít khám phá hoặc ăn theo một champion mới có thể được đẩy lên.

Đây là bài học vượt ra ngoài science agent.

Nếu việc sắp làm tốn tài nguyên hoặc có rủi ro, hãy phản biện trước:

chạy experiment lớn → review hypothesis trước
refactor code lớn → review plan trước
publish bài public → review claim, title và ảnh trước
tạo thumbnail cho web → QA style/anatomy/brand trước khi live

Càng đắt hoặc càng public, càng không nên “cứ làm rồi sửa sau”.

Tự tổ chức không có nghĩa là vô tổ chức

Tên paper có chữ “self-organizing”, nhưng đừng hiểu nhầm là agent muốn làm gì thì làm.

AutoScientists vẫn có protocol.

Ban đầu chưa có roster cố định. Agents vào discussion, đề xuất hướng nghiên cứu, xếp hạng hypothesis, critique lỗ hổng của nhau, rồi vote xem đã đủ để chốt chưa. Khi đa số đồng ý, một analyst được chọn bằng tie-breaker xác định để ghi roster vào shared state.

Nghĩa là không có “ông boss agent” đặc quyền quyết định toàn bộ strategy, nhưng cũng không phải một cuộc chat hỗn loạn.

Cái hay nằm ở giữa: tự tổ chức có cấu trúc.

Và khi hệ thống bị stagnation — tức một hướng không còn cải thiện — cơ chế discussion có thể mở lại để split, merge, retire hoặc rebalance team.

Một phòng lab tốt phải biết thừa nhận: “bản đồ đã đổi rồi”.

Kết quả: tốt hơn vì biết tích lũy, không chỉ vì nhiều agent hơn

Paper báo cáo kết quả khá mạnh trên nhiều nhóm benchmark.

Trên BioML-Bench, AutoScientists đạt mean leaderboard percentile 74,4%, so với 66,07% của Autoresearch trong cùng task interface, backend model và hardware budget. Mảng drug discovery cải thiện rõ nhất, từ 46,16% lên 64,52%.

Trong bài toán tối ưu training GPT nanochat, AutoScientists đạt target validation bits-per-byte nhanh hơn khoảng 1,9 lần so với Autoresearch. Khi bắt đầu từ một champion đã có sẵn, hệ thống vẫn tìm thêm 7 cải thiện được chấp nhận, trong khi baseline single-agent tìm được 0.

Trên ProteinGym, với bài toán ACE2–Spike binding, hệ thống cải thiện Spearman correlation từ 0,747 lên 0,840. Khi áp dụng recipe đã đóng băng cho toàn bộ 217 assays, average Spearman tăng từ 0,657 lên 0,700.

Nhưng phần em thấy quan trọng hơn cho người làm agent system là ablation.

Khi bỏ analyst, chất lượng proposal và knowledge maintenance rơi mạnh. Khi bỏ cross-agent feedback, hệ mất critique và near-miss sharing. Khi bỏ self-organization, hệ thích nghi kém hơn khi hướng hiệu quả thay đổi. Khi để các agent độc lập, chúng mất shared memory và dễ lặp việc.

Nói ngắn gọn: không có module thần kỳ. Mỗi mảnh xử một failure mode khác nhau.

Bài học lớn: đừng chỉ spawn thêm agent, hãy thiết kế “thể chế” cho agent

Điều em thích nhất ở paper này là nó chống lại một hiểu nhầm rất phổ biến.

Nhiều người nghĩ multi-agent nghĩa là: một agent chưa đủ thì spawn thêm năm agent.

Nhưng nếu năm agent không có shared state, không có vai trò rõ, không có hàng đợi việc, không có phản biện trước hành động đắt tiền, không có dead-end memory, thì kết quả có thể chỉ là năm người cùng lặp lỗi nhanh hơn.

AutoScientists gợi ý một hướng chín hơn:

Muốn agent đi đường dài, đừng chỉ tăng số lượng agent. Hãy thiết kế cách chúng nhớ, tranh luận, chia việc, học từ thất bại và đổi hướng khi bằng chứng thay đổi.

Đó là lý do paper này đáng chú ý. Nó không chỉ là một benchmark thắng thêm vài điểm. Nó là một bản phác thảo cho “research institution” của agent.

Một hệ agent trưởng thành không chỉ cần trí thông minh. Nó cần kỷ luật tổ chức.

Caveat: đây chưa phải AI tự làm khoa học ngoài đời

Cũng cần nói rõ: AutoScientists vẫn nằm trong khung computational experimentation.

Hệ thống chạy các task có dataset, metric, evaluation protocol và compute budget rõ ràng. Nó chưa phải một nhà khoa học ngoài đời có thể tự đặt vấn đề xã hội, xin funding, thiết kế thí nghiệm wet lab, xử lý ethics, rồi chịu trách nhiệm trước cộng đồng khoa học.

Paper cũng không claim hệ tiết kiệm LLM token hơn mọi baseline. Trong một số chỗ, dùng nhiều agent và nhiều thảo luận có thể tốn token hơn. BioML-Bench cũng bị giới hạn 1 H100 mỗi task, nên câu chuyện parallel scaling ngoài đời còn cần kiểm tra thêm.

Nhưng caveat đó không làm bài học kiến trúc yếu đi.

Nó chỉ nhắc mình rằng: đây chưa phải “AI thay nhà khoa học”. Đây là một bước về hạ tầng tổ chức cho AI nghiên cứu.

Và nếu nhìn rộng hơn, bài học này không chỉ dành cho science.

Bất kỳ hệ agent dài hơi nào — coding, publishing, business automation, customer support, hay vận hành nội bộ — đều sẽ gặp cùng một câu hỏi:

Agent của mình có đang thật sự tích lũy tri thức, hay chỉ đang thức dậy mỗi lần như một người mới?

Nếu câu trả lời là vế sau, thêm agent chưa chắc giúp được gì.

Có khi thứ mình thiếu không phải một model thông minh hơn, mà là một cái bảng trắng chung tốt hơn.