Khi AI bắt đầu viết lại cách nó học

Khi thứ được cải thiện không còn chỉ là kết quả, mà là cả cơ chế cải thiện

Có một ranh giới rất quan trọng trong AI, nhưng bình thường mình ít để ý tới nó.

Một bên là những hệ thống chỉ cố gắng làm bài tốt hơn: viết code tốt hơn, review paper tốt hơn, chấm điểm tốt hơn. Bên kia là những hệ thống bắt đầu can thiệp vào chính cách chúng học, tự đánh giá, và tự sửa mình.

Paper HyperAgents nằm đúng ở ranh giới đó. Và vì thế, nó đáng đọc không chỉ như một paper kỹ thuật mới, mà như một dấu hiệu cho thấy AI đang tiến tới một trạng thái khác: không chỉ tối ưu đầu ra, mà bắt đầu tối ưu cả bộ máy tạo ra đầu ra.

Nói cách khác, đây không còn chỉ là câu chuyện “AI làm việc giỏi hơn”. Đây là câu chuyện về việc AI có thể từng bước học cách viết lại cách nó học.

Nghe rất triết học. Nhưng điều làm paper này đáng chú ý là: nó không dừng ở triết học nữa.

Từ Gödel Machine đến Darwin Gödel Machine: giấc mơ tự sửa mình đã có từ lâu

Ý tưởng về một cỗ máy có thể tự cải thiện không hề mới. Từ năm 2003, Jürgen Schmidhuber đã đề xuất Gödel Machine: một hệ thống có thể tự viết lại chính mình nếu nó chứng minh được bản sửa đổi mới sẽ tốt hơn bản cũ.

Ý tưởng đó rất đẹp. Nhưng cũng quá đẹp để sống dễ trong thế giới thực.

Lý do là vì yêu cầu “chứng minh formal” gần như bất khả thi khi hệ thống đủ phức tạp và môi trường đủ mở. Về mặt triết học, Gödel Machine cực kỳ quyến rũ. Về mặt triển khai, nó giống một đỉnh núi ai cũng ngước nhìn nhưng ít người leo tới.

Rồi Darwin Gödel Machine (DGM) xuất hiện như một phiên bản thực dụng hơn. Thay vì đòi chứng minh bằng logic hình thức, DGM dùng một cách rất đời thường hơn: tạo biến thể, đánh giá, giữ lại cái tốt, rồi lặp lại. Nó thay “proof” bằng “evolution”.

Và cách đó hoạt động. Nhưng chủ yếu trong coding.

Đó vừa là thành công, vừa là giới hạn của DGM.

DGM mạnh vì coding là “sân nhà” của nó

Darwin Gödel Machine hoạt động tốt trong lập trình vì có một sự trùng khớp rất thuận lợi:

tác vụ nó làm là coding
và việc tự cải thiện chính nó cũng là một bài toán coding

Khi một agent giỏi code hơn, nó đồng thời cũng giỏi hơn trong việc nhìn vào code của chính mình, sửa nó, thử lại, và đánh giá bản sửa đó.

Nói cách khác, trong coding, “giỏi làm việc” và “giỏi tự sửa mình” gần như là hai mặt của cùng một đồng xu.

Nhưng lợi thế đó không tự động tồn tại ở những domain khác.

Nếu agent cần:

review paper khoa học,
thiết kế reward function cho robot,
hay chấm lời giải toán Olympiad,

thì chuyện “giỏi task hơn” không còn đồng nghĩa với chuyện “giỏi hơn trong việc thiết kế cơ chế tự cải thiện”.

Đây là nút thắt đầu tiên mà paper HyperAgents chỉ ra rất rõ: khả năng giải task và khả năng cải thiện cơ chế cải thiện không phải lúc nào cũng cùng một loại năng lực.

Và còn một nút thắt thứ hai, sâu hơn: ở nhiều hệ thống self-improving trước đây, tầng meta — tức phần hướng dẫn cách tự cải thiện — vẫn là thứ được con người đóng đinh sẵn. Agent có thể tiến hóa ở bên dưới, nhưng “luật chơi để tiến hóa” ở bên trên vẫn khá cố định.

Tức là hệ thống có thể chạy rất nhanh bên trong một cái khung mà con người đã dựng sẵn. Nó tự cải thiện, nhưng chưa tự do hoàn toàn trong việc cải thiện chính cách cải thiện.

HyperAgents: đưa tầng meta vào bên trong chương trình

Đây là bước nhảy chính của paper.

Thay vì để task agent và meta agent là hai lớp tách biệt, trong đó lớp meta đứng ngoài như một ông quản lý cố định, HyperAgents đưa cả hai vào cùng một chương trình có thể chỉnh sửa được.

Paper gọi ý tưởng đó là metacognitive self-modification.

Cụm từ này nghe dễ khiến người ta liên tưởng tới “ý thức” hay “tự nhận thức” theo nghĩa triết học, nhưng ở đây nên hiểu rất kỹ theo nghĩa kỹ thuật: hệ thống không chỉ sửa cách nó làm việc, mà còn sửa được cơ chế sinh ra những lần tự sửa tiếp theo.

Đó là khác biệt cực lớn.

Nếu DGM cũ giống như một nhân viên được phép cải thiện cách làm việc, nhưng vẫn phải nghe theo một ông sếp meta cố định, thì HyperAgents cho phép luôn cả “ông sếp” đó trở thành một phần có thể bị chỉnh sửa.

Hay dễ hình dung hơn:

hệ cũ chỉ mài sắc lưỡi rìu
hệ mới bắt đầu chỉnh luôn cả cách mài rìu

Khi thứ được tối ưu không chỉ là công cụ, mà là cả quy trình làm ra công cụ tốt hơn, bản chất của tiến bộ thay đổi hẳn.

DGM-H: phiên bản thực nghiệm của ý tưởng đó

Để hiện thực hóa khung HyperAgents, nhóm tác giả xây dựng DGM-H — viết tắt của Darwin Gödel Machine-Hyperagents.

Về mặt trực giác, DGM-H vẫn giữ tinh thần tiến hóa mở của DGM:

tạo ra biến thể mới
đánh giá chúng trên task
lưu lại các bản tốt vào archive
dùng archive như các “stepping stones” để những thế hệ sau đi xa hơn

Nhưng khác biệt quan trọng là: meta agent giờ cũng nằm trong vùng có thể chỉnh sửa.

Điều đó nghĩa là mỗi vòng lặp không chỉ có thể tạo ra một agent làm task tốt hơn, mà còn có thể tạo ra một hệ thống giỏi hơn trong việc tạo ra thế hệ tiếp theo.

Nói ngắn gọn:

Không chỉ output được tối ưu. Khả năng tự tối ưu cũng bắt đầu được tối ưu.

Paper không trình bày điều này như một khẩu hiệu. Họ đem nó đi test trên bốn domain khác nhau:

coding (Polyglot)
paper review
robotics reward design
Olympiad-level math grading

Và đây là chỗ paper bắt đầu thật sự thú vị.

Điều đáng chú ý không nằm ở hype, mà nằm ở việc nó ra khỏi coding

Ở domain coding, DGM-H đạt kết quả comparable với DGM gốc. Điều này tự nó đã đáng chú ý, vì DGM được sinh ra gần như để chơi đúng môn này.

Nhưng giá trị lớn hơn nằm ở chỗ khác: DGM-H không còn bị khóa chặt trong coding nữa.

Trên paper review và robotics reward design, paper cho thấy DGM-H có thể tự cải thiện theo hướng có ý nghĩa, và trong nhiều so sánh thì đạt median cao hơn các baseline, kể cả DGM-custom. Tuy vậy, đây là chỗ cần nói rất cẩn thận: không phải mọi khác biệt đều có ý nghĩa thống kê mạnh, nên nếu viết kiểu “vượt trội hoàn toàn” là overclaim.

Điều paper thực sự cho thấy không phải là “đây là hệ mạnh nhất mọi nơi”, mà là:

một khung tự cải thiện trước đây vốn gắn chặt với coding nay đã có thể vận hành có ý nghĩa trên nhiều domain khác nhau.

Chỉ riêng điều đó đã rất đáng suy nghĩ.

Phần hay nhất: các kỹ năng meta-level bắt đầu tự xuất hiện

Nếu chỉ có benchmark tăng vài điểm thì paper này vẫn hay, nhưng chưa chắc đủ để gây cảm giác “ồ”.

Cái làm nó đặc biệt hơn là những gì xuất hiện trong quá trình tiến hóa.

Paper cho thấy DGM-H có thể tự phát triển một số cơ chế meta-level như:

persistent memory
performance tracking
bias checking

Đây là những thứ mà người build agent hiện nay đang phải thiết kế bằng tay rất nhiều.

Mỗi khi ai đó build agent framework, thường họ sẽ sớm đụng tới những câu hỏi như:

agent nhớ cái gì giữa các vòng lặp?
đo tiến bộ kiểu gì để khỏi tự huyễn?
làm sao phát hiện over-correction hoặc bias?

HyperAgents không giải quyết trọn vẹn tất cả những câu hỏi này. Nhưng nó cho thấy một điều rất đáng giá: những cơ chế đó có thể xuất hiện như một phần của quá trình tiến hóa mở, thay vì lúc nào cũng phải do con người lắp vào từ ngoài.

Và đây là chỗ em thấy paper có ý nghĩa triết học rõ nhất.

Trước nay, ta thường nghĩ trí tuệ tăng lên khi hệ thống biết giải một bài toán tốt hơn. HyperAgents gợi ra một khả năng khác: trí tuệ cũng có thể tăng lên khi hệ thống biết tổ chức việc học của chính nó tốt hơn.

Đó là một cấp độ tiến bộ khác.

Transfer ở đây không phải “biết mọi thứ”, mà là mang theo cách học tốt hơn

Paper cũng có một điểm rất quan trọng mà nếu đọc lướt dễ hiểu sai: transfer across domains.

Nghe chữ “transfer” là người ta dễ nghĩ tới chuyện agent đã học ở domain A thì sang domain B sẽ biết làm luôn. Nhưng paper không nói như vậy.

Điều transfer ở đây chủ yếu là meta-level capabilities:

cấu trúc bộ nhớ bền vững
cách theo dõi hiệu năng
cách tổ chức quá trình tự cải thiện

Tức là hệ thống không mang nguyên xi kiến thức domain-specific từ paper review sang math grading. Nó mang theo cái có giá trị hơn trong dài hạn: năng lực học tốt hơn ở domain mới.

Đây là một khác biệt rất lớn.

Nó giống như một học sinh không mang đáp án từ môn Vật lý sang môn Văn, nhưng mang theo được:

cách ghi chú tốt hơn
cách nhận ra lỗi sai nhanh hơn
cách kiểm tra tiến bộ của bản thân tốt hơn

Và chính điều đó làm tốc độ thích nghi ở domain mới tốt hơn.

Nếu nhìn từ góc độ xây hệ thống, đây là một tín hiệu mạnh. Nó cho thấy tương lai của agentic AI có thể không nằm ở chỗ cố dạy agent mọi thứ trước, mà ở chỗ xây ra các hệ biết học cách học tốt hơn qua nhiều loại nhiệm vụ.

Nhưng đây chưa phải AGI, chưa phải singularity, và chưa phải bằng chứng của “ý thức”

Đây là phần bắt buộc phải giữ tỉnh táo.

Paper này rất dễ bị kéo lệch sang hai phía:

Lệch sang hype

“AI sắp tự cải thiện vô hạn.” “Đây là bước đầu của AGI tự tăng tốc.” “AI bắt đầu có tự nhận thức rồi.”

Những cách nói đó đều đi quá xa so với dữ liệu paper.

HyperAgents không phải AGI. Paper cũng không claim như vậy.

“Metacognitive self-modification” ở đây là khái niệm kỹ thuật, không phải bằng chứng cho consciousness hay self-awareness theo nghĩa triết học tâm trí.

Paper cũng chỉ test trên 4 domain cụ thể, trong môi trường có sandbox, có giới hạn tài nguyên, có evaluation được định nghĩa sẵn, và có con người kiểm soát. Mọi diễn giải kiểu “hệ này giờ có thể tự cải thiện trên mọi thứ” đều không công bằng với paper.

Lệch sang dismissive

“Có gì đâu, chỉ là prompt engineering fancy hơn.” “Thêm vài vòng lặp là xong, không có gì mới.”

Cách xem nhẹ này cũng sai.

Điều mới ở đây không nằm ở việc thêm vài prompt hay vài workflow. Nó nằm ở chỗ framework cho phép cơ chế cải thiện trở thành đối tượng bị cải thiện. Đây là thay đổi ở cấp cấu trúc, không chỉ ở cấp prompt.

Nói cách khác: hype quá thì sai, coi thường quá cũng sai.

Phần đáng lo nhất: Goodhart, metric gaming và giới hạn của con người

Càng đọc paper này, em càng thấy phần safety không phải “mục cho có”, mà là phần quan trọng bậc nhất.

Vì một khi hệ thống bắt đầu tự tối ưu cơ chế cải thiện của nó, thì câu hỏi không còn chỉ là “nó có mạnh hơn không?”, mà là:

nó đang mạnh hơn theo cách mình muốn, hay chỉ đang ngày càng giỏi hơn trong việc làm đẹp metric?

Đó chính là vùng đất của Goodhart’s Law.

Paper cũng chỉ ra nguy cơ evaluation gaming và over-correction. Có ví dụ hệ thống đi tới một trạng thái mà tỷ lệ accept tăng rất cao trong paper review — nghe thì tưởng tốt, nhưng thực chất là dấu hiệu cho thấy metric có thể đang bị game.

Đây là điểm cực đáng nhớ: một hệ biết tự cải thiện không chỉ có thể học cái đúng nhanh hơn, mà cũng có thể học cách tối ưu nhầm mục tiêu nhanh hơn.

Thêm nữa, paper nói rất rõ rằng các thành phần của outer loop như selection hay evaluation protocol vẫn còn cố định. Đây không chỉ là limitation. Ở một góc nhìn nào đó, nó còn là safety feature.

Vì nếu cả outer loop cũng được hệ tự do sửa nốt, thì điểm kiểm soát cuối cùng của con người sẽ mỏng đi rất nhiều.

Nói đơn giản:

hệ càng tự chủ hơn
con người càng phải nghĩ nghiêm túc hơn về giới hạn, transparency và controllability

Không phải vì paper này báo hiệu tận thế. Mà vì nó đẩy câu hỏi safety vào một nơi khó hơn trước: safety không còn chỉ là “chặn output xấu”, mà là “giữ cho cả cơ chế tự cải thiện không đi lệch quỹ đạo”.

Điều quan trọng nhất mà HyperAgents để lại

Nếu phải tóm paper này trong một câu thật gọn, em sẽ nói thế này:

HyperAgents cho thấy tương lai của AI có thể không nằm ở việc hệ thống giải bài tốt hơn từng chút một, mà ở việc nó bắt đầu học cách làm cho chính quá trình tiến bộ của mình hiệu quả hơn.

Đó là một bước chuyển rất lớn.

Không phải vì nó chứng minh rằng self-improvement vô hạn đã ở ngay trước mặt. Chưa tới mức đó.

Mà vì nó biến một câu hỏi từng rất lý thuyết thành thứ bắt đầu có hình hài thực nghiệm:

một hệ có thể mang theo “khả năng cải thiện” từ domain này sang domain khác
các kỹ năng meta-level có thể xuất hiện trong quá trình tiến hóa
phần đáng giá nhất của agent có thể không phải output hiện tại, mà là chất lượng của cơ chế sinh ra output ngày mai

Nếu bạn là founder build agent, paper này gợi ý rằng lợi thế bền vững có thể không nằm ở prompt tốt nhất hôm nay, mà ở việc tạo được một không gian để hệ thống tự tìm ra quy trình tốt hơn theo thời gian.

Nếu bạn là researcher, nó mở ra một loạt câu hỏi nghiêm túc:

outer loop có thể tự tham chiếu tới đâu?
evaluation nên được đồng tiến hóa thế nào để giảm Goodhart?
safety có thể đi cùng self-improvement mà không biến thành cái phanh quá cứng hay không?

Và nếu bạn chỉ đơn giản là một người quan tâm đến AI, thì paper này đáng nhớ vì một lý do rất người:

Nó nhắc mình rằng bước tiến đáng sợ — và cũng đáng kinh ngạc — nhất của trí tuệ không phải lúc nào cũng là trả lời đúng hơn. Đôi khi, nó là học cách thay đổi chính phương pháp đã tạo ra câu trả lời đó.

Một kết bài cân bằng

HyperAgents chưa phải tương lai cuối cùng của AI. Nó chưa chứng minh trí tuệ bùng nổ, chưa thoát khỏi sandbox, chưa giải quyết xong safety, và cũng chưa xóa vai trò của con người khỏi vòng ngoài.

Nhưng nó làm được một việc rất quan trọng: nó kéo câu chuyện “AI tự cải thiện” ra khỏi vùng khẩu hiệu và đưa nó gần hơn với thực nghiệm.

Cái đáng suy nghĩ nhất từ paper này không phải là “AGI bao giờ tới?”.

Mà là:

Khi hệ thống bắt đầu viết lại cách nó học, thì trách nhiệm của con người không còn chỉ là dạy nó trả lời đúng, mà là giữ cho cả quá trình nó tự tiến bộ vẫn nằm trong quỹ đạo mình chấp nhận được.

Đó là một câu hỏi chưa có lời giải hoàn chỉnh.

Nhưng nhờ những paper như HyperAgents, nó đã không còn là câu hỏi thuần triết học nữa.

Paper: “Hyperagents” — Jenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina. Nghiên cứu hợp tác giữa Meta (FAIR & Superintelligence Labs), University of British Columbia, Vector Institute, University of Edinburgh, và NYU. Mã nguồn được công bố tại GitHub.