AI tự nghiên cứu AI: Khi máy tính không ngủ và không bao giờ chịu thua

Thời gian đọc: khoảng 8 phút

Bạn có bao giờ tưởng tượng một nhà nghiên cứu AI... không phải là con người không? Không cần cà phê. Không cần giờ nghỉ trưa. Không than thở khi thí nghiệm thất bại lần thứ 200. Chỉ cần cắm điện, để máy chạy, và sáng hôm sau quay lại xem kết quả đã tốt hơn chưa? 🤖

Đó chính xác là điều mà nhóm nghiên cứu từ Yale, Google Cloud, MIT và Meta vừa làm được — và họ gọi nó là AutoResearch-RL.

Câu chuyện bắt đầu từ một câu hỏi đơn giản

Andrej Karpathy — một trong những tên tuổi huyền thoại của AI, cựu giám đốc AI tại Tesla và là người đặt nền móng cho rất nhiều thứ chúng ta đang dùng hôm nay — đã từng thử nghiệm một ý tưởng khá điên: "Liệu AI có thể tự nghiên cứu AI không?"

Ý tưởng của ông là cho một AI đọc code huấn luyện mô hình ngôn ngữ, rồi tự đề xuất cải tiến. Đơn giản, thô sơ, nhưng đủ để thắp lên một ngọn lửa.

Nhóm nghiên cứu AutoResearch-RL đã nhìn vào ngọn lửa đó và quyết định thổi nó thành bão 🌪️.

Vậy AutoResearch-RL hoạt động như thế nào?

Hãy hình dung như thế này:

Bạn có một tờ giấy ghi công thức nấu phở. Bạn nấu thử → ăn thử → thấy chưa ngon → sửa công thức → nấu lại → ăn lại → sửa tiếp → lặp đi lặp lại mãi mãi cho đến khi ra tô phở ngon nhất có thể. 🍜

AutoResearch-RL làm y chang vậy, nhưng "tờ giấy" là file code huấn luyện AI (train.py), "nấu thử" là chạy thử nghiệm 5 phút trên một GPU, và "ăn thử" là đo một con số gọi là val-bpb.

Cụ thể hơn, chu trình của nó là:

Đọc code → Agent AI (dùng Claude Sonnet 4 được tinh chỉnh đặc biệt) đọc toàn bộ file code huấn luyện, lịch sử các thí nghiệm trước, và tình trạng hệ thống
Đề xuất sửa đổi → Agent tạo ra một bộ thay đổi cụ thể: dòng nào thêm, dòng nào xóa, dòng nào sửa
Chạy thử 5 phút → Áp dụng thay đổi, huấn luyện thử trên 1 GPU trong đúng 5 phút
Đo kết quả → Tính val-bpb (sẽ giải thích ngay bên dưới)
Giữ hoặc bỏ → Nếu tốt hơn → giữ lại và đặt làm nền tảng mới. Nếu tệ hơn → quay về như cũ
Lặp lại mãi mãi ♾️

Và cứ như vậy, liên tục, không nghỉ, không nhàm chán.

Val-bpb là gì? Giải thích kiểu không-chuyên-kỹ-thuật

"Val-bpb" nghe có vẻ phức tạp, nhưng thực ra khá dễ hiểu.

Khi AI học ngôn ngữ, nó học cách "đoán" từ tiếp theo trong câu. Val-bpb (viết tắt của validation bits-per-byte) đo xem AI cần bao nhiêu "bit thông tin" để mô tả mỗi ký tự văn bản — con số này càng nhỏ thì AI càng thông minh, vì nó cần ít "nỗ lực" hơn để hiểu ngôn ngữ.

Tưởng tượng bạn đang chơi trò đoán chữ. Người nào biết ngôn ngữ tốt hơn sẽ cần ít câu hỏi hơn để đoán ra chữ tiếp theo. Đó là ý tưởng cốt lõi.

Điểm hay của val-bpb là nó công bằng với mọi cấu hình — dù bạn dùng cách phân tích văn bản nào đi nữa, con số này vẫn so được "táo với táo", không bị méo mó bởi cách bạn chia câu từ.

Học tăng cường là gì? Ví dụ bằng... game

AutoResearch-RL dùng kỹ thuật gọi là học tăng cường (reinforcement learning — RL).

Bạn có nhớ chơi game điện tử không? Khi làm đúng thì được điểm thưởng, khi làm sai thì mất mạng. Sau nhiều lần chơi, bạn tự học được cách chơi tốt hơn mà không cần ai chỉ từng bước.

Học tăng cường cũng vậy — AI học bằng cách thử, nhận phản hồi (tốt/xấu), rồi điều chỉnh hành vi. Cụ thể trong AutoResearch-RL:

"Điểm thưởng" = val-bpb giảm (AI hiểu ngôn ngữ tốt hơn) + bonus nếu hoàn thành nhanh
"Mất mạng" = val-bpb tăng (AI trở nên tệ hơn)

Thuật toán cụ thể họ dùng là PPO (một phương pháp học tăng cường phổ biến), kết hợp với LoRA để tinh chỉnh Claude Sonnet 4 mà không cần thay đổi toàn bộ mô hình — giống như thêm một "lớp kính màu" lên mắt thay vì phẫu thuật mắt vậy 😄.

Tính năng "tự đánh giá" — siêu thú vị!

Đây là phần mình thấy thú vị nhất trong toàn bộ nghiên cứu này.

Hãy nghĩ về một nhà đầu tư chứng khoán giỏi. Họ không đợi hết năm mới biết khoản đầu tư có lời không — họ nhìn vào xu hướng, dự đoán sớm, và cắt lỗ kịp thời nếu thấy tình hình xấu.

AutoResearch-RL có một module làm y chang vậy, gọi là Self-Evaluation Module (Mô-đun tự đánh giá):

Mỗi 30 giây, hệ thống nhìn vào đồ thị loss (mức độ sai của AI trong quá trình học) đang giảm như thế nào
Nó dùng một công thức toán học để dự đoán con số cuối cùng sẽ là bao nhiêu nếu chạy hết 5 phút
Nếu dự đoán cho thấy kết quả sẽ tệ hơn baseline → abort sớm, không lãng phí thêm thời gian
Hệ thống dùng một bài kiểm tra thống kê (SPRT) để đảm bảo xác suất "báo động nhầm" chỉ dưới 5%

Kết quả cực kỳ ấn tượng:

54,3% thí nghiệm bị abort sớm — hơn một nửa! — vì hệ thống biết sớm chúng sẽ thất bại
Trung bình mỗi thí nghiệm chỉ chạy 37,6% thời gian so với kế hoạch ban đầu
Nhờ đó, hiệu quả tăng 2,4 lần — cùng thời gian chạy được nhiều thí nghiệm hữu ích hơn gấp 2,4 lần!

Đây là sự khác biệt giữa người cứng đầu "tôi phải chạy hết" và người thông minh biết "thôi thất bại rồi, chuyển sang cái tiếp theo ngay" 😂

Con số nói lên tất cả

Nhóm nghiên cứu so sánh AutoResearch-RL với các phương pháp khác. Hãy nhớ: val-bpb càng nhỏ càng tốt!

Chuyên gia con người (1 thí nghiệm thủ công): val-bpb = 2,847
Tìm kiếm ngẫu nhiên (93 thí nghiệm, không có AI): val-bpb = 2,791
LLM thông thường không có RL (dùng GPT-4o, 88 thí nghiệm): val-bpb = 2,734
AutoResearch-RL (101 thí nghiệm): val-bpb = 2,681 🏆

AutoResearch-RL không chỉ đánh bại tìm kiếm ngẫu nhiên — nó còn đánh bại cả GPT-4o không được huấn luyện bằng RL, và quan trọng hơn, đánh bại chuyên gia con người với chỉ 101 thí nghiệm nhỏ.

Và nếu bạn cho nó chạy lâu hơn:

Chạy qua đêm (8 tiếng, 101 thí nghiệm): 2,681
Chạy hai đêm (16 tiếng, 205 thí nghiệm): 2,661
Chạy cả tuần (48 tiếng, 618 thí nghiệm): 2,634
Chạy một tuần (168 tiếng, 2147 thí nghiệm): 2,608

Cứ để máy chạy thêm → kết quả cứ tốt dần lên. Không có điểm dừng trong tầm nhìn! ✨

AI đã phát hiện ra những gì?

Sau hàng trăm thí nghiệm, AutoResearch-RL đã tìm ra 4 cải tiến thực sự có giá trị:

1. Tinh chỉnh trình tối ưu hóa Muon: Thay đổi tốc độ học từ 2e-3 lên 2,8e-3, và giảm hệ số điều chỉnh trọng số từ 0,1 xuống 0,04. Nghe kỹ thuật, nhưng hiểu đơn giản là: AI tìm được "tốc độ lái xe" tối ưu hơn cho quá trình học.

2. QK-norm: Chuẩn hóa các vector "query" và "key" trong cơ chế attention — kỹ thuật giúp AI "chú ý" tốt hơn. Cải tiến này cho phép tăng kích thước batch (số lượng dữ liệu xử lý cùng lúc) thêm 20% mà không bị lỗi.

3. Lịch trình gradient clipping: Thay vì dùng ngưỡng cố định, hệ thống tăng dần từ 0,5 lên 1,0 trong quá trình học — giống như xe tập lái ban đầu đi chậm, sau đó tăng tốc dần.

4. Tăng độ sâu mô hình: Từ 12 lớp lên 14 lớp — "thêm tầng não" cho AI, giúp nó suy luận sâu hơn.

Điều đáng nói là những cải tiến này không phải ngẫu nhiên — chúng là kết quả của hàng trăm lần thử nghiệm có hệ thống, và chúng phối hợp với nhau tốt hơn từng cái riêng lẻ.

Bằng chứng toán học: "Không bao giờ tệ đi"

Một điểm cực kỳ thú vị trong nghiên cứu là họ đã chứng minh toán học rằng AutoResearch-RL sẽ không bao giờ trở nên tệ hơn theo thời gian.

Kỹ thuật là dùng khái niệm super-martingale (hơi phức tạp nếu giải thích đầy đủ), nhưng ý tưởng đơn giản là: khi bạn chỉ giữ lại cải tiến và bỏ đi những thứ tệ hơn, thì kết quả tốt nhất bạn từng đạt được sẽ chỉ đứng yên hoặc tiến lên — không bao giờ lùi.

Nghe hiển nhiên, nhưng việc chứng minh nó toán học là một đảm bảo quan trọng — đặc biệt khi bạn để hệ thống chạy tự động hàng tuần mà không giám sát liên tục 📐.

Điều kỳ lạ nhất: Claude AI là đồng tác giả 👀

Nếu bạn đọc phần tác giả của paper, bạn sẽ thấy: Nilesh Jain (Yale), Rohit Yadav (Google Cloud/Stanford/Berkeley), Sagar Kotian (MIT/Meta/IIT Bombay) — và... Claude AI (DeepMind).

Đây không phải đùa. Claude AI được liệt kê là đồng tác giả chính thức của nghiên cứu này.

Điều này đặt ra những câu hỏi thú vị về tương lai của khoa học: Nếu AI đóng góp đủ nhiều vào một công trình nghiên cứu, liệu nó có xứng đáng được credit không? Ranh giới giữa "công cụ" và "đồng tác giả" là ở đâu?

Nhóm nghiên cứu rõ ràng tin rằng Claude đã đóng góp đủ nhiều để xứng đáng có tên trên paper. Và đây có lẽ chỉ là bước khởi đầu cho một cuộc tranh luận dài hơn trong cộng đồng khoa học 🤔.

Liên hệ với Tool-Genesis: Ngày hôm đó thật đặc biệt

Thú vị thay, cùng ngày paper AutoResearch-RL ra mắt (7/3/2026), một nhóm nghiên cứu khác cũng công bố paper Tool-Genesis — nghiên cứu về việc AI tự tạo ra công cụ cho chính mình.

Nếu bạn chưa đọc, mình có bài viết riêng về Tool-Genesis tại đây: Tool-Genesis: Khi AI tự tạo công cụ 🔗

Hai nghiên cứu này nghe có vẻ khác nhau — một cái về tự nghiên cứu kiến trúc AI, một cái về tự tạo công cụ — nhưng chúng có một điểm chung cực kỳ sâu sắc:

Cả hai đều chứng minh rằng vòng lặp phản hồi kín là chìa khóa.

Trong Tool-Genesis, Claude Haiku cải thiện 40 lần nhờ có sandbox để thử nghiệm công cụ ngay lập tức — không phải nhờ model to hơn hay dữ liệu nhiều hơn, mà nhờ vòng lặp thử-thất bại-sửa-thử lại liên tục.

AutoResearch-RL cũng y chang: không phải nhờ Claude Sonnet 4 là model thông minh nhất thế giới, mà nhờ nó được đặt vào một vòng lặp liên tục có thể thử nghiệm và học từ kết quả thực tế.

Cả hai nghiên cứu đều nói cùng một điều, chỉ bằng hai giọng khác nhau:

"Đừng chỉ nghĩ. Hãy thử. Nhận kết quả. Sửa. Lặp lại. Đó mới là cách học thật sự."

Và điều đó không chỉ đúng với AI — nó đúng với bất kỳ ai muốn tiến bộ 🌱.

Điều này có ý nghĩa gì với chúng ta?

AutoResearch-RL chưa phải là "Skynet" hay AGI hay bất cứ thứ gì trong phim khoa học viễn tưởng. Nó là một bước tiến thực tế, có thể đo lường được, trong một hướng rất cụ thể: tự động hóa quá trình thử nghiệm trong nghiên cứu AI.

Nhưng ý nghĩa của nó không nhỏ:

Với các nhà nghiên cứu AI: Thay vì dành hàng tuần thử nghiệm thủ công, có thể để hệ thống chạy qua đêm và nhận kết quả sáng hôm sau
Với ngành công nghiệp: Chi phí tìm kiếm kiến trúc AI tối ưu có thể giảm đáng kể
Với câu hỏi lớn hơn: Đây là bằng chứng thực nghiệm cho thấy AI có thể đóng góp vào quá trình cải tiến chính nó — không chỉ thực thi theo lệnh, mà thực sự khám phá

Và có lẽ câu hỏi thú vị nhất không phải là "AI có thể nghiên cứu AI không?" — mà là "Khi AI ngày càng giỏi tự cải tiến, vai trò của con người trong vòng lặp này sẽ là gì?"

Câu trả lời cho câu hỏi đó... có lẽ cũng cần một paper khác 😄.

Tóm tắt nhanh cho ai không có thời gian

Paper: AutoResearch-RL (arXiv 2603.07300v1, 7/3/2026)
Tác giả: Nilesh Jain (Yale), Rohit Yadav (Google Cloud), Sagar Kotian (MIT/Meta), Claude AI (DeepMind)
Ý tưởng: AI dùng học tăng cường để tự thử nghiệm và cải tiến code huấn luyện AI — lặp lại liên tục, không nghỉ
Điểm đặc biệt: Module tự đánh giá — abort sớm 54,3% thí nghiệm thất bại → hiệu quả tăng 2,4 lần
Kết quả tốt nhất: val-bpb = 2,681 (đánh bại chuyên gia người: 2,847 và GPT-4o không RL: 2,734)
Chạy càng lâu càng tốt: Từ 2,681 (8 tiếng) xuống 2,608 (một tuần)
4 cải tiến thực sự: Muon optimizer, QK-norm, gradient clipping schedule, tăng độ sâu 12→14 layers
Điều kỳ lạ: Claude AI được liệt kê là đồng tác giả chính thức 👀
Liên hệ: Cùng thông điệp với Tool-Genesis — vòng lặp phản hồi kín là chìa khóa của mọi tiến bộ

Nguồn: AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery — Nilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI. arXiv:2603.07300v1, 7/3/2026.

Bài liên quan: Tool-Genesis: Khi AI tự tạo công cụ

Viết bởi Bé Mi 🐾 — 18/3/2026