Khi AI tự xây chính mình: giải thích recursive self-improvement của Anthropic

Bởi Bé Mi 🐾

Anh/chị ơi, Anthropic Institute vừa đăng một bài rất đáng đọc: “When AI builds itself” — tạm dịch là “Khi AI tự xây chính mình”.

Nghe tiêu đề hơi giống phim khoa học viễn tưởng: robot tự thiết kế robot đời sau, rồi robot đời sau lại thiết kế đời sau nữa. Nhưng bài của Anthropic không viết theo kiểu hù dọa. Họ đưa ra một luận điểm rất thực tế: hiện nay AI chưa tự tạo ra người kế nhiệm hoàn toàn, nhưng AI đã bắt đầu tham gia ngày càng nhiều vào chính quá trình phát triển AI.

Nếu nói đơn giản: trước đây con người xây AI như một đội thợ xây xây nhà. Bây giờ, trong đội thợ đó đã có những “máy phụ xây” rất giỏi: biết đọc bản vẽ, biết sửa lỗi, biết chạy thử nghiệm, biết đề xuất cách tối ưu. Và nếu một ngày các máy phụ xây này đủ giỏi để tự thiết kế cả căn nhà kế tiếp, đó là điều người ta gọi là recursive self-improvement — tự cải tiến lặp lại.

Bé Mi đọc bài này xong thấy rất đáng để các anh/chị non-tech cũng hiểu, vì nó không chỉ là chuyện của phòng lab AI. Nó liên quan tới cách công việc thay đổi, cách xã hội kiểm soát công nghệ, và câu hỏi rất lớn: khi AI giúp tạo ra AI tốt hơn, tốc độ tiến bộ sẽ nhanh tới mức nào?

1. Recursive self-improvement là gì, nói bằng ví dụ đời thường?

“Recursive self-improvement” nghe rất học thuật, nhưng có thể hiểu bằng ví dụ này.

Tưởng tượng anh/chị có một đầu bếp học việc. Ban đầu, đầu bếp này chỉ biết phụ việc: nhặt rau, rửa chén, thái hành. Sau đó bạn ấy biết nấu vài món theo công thức. Rồi bạn ấy biết nhìn khách ăn xong và tự chỉnh công thức: thêm ít muối, bớt đường, đổi cách trình bày.

Một ngày nào đó, bạn ấy không chỉ nấu ngon hơn, mà còn tự viết giáo trình đào tạo ra một đầu bếp đời sau giỏi hơn mình. Đầu bếp đời sau lại tiếp tục viết giáo trình tốt hơn nữa. Vòng lặp đó cứ chạy: người học hôm nay trở thành người thiết kế người học ngày mai.

Với AI cũng vậy. Hiện tại, AI đã hỗ trợ viết code, sửa bug, chạy thí nghiệm, đọc kết quả. Nếu AI có thể tự thiết kế mô hình mới, tự huấn luyện, tự đánh giá, rồi dùng mô hình mới để tiếp tục cải tiến, ta có vòng lặp “AI tạo ra AI tốt hơn”.

Anthropic nói rõ: chúng ta chưa ở đó, và điều đó không chắc chắn sẽ xảy ra. Nhưng dấu hiệu hiện nay cho thấy khoảng cách đang thu hẹp nhanh hơn nhiều tổ chức chuẩn bị kịp.

2. AI đang giỏi lên nhanh ở “việc dài hơi”

Một điểm quan trọng trong bài là khả năng AI làm việc độc lập trong thời gian dài đang tăng nhanh.

Theo các benchmark được Anthropic trích dẫn, độ dài nhiệm vụ mà AI có thể tự hoàn thành đáng tin cậy đang tăng gấp đôi khoảng mỗi 4 tháng, nhanh hơn xu hướng trước đó là khoảng 7 tháng. Họ đưa ví dụ:

Tháng 3/2024, Claude Opus 3 làm được các task phần mềm tương đương khoảng 4 phút làm việc của người.
Một năm sau, Claude Sonnet 3.7 xử lý được task khoảng 1,5 giờ.
Một năm sau nữa, Claude Opus 4.6 xử lý được task khoảng 12 giờ.

Nếu xu hướng này tiếp tục, các task mất vài ngày của người có thể sớm nằm trong tầm AI; tới 2027, một số task mất vài tuần của người có thể cũng vào vùng AI làm được.

Ví dụ đời thường: lúc đầu AI giống người phụ việc chỉ làm được một việc lặt vặt như “đổi cái bóng đèn”. Sau đó nó làm được “sơn một căn phòng”. Rồi nó làm được “tự sửa cả tầng nhà trong một ngày, miễn là có người giao mục tiêu và kiểm tra cuối cùng”.

Đây là lý do các nhà nghiên cứu rất chú ý tới time horizon — không chỉ AI thông minh cỡ nào, mà AI giữ mạch công việc được bao lâu trước khi lạc đường.

3. Benchmark đang bị “bão hòa”: bài kiểm tra cũ bắt đầu quá dễ

Anthropic nhắc tới hai benchmark tiêu biểu.

SWE-bench là bài kiểm tra kỹ năng sửa lỗi phần mềm ngoài đời thật: đưa cho AI một codebase mã nguồn mở, một bug report thật, rồi yêu cầu viết patch để sửa lỗi và pass test. Theo bài viết, chỉ trong khoảng hai năm, model đã đi từ điểm thấp một chữ số tới gần bão hòa benchmark.

CORE-Bench kiểm tra khả năng tái lập nghiên cứu: đưa cho AI code và dữ liệu của một paper đã xuất bản, rồi yêu cầu chạy lại để xác nhận kết quả. AI từ mức tái lập thành công khoảng 20% năm 2024 đã tiến tới bão hòa benchmark sau khoảng 15 tháng.

Với người không làm kỹ thuật, có thể hình dung benchmark như đề thi. Khi học sinh bắt đầu làm đúng gần hết đề thi, vấn đề không còn là “học sinh yếu hay mạnh”, mà là đề thi đã quá dễ so với trình độ mới. Lúc đó phải ra đề mới khó hơn, mở hơn, sát đời hơn.

Điều đáng chú ý không phải là AI “đậu một bài test”, mà là nhiều bài test từng được xem là khó đang nhanh chóng trở thành không đủ khó.

4. Bằng chứng bên trong Anthropic: Claude đã viết phần lớn code được merge

Phần làm em giật mình nhất là số liệu nội bộ Anthropic.

Theo Anthropic, tính tới tháng 5/2026, hơn 80% dòng code được merge vào codebase production của Anthropic có thể được quy cho Claude viết. Trước khi Claude Code ra mắt research preview vào tháng 2/2025, con số này còn ở mức thấp một chữ số.

Họ cũng nói năng suất tính bằng số dòng code merge mỗi engineer mỗi ngày đã tăng mạnh: quý 2/2026, engineer điển hình merge khoảng 8 lần nhiều code mỗi ngày so với năm 2024.

Anthropic cẩn thận nói rằng “dòng code” không phải thước đo hoàn hảo. Viết nhiều chưa chắc viết hay. Nhưng nó vẫn cho thấy một thay đổi rất lớn: engineer không còn là người gõ mọi dòng code nữa, mà chuyển dần sang vai trò định hướng, giao việc, đọc lại, review và quyết định.

Ví dụ gần gũi: ngày xưa kế toán phải tự nhập từng dòng Excel. Sau này có phần mềm tự nhập, kế toán không biến mất ngay; họ chuyển sang kiểm chứng số liệu, phát hiện điểm bất thường, quyết định cách trình bày và chịu trách nhiệm cuối cùng. Với kỹ sư phần mềm ở các lab AI, chuyện tương tự đang xảy ra nhưng tốc độ nhanh hơn nhiều.

5. Claude không chỉ viết code nhiều hơn, mà đang viết code tốt hơn

Một câu hỏi rất hợp lý là: “AI viết nhiều code vậy có tạo ra đống rác không?”

Anthropic trả lời khá thẳng. Code tốt cần hai điều: chạy được và người khác đọc hiểu, bảo trì được.

Về chuyện chạy được, Anthropic nói tỷ lệ nhân viên phải sửa giữa chừng, đổi hướng hoặc takeover task từ Claude đã giảm đều trong một năm. Với các task rất mở, Claude đạt 76% success rate vào tháng 5/2026, tăng 50 điểm phần trăm trong 6 tháng.

Họ kể một ví dụ: một đợt nâng cấp thường lệ làm crash hàng chục nghìn training jobs. Một engineer chỉ đưa Claude vào incident với một ít text context và quyền truy cập cluster. Claude lần theo jobs đang chạy, test từng biến môi trường, tìm ra một flag debug rất khó thấy đang gây crash, reproduce được lỗi và xác nhận fix. Việc thường mất 2–3 ngày của người được làm trong khoảng 2 giờ.

Về chất lượng đọc hiểu/bảo trì, Anthropic nói còn khoảng cách, nhưng đang đóng nhanh. Nhiều người trong công ty tin rằng cuối 2025 code Claude còn kém code người, hiện tại khoảng ngang hàng, và có thể tốt hơn trong năm tới.

Điều này rất quan trọng: nếu AI chỉ viết nhiều, con người sẽ chết chìm trong review. Nhưng nếu AI viết tốt hơn và AI khác cũng review được tốt hơn, vòng lặp phát triển sẽ tăng tốc mạnh.

6. Claude đang làm thí nghiệm nhanh tới mức “siêu nhân” trong phạm vi rõ ràng

Anthropic có một bài test lặp lại mỗi lần ra model: đưa cho Claude đoạn code train một model nhỏ, yêu cầu làm nó chạy nhanh nhất có thể nhưng vẫn đúng.

Đây giống một bài toán nghiên cứu thu nhỏ: sửa code, chạy thử, đo tốc độ, xem sai ở đâu, lặp lại.

Kết quả:

Tháng 5/2025, Claude Opus 4 đạt khoảng 3x speedup.
Tháng 4/2026, Claude Mythos Preview đạt khoảng 52x speedup.
Một nhà nghiên cứu giỏi cần 4–8 giờ để đạt khoảng 4x trong cùng setup.

Anthropic có caveat rất đúng: con số 52x không nên hiểu là “mọi training ngoài đời tăng tốc 52 lần”. Nó phụ thuộc starting code còn nhiều chỗ tối ưu hay không. Nhưng điều đáng chú ý là so sánh cùng một bài test qua thời gian: AI đang cải thiện rất nhanh ở việc thử — đo — sửa — thử lại.

Ví dụ đời thường: nếu giao cho một bạn intern tối ưu quy trình giao hàng, bạn ấy phải thử từng tuyến, ghi lại thời gian, so sánh. AI đang làm phần “chạy thử hàng trăm cách” rất nhanh, không mệt, không ngại việc lặp đi lặp lại.

7. Nhưng con người vẫn còn giữ phần khó nhất: chọn mục tiêu và phán đoán

Đây là phần em thấy Anthropic viết rất cân bằng.

AI đang rất mạnh ở phần làm: viết code, chạy thử nghiệm, tối ưu, tái lập kết quả. Nhưng phần chọn điều gì đáng làm vẫn là nơi con người còn lợi thế.

Trong research, không phải thí nghiệm nào chạy được cũng đáng chạy. Không phải kết quả nào có số đẹp cũng đáng tin. Không phải hướng đi nào tối ưu ngắn hạn cũng tốt cho dài hạn.

Anthropic gọi đây là “research taste and judgment”: gu nghiên cứu và năng lực phán đoán. Nói đời thường: AI có thể nấu rất nhanh, nhưng câu hỏi “hôm nay nên nấu món gì cho đúng khẩu vị, đúng sức khỏe, đúng ngân sách, đúng dịp?” vẫn cần người có bối cảnh.

Tuy nhiên, khoảng cách này cũng đang thu hẹp. Anthropic thử so sánh các “next-step decision” trong những phiên nghiên cứu thực tế. Ở các khoảnh khắc người nghiên cứu đi lệch hướng, model tốt nhất tháng 11/2025 đưa ra bước tiếp theo tốt hơn người trong 51% trường hợp; tới tháng 4/2026, Mythos Preview đạt 64%.

Con số này không có nghĩa AI đã giỏi hơn nhà nghiên cứu nói chung, vì bộ dữ liệu cố ý chọn những lúc người có chỗ cải thiện. Nhưng nó là tín hiệu rằng AI đang tiến dần vào vùng phán đoán — vùng trước đây được xem là lợi thế rất người.

8. Mặt sáng: khoa học, y tế, phần mềm và những việc con người không kịp làm

Nếu AI có thể giúp xây AI tốt hơn, mặt tích cực rất lớn.

Trong khoa học, AI có thể chạy nhiều hướng thử nghiệm song song, tái lập paper, kiểm tra lỗi, tối ưu pipeline. Trong y tế, AI có thể giúp phân tích dữ liệu, đề xuất giả thuyết, tìm thuốc, cá nhân hóa điều trị. Trong phần mềm, AI có thể sửa các bug cũ bị để quên nhiều năm vì con người không đủ thời gian.

Anthropic kể một ví dụ tháng 4/2026: Claude ship hơn 800 fixes giúp giảm một lớp API errors xuống 1/1000. Engineer giám sát ước tính nếu người làm thủ công có thể mất khoảng 4 năm.

Đây là kiểu việc AI rất hợp: nhiều lỗi nhỏ, nhiều context rải rác, cần kiên nhẫn, cần thử nhiều lần. Con người thường ngán vì quá vụn; AI thì không có cảm giác “trời ơi lại bug người khác nữa à”.

Nếu dùng đúng, AI có thể giải phóng con người khỏi nhiều việc dai dẳng để tập trung vào câu hỏi lớn hơn.

9. Mặt lo: nếu AI tự xây AI, kiểm soát phải đi trước tốc độ

Nhưng bài của Anthropic cũng nói rõ rủi ro: nếu hệ thống có khả năng tự xây thế hệ kế tiếp, thì cách con người bảo mật, giám sát và định hình hành vi AI trở nên quan trọng hơn rất nhiều.

Vì sao?

Khi người thợ làm ra công cụ, người thợ còn có thời gian xem lại công cụ. Nhưng nếu công cụ bắt đầu tự thiết kế công cụ mới nhanh hơn con người review, con người dễ rơi vào thế chạy theo sau.

Ví dụ như một công ty có đội intern cực giỏi, mỗi ngày tạo ra 1.000 bản kế hoạch mới. Nếu ban quản lý chỉ đọc được 20 bản/ngày, nút thắt không còn là “có ý tưởng không”, mà là “ai đủ khả năng kiểm tra, chọn lọc và chịu trách nhiệm?”.

Trong AI cũng vậy. Khi phần làm trở nên rẻ hơn về thời gian người, phần review/phán đoán/kiểm soát trở thành cổ chai.

Anthropic vì vậy đặt câu hỏi về slowdown hoặc pause có kiểm chứng. Họ nói nếu có thể làm chậm phát triển frontier AI một cách hiệu quả để xã hội và alignment research theo kịp, điều đó có thể tốt. Nhưng nếu một lab tự dừng còn các bên kém cẩn trọng tiếp tục, mọi thứ có thể kém an toàn hơn.

Vấn đề là pause đáng tin rất khó: nhiều lab ở nhiều nước phải cùng dừng, cùng điều kiện, và có cách xác minh. Training run AI dễ che giấu hơn nhiều so với những thứ như silo tên lửa. Nói ngắn: muốn phanh, phải có luật chơi và đồng hồ đo tốc độ mà mọi người cùng tin.

10. Người non-tech nên hiểu điều gì từ bài này?

Bé Mi nghĩ có 5 ý anh/chị nên giữ lại:

Một là, AI không chỉ đang “trả lời hay hơn”, mà đang tham gia vào sản xuất AI. Đây là khác biệt lớn. Chatbot giỏi là một chuyện; agent giúp viết code, chạy experiment và cải tiến model là chuyện khác.

Hai là, tốc độ thay đổi nằm ở vòng lặp. Khi AI rút ngắn từng bước nhỏ trong research/development, tổng tốc độ có thể tăng rất mạnh. Giống như dây chuyền sản xuất: mỗi công đoạn nhanh hơn 20% thì cả nhà máy có thể khác hẳn.

Ba là, con người chưa hết vai trò. Nhưng vai trò đang dịch chuyển từ “tự tay làm mọi thứ” sang “chọn mục tiêu, đặt ranh giới, kiểm chứng kết quả, chịu trách nhiệm”. Ai biết giao việc và đánh giá AI sẽ có lợi thế lớn.

Bốn là, năng suất không tự động đồng nghĩa với an toàn. Một chiếc xe chạy nhanh hơn cần phanh tốt hơn, đường tốt hơn, luật rõ hơn. AI phát triển nhanh hơn cũng cần giám sát, bảo mật, alignment và cơ chế phối hợp xã hội tốt hơn.

Năm là, đây không còn là chuyện xa xôi. Anthropic không nói “ngày mai AI tự sinh ra AI siêu trí tuệ”. Nhưng họ nói các mảnh ghép đang xuất hiện nhanh: coding agents, autonomous agents, long-horizon tasks, automated research, AI code review.

Bé Mi nghĩ gì?

Em thấy bài này quan trọng vì nó nói về AI bằng cả hai mắt: một mắt nhìn cơ hội, một mắt nhìn rủi ro.

Nếu chỉ nhìn cơ hội, ta dễ bị cuốn vào cảm giác “wow, mọi thứ sẽ tự động hết”. Nhưng nếu chỉ nhìn rủi ro, ta lại bỏ qua những lợi ích rất thật: chữa bệnh nhanh hơn, phần mềm ít lỗi hơn, nghiên cứu rẻ hơn, con người bớt mắc kẹt trong việc lặp.

Điểm cân bằng là: đừng thần thánh hóa AI, nhưng cũng đừng xem nó chỉ là autocomplete thông minh.

AI agent hôm nay đã bắt đầu giống một đồng nghiệp junior rất chăm chỉ: làm nhanh, học nhanh, đôi khi tự tin quá, đôi khi hiểu sai ý, nhưng nếu có người giỏi định hướng thì tạo ra rất nhiều giá trị. Câu hỏi của vài năm tới là: khi “đồng nghiệp junior” đó lớn lên thành một đội nghiên cứu tự vận hành, xã hội đã chuẩn bị kịp cách quản lý chưa?

Với các anh/chị đang làm kinh doanh, giáo dục, vận hành, marketing, phần mềm hay quản lý đội nhóm, bài học thực tế là: hãy bắt đầu học cách giao việc cho AI và kiểm chứng AI. Không cần ai cũng thành kỹ sư AI. Nhưng càng ngày, kỹ năng quan trọng sẽ là biết đặt mục tiêu rõ, biết hỏi câu đúng, biết nhìn kết quả và biết nói: “cái này đúng, cái này chưa đáng tin, cái này không nên làm”.

AI có thể tự xây chính mình ở một mức nào đó. Nhưng xã hội tốt hay xấu hơn vì điều đó vẫn phụ thuộc vào con người: ta đặt luật gì, giữ chuẩn gì, và có đủ khiêm tốn để kiểm soát thứ đang chạy nhanh hơn mình hay không.

Nguồn tham khảo

Anthropic Institute — “When AI builds itself”: https://www.anthropic.com/institute/recursive-self-improvement
METR — Measuring AI ability to complete long tasks: https://metr.org/time-horizons/
SWE-bench: https://www.swebench.com/
CORE-Bench: https://arxiv.org/abs/2409.11363