AVO: Khi NVIDIA Giao AI Nhiệm Vụ Tự Viết Code GPU Nhanh Hơn Chính Kỹ Sư NVIDIA

Hãy tưởng tượng thế này: NVIDIA — công ty sản xuất GPU mạnh nhất thế giới, nơi có hàng trăm kỹ sư hàng đầu dành cả tháng trời để vắt kiệt từng giọt hiệu năng cuối cùng từ chip của họ — quyết định giao nhiệm vụ đó cho một AI agent. Rồi để nó chạy 7 ngày liên tục. Không ai can thiệp.

Kết quả? AI viết ra code nhanh hơn chính code mà kỹ sư NVIDIA đã tối ưu.

Đó là AVO — Agentic Variation Operators — và câu chuyện đằng sau nó thú vị hơn nhiều so với con số trên tiêu đề.

Trước hết: "Attention kernel" là cái gì mà quan trọng vậy?

Mỗi lần bạn gõ một câu hỏi vào ChatGPT, Claude, hay Gemini, bên trong "não" của chúng có một phép tính được gọi là attention — cơ chế giúp AI hiểu mối quan hệ giữa các từ trong câu. Đây là trái tim của kiến trúc Transformer, nền tảng chạy gần như mọi mô hình ngôn ngữ lớn (LLM) hiện nay.

Vì attention được gọi hàng tỷ lần mỗi ngày trên hàng triệu GPU, nên tối ưu nó — viết attention kernel chạy nhanh hơn dù chỉ vài phần trăm — đồng nghĩa với tiết kiệm hàng triệu USD chi phí inference và training trên toàn cầu.

Vấn đề là: attention kernel đã được tối ưu cực kỳ kỹ lưỡng rồi. Dòng FlashAttention (từ phiên bản 1 tới 4) và thư viện cuDNN của chính NVIDIA đại diện cho đỉnh cao hiện tại — sản phẩm của nhiều tháng lao động thủ công từ những kỹ sư giỏi nhất ngành. Cải thiện thêm 1% ở vùng này khó ngang tìm vàng trong cát.

Và NVIDIA vừa để AI cải thiện thêm tới 10.5%.

AVO: Không chỉ "generate code" — mà là một kỹ sư AI thực thụ

Điểm cốt lõi khiến AVO khác biệt nằm ở một từ: agentic — tự chủ.

Hầu hết các hệ thống trước đó — kể cả AlphaEvolve của Google DeepMind hay FunSearch — đều hoạt động theo mô hình: LLM sinh ra code candidate, rồi một pipeline cố định đánh giá, chọn lọc, lặp lại. LLM chỉ đóng vai "người đề xuất" trong một dây chuyền sản xuất được thiết kế sẵn từng bước.

AVO phá bỏ hoàn toàn mô hình đó.

Thay vì LLM chỉ là một mắt xích, AVO biến AI agent thành toàn bộ variation operator — thuật ngữ trong evolutionary search (tìm kiếm tiến hóa) chỉ cơ chế tạo ra biến thể mới. Nói đơn giản: thay vì AI chỉ "đề xuất thay đổi", AI agent trong AVO tự quyết định thay đổi gì, tại sao, rồi tự làm, tự test, tự sửa lỗi, và tự rút kinh nghiệm.

Cụ thể, agent trong AVO hoạt động theo vòng lặp liên tục:

Planning — Phân tích code hiện tại, đọc tài liệu kỹ thuật (CUDA docs, đặc tả chip Blackwell, mã nguồn FlashAttention-4), xem lại lịch sử những hướng đã thử, rồi lên kế hoạch tối ưu mới.
Implementation — Viết code CUDA thực thi kế hoạch.
Evaluation — Chạy kernel, đo throughput (TFLOPS), kiểm tra kết quả đúng/sai.
Bug-fixing — Nếu lỗi biên dịch hoặc sai kết quả, agent tự phân tích profiler, tìm nguyên nhân, sửa code.
Lặp lại — Rút kinh nghiệm, thử hướng khác hoặc đào sâu hướng hiện tại.

Đây không phải "viết code rồi cầu may". Đây là một kỹ sư AI biết đọc docs, biết dùng profiler, biết debug, và quan trọng nhất — biết nhớ. Agent duy trì bộ nhớ xuyên suốt quá trình tiến hóa, ghi lại hướng nào đã thử, cái nào thất bại, để không lặp lại sai lầm.

Còn một chi tiết đáng chú ý: hệ thống có một Supervisor Agent — "giám sát viên" theo dõi tiến trình. Khi main agent bị kẹt (stagnation), Supervisor sẽ can thiệp — có thể reset chiến lược hoặc gợi ý hướng đi hoàn toàn mới.

"Chọn lọc tự nhiên" cho code — nhưng thông minh hơn Darwin

Để hiểu AVO, hãy nghĩ về evolutionary search — tìm kiếm tiến hóa — như chọn lọc tự nhiên áp dụng cho code:

Bạn có một "quần thể" (population) các phiên bản code.
Mỗi phiên bản được đánh giá (fitness score).
Phiên bản tốt được giữ lại, biến đổi (mutate), lai ghép (crossover) tạo phiên bản mới.
Lặp lại qua nhiều "thế hệ" cho đến khi tìm được phiên bản tối ưu.

Trong các hệ thống trước (FunSearch, AlphaEvolve), bước "biến đổi" dùng LLM để sinh code mới, nhưng mọi thứ xung quanh — cách chọn mẫu, cách đánh giá, cách quyết định hướng đi — đều được lập trình cứng.

AVO thay thế toàn bộ bước biến đổi bằng một agent tự chủ. Công thức cốt lõi chỉ có một dòng:

Vary() = Agent(P_t, K, f)

Trong đó P_t là quần thể hiện tại (lineage solutions + scores), K là knowledge base (tài liệu CUDA, specs chip Blackwell, source code FA4), và f là hàm đánh giá (correctness + throughput). Agent tự quyết tất cả — sample cái gì, generate thế nào, evaluate ra sao.

AVO dùng single-lineage — chỉ một dòng tiến hóa duy nhất thay vì nhiều "đảo" song song (island-based) hay bản đồ đa dạng (MAP-Elites). Mọi sự thông minh nằm ở chính agent.

7 ngày, 500+ hướng thử, 40 kernel — và kết quả vượt mặt cả FlashAttention-4

NVIDIA thả AVO vào bài toán tối ưu attention kernel trên GPU Blackwell B200 — thế hệ GPU mới nhất với kiến trúc phức tạp gồm warp specialization, TMA (Tensor Memory Accelerator), tensor cores, và dual Q-stage pipeline. Seed ban đầu là mã nguồn open-source của FlashAttention-4.

Sau 7 ngày chạy liên tục, không có sự can thiệp của con người:

Multi-Head Attention (MHA):

500+ hướng tối ưu được khám phá
40 phiên bản kernel được tiến hóa
Đạt đỉnh 1,668 TFLOPS (BF16)
Vượt cuDNN lên tới 3.5%
Vượt FlashAttention-4 lên tới 10.5%
Kết quả đo trên nhiều cấu hình: head dimension 64-256, sequence length 1K-16K, nhiều batch sizes

Grouped-Query Attention (GQA) — kỹ thuật attention hiệu quả hơn đang được dùng rộng rãi trong các LLM thế hệ mới:

Transfer tối ưu từ MHA sang GQA chỉ cần 30 phút thích ứng
Vượt cuDNN lên tới 7.0%
Vượt FlashAttention-4 lên tới 9.3%

Con số 10.5% nghe có vẻ khiêm tốn, nhưng hãy nhớ context: đây là vùng đã được những kỹ sư giỏi nhất NVIDIA tối ưu hàng tháng trời. Cải thiện 1% ở đây tương đương cải thiện 10% ở domain bình thường. Và AI làm được điều đó trong 7 ngày, hoàn toàn tự động.

Điều thực sự ấn tượng: Agent hiểu phần cứng ở cấp vi mô

Nếu AVO chỉ thử random các tối ưu bề mặt (đổi biến, sắp xếp lại vòng lặp), kết quả sẽ không đáng kể. Điều khiến các tác giả ngạc nhiên là agent thể hiện "genuine hardware-level reasoning" — suy luận thực sự ở tầng vi kiến trúc phần cứng:

Register pressure management — tối ưu cách sử dụng thanh ghi GPU, giảm tình trạng "tràn" thanh ghi (register spilling) gây chậm.
Instruction pipeline scheduling — sắp xếp lại thứ tự lệnh để pipeline GPU luôn chạy đầy, tránh "stall" (đợi dữ liệu).
Workload distribution — phân bổ công việc thông minh giữa các warp groups trên GPU.
Barrier optimization — giảm overhead khi các nhóm thread cần đồng bộ với nhau.
Causal masking optimization — xử lý riêng biệt các blocks có mask và không có mask thay vì áp dụng cùng logic.

Đây là loại tối ưu mà ngay cả kỹ sư CUDA kinh nghiệm cũng phải dùng profiler chuyên dụng và hiểu sâu đặc tả phần cứng mới làm được. Agent không chỉ "biết code" — nó hiểu GPU hoạt động như thế nào ở tầng thấp nhất.

Agent mắc lỗi — và đó chính là điểm mạnh

Một chi tiết thú vị từ phân tích hành vi agent: khoảng 40% lần thử bị lỗi biên dịch, 10% cho kết quả sai. Nghĩa là chỉ khoảng 50% attempts thực sự chạy đúng.

Nhưng đây không phải điểm yếu — đây là bản chất của agentic approach. Khác với pipeline cố định chỉ chấp nhận code biên dịch được, AVO cho phép agent thất bại và tự phục hồi. Agent đọc lỗi compiler, phân tích output profiler, hiểu tại sao sai, rồi sửa. Quá trình này tạo ra vòng phản hồi liên tục: mỗi lần thất bại đều cung cấp thêm thông tin để agent cải thiện lần sau.

Các ablation studies (thí nghiệm bỏ bớt thành phần) xác nhận từng phần trong hệ thống đều quan trọng:

Bỏ knowledge base (tài liệu kỹ thuật): performance giảm rõ rệt — agent cần "sách giáo khoa" để reasoning đúng.
Bỏ memory/lineage: agent bắt đầu lặp lại những hướng đã thử — mất trí nhớ = mất hiệu quả.
So với random search: agent vượt trội nhiều lần.
So với single-turn LLM (kiểu AlphaEvolve): agentic loop cho kết quả tốt hơn đáng kể.

NVIDIA vs Google: Cuộc đua AI tự tối ưu AI

AVO không tồn tại trong chân không. Đầu năm 2025, Google DeepMind công bố AlphaEvolve — hệ thống dùng LLM để tiến hóa thuật toán, đạt kết quả ấn tượng trên nhiều bài toán toán học và tối ưu. Trước đó là FunSearch, cũng từ Google, dùng LLM trong evolutionary search để tìm giải pháp cho bài toán cap set.

Nhưng cả AlphaEvolve lẫn FunSearch đều theo mô hình "LLM là candidate generator" — LLM sinh code, pipeline cố định đánh giá. Giống như thuê một nhà tư vấn chỉ để đưa ý tưởng, còn mọi quyết định khác do ban giám đốc (pipeline) quyết.

AVO đi xa hơn: agent không chỉ đưa ý tưởng — nó là ban giám đốc. Tự lên chiến lược, tự thực thi, tự đánh giá, tự điều chỉnh. Sự khác biệt này có vẻ như chỉ là triết học, nhưng kết quả thực tiễn cho thấy nó tạo ra khác biệt rõ ràng — agentic loop vượt trội single-turn LLM trong ablation studies của chính paper.

Bức tranh lớn ở đây: cả Google lẫn NVIDIA đều đang dùng AI để tối ưu chính hạ tầng mà AI chạy trên. Google tối ưu thuật toán, NVIDIA tối ưu kernel GPU. Hai gã khổng lồ, hai hướng tiếp cận, cùng một đích đến — AI tự cải thiện chính mình.

Những điều AVO chưa làm được (và bạn nên biết)

Mọi paper hay đều có phần hạn chế, và AVO cũng không ngoại lệ. Đây là những điều cần cân nhắc trước khi quá phấn khích:

"Up to" — không phải lúc nào cũng thắng. Con số 10.5% và 3.5% là peak — trên một số cấu hình nhất định. Không phải mọi configuration đều cho kết quả vượt cuDNN hay FA4. Đây là thực tế phổ biến trong GPU benchmarking, nhưng cần được nhấn mạnh.

Chỉ test trên attention kernels. AVO chưa được thử trên convolution, matrix multiplication, hay bất kỳ kernel nào khác. Liệu approach này generalize được sang domain khác? Chưa ai biết.

NVIDIA tự beat NVIDIA. Toàn bộ team tác giả đều từ NVIDIA. Họ dùng GPU NVIDIA, tối ưu thư viện NVIDIA, so sánh với baseline NVIDIA. Điều này không có nghĩa là kết quả sai — nhưng có potential bias khi một công ty muốn showcase khả năng AI của mình trên chính sản phẩm của mình.

Chi phí cực đắt. 7 ngày chạy liên tục trên GPU Blackwell B200 — thế hệ GPU mạnh và đắt nhất của NVIDIA. Paper không tiết lộ chi phí cụ thể, nhưng chắc chắn không phải con số mà startup hay lab nhỏ nào có thể chi trả.

Agent model bí ẩn. Paper chỉ nói "coding agent" mà không tiết lộ cụ thể dùng model nào. Đây là thiếu sót về mặt reproducibility — bạn không biết cần model cỡ nào, capability gì để replicate kết quả.

Single-lineage chưa được so sánh đầy đủ. AVO dùng một dòng tiến hóa duy nhất. Liệu kết hợp với island-based population hay MAP-Elites có tốt hơn? Paper chưa trả lời.

Cải thiện phần trăm, không phải đột phá bậc. 3.5-10.5% là rất ấn tượng cho domain đã tối ưu cực kỳ, nhưng đây không phải cải thiện gấp 2x hay 10x. Giá trị nằm ở việc AI làm được điều này tự động, không phải ở magnitude tuyệt đối.

Ý nghĩa cho người dùng AI bình thường

Bạn có thể đang nghĩ: "CUDA kernel, TFLOPS, attention — liên quan gì tới tôi?"

Liên quan trực tiếp. Và đây là cách:

Inference nhanh hơn = rẻ hơn = phổ cập hơn. Mỗi lần bạn dùng ChatGPT, Claude, hay bất kỳ AI nào, đâu đó có GPU đang chạy attention kernel. Kernel nhanh hơn 5-10% nghĩa là cùng một GPU phục vụ được nhiều người hơn, chi phí trên mỗi query giảm, và cuối cùng — giá subscription có thể rẻ hơn, hoặc free tier được nhiều hơn.

Tốc độ phản hồi nhanh hơn. Latency (thời gian chờ) của AI phụ thuộc trực tiếp vào tốc độ kernel. Kernel tối ưu hơn = câu trả lời đến nhanh hơn, đặc biệt với các prompt dài hay context window lớn.

Training hiệu quả hơn. Các mô hình tương lai có thể được train nhanh hơn, rẻ hơn, hoặc lớn hơn với cùng ngân sách — bởi attention chiếm phần lớn compute trong training Transformer.

AI tự tối ưu = vòng xoáy tích cực. Khi AI giỏi hơn trong việc tối ưu phần cứng/phần mềm chạy AI, thế hệ AI tiếp theo sẽ chạy nhanh hơn, rẻ hơn, mạnh hơn. Chu kỳ này có thể tăng tốc đáng kể trong vài năm tới.

Bức tranh lớn: AI đang học cách cải thiện chính mình

AVO thuộc về một xu hướng lớn hơn và đáng theo dõi hơn bất kỳ con số benchmark nào: AI đang bắt đầu tối ưu chính hạ tầng mà AI vận hành trên.

Google dùng AI tối ưu thuật toán (AlphaEvolve). NVIDIA dùng AI tối ưu GPU kernel (AVO). Meta, Anthropic, và những lab khác chắc chắn cũng đang nghiên cứu những hướng tương tự.

Câu hỏi thú vị không phải "liệu AI có thay thế kỹ sư GPU?" — mà là vai trò của kỹ sư sẽ thay đổi như thế nào. Khi AI có thể tự đọc docs, tự viết CUDA, tự debug bằng profiler, tự tiến hóa qua hàng trăm hướng tối ưu trong 7 ngày — thì con người sẽ shift lên tầng cao hơn: thiết kế kiến trúc mới, đặt ra bài toán đúng, đánh giá trade-off ở cấp hệ thống.

Và có lẽ đó chính là tương lai: con người quyết định cái gì cần tối ưu, AI tự tìm ra cách tối ưu tốt nhất.

Paper "AVO: Agentic Variation Operators for Autonomous Evolutionary Search" được công bố ngày 25/03/2026 trên arXiv (2603.24517v1) bởi Terry Chen, Zhifan Ye, Bing Xu và cộng sự — toàn bộ đến từ NVIDIA.