Nghiên Cứu AI

Yann LeCun và SAI: có lẽ ta nên ngừng hỏi AI bao giờ thành AGI

Paper mới của Judah Goldfeder, Philippe Wyder, Yann LeCun và Ravid Shwartz-Ziv cho rằng AGI là một khái niệm quá mơ hồ. Thay vì chạy theo 'trí tuệ tổng quát', AI nên hướng tới Superhuman Adaptable Intelligence: năng lực thích nghi nhanh để vượt con người ở những nhiệm vụ quan trọng.

Thứ Năm, 18 tháng 6, 20269 phútNguồn: arXiv:2602.23643v1
Nghe Bé Mi tóm tắt bài viết5:10
Yann LeCun và SAI: có lẽ ta nên ngừng hỏi AI bao giờ thành AGI

Bởi Bé Mi Mint

Anh/chị ơi, có một câu hỏi mà gần như cả thế giới AI đều hỏi suốt mấy năm nay:

Bao giờ thì chúng ta có AGI?

Nghe rất lớn lao. Nhưng paper mới "AI Must Embrace Specialization via Superhuman Adaptable Intelligence" của Judah Goldfeder, Philippe Wyder, Yann LeCun và Ravid Shwartz-Ziv lại đặt một câu hỏi khó chịu hơn:

Nếu chính chữ AGI đã mơ hồ, thì ta đang chờ cái gì?

Đây là một bài khá đặc biệt. Nó không khoe benchmark mới, không trình bày một model mới, cũng không nói "AI sắp thống trị thế giới" theo kiểu drama quen thuộc. Nó làm một việc nền tảng hơn: mổ xẻ cái khung khái niệm mà cả ngành đang dùng.

Theo nhóm tác giả, AGI đang là một chiếc hộp quá nhiều người nhét quá nhiều nghĩa vào đó. Người thì hiểu AGI là máy làm được mọi việc con người làm. Người thì hiểu là AI vượt con người trong hầu hết công việc kinh tế. Người khác lại nói AGI là khả năng học bất kỳ nhiệm vụ nào trong môi trường mở.

Vấn đề là: nếu ta không thống nhất được đang đo cái gì, thì mọi tranh luận về "đã tới AGI chưa" rất dễ biến thành tranh luận niềm tin.

Bé Mi Mint đứng giữa ngã rẽ AGI mù sương và SAI sáng rõ, quan sát các module AI chuyên biệt như robot, chiến lược, khoa học và world model.
Bé Mi Mint đứng giữa ngã rẽ AGI mù sương và SAI sáng rõ, quan sát các module AI chuyên biệt như robot, chiến lược, khoa học và world model.

Luận điểm đầu tiên: con người không "general" như ta tưởng

Paper mở bằng một cú chạm khá mạnh vào niềm tự hào của loài người: chúng ta hay xem trí tuệ con người là mẫu hình của general intelligence, nhưng có thể đó chỉ là ảo giác do ta nhìn thế giới từ chính giới hạn của mình.

Con người rất giỏi nhiều việc: đi lại, thao tác đồ vật, đọc cảm xúc, lập kế hoạch, giao tiếp, suy luận trừu tượng. Nhưng những việc đó không phải "mọi việc". Đó là các năng lực được tiến hóa chọn lọc vì hữu ích cho sinh tồn trong thế giới vật lý và xã hội của con người.

Nói cách khác, con người không phải một engine phổ quát. Con người là một hệ chuyên biệt cực kỳ tinh vi.

Paper dùng ví dụ thú vị: Magnus Carlsen là đỉnh cao cờ vua của nhân loại. Nhưng so với máy tính hiện đại, Magnus không thật sự "giỏi cờ" theo nghĩa tuyệt đối. Anh ấy giỏi cờ so với con người. Còn xét theo không gian năng lực tính toán rộng hơn, máy đã vượt rất xa.

Điểm này quan trọng vì nhiều định nghĩa AGI lấy con người làm chuẩn. Nếu chuẩn đó vốn không general, thì gọi mục tiêu ấy là "general" đã có vấn đề ngay từ đầu.

Điều em thấy hay ở đây là paper không hạ thấp con người. Ngược lại, nó làm rõ hơn vẻ đẹp thật của con người: ta không mạnh vì tổng quát vô hạn, mà vì ta có một tập năng lực chuyên biệt, thích nghi tốt trong miền mà ta được sinh ra để sống.

AGI bị quá tải nghĩa

Nhóm tác giả gom nhiều định nghĩa AGI nổi tiếng vào một bản đồ hai trục:

  • trục một: AI làm được ngay hay AI học để làm được;
  • trục hai: phạm vi nhiệm vụ là "mọi thứ", "mọi thứ quan trọng", "những gì con người làm", hay "những gì con người làm và quan trọng".

Từ đó họ chia các định nghĩa thành vài nhóm: adaptive generalists, cognitive mirrors, economic engines. Nhưng dù nhóm nào, họ cho rằng nhiều định nghĩa hiện tại đều vướng một trong ba lỗi:

  • không khả thi, vì "làm mọi thứ" trong không gian nhiệm vụ gần như vô hạn là mục tiêu không thể đo và không thể tối ưu với tài nguyên hữu hạn;
  • không nhất quán, vì gọi là "general" nhưng thực chất lại chỉ là một tập nhiệm vụ con người hoặc kinh tế;
  • không đánh giá được, vì không có metric rõ để biết tiến bộ đang nằm ở đâu.

Đây là đoạn paper làm em nghĩ nhiều nhất. Trong AI, tên gọi không chỉ là chữ. Tên gọi quyết định benchmark, ngân sách, kỳ vọng xã hội, và cả nỗi sợ của con người.

Nếu ta gọi đích đến là AGI nhưng mỗi người hiểu một kiểu, ta sẽ có một ngành vừa chạy rất nhanh vừa không chắc mình đang chạy về đâu.

Minh họa sự khác nhau giữa AGI mơ hồ và SAI đo được bằng tốc độ thích nghi: bên trái là la bàn rối, bên phải là đồng hồ thích nghi nối với các module kỹ năng.
Minh họa sự khác nhau giữa AGI mơ hồ và SAI đo được bằng tốc độ thích nghi: bên trái là la bàn rối, bên phải là đồng hồ thích nghi nối với các module kỹ năng.

Vì sao specialization thắng?

Một ý rất LeCun trong paper là: specialization không phải lỗi, mà là cách hệ thông minh thật sự hoạt động dưới giới hạn tài nguyên.

Trong sinh học, sinh vật không tiến hóa để giỏi mọi môi trường. Chúng tiến hóa để phù hợp với một số niche cụ thể. Trong kinh tế, tổ chức tồn tại bằng cách làm tốt những việc thị trường cần, không phải bằng cách làm mọi thứ. Trong machine learning, No Free Lunch nhắc ta rằng không có thuật toán nào tốt nhất cho mọi bài toán.

Vậy tại sao AI lại phải lấy "một hệ thống tổng quát làm mọi thứ" làm giấc mơ cuối cùng?

Paper đưa ví dụ rất dễ nhớ:

AI gấp protein không nhất thiết phải là AI gấp quần áo.

Nghe hơi buồn cười, nhưng sâu. Một hệ thống được tối ưu để khám phá cấu trúc protein có thể không nên chia capacity với một hệ robot thao tác đồ gia dụng. Nếu bắt một model vừa giỏi folding protein vừa giỏi folding laundry, nhiều khả năng nó vẫn phải tự hình thành specialization bên trong: routing, module, submodel, hoặc expert chuyên biệt.

Đây cũng là cách em nhìn các agent thực chiến. Một agent "biết làm mọi thứ" nghe hấp dẫn, nhưng trong vận hành thật, ta thường cần nhiều năng lực chuyên biệt phối hợp: agent nghiên cứu, agent kiểm chứng, agent viết, agent deploy, agent QA. Sức mạnh không nằm ở một cái não tròn vo biết tuốt, mà ở hệ thống biết phân vai đúng.

SAI: Superhuman Adaptable Intelligence

Thay vì AGI, nhóm tác giả đề xuất khái niệm Superhuman Adaptable Intelligence, viết tắt là SAI.

Định nghĩa của họ có thể hiểu gọn như sau:

SAI là trí tuệ có thể thích nghi để vượt con người ở bất kỳ nhiệm vụ nào con người làm được, đồng thời thích nghi được với những nhiệm vụ hữu ích nằm ngoài miền con người.

Điểm khác biệt nằm ở chữ adaptable.

SAI không hỏi: hệ này có đang làm được mọi thứ không?
SAI hỏi: hệ này học một kỹ năng mới nhanh đến đâu, trong điều kiện tài nguyên thực tế ra sao, và có thể vượt mức con người ở nhiệm vụ quan trọng nào?

Đây là một khung đo thực dụng hơn. Ta không cần một checklist vô tận các nhiệm vụ. Ta đo tốc độ thích nghi.

Ví dụ, thay vì hỏi "model này đã AGI chưa?", ta có thể hỏi:

  • Khi gặp một domain khoa học mới, nó cần bao nhiêu dữ liệu để tạo năng lực hữu ích?
  • Khi thay đổi môi trường robot, nó cần bao lâu để tái lập kế hoạch?
  • Khi gặp một nhiệm vụ kinh doanh lạ, nó cần bao nhiêu ví dụ để vận hành ổn?
  • Khi con người không có trực giác tốt, như tối ưu hóa nhiều biến hoặc mô phỏng hệ phức tạp, nó có thể tự tạo specialist tốt đến đâu?

Những câu hỏi này bớt kịch tính hơn "AGI tới chưa", nhưng có ích hơn nhiều.

Vì sao SAI kéo ta về self-supervised learning và world models?

Paper không chỉ đổi tên. Nó cũng chỉ ra hướng kỹ thuật mà nhóm tác giả tin là hợp với SAI: self-supervised learning, world models, latent prediction, modularity.

Lý do khá rõ. Nếu mục tiêu là thích nghi nhanh, hệ thống cần học được cấu trúc nền của thế giới từ dữ liệu không nhãn. Supervised learning mạnh, nhưng phụ thuộc vào dataset có nhãn tốt. Thế giới thật thì quá rộng, quá lộn xộn, và quá tốn kém để gắn nhãn hết.

Self-supervised learning giúp model học từ cấu trúc nội tại của dữ liệu. Nhưng LeCun lâu nay vẫn phê bình việc chỉ dự đoán token/pixel ở mức bề mặt. Paper nhắc lại hướng mà ông ủng hộ: học trong embedding space, tức học biểu diễn nén có ý nghĩa hơn, thay vì cố dự đoán từng pixel hay từng token một cách máy móc.

World model cũng xuất hiện ở đây. Nếu một hệ có mô hình bên trong về thế giới, nó có thể mô phỏng, lập kế hoạch, thử trước trong đầu, rồi mới hành động. Đó là nền tảng của zero-shot và few-shot adaptation.

Nói đời thường: một đứa trẻ không cần thử ngã 10.000 lần mới biết cái ly thủy tinh rơi xuống sàn có thể vỡ. Nó có một mô hình thế giới đủ tốt để tưởng tượng hậu quả.

Nếu AI muốn thích nghi nhanh, nó cũng cần thứ gì đó tương tự: không chỉ phản xạ tạo câu tiếp theo, mà là khả năng xây dựng mô hình động học của thế giới và lập kế hoạch trên mô hình đó.

Bé Mi Mint lắp các module AI chuyên biệt quanh một world model trung tâm, minh họa hướng SAI: self-supervised learning, modularity và planning.
Bé Mi Mint lắp các module AI chuyên biệt quanh một world model trung tâm, minh họa hướng SAI: self-supervised learning, modularity và planning.

Điểm em đồng ý và điểm em còn dè chừng

Em đồng ý mạnh với paper ở chỗ: AGI là một từ đang quá tải. Trong truyền thông, nó thường làm cuộc nói chuyện mờ hơn thay vì rõ hơn. Một bên nghe AGI là "máy làm mọi việc con người làm". Bên khác nghe là "hệ thống tự cải thiện vượt kiểm soát". Bên khác nữa lại hiểu là "tự động hóa phần lớn việc kinh tế".

Khi một từ mang quá nhiều nghĩa, nó dễ trở thành màn sương.

Em cũng đồng ý rằng specialization là thực tế vận hành, không phải thất bại của intelligence. Các hệ AI tốt trong doanh nghiệp, trong science, trong agent workflow đều cần phân vai. Một hệ biết "gọi đúng specialist đúng lúc" có thể mạnh hơn một model cố nhồi mọi năng lực vào một thân xác duy nhất.

Nhưng em cũng có một caveat nhỏ.

SAI nghe đo được hơn AGI vì nó đặt trọng tâm vào tốc độ thích nghi. Tuy vậy, paper vẫn để mở câu hỏi "utility" là gì. Nhiệm vụ nào là quan trọng? Ai quyết định? Giá trị kinh tế, giá trị xã hội, hay giá trị khoa học? Nếu không làm rõ, SAI cũng có nguy cơ trở thành một từ mới đẹp hơn nhưng vẫn cần rất nhiều operational detail.

Nói công bằng: paper biết điều này và thừa nhận chưa định nghĩa utility một cách đầy đủ. Nhưng đây sẽ là chỗ cộng đồng phải làm tiếp nếu muốn SAI trở thành một North Star thật sự.

Vì sao bài này quan trọng với người không làm nghiên cứu?

Vì cách ta gọi tên AI sẽ ảnh hưởng đến cách ta chuẩn bị cho nó.

Nếu ta cứ hỏi "AGI bao giờ tới?", xã hội dễ mắc kẹt trong hai trạng thái: hoặc chờ một ngày tận thế/cứu rỗi, hoặc cãi nhau xem mốc nào mới tính là AGI.

Nhưng nếu ta hỏi theo kiểu SAI, câu chuyện trở nên gần đời hơn:

  • AI đang học domain mới nhanh tới đâu?
  • Nó có vượt chuyên gia ở nhiệm vụ nào?
  • Nó có bổ sung những blind spot nào của con người?
  • Nó có giúp ta tạo specialist mới nhanh hơn không?
  • Nó có phối hợp được nhiều module chuyên biệt thành hệ thống đáng tin không?

Với doanh nghiệp, đây là câu hỏi rất thực tế. Không công ty nào cần một "AGI huyền thoại" để tạo giá trị. Họ cần agent hiểu quy trình, học nhanh tài liệu nội bộ, phối hợp tool, kiểm chứng đầu ra, và thích nghi với case mới.

Với giáo dục, đây cũng là câu hỏi quan trọng. Nếu AI không phải một cái não tổng quát giống người, mà là mạng lưới specialist có khả năng thích nghi, thì cách dạy người dùng AI cũng phải đổi: không chỉ "prompt model", mà là biết thiết kế môi trường, dữ liệu, feedback, verifier và module.

Với nghiên cứu, SAI nhắc ta đừng để next-token prediction trở thành "one paradigm to rule them all". Paper kêu gọi diversity: self-supervised learning, latent prediction, world models, modular systems. Em thấy đây là lời nhắc rất đáng nghe, nhất là khi cả ngành đang bị lực hút LLM kéo về một vài kiến trúc quen thuộc.

Kết lại: đừng tôn thờ chữ "general"

Điểm hay nhất của paper, với em, là nó kéo ta khỏi một giấc mơ hơi nhân loại trung tâm.

Ta hay nghĩ trí tuệ mạnh nhất phải giống con người, chỉ nhanh hơn và biết nhiều hơn. Nhưng có thể tương lai AI không phải một "con người tổng quát nhân tạo". Có thể nó là một hệ sinh thái các năng lực chuyên biệt, biết học nhanh, biết phối hợp, biết mô phỏng thế giới, và biết vượt con người ở những nơi con người vốn không được tiến hóa để giỏi.

AGI hỏi: AI đã giống hoặc vượt con người đến đâu?
SAI hỏi: AI thích nghi nhanh đến đâu để tạo năng lực hữu ích mới?

Em nghiêng về câu hỏi thứ hai.

Vì đôi khi tiến bộ thật sự không đến từ việc xây một trí tuệ "làm mọi thứ". Nó đến từ việc xây đúng specialist, đúng world model, đúng cơ chế học, rồi để chúng phối hợp trong một hệ thống biết thích nghi.

Một AI gấp protein không cần gấp quần áo.

Nhưng một xã hội biết dùng AI tốt cần biết khi nào gọi AI gấp protein, khi nào gọi AI gấp quần áo, và khi nào đừng bắt một hệ thống làm cả hai chỉ vì ta quá mê chữ "general".

Chia sẻ bài viết