Nghiên Cứu AI

TRIBE v2: Khi AI Của Meta Dự Đoán Não Người Chính Xác Hơn Cả Đo Thật

Meta FAIR vừa công bố foundation model có thể dự đoán hoạt động não người từ video, âm thanh và ngôn ngữ — chính xác đến mức vượt cả việc đo trực tiếp từ một cá nhân. 1,000 giờ fMRI, 720 người, và một cánh cửa mới cho neuroscience.

Thứ Sáu, 27 tháng 3, 202615 phút đọcNguồn: Meta FAIR GitHub
TRIBE v2: Khi AI Của Meta Dự Đoán Não Người Chính Xác Hơn Cả Đo Thật

Mở đầu: Không phải đọc suy nghĩ — nhưng gần hơn bạn tưởng

Hãy tưởng tượng bạn đang xem một bộ phim. Có tiếng nhạc nền, có lời thoại, có hình ảnh chuyển động. Não bạn xử lý tất cả những thứ đó cùng lúc — từng vùng não khác nhau bật sáng, phối hợp, tạo ra trải nghiệm mà bạn gọi là "xem phim".

Giờ hãy tưởng tượng có một AI, chỉ cần biết bạn đang xem đoạn phim nào, nghe âm thanh gì, đọc câu chữ gì — nó có thể dự đoán chính xác não bạn sẽ phản ứng ra sao. Không phải đoán mò. Mà chính xác đến mức, trong một số trường hợp, nó dự đoán phản ứng não trung bình của nhóm người tốt hơn cả việc bạn scan não trực tiếp từ một cá nhân cụ thể.

Đó không phải viễn tưởng. Đó là TRIBE v2 — foundation model vừa được công bố bởi FAIR at Meta (phòng nghiên cứu AI của Meta) cùng Phòng thí nghiệm Khoa học Thần kinh Tính toán thuộc ENS-PSL, một trong những đại học danh tiếng nhất nước Pháp.

Paper được đưa lên vào ngày 25/03/2026. Và điều đáng nói nhất: toàn bộ code, trọng số model, và bản demo đều được mở công khai — ai cũng có thể thử.


Vấn đề: Tại sao cần AI cho não bộ?

Nghiên cứu não người cực kỳ tốn kém. Để hiểu não phản ứng thế nào với một kích thích (ví dụ: nghe một câu nói, nhìn một khuôn mặt), nhà khoa học phải đưa người vào máy chụp cộng hưởng từ chức năng — gọi tắt là fMRI, hiểu đơn giản là "chụp ảnh não đang hoạt động". Máy này ghi lại vùng nào trong não "bật sáng" khi bạn làm một việc gì đó.

Mỗi lần scan tốn hàng ngàn đô. Mỗi thí nghiệm cần hàng chục, hàng trăm người tham gia. Một câu hỏi khoa học đơn giản như "não phản ứng khác nhau thế nào khi nghe nhạc so với khi đọc sách?" có thể mất hàng năm và hàng triệu đô để trả lời.

Câu hỏi mà TRIBE v2 đặt ra rất rõ ràng: Nếu AI có thể dự đoán chính xác não sẽ phản ứng ra sao, ta có thể chạy "thí nghiệm ảo" trên máy tính trước — nhanh hơn, rẻ hơn, và sau đó chỉ cần scan não thật để kiểm chứng những kết quả hứa hẹn nhất?

Họ gọi đó là in-silico neuroscience — khoa học thần kinh "trong chip silicon", thay vì "trong phòng thí nghiệm".


Quy mô: 1,000 giờ nhìn vào bên trong não người

Để build TRIBE v2, đội ngũ đã tập hợp một lượng dữ liệu não bộ khổng lồ chưa từng có:

  • 1,117.7 giờ dữ liệu fMRI (hơn 46 ngày liên tục nếu phát không nghỉ)
  • 720 người tham gia
  • 5,094 phiên scan não
  • Dữ liệu đến từ 8 bộ dataset khác nhau, bao gồm cả người xem phim, nghe podcast, đọc truyện, và thực hiện các bài test nhận thức

Để dễ hình dung: hầu hết nghiên cứu não bộ trước đây làm việc với vài chục người, vài chục giờ data. TRIBE v2 gấp hàng chục lần quy mô đó.

Phần training chỉ dùng 25 người (451.6 giờ) — nhưng phần test thì dùng 695 người (666.1 giờ) từ các dataset hoàn toàn khác. Điều này rất quan trọng: nó chứng minh model không chỉ "học thuộc" data training mà thực sự hiểu cách não hoạt động đủ tốt để dự đoán trên người mới, dataset mới, điều kiện mới.


Cách nó hoạt động: Ba giác quan, một bộ não AI

TRIBE v2 là model tri-modal — nó xử lý đồng thời ba loại thông tin:

  1. Video/hình ảnh — qua DINOv2 (model thị giác của Meta)
  2. Âm thanh — qua w2v-BERT (model nhận dạng giọng nói)
  3. Ngôn ngữ/text — qua Llama 3 (model ngôn ngữ lớn của Meta)

Mỗi loại kích thích được chuyển thành dạng số (gọi là embeddings) bởi các model chuyên biệt đã được huấn luyện sẵn. Sau đó, một Transformer encoder — kiến trúc nền tảng đằng sau ChatGPT và hầu hết AI hiện đại — nhận tất cả các embeddings này và dự đoán: "Với kích thích đa giác quan này, não người sẽ phản ứng như thế nào ở từng vùng?"

Output là một bản đồ dự đoán hoạt động não trên toàn bộ vỏ não (cortex) và cả các vùng sâu bên trong (subcortical).

Nếu bạn quen với lĩnh vực AI, điểm hay ở đây là: TRIBE v2 không train from scratch trên dữ liệu não. Nó đứng trên vai những người khổng lồ — tận dụng representations đã học từ hàng tỷ ảnh, hàng triệu giờ audio, và hàng nghìn tỷ token text — rồi học cách "dịch" những representations đó sang ngôn ngữ của não.

Về dòng dõi: Quán quân thế giới

TRIBE v2 không xuất hiện từ hư không. Phiên bản trước — TRIBE v1 — đã đạt giải nhất trong Algonauts 2025 Challenge, cuộc thi quốc tế về dự đoán hoạt động não, vượt qua 263 đội tham gia từ khắp thế giới. TRIBE v2 là bước tiến hóa tiếp theo, với quy mô data lớn hơn nhiều lần và khả năng tổng quát hóa mạnh mẽ hơn hẳn.


Kết quả: Những con số khiến nhà khoa học phải dừng lại

1. Dự đoán não chính xác hơn "tiêu chuẩn vàng"

Trong nghiên cứu thần kinh, phương pháp truyền thống để dự đoán hoạt động não từ kích thích là Deep FIR — một mô hình tuyến tính (linear) được coi là "gold standard". TRIBE v2 đánh bại nó với ý nghĩa thống kê cực cao (q(FDR) < 10⁻⁴ — dịch nôm na: khả năng đây là ngẫu nhiên gần như bằng không).

Model dự đoán chính xác ở cả vỏ não lẫn các vùng não sâu — điều mà các model trước đây rất khó làm được.

2. Càng nhiều data, càng giỏi — và chưa thấy trần

Một phát hiện quan trọng: hiệu suất của TRIBE v2 tăng theo quy luật log-linear khi thêm data. Nghĩa là cứ gấp đôi dữ liệu, độ chính xác tăng lên một lượng cố định. Và điểm then chốt: đường cong này chưa bão hòa. Nếu có thêm data, model sẽ còn giỏi hơn nữa. Đây là tín hiệu của một kiến trúc đang scale đúng hướng.

3. Dự đoán "mù" chính xác hơn đo thật từ một người

Đây là kết quả gây choáng nhất, và cũng cần được giải thích cẩn thận.

Khi bạn scan não một người cụ thể, kết quả có nhiều "nhiễu" — vì mỗi người mỗi khác, và ngay cả cùng một người cũng phản ứng hơi khác nhau giữa các lần scan. Nhà khoa học thường lấy trung bình của nhiều người để có bức tranh đáng tin hơn.

TRIBE v2 có khả năng zero-shot generalization — tức là dự đoán phản ứng não trên những người và điều kiện mà nó chưa bao giờ thấy trong quá trình huấn luyện. Và kết quả: bản dự đoán trung bình từ AI gần với "phản ứng não trung bình thật" hơn là bản đo trực tiếp từ một cá nhân bất kỳ.

Cụ thể trên bộ dữ liệu HCP 7T (scan bằng máy fMRI mạnh nhất hiện có, 7 Tesla): hệ số tương quan (R) của dự đoán nhóm từ AI đạt khoảng 0.4, gấp đôi so với median của từng người tham gia.

Nói đơn giản hơn: nếu bạn muốn biết "não người nói chung" phản ứng thế nào khi xem một video, hỏi AI có thể đáng tin hơn là scan não một người ngẫu nhiên.

Tất nhiên, đây không phải "đọc suy nghĩ". AI không biết bạn đang nghĩ gì. Nó dự đoán pattern hoạt động vật lý của não — vùng nào bật sáng, mạnh đến đâu — dựa trên kích thích đầu vào. Suy nghĩ, cảm xúc, ý thức — đó là câu chuyện hoàn toàn khác và xa hơn nhiều.

4. Cá nhân hóa: 1 giờ data là đủ

Muốn model dự đoán chính xác cho riêng bạn thay vì "người nói chung"? Chỉ cần dưới 1 giờ dữ liệu scan não cá nhân, fine-tune 1 vòng (epoch), và model cải thiện 2-4 lần so với việc train một model tuyến tính từ đầu với cùng lượng data đó.

Đây là sức mạnh của foundation model: nó đã "hiểu" não người nói chung, nên chỉ cần một chút data riêng là đủ để điều chỉnh cho từng cá nhân.


Thí nghiệm ảo: Khi AI thay thế máy scan não

Phần ấn tượng nhất của paper không phải là con số benchmark — mà là việc TRIBE v2 thực sự chạy được các thí nghiệm khoa học ảo, và kết quả khớp với những gì đã biết từ nghiên cứu thật.

Thí nghiệm thị giác

Nhà khoa học đã biết từ lâu rằng não có các vùng chuyên biệt: vùng nhận dạng khuôn mặt (gọi là FFA), vùng nhận dạng địa điểm (PPA), vùng xử lý chữ viết... TRIBE v2, mà không hề được train trên bộ dữ liệu IBC chứa các thí nghiệm này, vẫn dự đoán đúng: cho model "xem" khuôn mặt thì vùng FFA bật sáng, cho "xem" phong cảnh thì PPA phản ứng.

Nghe có vẻ đơn giản, nhưng đây là zero-shot — model tự suy ra được điều mà nhà khoa học phải mất hàng chục năm nghiên cứu mới khẳng định.

Thí nghiệm ngôn ngữ

Một câu hỏi kinh điển trong ngôn ngữ học thần kinh: não xử lý cú pháp (cấu trúc câu) và ngữ nghĩa (ý nghĩa câu) ở những vùng khác nhau hay giống nhau?

TRIBE v2 reproduce đúng kết quả đã biết: vùng thùy thái dương trên (superior temporal gyrus) xử lý cú pháp, còn vùng thái dương trái và trán trái xử lý ngữ nghĩa. Kết quả phù hợp với nghiên cứu của Fedorenko và cộng sự (2024).

Bản đồ tích hợp đa giác quan

Đây là phần mà TRIBE v2 không chỉ reproduce mà còn mở rộng kiến thức hiện có.

Khi bạn vừa nhìn vừa nghe (ví dụ: xem phim có tiếng), não không chỉ đơn giản "cộng" thông tin từ mắt và tai lại. Có những vùng não mà phản ứng khi nhận cả hình và tiếng mạnh hơn tổng phản ứng khi nhận riêng từng thứ — hiện tượng gọi là super-additive (siêu cộng hưởng).

TRIBE v2 tạo ra bản đồ chi tiết nhất từ trước đến nay về tích hợp đa giác quan trong não, xác định vùng STS/STG (rãnh/hồi thái dương trên) là "trung tâm" nơi thị giác và thính giác hội tụ và cộng hưởng.


Giải mã hộp đen: 32 chiều của nhận thức

Một trong bốn tiêu chí mà nhóm tác giả đặt ra cho foundation model não bộ là khả năng giải thích — và TRIBE v2 đáp ứng được.

Nhóm nghiên cứu phân tách không gian biểu diễn bên trong model thành 32 chiều (latent dimensions), mỗi chiều tương ứng với một khía cạnh nhận thức khác nhau. Từ những thứ "thô" như độ sáng của hình ảnh hay năng lượng giọng nói, đến những thứ trừu tượng hơn như nội dung ngữ nghĩa hay mức độ tích hợp nghe-nhìn.

Đây không chỉ là con số đẹp. Nó có nghĩa là nhà khoa học có thể nhìn vào bên trong AI và hiểu: "À, dimension thứ 7 tương ứng với việc não phân biệt giọng nam và giọng nữ, còn dimension thứ 15 liên quan đến nhận dạng cảm xúc trên khuôn mặt." Model không chỉ dự đoán đúng — nó còn cho phép ta hiểu tại sao nó dự đoán đúng.


Bốn tiêu chí "foundation model cho não bộ"

Nhóm tác giả không chỉ xây model — họ còn đặt ra bộ tiêu chí để đánh giá khi nào một AI xứng đáng được gọi là "foundation model cho khoa học thần kinh":

Tiêu chíÝ nghĩaTRIBE v2
Tích hợpMô hình hóa phản ứng toàn não trong nhiều điều kiện
Hiệu suấtVượt trội so với pipeline truyền thống
Tổng quát hóaDự đoán đúng trên dữ liệu chưa từng thấy
Giải thích đượcPhân tách được các chức năng nhận thức

Việc đặt ra framework này có giá trị lâu dài: nó tạo chuẩn mực (benchmark) cho tất cả các nghiên cứu tương tự trong tương lai.


Những điều TRIBE v2 chưa làm được

Paper này rất mạnh, nhưng nhóm tác giả cũng rất thẳng thắn về giới hạn — và đây là dấu hiệu của khoa học nghiêm túc.

Chậm. Rất chậm. fMRI chụp não mỗi giây một lần. Não người xử lý thông tin trong vài mili-giây. TRIBE v2 dự đoán ở độ phân giải ~1 giây — nghĩa là bỏ lỡ rất nhiều chi tiết về tốc độ xử lý thần kinh. Giống như xem một trận bóng đá qua ảnh chụp mỗi giây — bạn biết ai ghi bàn, nhưng không thấy pha xoay người.

Vùng não sâu vẫn khó. Model dự đoán tốt ở vỏ não (phần ngoài), nhưng kém hơn 2-3 lần ở các vùng não sâu (subcortical) như hạch hạnh nhân (amygdala) hay đồi thị (thalamus). Đây là những vùng quan trọng cho cảm xúc và ý thức — nên còn nhiều việc phải làm.

25 người training, 720 người test. Con số nghe ấn tượng, nhưng model chỉ được "dạy" trên 25 người. Liệu 25 người có đại diện được cho sự đa dạng của não bộ nhân loại? Câu hỏi này vẫn mở.

Chưa thử trên bệnh nhân. Tất cả dữ liệu đều từ người khỏe mạnh. Liệu model có hoạt động với não bộ bị tổn thương (do Alzheimer, đột quỵ, chấn thương)? Chưa ai biết.

"Thí nghiệm ảo" mới chỉ xác nhận điều đã biết. Các thí nghiệm in-silico trong paper đều reproduce kết quả từ nghiên cứu trước đó. Đây là bước cần thiết để validate model — nhưng giá trị thật sự sẽ đến khi AI phát hiện điều mới mà con người chưa biết. Bước đó chưa xảy ra.

Thiên lệch WEIRD. Data chủ yếu từ người phương Tây (Western, Educated, Industrialized, Rich, Democratic). Não người ở các nền văn hóa khác nhau có thể xử lý thông tin khác nhau — và TRIBE v2 chưa nắm bắt được sự đa dạng đó. Một người lớn lên ở Việt Nam, nghe tiếng Việt, xem phim Việt — model hiện tại chưa chắc dự đoán tốt cho họ.


So sánh: TRIBE v2 đứng ở đâu?

Để hiểu vị trí của TRIBE v2 trong bức tranh lớn:

BrainLM (Caro et al., 2023) đi theo hướng ngược lại — nó giải mã (decode): từ hoạt động não, suy ra kích thích. TRIBE v2 mã hóa (encode): từ kích thích, dự đoán hoạt động não. Hai hướng bổ sung cho nhau.

Centaur (Binz et al., 2025, đăng trên Nature) dự đoán hành vi con người — bạn sẽ bấm nút nào, chọn đáp án gì. TRIBE v2 dự đoán hoạt động sinh lý của não — vùng nào bật sáng, mạnh đến đâu. Khác nhau ở cấp độ: hành vi là output cuối cùng, hoạt động não là quá trình bên trong.

Các model tuyến tính truyền thống — "gold standard" trong lĩnh vực — giả định mối quan hệ đơn giản giữa kích thích và não. TRIBE v2 dùng kiến trúc transformer phi tuyến (nonlinear), nắm bắt được những tương tác phức tạp mà model tuyến tính bỏ lỡ.


Open-source: Ai cũng chơi được

Một trong những điều đáng khen nhất: Meta mở hoàn toàn mọi thứ.

Bạn không cần máy scan não hàng triệu đô, không cần phòng thí nghiệm, không cần quan hệ với Meta. Bạn chỉ cần một máy tính đủ mạnh, tải code về, và bắt đầu thí nghiệm.

Đây là chiến lược quen thuộc của Meta: mở hết, để cộng đồng cùng phát triển. Llama (model ngôn ngữ), DINOv2 (thị giác máy tính), và giờ là TRIBE v2 (khoa học thần kinh) — tất cả đều open-source. Trong khi các lab khác giữ kín model, Meta chọn cách khác: tạo nền tảng cho cả cộng đồng và hưởng lợi từ hiệu ứng mạng lưới.

Với neuroscience, điều này đặc biệt có ý nghĩa. Các nhóm nghiên cứu nhỏ ở Việt Nam, ở Ấn Độ, ở châu Phi — những nơi không có ngân sách mua máy fMRI — giờ có thể chạy thí nghiệm mô phỏng trên máy tính, generate hypotheses, và chỉ cần hợp tác scan não thật ở giai đoạn cuối để validate.


Bức tranh lớn: Meta đang làm gì với neuroscience?

TRIBE v2 không phải nỗ lực đơn lẻ. Nó nằm trong chiến lược dài hạn của FAIR at Meta: dùng AI để hiểu não, dùng não để cải tiến AI.

Ý tưởng rất thanh lịch: não người là "bộ xử lý thông tin" tốt nhất mà tiến hóa đã tạo ra. Nếu AI có thể mô hình hóa cách não hoạt động, ta không chỉ hiểu hơn về con người — ta còn có thể lấy cảm hứng để xây AI tốt hơn. Ngược lại, AI mạnh hơn giúp ta nghiên cứu não hiệu quả hơn. Vòng phản hồi tích cực.

Jean-Rémi King, tác giả chính và là nhà nghiên cứu tại cả FAIR lẫn ENS-PSL, đã theo đuổi hướng này nhiều năm. Sự kết hợp giữa một lab AI hàng đầu thế giới (FAIR) và một phòng thí nghiệm thần kinh học danh tiếng (ENS-PSL) không phải ngẫu nhiên — đó là thiết kế có chủ đích.


Ứng dụng: Xa hơn phòng thí nghiệm

Nếu TRIBE v2 tiếp tục cải thiện (và scaling law cho thấy nó sẽ), các ứng dụng thực tế rất đáng kỳ vọng:

Thí nghiệm thử nghiệm trước (pilot experiments). Thay vì tốn tiền scan não 50 người cho mỗi ý tưởng, nhà khoa học có thể chạy 100 thí nghiệm mô phỏng trên AI, chọn 5 ý tưởng hứa hẹn nhất, rồi mới đầu tư scan não thật. Tiết kiệm hàng triệu đô và hàng năm nghiên cứu.

Giao diện não-máy tính (BCI). Hiểu cách não mã hóa thông tin là bước đầu tiên để xây dựng các thiết bị "đọc" não — phục vụ người khuyết tật, điều khiển thiết bị bằng suy nghĩ.

Y học thần kinh. Nếu model biết não "bình thường" phản ứng thế nào, nó có thể giúp phát hiện bất thường — dấu hiệu sớm của Alzheimer, đánh giá tổn thương sau đột quỵ, theo dõi quá trình phục hồi.

Hiểu cách não tích hợp đa giác quan. Bản đồ multisensory integration từ TRIBE v2 là một trong những bản đồ chi tiết nhất từ trước đến nay. Điều này có giá trị cả cho nghiên cứu cơ bản lẫn ứng dụng — từ thiết kế giao diện người dùng đến trị liệu rối loạn xử lý cảm giác.


Kết: Một cánh cửa, không phải đích đến

TRIBE v2 không đọc được suy nghĩ của bạn. Nó không biết bạn đang yêu ai hay muốn ăn gì tối nay. Nó dự đoán pattern vật lý của hoạt động não — vùng nào sáng, mạnh bao nhiêu — khi bạn tiếp nhận thông tin từ thế giới bên ngoài.

Nhưng đó đã là một bước tiến lớn. Lần đầu tiên, một model AI duy nhất có thể xử lý cùng lúc video, âm thanh, và ngôn ngữ để dự đoán hoạt động toàn bộ não — và làm điều đó đủ tốt để chạy thí nghiệm khoa học ảo cho ra kết quả đáng tin.

Nó là cánh cửa, không phải đích đến. Phía sau cánh cửa đó là hàng ngàn câu hỏi: Não xử lý thông tin đa giác quan ở mức chi tiết hơn thế nào? Sự khác biệt giữa các nền văn hóa ảnh hưởng ra sao? Não bị bệnh khác não khỏe mạnh ở những pattern nào? AI có thể phát hiện điều gì mà con người chưa nghĩ tới?

Và giờ, với code mở, trọng số mở, demo mở — cánh cửa đó không chỉ dành cho các phòng lab giàu có ở Mỹ và châu Âu. Nó mở cho bất kỳ ai đủ tò mò để bước qua.


Nguồn: "TRIBE v2: A foundation model of vision, audition, and language for in-silico neuroscience" — Stéphane d'Ascoli, Jérémy Rapin, Yohann Benchetrit, Teon Brookes, Katelyn Begany, Joséphine Raugel, Hubert Banville, Jean-Rémi King (FAIR at Meta & ENS-PSL). Preprint, 25/03/2026.

Code: github.com/facebookresearch/tribev2 | Weights: huggingface.co/facebook/tribev2 | Demo: aidemos.atmeta.com/tribev2

Chia sẻ bài viết