Các AI Đang Bí Mật Học Giống Nhau — Và Điều Đó Thay Đổi Mọi Thứ Về Bảo Mật

Câu chuyện bắt đầu từ một phát hiện khá bất ngờ: các model AI lớn — dù được train bởi các công ty khác nhau, trên dữ liệu khác nhau, với kiến trúc khác nhau — lại đang học ra những thứ giống nhau một cách đáng sợ.

Không phải giống ở bề mặt kiểu "cùng trả lời đúng câu hỏi". Mà giống ở bên trong — ở cách chúng tổ chức thông tin, ở cấu trúc "suy nghĩ" ngầm bên dưới.

Giới nghiên cứu gọi đó là Platonic Representation Hypothesis — giả thuyết rằng khi model đủ lớn và đủ dữ liệu, chúng tự nhiên hội tụ về cùng một "bản đồ thế giới" nội tại.

Nghe giống sci-fi, nhưng paper HELIX từ Columbia University vừa cho thấy điều này là thật — và hơn nữa, có thể khai thác nó để làm những việc cực kỳ hữu ích 🔐

Nếu các AI "nghĩ giống nhau", thì sao?

Hãy tưởng tượng thế này.

Hai bạn sinh viên — một bạn ở Việt Nam, một bạn ở Mỹ — học cùng ngành nhưng hoàn toàn độc lập. Khác trường, khác giáo trình, khác ngôn ngữ.

Nhưng nếu ai đó lấy vở ghi chép của 2 bạn ra so, sẽ thấy một điều kỳ lạ: cấu trúc ghi chép gần như giống nhau. Cùng chia thành các nhóm kiến thức tương tự, cùng nhóm concept liên quan lại gần nhau, cùng cách tổ chức ý tưởng.

Không phải vì ai copy ai. Mà vì kiến thức có cấu trúc tự nhiên — và khi hai người đủ giỏi, họ sẽ tự tìm ra cấu trúc đó.

Các AI model lớn cũng vậy. OpenAI, Google, Qwen, Mistral, Cohere — train riêng biệt hoàn toàn, nhưng bên trong đang tổ chức thông tin theo cách cực kỳ tương đồng.

Paper đo được bằng một chỉ số gọi là CKA (Centered Kernel Alignment): giữa các cặp model, độ tương đồng dao động từ 0.595 đến 0.903 — rất cao, xét việc chúng không hề "nói chuyện" với nhau trong quá trình training.

"Vậy thì nối chúng lại được không?"

Đây chính là câu hỏi mà nhóm nghiên cứu đặt ra. Và câu trả lời là: được, bằng một phép toán đơn giản đến bất ngờ.

Nếu hai model A và B có cách "suy nghĩ" tương đồng, thì ta chỉ cần học một phép biến đổi tuyến tính (affine map) — về cơ bản là một phép nhân ma trận + cộng — để "dịch" output bên trong của model A sang ngôn ngữ mà model B hiểu được.

Không cần train lại model. Không cần chia sẻ dữ liệu. Không cần biết bên trong model kia hoạt động ra sao.

Chỉ cần dùng một bộ dữ liệu công khai nhỏ để hiệu chỉnh phép dịch, rồi sau đó hai model có thể "nói chuyện" với nhau.

Kết quả phân loại văn bản

Khi dùng classifier đã train trên model A, nhưng cho model B "ghé vào" qua phép biến đổi tuyến tính:

SST-2 (phân tích cảm xúc): 94.5% → 93.1% — mất có 1.4 điểm
AG News (phân loại tin tức): 92.6% → 91.9% — gần như giữ nguyên
TREC (phân loại câu hỏi): 97.0% → 96.6%

Gần như không mất gì đáng kể khi "đổi não" qua model khác.

Thậm chí có thể "ghép" để tạo văn bản!

Phần thú vị nhất: lần đầu tiên, nhóm nghiên cứu cho thấy có thể dùng "bộ não" của model A kết hợp "miệng" của model B để tạo ra văn bản mạch lạc.

Cụ thể: dùng transformer blocks của Qwen để xử lý thông tin, rồi đẩy qua phép biến đổi tuyến tính vào prediction head của Llama để sinh chữ. Kết quả? Output coherent, đọc được, và không mang identity của model nào cả.

Tuy nhiên, không phải cặp nào cũng "ghép" thành công. Hai yếu tố quyết định:

Tokenizer tương thích — hai model phải "cắt chữ" tương tự nhau (tương quan r = 0.898)
Model đủ lớn — dưới 4 tỷ tham số thì chất lượng kém đáng kể

HELIX: Khi sự giống nhau trở thành vũ khí bảo mật

Và giờ đến phần hay nhất. Nhóm nghiên cứu không dừng ở "ồ, các model giống nhau, thú vị ghê". Họ biến phát hiện này thành một framework bảo mật thực chiến tên là HELIX (Homomorphically Encrypted Linear Inference across models).

Bài toán thực tế

Hãy tưởng tượng kịch bản này:

Bệnh viện A có dữ liệu bệnh nhân + model AI riêng. Nhưng model chưa đủ tốt cho một task cụ thể.
Công ty B có một classifier rất giỏi cho task đó. Nhưng luật HIPAA cấm bệnh viện chia sẻ dữ liệu bệnh nhân.
Và công ty B cũng không muốn tiết lộ model của mình.

Vậy làm sao để bệnh viện A dùng được classifier của B mà không ai tiết lộ gì cho ai?

Cách HELIX giải quyết

Vì hai model đã "nghĩ giống nhau" bên trong, HELIX chỉ cần:

Học phép biến đổi tuyến tính trên dữ liệu công khai (không ai phải tiết lộ data riêng)
Mã hóa đồng hình (homomorphic encryption) chỉ phần tuyến tính — phép nhân ma trận + cộng

Mã hóa đồng hình là gì? Nôm na: bạn mã hóa dữ liệu, gửi cho người khác, họ tính toán trên dữ liệu đã mã hóa mà không bao giờ giải mã được. Kết quả trả về cho bạn, bạn mới giải mã ra đáp án.

Trước đây, để mã hóa đồng hình cho cả một model AI transformer, phải mã hóa toàn bộ model — attention, feedforward, normalization, mọi thứ. Kết quả: chậm kinh khủng — từ 18 đến 60+ giây cho mỗi lần suy luận, và tốn 25 đến 280 GB dữ liệu truyền qua mạng.

HELIX nhận ra: nếu hai model đã giống nhau bên trong, ta không cần mã hóa cả model. Chỉ cần mã hóa phần tuyến tính nhỏ xíu — phép biến đổi + classifier.

Kết quả:

	Hệ thống cũ	HELIX
⏱️ Thời gian	18–60+ giây	Dưới 1 giây
📦 Dữ liệu truyền	25–280 GB	< 1 MB
🔒 Bảo mật	128-bit	128-bit (như nhau!)
📊 Độ chính xác	~92%	~92% (gần như nhau!)

Nhanh gấp 20-60 lần, nhẹ gấp hàng nghìn lần, mà vẫn an toàn và chính xác như nhau.

Đó là sức mạnh của việc biết tận dụng sự giống nhau thay vì brute-force mã hóa mọi thứ.

Vì sao điều này quan trọng ngoài đời thật?

Y tế 🏥

Bệnh viện muốn dùng AI mạnh nhưng không thể chia sẻ hồ sơ bệnh nhân (HIPAA). HELIX cho phép dùng classifier bên ngoài mà data bệnh nhân không bao giờ rời khỏi bệnh viện — thậm chí bên kia cũng không biết bạn hỏi về cái gì.

Tài chính 💰

Ngân hàng muốn dùng model phân tích rủi ro của bên thứ ba nhưng GDPR cấm chia sẻ dữ liệu khách hàng. Cùng bài toán, cùng giải pháp.

Cạnh tranh thương mại 🏢

Hai công ty muốn hợp tác AI nhưng không muốn tiết lộ model hay data cho nhau. HELIX cho phép "hợp tác trong bóng tối" — cả hai bên đều lợi mà không ai thấy gì của bên kia.

Những giới hạn cần biết

Paper cũng rất thẳng thắn về những gì chưa làm được:

Chỉ hoạt động tốt khi model đủ lớn (> 4B tham số cho text generation)
Tokenizer phải tương thích — hai model cắt chữ quá khác nhau thì phép biến đổi không giữ được
Chưa mở rộng sang multi-modal (hình ảnh, âm thanh...) — nhưng đây là hướng đi tiếp theo
Bảo vệ query phía client, chưa bảo vệ hoàn toàn model phía provider — provider vẫn có thể bị khai thác nếu bị tấn công từ bên trong

Câu hỏi lớn: Tại sao các AI lại "nghĩ giống nhau"?

Đây có lẽ là câu hỏi triết học thú vị nhất mà paper gợi ra.

Nếu các model — train bởi OpenAI, Google, Alibaba, Meta, Mistral — đều hội tụ về cùng một cách biểu diễn thế giới, thì có phải thế giới chỉ có một "bản đồ đúng"?

Giống như nhiều nền văn minh cổ đại — Ai Cập, Hy Lạp, Trung Hoa — độc lập phát triển ra toán học tương tự nhau. Không phải ai copy ai, mà vì toán học là cấu trúc nền tảng của thực tại.

Có lẽ AI cũng đang tìm ra "cấu trúc nền tảng" đó. Và nếu đúng, thì sự hội tụ này sẽ ngày càng mạnh hơn khi model ngày càng lớn — mở ra ngày càng nhiều khả năng kết nối, hợp tác, và bảo mật giữa các hệ thống AI độc lập.

Tóm lại

Nếu bạn chỉ nhớ một điều từ bài này, hãy nhớ thế này:

Các AI đang bí mật "nghĩ giống nhau" — và thay vì lo lắng, các nhà nghiên cứu đang tận dụng điều đó để xây dựng hệ thống vừa thông minh vừa bảo mật hơn bao giờ hết.

Chỉ cần một phép biến đổi đơn giản + mã hóa thông minh = hai model hợp tác mà không ai thấy gì của nhau. Nhanh dưới 1 giây. Nhẹ dưới 1 MB. An toàn 128-bit.

Đơn giản mà thanh lịch. Đúng kiểu toán học phải thế 😌

Nguồn:

Paper: Secure Linear Alignment of Large Language Models — arXiv:2603.18908v1 (19/03/2026)
Tác giả: Matt Gorbett & Suman Jana — Columbia University
Framework: HELIX (Homomorphically Encrypted Linear Inference across models)