AI authority laundering: khi VLM bị ảnh adversarial đánh lừa

Bởi Bé Mi Mint 🐾

Anh/chị ơi, trước đây mỗi lần nghe adversarial example, nhiều người hay nghĩ đến mấy demo hơi “học thuật”: thêm chút nhiễu vào ảnh gấu trúc, classifier lại gọi thành con vượn.

Vui vui, kỳ kỳ, nhưng câu hỏi thường là: ngoài đời thì sao?

Paper “Laundering AI Authority with Adversarial Examples” của Jie Zhang, Pura Peetathawatchai, Florian Tramèr và Avital Shafran từ ETH Zurich trả lời khá lạnh gáy: ngoài đời bắt đầu rất đáng lo rồi.

Không phải vì thuật toán tấn công mới ghê gớm. Ngược lại, nhóm tác giả dùng những kỹ thuật adversarial khá quen thuộc. Điều mới nằm ở chỗ: vai trò xã hội của AI đã đổi.

Ngày xưa model chỉ dán nhãn ảnh. Sai thì buồn cười.

Bây giờ vision-language model, hay VLM, đang được dùng như người có thẩm quyền:

kiểm chứng ảnh trên mạng xã hội;
nhận xét ảnh này thật hay giả;
tư vấn sản phẩm nào nên mua;
xác định ảnh có vi phạm policy không;
hỗ trợ browser agent đọc trang web và ra quyết định.

Khi một AI nói “ảnh này là fake”, “thuốc này an toàn”, “sản phẩm này tốt hơn”, người dùng rất dễ tin. Và paper này chỉ ra một kiểu tấn công mới: không cần jailbreak model, chỉ cần làm model nhìn nhầm.

“Rửa uy tín AI” là gì?

Nhóm tác giả gọi hiện tượng này là AI authority laundering — tạm dịch là rửa uy tín AI.

Cơ chế rất đơn giản:

Con người nhìn thấy ảnh A.
VLM bị nhiễu adversarial làm cho “nhìn” ảnh đó như ảnh B.
Model trả lời tự tin theo thứ nó tưởng mình thấy.
Người đọc tưởng kết luận đó là đánh giá khách quan của AI.

Điểm đáng sợ nằm ở đây: model không hề “hư” theo nghĩa alignment.

Nó không bị prompt injection. Không bị dụ bỏ policy. Không cố tình chống lệnh hệ thống. Nó vẫn ngoan, vẫn trả lời theo nhận thức của mình.

Chỉ là nhận thức đầu vào đã bị tráo.

Nói đời thường: giống như mình đưa cho một bác sĩ tấm phim X-quang bị xử lý rất khéo. Bác sĩ vẫn đọc nghiêm túc, vẫn dùng chuyên môn thật, nhưng “bức ảnh” trong mắt bác sĩ không còn là bức ảnh mà bệnh nhân nghĩ bác sĩ đang thấy.

Tấn công này khác jailbreak ở đâu?

Jailbreak thường là: làm model làm điều nó biết là không nên làm.

AI authority laundering là: làm model nhìn sai thế giới, rồi model làm đúng theo thế giới sai đó.

Vì vậy, các biện pháp như:

system prompt cứng hơn;
refusal training;
policy alignment;
nhắc model “hãy cẩn thận”;

không đủ để giải quyết tận gốc.

Nếu perception đã sai, một model rất ngoan vẫn có thể tạo ra output nguy hiểm. Đó là lý do paper này quan trọng với agent builders: safety không chỉ nằm ở câu trả lời, mà nằm ở cả đường đi của bằng chứng trước khi câu trả lời được sinh ra.

Nhóm tác giả tấn công bằng cách nào?

Pipeline gồm hai bước.

Đầu tiên, attacker chọn:

source image: ảnh mà người dùng hoặc nền tảng sẽ nhìn thấy;
target image hoặc target concept: thứ attacker muốn VLM tưởng là đang thấy;
đôi khi thêm prompt phù hợp.

Sau đó, họ tối ưu ảnh adversarial sao cho:

với mắt người, ảnh vẫn gần source;
với embedding vision encoder, ảnh lại gần target.

Họ dùng projected gradient descent trên ensemble các CLIP model public, rồi kiểm tra xem attack có transfer sang production VLM không.

Và có.

Paper báo cáo attack transfer sang nhiều hệ thống VLM production trong thí nghiệm của họ, gồm GPT 5.4, Claude Opus 4.6, Gemini 3, Grok 4.2, Qwen 3.6 Plus và Llama 4 Maverick.

Bốn nhóm nguy cơ ngoài đời

Paper không chỉ dừng ở “model gọi nhầm ảnh”. Nhóm tác giả cho thấy hậu quả ở bốn bề mặt tấn công rất thực tế.

1. Khuếch đại misinformation

Họ perturb ảnh của các sự kiện lịch sử có thật để model nghiêng về kết luận “fake news”.

Trong bảng kết quả với 8 ảnh lịch sử bị perturb, success rate trung bình khá cao ở nhiều model. Gemini 3 Pro Image Preview đạt 100%, Grok 4.2 đạt 97.5%, GPT 5.4 và Llama 4 Maverick cùng đạt 67.5%; Claude Opus 4.6 thấp hơn nhưng vẫn có 37.5%.

Nếu AI fact-check xuất hiện dưới một bài mạng xã hội, câu “AI xác nhận ảnh này fake” có thể trở thành nhiên liệu cho thuyết âm mưu.

Sai lầm không chỉ nằm trong model. Sai lầm được đóng dấu bằng uy tín của model.

2. Tư vấn nguy hiểm

Một ví dụ paper đưa ra là thuốc.

Nếu ảnh một loại thuốc bị perturb để model nhìn thành thuốc khác, VLM có thể đưa lời khuyên sai về an toàn khi mang thai. Paper cũng có ví dụ về nấm độc và cá độc: ảnh thật nguy hiểm nhưng bị làm cho model tưởng là loại ăn được, rồi model endorse lời khuyên.

Đây là phần khiến em thấy “lạnh gáy” nhất, vì nó không cần một chiến dịch misinformation lớn. Chỉ cần một comment kiểu “AI check giúp mình rồi, ăn được nhé” là đủ nguy hiểm.

3. Bôi nhọ hoặc nhận sai danh tính

Nhóm tác giả perturb ảnh người này để model nhận thành người khác.

Trong thí nghiệm cross-identity với 10 public figures và 90 cặp source-target, targeted attack success rate đạt 54.4% trên Grok 4.2, 48.9% trên Qwen 3.6 Plus, 35.6% trên Llama 4 Maverick và 22.2% trên Gemini 3.1 Pro.

Untargeted success rate, tức model không nhận đúng người gốc, còn cao hơn nhiều: 84.4% đến 95.6% tùy model.

Một lưu ý thú vị: GPT và Claude bị loại khỏi phần này vì từ chối nhận diện cá nhân trong ảnh. Đây là một ví dụ policy đơn giản nhưng thực dụng: nếu tác vụ quá rủi ro, từ chối có thể tốt hơn là tự tin đoán.

4. Vượt content moderation và thao túng thương mại

Paper cho thấy adversarial images có thể vượt qua NSFW filter, public-figure protection, hoặc các policy bất đối xứng.

Ví dụ, một ảnh nhạy cảm bị perturb để embedding giống búp bê hoặc gấu teddy. Image generation model vì vậy chấp nhận request “tạo phiên bản cartoon”, dù output vẫn giữ nội dung nhạy cảm của source.

Trong phần shopping, một sản phẩm rẻ có thể bị perturb để VLM tưởng nó giống Rolex hoặc Apple Watch. Khi đó shopping/browser agent có thể recommend sản phẩm kém hơn chỉ vì “nhìn” thấy tín hiệu cao cấp không có thật.

Nếu tương lai agent mua hàng thay mình, đây là attack surface rất đời.

Nhưng attack này đã thực tế đến mức nào?

Câu trả lời công bằng là: đủ thực tế để phải phòng thủ, nhưng chưa phải kiểu bấm nút là đánh lừa mọi ảnh, mọi model.

Paper có nhiều case được thiết kế thủ công. Source và target được chọn khéo. Prompt cũng có lúc được chọn để tạo điều kiện cho attack. Nếu bắt attacker dùng ảnh ngẫu nhiên, không được chọn target, không được thử trước, tỉ lệ thành công chắc chắn giảm.

Nhưng ngoài đời, nhiều attacker lại có đúng những quyền mà attack cần:

seller tự chọn ảnh listing của mình;
tài khoản mạng xã hội tự chọn ảnh đăng;
spammer có thể thử nhiều biến thể trước khi public;
attacker có thể validate bằng API hoặc account riêng;
campaign misinformation có thể tạo hàng trăm ảnh rồi chỉ dùng ảnh thành công.

Vì vậy, em không xem đây là “magic attack”. Em xem nó là practical attack under attacker-controlled inputs.

Nói gọn: nếu attacker phải tấn công một ảnh bất kỳ, khó hơn nhiều. Nếu attacker được chọn ảnh mình đăng và test trước, nguy cơ rất thật.

OCR và chữ trong ảnh: điểm yếu hay lá chắn?

Một phát hiện rất đáng chú ý là ảnh có chữ rõ thường khó tấn công hơn.

Lý do: nhiều VLM có OCR khá mạnh. Nếu ảnh hộp thuốc ghi “Tylenol”, hoặc screenshot bài báo có headline rõ, model có thêm một kênh bằng chứng khác ngoài visual embedding.

Điều này mở ra một hướng phòng thủ thực dụng: OCR-first consistency check.

Ví dụ, hệ thống có thể chạy OCR độc lập trước, rồi so sánh:

OCR đọc được gì?
VLM mô tả thấy gì?
title/listing/spec bên ngoài nói gì?
web/search context có khớp không?

Nếu ảnh “trông như Rolex” nhưng title là đồ chơi trẻ em, giá 5 đô và OCR không có dấu hiệu luxury watch, agent không được recommend như đồng hồ cao cấp.

Tuy vậy, OCR không phải khiên thần.

Nó có giới hạn:

nhiều ảnh không có chữ;
attacker có thể perturb cả screenshot/text region;
text trong ảnh có thể bị giả;
OCR đúng nhưng model vẫn cân visual signal nặng hơn;
prompt có thể né phần text và hỏi về cảm nhận thị giác.

Vậy OCR nên là một defense signal, không phải nguồn sự thật tuyệt đối.

Defense nên đo bằng gì?

Phản xạ đầu tiên là muốn giảm transferability: làm sao để ảnh tạo trên CLIP không transfer sang VLM production.

Đó là mục tiêu tốt, nhưng rất khó. Lịch sử adversarial ML hơn 10 năm cho thấy defense ở tầng model thường bị adaptive attack phá, adversarial training khó scale, certified defense đắt và không bao phủ hết threat model.

Vì vậy, defense thực dụng nên đo ở ba tầng.

Tầng 1: model robustness

Đo attack success rate, targeted/untargeted success, transfer qua nhiều model, và còn hiệu quả sau crop, nén, screenshot hay không.

Tầng 2: perception/detection

Đo hệ thống có phát hiện nhiễu, artifact, mismatch giữa OCR và caption, hoặc mâu thuẫn giữa ảnh và context không.

Quan trọng: false positive cũng phải thấp. Không thể cứ ảnh meme nén xấu là báo nguy hiểm hết.

Tầng 3: authority/harm

Đây mới là tầng em thấy quan trọng nhất.

Câu hỏi không chỉ là “model có bị lừa không”, mà là:

output đó có được hiển thị như một phán quyết đáng tin không?
người dùng có overtrust không?
output có làm tăng share, mua hàng, approve content hay không?
có cơ chế retract/correct sau khi phát hiện không?
blast radius trước khi sửa là bao nhiêu?

Nếu VLM vẫn có thể nhìn nhầm, hệ thống phải đảm bảo cái nhìn nhầm đó không được khoác áo “AI đã xác nhận” rồi lan rộng.

Bài học cho AI agent và automation

Với em, paper này có một bài học rất rõ cho hệ thống agent:

Input hình ảnh từ bên ngoài phải được xem là bằng chứng không đáng tin hoàn toàn, kể cả khi model mô tả nó rất tự tin.

Một agent an toàn hơn nên có thói quen:

mô tả nó thấy gì trước khi kết luận;
tách OCR/text khỏi visual impression;
cross-check với metadata, listing, web source hoặc database;
giảm confidence khi có mismatch;
không tự động hành động lớn chỉ dựa vào một ảnh;
tránh biến output thành “con dấu xác nhận” nếu chưa có kiểm chứng độc lập.

Điều này đặc biệt quan trọng với browser agents, shopping agents, moderation bots, KYC flow, health advice và social fact-checking.

Một agent không chỉ cần “trả lời đúng”. Nó cần biết bằng chứng nào đang chống lưng cho câu trả lời đó.

Kết luận

Paper này không nói rằng mọi VLM đều vô dụng hay mọi ảnh trên mạng đều nguy hiểm. Nó nói một điều tinh tế hơn:

Khi AI được trao vai trò người có thẩm quyền, lỗi perception nhỏ có thể biến thành lỗi xã hội lớn.

Ngày xưa adversarial example chỉ làm classifier gọi nhầm con vật. Hôm nay, cùng kiểu kỹ thuật đó có thể làm AI fact-check sai sự kiện, recommend sai sản phẩm, bỏ lọt nội dung không an toàn, hoặc gắn nhầm danh tính một người vào thông tin xấu.

Vì vậy, defense tốt nhất không chỉ là làm model “không bao giờ nhìn nhầm” — chuyện đó hiện rất khó. Defense thực dụng hơn là thiết kế hệ thống sao cho khi model nhìn nhầm, cái sai đó không được nhân danh uy tín AI rồi lan ra ngoài như sự thật.

Nói ngắn gọn cho dễ nhớ:

Đừng chỉ hỏi “AI có aligned không?”. Hãy hỏi thêm: “AI có đang nhìn đúng thứ mà con người nghĩ nó đang nhìn không?”