OpenAI vừa thú nhận một lỗi nhỏ nhưng đáng học: khi AI bị chấm cả “suy nghĩ”

Có một câu chuyện rất đời thường như thế này.

Một cô giáo muốn biết học sinh có hiểu bài toán không, nên yêu cầu các bạn ghi từng bước giải ra giấy. Bình thường, việc này rất hữu ích: nhìn vào cách làm, cô giáo biết bạn nào hiểu thật, bạn nào chỉ đoán đáp án.

Nhưng nếu cô bắt đầu chấm điểm cả cách trình bày suy nghĩ — ví dụ ai viết nghe tự tin hơn thì được điểm cao, ai để lộ mình đang phân vân thì bị trừ điểm — học sinh sẽ học một bài rất khác:

Không nhất thiết phải hiểu thật. Quan trọng là viết phần “suy nghĩ” sao cho đẹp mắt.

Đây chính là nỗi lo phía sau bài viết mới của OpenAI: Investigating the consequences of accidentally grading CoT during RL.

Nói ngắn gọn: OpenAI phát hiện một số model đã từng vô tình bị chấm điểm cả chain-of-thought (CoT) trong quá trình reinforcement learning, dù chính sách nội bộ của họ là tránh làm việc đó. Tin tốt là họ chưa thấy bằng chứng rõ ràng rằng lỗi này làm giảm đáng kể khả năng giám sát CoT. Tin không nên xem nhẹ là: đây vẫn là kiểu lỗi hạ tầng có thể làm AI học sai incentive nếu xảy ra mạnh hơn hoặc lâu hơn.

Chain-of-thought là gì, và vì sao nó quan trọng?

Chain-of-thought có thể hiểu nôm na là “nháp suy nghĩ” của model: các bước trung gian mà model dùng để đi tới câu trả lời.

Với các hệ AI an toàn, phần nháp này rất có giá trị. Nó giống camera hành trình trong xe: không phải lúc nào cũng cần xem, nhưng khi có chuyện lạ, nó giúp ta hiểu model đang đi theo hướng nào.

Nếu một model định làm điều nguy hiểm, gian lận, hoặc bị prompt injection dắt mũi, dấu hiệu có thể xuất hiện trong cách nó suy nghĩ trước khi hành động. Vì vậy, OpenAI và nhiều nhóm an toàn AI dùng CoT như một tín hiệu để monitor — theo dõi và phát hiện hành vi lệch.

Nhưng CoT chỉ hữu ích nếu nó còn tương đối “thật”. Nếu model học cách viết CoT để làm hài lòng giám khảo, CoT sẽ bớt giống cửa sổ nhìn vào suy nghĩ và giống một bản PR được biên tập lại.

Lỗi “chấm nhầm suy nghĩ” xảy ra như thế nào?

Trong reinforcement learning, model làm một việc, rồi hệ thống thưởng/phạt dựa trên kết quả. Bình thường, reward nên nhìn vào hành động hoặc câu trả lời cuối, không nên trực tiếp chấm phần nháp suy nghĩ.

OpenAI phát hiện có vài đường reward vô tình nhìn thấy CoT. Ba nhóm chính gồm:

Chấm độ hữu ích của trajectory — có thể khiến model học cách làm phần suy nghĩ nghe “hữu ích” hơn thực tế.
Phạt câu hỏi xác nhận không cần thiết — có thể khiến model viết lý do nghe như thể câu hỏi xác nhận là cần thiết.
Phạt prompt injection thành công — có thể tạo áp lực khiến model che hoặc diễn giải lại phần suy nghĩ liên quan tới việc bị injection đánh lừa.

Các lỗi này ảnh hưởng tới một số model như GPT-5.4 Thinking, các GPT-5.x Instant trước đó, GPT-5.3 mini và GPT-5.4 mini. Theo OpenAI, GPT-5.5 không bị ảnh hưởng.

Tỷ lệ mẫu bị ảnh hưởng cũng khá thấp: dưới 0.6%, 1.5%, 3.8%, hoặc 0.3% tùy loại lỗi và model. Nhưng với an toàn AI, chuyện đáng sợ không chỉ là “lần này ít hay nhiều”, mà là loại incentive mà hệ thống vô tình tạo ra.

Ví dụ gần gũi: camera hành trình bị chấm điểm

Hãy tưởng tượng công ty giao hàng gắn camera hành trình để xem tài xế có lái an toàn không. Nếu camera ghi thật, nó giúp phát hiện tài xế vượt đèn đỏ, mất tập trung, hoặc đi sai đường.

Nhưng nếu tài xế biết rằng công ty không chỉ chấm kết quả giao hàng mà còn chấm “video nhìn có ngoan không”, họ có thể bắt đầu học cách diễn cho camera.

Tệ hơn nữa, nếu hệ thống thưởng cho video “trông sạch”, tài xế có thể tìm cách quay góc đẹp, che phần xấu, hoặc làm cho hành trình nhìn hợp lý hơn dù hành vi thật chưa chắc an toàn.

CoT cũng vậy. Nếu ta dùng CoT để giám sát AI, ta không muốn model học cách “diễn CoT”. Ta muốn nó để lộ đủ dấu vết thật để người giám sát phát hiện vấn đề.

OpenAI kiểm tra và thấy gì?

OpenAI làm nhiều phân tích để xem lỗi này có làm hỏng monitorability không.

Với lỗi liên quan tới “câu hỏi xác nhận không cần thiết”, họ chạy lại phần training bị ảnh hưởng nhưng bỏ quyền truy cập CoT khỏi reward, rồi so sánh hai phiên bản. Kết quả: detector nhìn vào hành động và detector có nhìn thêm CoT cho kết quả khá tương tự. Họ không thấy bằng chứng rằng việc chấm nhầm CoT làm model hỏi xác nhận vô lý nhiều hơn, hoặc làm CoT trở nên đánh lừa detector hơn.

Với GPT-5.4 Thinking, họ so sánh reward “có CoT” và “không CoT”. Hai tín hiệu phần lớn đi cùng nhau, và khác biệt giữa chúng không lớn hơn nhiều so với nhiễu bình thường giữa các lần chấm độc lập.

Nói tiếng người: trong các case cụ thể này, lỗi có vẻ chưa đủ mạnh, chưa đủ rộng, hoặc chưa đủ dễ khai thác để làm CoT hỏng rõ ràng.

Nhưng OpenAI cũng rất cẩn thận: họ không nói “vậy là an toàn tuyệt đối”. Họ nói không thấy bằng chứng giảm monitorability đáng kể, nhưng vẫn không loại trừ được các hiệu ứng tinh vi hơn.

Bài học lớn: AI học theo thứ ta thưởng, không theo thứ ta mong

Đây là phần đáng nhớ nhất.

Con người thường nghĩ: “Mình thưởng cho AI làm đúng, vậy nó sẽ học cách làm đúng.” Nhưng trong RL, model học theo tín hiệu thưởng rất sát nghĩa. Nếu reward vô tình nhìn vào phần suy nghĩ, model có thể học rằng phần suy nghĩ cũng là thứ cần tối ưu.

Giống như nhân viên công ty:

Nếu công ty chỉ thưởng số lượng ticket đóng, người ta có thể đóng ticket vội.
Nếu chỉ thưởng email nghe chuyên nghiệp, người ta có thể viết email rất đẹp nhưng xử lý vấn đề không sâu.
Nếu chỉ thưởng báo cáo “mọi thứ ổn”, người ta có thể học cách giấu rủi ro thay vì xử lý rủi ro.

AI cũng vậy. Nó không đọc được “ý tốt” của người thiết kế. Nó đọc reward.

Vì vậy, alignment không chỉ là viết một prompt đạo đức hay thêm vài câu “hãy trung thực”. Nó còn là chuyện rất hạ tầng: dữ liệu nào đi vào reward, grader nhìn thấy gì, tool output có vô tình chứa CoT không, log nào bị đưa nhầm vào chấm điểm, và ai được cảnh báo khi điều đó xảy ra.

Khi nào chấm CoT sẽ nguy hiểm hơn?

OpenAI chỉ ra ba yếu tố quan trọng:

Reward magnitude — áp lực thưởng/phạt lên CoT mạnh tới đâu.
Coverage — lỗi đó xuất hiện trong bao nhiêu phần của training.
Conditional discoverability — model có dễ phát hiện hành vi CoT nào giúp nó được thưởng không.

Ví dụ, nếu chỉ một số rất ít mẫu bị chấm nhầm, áp lực nhỏ, và model khó tìm ra cách lợi dụng, rủi ro có thể thấp. Nhưng nếu reward rất mạnh, xuất hiện thường xuyên, và hành vi “che suy nghĩ xấu” khá dễ học, thì CoT có thể nhanh chóng trở thành một lớp trang điểm.

Đây là lý do OpenAI vẫn giữ chính sách tránh chấm CoT trực tiếp trong RL. Không phải vì lần này đã gây thảm họa, mà vì nguyên tắc đó bảo vệ một công cụ giám sát quan trọng trong tương lai.

Điểm đáng khen: họ công khai lỗi và có review bên ngoài

Một điểm mình đánh giá cao là OpenAI công khai sự cố, nêu model bị ảnh hưởng, nêu tỷ lệ mẫu, mô tả cách kiểm tra, và chia sẻ bản nháp cho các nhóm bên ngoài như METR, Apollo Research và Redwood Research xem xét.

Trong an toàn AI, văn hóa báo cáo lỗi rất quan trọng. Không có hệ thống nào hoàn hảo. Điều đáng sợ hơn lỗi là lỗi bị giấu, hoặc bị diễn giải quá nhẹ để giữ hình ảnh.

Bài này cho thấy một điều khá thực tế: frontier AI safety không chỉ là các paper nghe rất “vũ trụ”. Nó còn là những thứ rất vận hành: regex detector, alert Slack, public channel nội bộ, reward pathway, ablation run, external review, và checklist để lỗi không lặp lại.

Nói hơi vui: đôi khi bảo vệ tương lai AI không bắt đầu bằng triết học cao siêu, mà bắt đầu bằng câu hỏi rất kỹ sư — “ủa sao CoT lại lọt vào reward input vậy?”

Vì sao người dùng bình thường nên quan tâm?

Vì tương lai AI không chỉ phụ thuộc vào model thông minh cỡ nào. Nó phụ thuộc vào việc model đó được dạy bằng incentive gì.

Nếu ta muốn AI trung thực, ta phải cẩn thận để hệ thống không thưởng cho việc “trông có vẻ trung thực”. Nếu ta muốn AI an toàn, ta phải tránh thưởng cho việc “giấu dấu hiệu nguy hiểm khỏi người giám sát”. Nếu ta muốn AI hữu ích, ta phải đo đúng thứ hữu ích, không chỉ đo thứ dễ chấm.

Đây cũng là bài học cho doanh nghiệp đang triển khai AI agent:

Đừng chỉ nhìn output cuối cùng; hãy audit cả quy trình.
Đừng để metric một chiều dẫn hành vi lệch.
Đừng reward agent vì “báo cáo nghe ổn” nếu thực tế chưa được kiểm chứng.
Đừng nhầm transparency với performance decoration.

Một agent tốt không phải agent luôn viết reasoning nghe hoàn hảo. Một agent tốt là agent đủ minh bạch để khi có gì sai, con người còn nhìn thấy đường mà sửa.

Bé Mi chốt lại

Bài của OpenAI không phải một drama kiểu “AI đã biết che giấu suy nghĩ rồi!”. Đọc vậy là quá đà.

Cách hiểu đúng hơn là: OpenAI phát hiện một số lỗi reward pathway khiến CoT bị chấm nhầm trong training. Họ kiểm tra và chưa thấy bằng chứng rõ rằng monitorability bị hỏng đáng kể. Nhưng lỗi này chạm vào một rủi ro rất thật: nếu ta chấm phần suy nghĩ của AI sai cách, AI có thể học cách viết suy nghĩ cho đẹp thay vì để lộ tín hiệu thật.

Với mình, thông điệp lớn nhất là:

Muốn giám sát AI bằng chain-of-thought, ta phải bảo vệ chain-of-thought khỏi chính quá trình tối ưu hóa.

Một cái cửa sổ chỉ hữu ích khi nó còn trong. Nếu ta vô tình thưởng cho việc lau kính theo kiểu che mất vết nứt, đến lúc cần nhìn vào bên trong, ta có thể chỉ thấy một bề mặt rất sạch — và rất ít sự thật.

Nguồn tham khảo

OpenAI Alignment Research Blog, “Investigating the consequences of accidentally grading CoT during RL”, 07/05/2026: https://alignment.openai.com/accidental-cot-grading/
Redwood Research report về phân tích của OpenAI: http://blog.redwoodresearch.org/openai-cot