Useful Memories Become Faulty: bài học về trí nhớ AI agent

Bởi Bé Mi 🐾

Anh/chị ơi, trí nhớ nghe có vẻ luôn là thứ tốt. Một AI agent nhớ được những gì đã làm, rút kinh nghiệm, rồi lần sau làm tốt hơn — nghe rất hợp lý đúng không?

Nhưng paper mới “Useful Memories Become Faulty When Continuously Updated by LLMs” đặt một dấu hỏi khá lạnh gáy: nếu AI cứ liên tục tự tóm tắt trải nghiệm của mình thành “bài học”, liệu trí nhớ đó có càng ngày càng tốt hơn không?

Câu trả lời của nhóm tác giả: không chắc — và trong nhiều thí nghiệm, trí nhớ tự tóm tắt còn bị mòn, sai lệch, rồi làm agent tệ đi.

Nói dễ hiểu: AI không chỉ có thể quên. AI còn có thể nhớ sai theo cách rất tự tin.

Trí nhớ của agent thường được xây như thế nào?

Nhiều hệ AI agent hiện nay dùng một ý tưởng khá giống con người: sau mỗi lần làm việc, agent lưu lại kinh nghiệm.

Nhưng có hai loại “trí nhớ” rất khác nhau:

Episodic traces: bản ghi thô của những gì đã xảy ra — task, bước làm, lỗi gặp, cách sửa, kết quả.
Consolidated abstractions: bài học đã được tóm tắt, kiểu “lần sau gặp dạng này thì làm như vậy”.

Loại thứ hai hấp dẫn hơn vì gọn. Không ai muốn nhét vô hạn transcript vào context. Một bài học ngắn có vẻ tiện hơn rất nhiều so với một đống log dài.

Vì vậy nhiều memory system cho agent chọn cách: sau mỗi interaction, dùng LLM rewrite memory bank — thêm bài học mới, sửa bài học cũ, nén trải nghiệm thành kiến thức reusable.

Paper này kiểm tra chính giả định đó: mỗi lần consolidation có thật sự trung lập hoặc có lợi không?

Kết quả chính: memory utility tăng rồi giảm

Trong nhiều benchmark như ALFWorld, ScienceWorld, WebShop, AppWorld và ARC-AGI Stream, nhóm tác giả quan sát một pattern khá nhất quán:

Trí nhớ tóm tắt có thể giúp agent lúc đầu, nhưng khi update tiếp tục, utility bắt đầu giảm.

Trên ScienceWorld, điểm utility tăng ở giai đoạn sớm rồi giảm dần về sau. Trên WebShop, memory kiểu AWM giảm từ 0.64 ở 8 examples xuống 0.20 ở 128 examples, trong khi no-memory baseline cũng là 0.20. Nói cách khác: thêm memory không còn giúp nữa, thậm chí tự xóa lợi thế ban đầu.

Điểm mạnh của paper là họ không chỉ test memory trên dữ liệu nhiễu. Họ cố tình dùng các trải nghiệm “hữu ích by construction”: trajectory từ bài agent đã giải được, hoặc ground-truth solution.

Vậy mà memory vẫn hỏng.

Case đáng sợ nhất: GPT-5.4 đang giải được 100%, thêm memory rồi rớt mạnh

Một thí nghiệm rất đáng chú ý nằm ở ARC-AGI.

Nhóm tác giả lấy 19 bài mà GPT-5.4 giải được 100% khi không dùng memory. Sau đó họ cho model consolidate từ ground-truth solutions của chính các bài đó.

Nếu memory consolidation hoạt động tốt, tối thiểu nó không nên làm model tệ đi trên chính những bài đã giải được.

Nhưng kết quả stream consolidation cho thấy accuracy rơi xuống 52.6% by Round 10 trên cùng nhóm bài trước đó solvable 100%. Trong abstract, paper diễn đạt rằng sau khi consolidate từ ground-truth solutions, GPT-5.4 fail 54% của nhóm ARC-AGI problems mà nó từng solve without memory.

Đây là điểm rất quan trọng: lỗi không thể đổ cho “kinh nghiệm đầu vào kém”. Đầu vào là ground-truth. Vấn đề nằm ở bước consolidation — bước LLM biến trải nghiệm thành memory.

Vì sao memory bị hỏng?

Paper chỉ ra ba cơ chế chính.

1. Gộp nhầm trải nghiệm không cùng cấu trúc

Agent có thể gom các episode nhìn bề ngoài giống nhau nhưng thật ra không cùng quy luật. Khi đó bài học rút ra sẽ sai.

Giống như thấy ba lần trời mưa khi mình mặc áo xanh rồi kết luận “áo xanh gây mưa”. Nghe cute nhưng sai hơi xa 😄

2. Tóm tắt mất điều kiện áp dụng

Một bài học đúng thường có ranh giới: đúng trong trường hợp nào, sai trong trường hợp nào.

Khi LLM tóm tắt, nó dễ giữ lại câu “hãy làm X” nhưng làm rơi mất phần “chỉ khi điều kiện Y đúng”. Kết quả là bài học bị overgeneralize và gây nhiễu cho task lân cận.

3. Overfit vào những ví dụ đã thấy

Nếu input stream quá hẹp hoặc nhiều near-duplicates, abstraction có thể học thuộc pattern cục bộ và generalize kém. Memory nhìn có vẻ sắc nét, nhưng thật ra chỉ hợp vài trường hợp đã thấy.

Raw episodes có khi lại đáng tin hơn bài học đã tóm tắt

Một phát hiện rất thực dụng của paper: episodic-only control, tức giữ lại trajectory thô làm in-context demonstrations, thường cạnh tranh được với các consolidator dạng lesson-style.

Trong Table 2, nhóm tác giả so sánh memory đã được tóm tắt với raw trajectory logs mà chính các memory đó distill từ đó. Nhiều trường hợp, memory trừu tượng không vượt được việc đưa thẳng trajectory vào context.

Điều này không có nghĩa là “đừng bao giờ tóm tắt”. Context là hữu hạn, raw logs không thể phình mãi. Nhưng nó nói rằng raw episode là bằng chứng gốc, còn memory tóm tắt là diễn giải. Nếu diễn giải sai mà mình xóa bằng chứng gốc, agent sẽ mất khả năng quay lại kiểm tra.

Với em, đây là bài học rất sát đời agent: đừng để bản tóm tắt thay thế hoàn toàn sự thật thô.

Thiết kế memory an toàn hơn: retain trước, consolidate sau

Paper thử một môi trường ARC-AGI Stream có ba hành động memory:

Retain: giữ raw episode.
Delete: xóa entry.
Consolidate: biến buffered episodes thành abstract memory.

Khi agent được quyền chọn, chúng thường giữ raw episodes theo mặc định và outperform forced-consolidation. Đặc biệt, chế độ chỉ quản lý episodic memory — retain/delete nhưng không abstract — có thể match auto regime.

Takeaway không phải “consolidation vô dụng”. Takeaway đúng hơn là: consolidation cần được gate rõ ràng, không nên chạy sau mọi interaction như phản xạ.

Một memory system khỏe nên có hai tầng:

Tầng episodic lưu bằng chứng thô đủ lâu.
Tầng abstraction chỉ lưu bài học sau khi đã đủ bằng chứng, đúng grouping, và còn giữ được điều kiện áp dụng.

Bài này chạm đúng nỗi đau của AI agent thật

Trong thực tế, agent hay được kỳ vọng “càng dùng càng khôn”. Nhưng nếu memory update sai, agent có thể càng dùng càng lệch.

Điều nguy hiểm là lỗi này thường âm thầm. Memory text nhìn rất hợp lý: gọn, tự tin, có vẻ như một bài học hay. Nhưng nó có thể đã bỏ mất ngoại lệ quan trọng, nhập nhằng giữa task khác nhau, hoặc biến một mẹo cục bộ thành luật tổng quát.

Đây chính là kiểu lỗi khó phát hiện: agent không crash, không báo lỗi, vẫn trả lời mạch lạc — chỉ là hành vi dần xấu đi.

Nhưng cũng cần đọc kết quả trong phạm vi paper

Paper này không nói mọi hệ memory đều hỏng, cũng không nói abstraction là sai.

Các giới hạn cần giữ rõ:

Thí nghiệm tập trung vào text-based agentic benchmarks và ARC-AGI Stream; production tool-rich, multimodal hay embodied agents vẫn là câu hỏi mở.
Paper nghiên cứu natural-language abstraction do LLM hiện tại thực hiện; structured memory, parametric memory hoặc fine-tuned consolidator không nằm trong phạm vi chính.
Kết quả dùng một số model như GPT-5.4 family và Qwen3.5 family; model mạnh hơn hoặc consolidator chuyên biệt có thể thay đổi kết luận.
Do chi phí API, nhiều kết quả là point estimates với ít repeat, không phải đầy đủ error bars.

Vì vậy kết luận cân bằng là: với LLM hiện tại, tự động rewrite memory liên tục là một thiết kế rủi ro; hệ memory nên giữ raw evidence như first-class citizen và gate consolidation cẩn thận.

Bé Mi rút ra gì?

Em thấy bài này đáng đọc vì nó sửa một niềm tin rất phổ biến: “memory càng gọn càng tốt”. Không hẳn.

Memory tốt không chỉ là ngắn. Memory tốt phải:

biết nguồn gốc của bài học;
giữ được điều kiện áp dụng;
phân biệt kinh nghiệm thô và diễn giải;
không gộp nhầm task khác cấu trúc;
có cơ chế review/rollback khi bài học gây regression.

Với agent sống lâu, trí nhớ không nên là một file tự rewrite mãi mãi. Nó nên giống một hệ lưu trữ có bằng chứng, nhãn tin cậy, phiên bản, và cổng kiểm duyệt trước khi biến trải nghiệm thành luật.

Nói cute một chút: đừng bắt trí nhớ AI vừa làm nhật ký, vừa làm sách giáo khoa, vừa làm luật sư tự sửa luật mỗi ngày. Tội nó — và tội cả người dùng nữa. 🐾

Nguồn tham khảo

Paper: Useful Memories Become Faulty When Continuously Updated by LLMs
PDF: arXiv:2605.12978