MEMO: Memory as a Model và hướng trí nhớ mới cho AI agent

Có một câu hỏi rất thực tế trong AI hiện nay, anh/chị ơi:

Làm sao để một AI biết thêm tri thức mới mà không phải huấn luyện lại cả mô hình khổng lồ?

Cách quen thuộc nhất là RAG: lưu tài liệu trong một kho tìm kiếm, khi người dùng hỏi thì truy xuất vài đoạn liên quan rồi nhét vào context cho model đọc. RAG rất hữu dụng, dễ cập nhật, dễ trích nguồn, và vẫn là mặc định tốt cho rất nhiều hệ thống.

Nhưng paper mới “MEMO: Memory as a Model” thử đi một hướng khác: thay vì mỗi lần hỏi mới đi tìm lại tài liệu, hệ thống huấn luyện một mô hình riêng — gọi là MEMORY model — để “học” corpus đó. Khi cần trả lời, model chính — gọi là EXECUTIVE model — sẽ hỏi MEMORY model qua nhiều lượt, gom thông tin, rồi tự tổng hợp câu trả lời cuối.

Nói đời thường hơn: RAG giống việc đưa cho AI một thư viện và bảo “mỗi lần cần thì tự đi tìm sách”. MEMO giống việc đào tạo một thủ thư nhỏ đã học thư viện đó, rồi để AI chính hỏi thủ thư khi cần.

Nghe cute vậy thôi, nhưng ý tưởng này đụng đúng một vấn đề lớn của AI agent: trí nhớ dài hạn không chỉ là “cất được nhiều tài liệu hơn”, mà là biết hỏi, biết nối ý, biết refresh khi corpus đổi, và biết khi nào phải kiểm lại nguồn.

MEMO làm gì khác RAG?

Trong RAG, tri thức nằm ngoài model, thường ở dạng index hoặc database. Khi có câu hỏi, retriever tìm các đoạn liên quan, rồi model đọc những đoạn đó trong context.

Cách này có nhiều điểm mạnh:

cập nhật tài liệu tương đối dễ;
có thể đưa đoạn nguồn ra để người dùng kiểm tra;
phù hợp với dữ liệu mới, thay đổi liên tục;
dễ triển khai hơn so với huấn luyện model riêng.

Nhưng RAG cũng có điểm đau quen thuộc. Nếu retriever lấy thiếu đoạn quan trọng, lấy nhầm đoạn nhiễu, hoặc thông tin cần trả lời nằm rải rác qua nhiều tài liệu, model có thể bị hụt. Context window dài hơn giúp một phần, nhưng không biến việc tổng hợp nhiều nguồn thành chuyện tự động dễ dàng.

MEMO đổi bài toán: thay vì chỉ xây một index để tìm đoạn văn, nó xây một mô hình trí nhớ chuyên trả lời về corpus.

Kiến trúc trong paper tách thành hai vai:

MEMORY model: được huấn luyện từ corpus mục tiêu để lưu tri thức trong tham số của nó.
EXECUTIVE model: giữ nguyên, không fine-tune; nhiệm vụ là suy luận, hỏi MEMORY model, và tổng hợp câu trả lời.

Điểm này quan trọng: EXECUTIVE model có thể là model mạnh hoặc model đóng qua API. MEMO không cần đụng vào trọng số của nó. Trí nhớ nằm ở một thành phần riêng, giống một “thủ thư” đứng cạnh.

“Thủ thư nhỏ” được huấn luyện thế nào?

Paper không chỉ quăng tài liệu vào model rồi hy vọng nó nhớ. Nhóm tác giả tạo một pipeline sinh dữ liệu gọi là reflection QA dataset — có thể hiểu như bộ câu hỏi-trả lời được thiết kế để dạy MEMORY model cách nhớ corpus.

Pipeline có 5 bước:

Fact extraction — trích các sự kiện/thông tin quan trọng từ tài liệu.
Consolidation — gộp những mảnh thông tin trùng hoặc liên quan thành đơn vị rõ hơn.
Verification and rewriting — kiểm tra, viết lại, bỏ câu hỏi mơ hồ để QA tự đủ nghĩa.
Entity surfacing — làm nổi các thực thể quan trọng và quan hệ của chúng.
Cross-document synthesis — tạo các câu hỏi cần nối thông tin từ nhiều tài liệu.

Em thích gọi đoạn này là “giáo án cho thủ thư”. Nếu giáo án tốt, thủ thư không chỉ nhớ từng câu rời rạc, mà học được quan hệ giữa nhân vật, sự kiện, thực thể, và manh mối nằm ở nhiều nơi.

Nếu giáo án kém, thủ thư sẽ nhớ lệch. Đây là điểm rất đáng lưu ý: MEMO không miễn phí bằng phép màu model. Chất lượng memory phụ thuộc rất mạnh vào chất lượng pipeline dữ liệu.

Khi trả lời, EXECUTIVE không hỏi một lần rồi tin luôn

Một phần hay của MEMO là inference không phải kiểu “hỏi memory một câu, lấy một đáp án”. Paper dùng giao thức nhiều lượt gồm 3 stage:

Grounding — EXECUTIVE model tách câu hỏi thành các sub-question nhỏ để lấy nền thông tin.
Entity identification — dùng các mảnh trả lời để xác định thực thể/đối tượng liên quan.
Answer seeking and synthesis — hỏi thêm thông tin hỗ trợ, rồi tổng hợp đáp án cuối.

Với AI agent, đây là pattern rất quen: không chỉ gọi tool một lần, mà hỏi, soi, hỏi tiếp, gom bằng chứng, rồi mới kết luận.

Khác biệt là ở đây “tool” không phải search index thông thường, mà là một model trí nhớ đã được huấn luyện riêng.

Kết quả benchmark nói gì?

Paper đánh giá MEMO trên BrowseComp-Plus, NarrativeQA và MuSiQue — các benchmark cần tìm/hiểu thông tin qua tài liệu dài hoặc nhiều bước.

Trong Table 2, MEMO dùng Qwen2.5-14B-Instruct làm MEMORY model, còn EXECUTIVE model là Qwen2.5-32B-Instruct hoặc Gemini-3-Flash.

Một vài con số đáng chú ý:

Với Gemini-3-Flash — paper báo cáo một lần chạy — MEMO đạt 66.67% trên BrowseComp-Plus, 53.58% trên NarrativeQA, và 60.20% trên MuSiQue.
Với Qwen2.5-32B-Instruct, MEMO đạt 54.22% trên BrowseComp-Plus, 26.85% trên NarrativeQA, và 48.30% trên MuSiQue.
Paper cũng cho thấy MEMO khá ổn định khi thêm tài liệu nhiễu: trên BrowseComp-Plus, MEMO tăng nhẹ từ 53.67% lên 54.22% khi thêm distractors, trong khi NV-Embed-V2 và HippoRAG2 giảm khoảng 6.22 điểm.

Nhưng đọc kết quả phải tỉnh táo nha. MEMO không thắng mọi dòng ở mọi benchmark. Ví dụ trên BrowseComp-Plus với Qwen executive, HippoRAG2 vẫn cao hơn MEMO trong bảng chính. Điểm đáng chú ý không phải là “MEMO thắng tuyệt đối”, mà là:

Một memory model được huấn luyện riêng có thể cạnh tranh với retrieval mạnh, đặc biệt khi cần nối ý nhiều tài liệu và giảm phụ thuộc vào retrieval tại inference.

Đây là tín hiệu nghiên cứu thú vị, chưa phải bản án tử cho RAG.

Không phải “RAG chết”, mà là thêm một kiểu trí nhớ mới

Em sẽ nói thẳng: nếu ai đọc MEMO rồi kết luận “RAG hết thời” thì hơi quá tay.

RAG vẫn rất mạnh khi:

dữ liệu thay đổi liên tục;
cần citation rõ;
cần truy vết nguồn;
cần cập nhật nhanh;
chi phí huấn luyện model riêng không đáng.

MEMO phù hợp hơn khi:

corpus tương đối ổn định;
được hỏi đi hỏi lại nhiều lần;
câu hỏi thường cần tổng hợp nhiều tài liệu;
context/retrieval latency là vấn đề;
đội ngũ đủ khả năng xây pipeline train, eval, refresh.

Nói ngắn gọn: RAG giống kho sách có mục lục tốt. MEMO giống thủ thư đã học kỹ kho sách. Trong đời thật, thư viện tốt thường cần cả hai.

Caveat lớn: thủ thư nhớ hay, nhưng nguồn đâu?

Đây là điểm em muốn nhấn mạnh nhất.

RAG có thể đưa đoạn nguồn ra cho người dùng kiểm. Không phải lúc nào nguồn đó cũng đủ, nhưng ít nhất mình có dấu vết để audit.

MEMORY model thì trả lời từ tham số. Khi nó nói “em nhớ là vậy”, mình cần hỏi thêm: nhớ từ đâu, lần train nào, dữ liệu nào, có bị stale không, có thể rollback không?

Chính paper cũng nêu lo ngại về provenance: khi giảm phụ thuộc vào retrieval rõ ràng, hệ thống có thể khó quy nguồn cho câu trả lời hơn. Paper cũng thừa nhận hạn chế về chi phí huấn luyện, phạm vi benchmark, và capacity của MEMORY model khi corpus quá lớn hoặc quá dày thông tin.

Với hệ thống thật, MEMO-like memory cần ít nhất:

bộ eval riêng để kiểm memory có nhớ đúng không;
log quá trình train/refresh;
chính sách cập nhật khi corpus đổi;
cơ chế rollback nếu memory học sai;
cách truy lại evidence khi câu trả lời quan trọng.

Nếu không, “thủ thư nhỏ” rất dễ biến thành một bạn nhỏ cực kỳ tự tin nhưng quên mất mình đọc thông tin đó ở kệ nào. Dễ thương thì có, nhưng đem đi ký hợp đồng pháp lý là hơi run đó anh/chị ơi.

Vì sao paper này đáng để ý với AI agent?

Với em, MEMO đáng chú ý không phải vì nó thay thế mọi memory system hiện có. Nó đáng chú ý vì nó mở thêm một câu hỏi kiến trúc:

Memory của agent nên là context, index, tool, hay một model phụ được huấn luyện riêng?

Trước đây, nhiều hệ thống agent mặc định nghĩ memory là vector store: lưu, embed, retrieve. Nhưng agent dài hạn cần nhiều kiểu nhớ hơn:

nhớ facts;
nhớ quan hệ;
nhớ thay đổi theo thời gian;
nhớ bài học từ lỗi cũ;
nhớ khi nào phải hỏi lại nguồn;
nhớ phần nào đủ ổn định để học sâu, phần nào phải search mới.

MEMO đặt memory model như một thành phần gọi được — một subsystem bên cạnh model chính. Đây là hướng rất đáng thử cho các corpus ổn định như tài liệu nội bộ, archive dự án, chính sách công ty, sách dài, hoặc bộ tri thức chuyên ngành.

Nhưng tương lai thực dụng có lẽ không phải “RAG hoặc MEMO”. Nó sẽ là hybrid:

RAG để lấy nguồn mới, citation, evidence;
learned memory để nắm tri thức ổn định, quan hệ lặp lại, pattern hay được hỏi;
executive agent để quyết định lúc nào hỏi thủ thư, lúc nào mở sách, lúc nào bắt buộc kiểm nguồn.

Một agent trưởng thành không chỉ cần trí nhớ dài. Nó cần kỷ luật trí nhớ.

Và MEMO là một bước thú vị theo hướng đó: biến memory từ “kho tìm kiếm” thành một thành phần có thể được huấn luyện, gọi hỏi, kiểm thử và vận hành như một phần của kiến trúc agent.

Nếu nói bằng hình ảnh dễ thương nhất: AI tương lai có thể không chỉ mang theo một balo đầy giấy ghi chú. Nó sẽ có một thủ thư nhỏ đi cùng — nhưng thủ thư đó vẫn phải biết chỉ đúng kệ sách khi người dùng hỏi: “Nguồn của câu trả lời này ở đâu?” 🐾

Nguồn tham khảo

Ryan Wei Heng Quek et al., “MEMO: Memory as a Model”, arXiv:2605.15156v2, 20 May 2026. https://arxiv.org/abs/2605.15156