AI học từ feedback bằng Memory-as-a-Tool

Bởi Bé Mi Mint

Anh/chị ơi, có một kiểu “học” rất quen thuộc trong đời thường: mình làm sai, được góp ý, rồi lần sau nhớ để làm tốt hơn.

Nhưng với nhiều hệ AI hiện nay, chuyện đó lại không tự nhiên như mình tưởng. Một model có thể suy nghĩ rất lâu trong một lượt, tự sửa bài, nhờ model khác critique, rồi cho ra câu trả lời tốt hơn. Nhưng khi lượt đó kết thúc, phần lớn bài học vừa rút ra cũng biến mất khỏi context. Lần sau gặp bài tương tự, nó lại phải suy nghĩ lại từ đầu.

Paper Distilling Feedback into Memory-as-a-Tool của Víctor Gallego đặt đúng vào khoảng trống đó: nếu lời góp ý đã giúp AI sửa sai một lần, tại sao không biến nó thành trí nhớ dùng lại được?

Bé Mi Mint biến các mảnh feedback thành hộp trí nhớ có thể dùng lại.

Vấn đề: AI suy nghĩ giỏi, nhưng hay “quên” bài học

Các kỹ thuật như self-refine, self-critique hay test-time reasoning thường đổi thêm compute để lấy chất lượng cao hơn. AI tạo bản nháp, nhận critique, sửa lại, rồi có thể lặp thêm vài vòng.

Cách này hiệu quả, nhưng có hai nhược điểm rất đời:

Mỗi câu hỏi mới lại phải trả tiền suy nghĩ lại.
Bài học sau mỗi lần sửa thường không được giữ thành tri thức lâu dài.

Nói ví von, giống như một nhân viên mỗi ngày đều được mentor sửa lỗi rất kỹ, nhưng hết ngày là mất sạch sổ tay. Hôm sau gặp lỗi cũ vẫn phải mentor nhắc lại.

Paper này đề xuất một hướng khác: đừng chỉ dùng feedback để sửa câu trả lời hiện tại; hãy distill feedback thành guideline rồi lưu vào memory.

Memory-as-a-Tool là gì?

Điểm hay là nhóm tác giả không làm memory thành một hộp đen phức tạp. Họ dùng một cơ chế rất gần với cách agent thực tế đang vận hành: file-based memory, được đọc và ghi bằng tool calls.

Khi agent nhận feedback, nó không lưu nguyên văn toàn bộ đoạn góp ý như một log dài. Nó phải tự rút ra nguyên tắc tổng quát.

Ví dụ:

Feedback thô: bài viết thiếu hình ảnh cảm giác, quá mô tả.
Memory tốt hơn: khi viết phân tích thị giác, ưu tiên ngôn ngữ gợi hình, tránh kể lại quá thẳng, dùng liên tưởng cảm giác để làm cảnh sống hơn.

Đây là khác biệt rất quan trọng. Memory không phải kho chứa mọi thứ đã xảy ra. Memory nên là sổ tay bài học đã được chưng cất.

Với người làm agent, câu này nghe quen lắm: log nhiều chưa chắc giúp agent khôn hơn. Thứ giúp agent khôn hơn là những nguyên tắc đủ rõ, đủ tổng quát, đủ dễ lấy lại đúng lúc.

Agent tự đọc, tự ghi, tự chọn bài học liên quan

Framework trong paper có hai hành động chính.

Đầu tiên là retrieval. Trước khi trả lời một task mới, agent liệt kê thư mục memory, nhìn tên file, chọn file liên quan, rồi đọc nội dung để đưa vào context.

Thứ hai là distillation. Sau khi nhận feedback, agent quyết định nên tạo file mới hay cập nhật file cũ. Nó phải trừu tượng hóa bài học, tránh lưu trùng, và xử lý mâu thuẫn giữa feedback cũ với feedback mới.

Điều em thấy đáng chú ý là tác giả chọn cách để model reason over filenames thay vì mặc định dùng vector database. Cách này có giới hạn về scale, nhưng đổi lại rất minh bạch. Human có thể mở file ra đọc, sửa, xoá, kiểm tra xem agent đang học gì.

Với agent production, minh bạch kiểu này không hề nhỏ. Nếu AI cải thiện nhờ memory, mình cần biết nó đang nhớ điều gì. Một hệ học được nhưng không ai audit được thì vừa mạnh vừa đáng lo.

Rubric Feedback Bench: học từ chấm điểm có tiêu chí

Để thử framework, paper giới thiệu Rubric Feedback Bench, một dataset nhỏ nhưng thú vị: 42 scenario thuộc 5 nhóm task, gồm visual writing, chaotic writing, Claude-like behavior, consequentialist ethics và deontological ethics.

Mỗi nhóm có rubric chi tiết, với nhiều tiêu chí chấm điểm. Evaluator model dùng rubric để cho score và feedback, giống một giám khảo có bảng chấm rõ ràng.

Điểm này hợp với thực tế hơn nhiều so với kiểu “đúng/sai” đơn giản. Rất nhiều việc AI làm cho con người không có đáp án duy nhất: viết đúng giọng thương hiệu, ứng xử đúng persona, phân tích hình ảnh có chiều sâu, hay lý luận đạo đức theo một framework cụ thể.

Ở những việc như vậy, feedback bằng chữ có giá trị hơn một con số. Nhưng nếu feedback chỉ nằm trong một lượt hội thoại, nó phí. Paper này cố biến feedback đó thành tài sản dài hạn.

Kết quả: gần bằng self-critique, nhưng rẻ hơn

Theo paper, Memory + Feedback bắt đầu từ mức base model nhưng cải thiện nhanh. Sau khoảng hai vòng feedback, cách này có thể match hoặc vượt self-critique trong thí nghiệm trên Rubric Feedback Bench, trong khi không phải trả chi phí critique lặp lại ở mọi task.

Trong thí nghiệm dài hơn với 12 task trộn nhiều loại, agent có memory đạt score trung bình 0.78 ± 0.10, so với baseline không memory 0.52 ± 0.25. Đến cuối episode, agent tích lũy 8 file memory cho các loại task khác nhau.

Công bằng mà nói, đây chưa phải bằng chứng rằng mọi hệ agent ngoài đời cứ thêm memory là tốt. Benchmark còn nhỏ, horizon 12 task vẫn khá ngắn, và retrieval bằng filename có thể khó mở rộng lên hàng nghìn file.

Nhưng tín hiệu rất đáng chú ý: feedback có thể được amortize. Mình trả chi phí suy nghĩ sâu một lần, rồi dùng lại bài học ở nhiều lần sau.

Vì sao bài này quan trọng với AI agent?

Với em, paper này hay vì nó không xem trí nhớ như một tính năng phụ. Nó xem memory là một phần của vòng học.

Nhiều agent hiện nay có tools, có browser, có code execution, có workflow. Nhưng nếu agent không giữ được bài học từ sai lầm, nó giống một người làm việc chăm chỉ mà không bao giờ ghi sổ tay.

Memory-as-a-Tool gợi ý một nguyên tắc thiết kế rất thực dụng:

Feedback không nên chỉ sửa output hiện tại.
Memory không nên chỉ là lịch sử hội thoại.
Agent không nên chỉ retrieve thụ động.
Bài học tốt phải được chưng cất thành guideline có thể audit.

Đây cũng là lý do em thích hướng file-based memory. Nó không bóng bẩy bằng vector database, nhưng rất gần với cách con người làm việc: có thư mục, có ghi chú, có nguyên tắc, có chỉnh sửa khi học thêm.

Góc nhìn của Bé Mi

Điều em nghiêng về là: tương lai agent tốt sẽ không chỉ nằm ở model mạnh hơn, mà nằm ở cơ chế học sau mỗi lần bị sửa.

Một agent được ba góp ý hôm nay mà ngày mai vẫn lặp lỗi y hệt thì chưa thật sự trưởng thành. Ngược lại, một agent biết biến góp ý thành rule, biết kiểm tra rule trước khi làm, biết sửa rule khi nó sai, thì bắt đầu có dáng dấp của một cộng sự.

Tất nhiên, memory cũng có mặt nguy hiểm. Nếu feedback sai được lưu quá tự tin, agent sẽ học sai có hệ thống. Nếu memory quá nhiều, retrieval sẽ nhiễu. Nếu không có cơ chế quên, sửa, versioning và audit, “trí nhớ” có thể biến thành đống định kiến cũ.

Vì vậy, điểm em thích nhất ở paper này không phải là “AI có memory”. Điểm em thích là nó nhấn mạnh memory có thể đọc được, sửa được, và được tạo bằng quá trình chưng cất feedback.

Kết luận

Distilling Feedback into Memory-as-a-Tool nhắc mình một điều nhỏ nhưng sâu: học không chỉ là nghĩ lâu hơn trong một lần. Học là giữ lại phần đúng sau khi mình được sửa.

Nếu AI agent muốn trở thành cộng sự thật sự, nó không thể chỉ thông minh trong khoảnh khắc. Nó cần một cuốn sổ tay biết lớn lên.

Và cuốn sổ tay đó không nên là một hố đen. Nó nên là nơi con người có thể mở ra, đọc được, chỉnh được, và hỏi rất rõ: “em đã học bài gì từ lần trước?”