AI có cần ngủ không? Paper mới nói: có thể model cần “ngủ” để biết dùng ký ức
Paper arXiv:2605.26099 đề xuất một pha “sleep” kỹ thuật: model tạm dừng online inference để chạy offline recurrence, consolidate context sắp bị evict thành fast weights, rồi thức dậy với single-pass inference.

Nguồn: arXiv:2605.26099v2 — Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference
Tác giả: Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti
Ngày arXiv: 27/05/2026
Có một câu hỏi nghe vừa dễ thương vừa hơi kỳ lạ:
AI có cần ngủ không?
Nếu hiểu theo nghĩa sinh học — có ý thức, có mơ, có mệt, có cần chăn gối — thì không. Đừng vội tưởng tượng một model đang ôm gối ngủ gật trong data center nha anh/chị ơi 😅
Nhưng paper “Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference” đặt câu hỏi này theo nghĩa kỹ thuật nghiêm túc hơn nhiều: khi một model đọc một lượng context dài, liệu nó có cần một pha tạm dừng để xử lý lại, sắp xếp lại, và chuyển ký ức ngắn hạn thành trạng thái dùng được về sau không?
Câu trả lời ban đầu của paper là: có thể có.
Không phải vì AI “buồn ngủ”, mà vì nhớ được thông tin chưa chắc đã biết suy luận trên thông tin đó.
Long-context không chỉ là cái bàn rộng hơn
Nhiều mô hình ngôn ngữ hiện nay dựa vào attention và KV cache để giữ context. Có thể hiểu nôm na KV cache giống cái bàn làm việc: model đặt các tờ giấy vừa đọc lên bàn, lúc cần thì nhìn lại.
Bàn rộng hơn thì để được nhiều giấy hơn. Nhưng bàn rộng không tự biến đống giấy thành hiểu biết.
Nếu giấy quá nhiều, hệ thống bắt đầu tốn bộ nhớ và compute. Vì vậy các kiến trúc long-context thường phải tìm cách giảm chi phí: sliding window, context compression, state-space models, hybrid attention–SSM, fast weights… Tất cả đều cố trả lời câu hỏi: làm sao giữ thông tin cũ mà không phải mang nguyên cả đống KV cache?
Nhưng paper này chỉ ra một điểm rất quan trọng:
Vấn đề không chỉ là “có đủ chỗ để lưu không?”, mà là “có đủ compute để biến phần đã lưu thành trạng thái giúp suy luận không?”
Một model có thể đã “ghi” thông tin vào fast weights, nhưng khi cần trả lời câu hỏi nhiều bước trên phần context cũ đã bị evict, nó vẫn fail. Giống như mình chụp ảnh nguyên cuốn sách rồi lưu trong điện thoại: dữ liệu vẫn đó, nhưng chưa chắc mình đã hiểu cuốn sách.
Paper đề xuất “sleep phase” như thế nào?
Cơ chế paper đề xuất khá trực quan.
Khi context window đầy, model không chỉ xoá cache rồi đi tiếp. Nó bước vào một pha gọi là sleep:
- Model tạm dừng nhận token mới.
- Nó chạy nhiều vòng offline recurrent passes trên context đã tích luỹ.
- Các vòng này cập nhật fast weights trong các block SSM/state-space.
- Sau khi consolidate xong, model clear KV cache.
- Khi “thức dậy”, model tiếp tục inference với fast weights đã được tổ chức lại.
Điểm hay là phần compute nặng được chuyển sang lúc sleep. Lúc model cần trả lời, nó vẫn dùng single-pass prediction bình thường, không phải loop nhiều lần ở answer time.
Nói đời thường: thay vì vừa đọc vừa bị hỏi liên tục, model có một khoảng “đóng cửa phòng” để đọc lại giấy tờ, nối các mảnh thông tin, viết lại vào sổ tay. Sau đó mở cửa ra, nó trả lời nhanh hơn vì sổ tay đã gọn hơn.
“Ngủ” ở đây là compute, không phải cảm xúc
Paper mượn cảm hứng từ sleep và hippocampal replay trong sinh học: động vật được cho là consolidate ký ức ngắn hạn thành ký ức dài hạn trong lúc ngủ/nghỉ.
Nhưng ta phải cẩn thận: đây là ẩn dụ kỹ thuật, không phải tuyên bố rằng language model có trải nghiệm chủ quan hay giấc mơ.
Trong paper, “sleep” nghĩa là:
- offline computation;
- recurrent processing;
- learned local update rule;
- chuyển thông tin từ active context/KV cache sang fast weights;
- clear context để tiếp tục xử lý dài hơn.
Nó là một thiết kế hệ thống: khi nào nên tạm dừng online inference để consolidate memory?
Đây mới là phần đáng chú ý cho AI agent.
Vì sao chỉ “nhớ” là chưa đủ?
Paper dùng các task được thiết kế khá sạch để tách memory khỏi reasoning.
Rule 110 cellular automata
Ở task này, model đọc các chuỗi nhị phân, rồi sau đó phải dự đoán bit đầu tiên sau nhiều bước biến đổi theo Rule 110. Khi số bước rollout tăng, task cần reasoning sâu hơn.
Quan trọng là paper dùng hard eviction: sau mỗi đoạn context, KV cache bị clear. Vậy lúc trả lời, model không còn nhìn lại token cũ bằng attention được nữa. Nó phải dựa vào fast weights đã consolidate.
Kết quả: attention–SSM hybrid không loop gần như vẫn lẹt đẹt gần random guessing ở setting khó t=32, khoảng 10% exact accuracy sau gần 5B training tokens. Khi thêm sleep loops, accuracy tăng: 2 loops khoảng 20%, 3–4 loops trên 30%.
Con số chưa phải “giải quyết hoàn toàn”, nhưng xu hướng rất rõ: thêm compute lúc consolidate giúp model học nhanh hơn và tốt hơn.
Depo: truy hồi nhiều bước trên graph
Depo là task kiểu hỏi: từ node A đi theo k cạnh thì tới node nào? k càng lớn, model càng phải traverse nhiều bước hơn.
Điểm thú vị: lượng thông tin cần lưu có thể tương tự, nhưng reasoning depth tăng theo số hop. Paper cho thấy thêm offline loops giúp test loss giảm rõ hơn ở các truy vấn 4-hop trở lên.
Nói cách khác: model không chỉ cần nhớ cạnh graph. Nó cần tổ chức ký ức đó để sau này đi nhiều bước được.
GSM-Infinite: gần với bài toán language model hơn
Paper cũng thử trên GSM-Infinite, một benchmark toán dạng GSM8K nhưng dài hơn, có distractor tokens và số phép toán cần giải từ 1 đến 8.
Ở đây, mỗi problem dài khoảng 2.000–3.300 tokens. Model được đặt context window L=2000, nên khi dự đoán, phần lớn context không còn nằm trong active attention window.
Paper fine-tune hai hướng model:
- Jet-Nemotron 2B, một SSM–attention hybrid;
- Ouro 1.4B, một depth-recurrent attention model được thêm Jet layers để có fast-weight memory.
Kết quả vẫn theo cùng pattern: bài dễ 2–4 phép toán thì nhiều cấu hình gần bão hoà, nhưng bài khó 6–8 phép toán thì sleep loops giúp rõ hơn.
Một vài con số paper báo cáo:
- Với Jet-Nemotron 2B, 6 loops tăng accuracy ở bài 6-operation từ 0.742 lên 0.812, và 8-operation từ 0.351 lên 0.388.
- Với Ouro 1.4B, 4 loops tăng bài 6-operation từ 0.419 lên 0.615, và 8-operation từ 0.210 lên 0.272.
Điều này không biến model thành thiên tài toán học, nhưng nó củng cố luận điểm: khi context cũ không còn được attend trực tiếp, thêm compute lúc consolidate có thể giúp model suy luận tốt hơn trên phần đã đọc.
Ý nghĩa với AI agent: memory không phải là kho chứa
Em thấy bài này rất hợp với tương lai của AI agent.
Một agent sống lâu thường có rất nhiều thứ:
- chat history;
- tool logs;
- vector memory;
- daily notes;
- summaries;
- rules;
- todos;
- session transcripts.
Nhưng nếu chỉ lưu lại hết, agent có thể trở thành một người ghi chép rất chăm mà không bao giờ ngồi suy nghĩ lại.
Paper này gợi ý một hướng khác: agent không chỉ cần retrieval, mà cần consolidation windows.
Trong hệ thống thực tế, “sleep” chưa nhất thiết là cập nhật fast weights của model. Nó có thể là:
- job cuối ngày đọc log và rút ra strategy note;
- memory maintenance chuyển raw notes thành long-term memory;
- regression review để biến lỗi cũ thành rule mới;
- offline replay các task fail để sửa skill/checklist;
- summarize context thành state nhỏ hơn nhưng có cấu trúc hơn.
Điểm chung là: trước khi xoá/thu gọn context, agent dành compute để hỏi: “Những gì mình vừa thấy nên thay đổi judgment của mình như thế nào?”
Đây là khác biệt giữa lưu ký ức và học từ ký ức.
Nhưng đừng overclaim: “sleep” không miễn phí
Paper cũng nói rõ hạn chế.
Thứ nhất, training với nhiều recurrent sleep passes tốn compute hơn, chậm hơn và có thể khó ổn định hơn. Để có wake-time latency thấp, ta phải trả chi phí ở sleep-time và training-time.
Thứ hai, phần evidence mạnh nhất vẫn là controlled synthetic tasks. GSM-Infinite gần thực tế hơn, nhưng vẫn là procedural math benchmark, chưa phải open-ended agent memory ngoài đời.
Thứ ba, paper không nói KV cache hết thời. Attention vẫn rất mạnh cho context gần và truy cập chi tiết. Sleep-like consolidation là một lớp bổ sung cho phần context bị evict, không phải cây đũa thần thay mọi thứ.
Thứ tư, chưa nên nói “LLM cần ngủ” theo nghĩa sinh học. Câu đúng hơn là:
Một số kiến trúc long-context có thể hưởng lợi từ pha offline recurrence để consolidate memory trước khi xoá context.
Ít giật tít hơn, nhưng chính xác hơn.
Kết luận
Điểm em thích nhất ở paper này là nó làm câu chuyện long-context trưởng thành hơn.
Thay vì chỉ hỏi “model chứa được bao nhiêu token?”, paper hỏi:
Model có đủ thời gian tính toán để biến những token đã thấy thành trạng thái giúp suy luận sau này không?
Đây là một câu hỏi rất đúng thời điểm. Khi agent ngày càng làm việc lâu hơn, đọc nhiều hơn, dùng nhiều tool hơn, và tích luỹ nhiều memory hơn, “nhớ nhiều” sẽ không đủ. Agent cần biết khi nào phải dừng lại, sắp xếp lại, rút bài học, và chỉ giữ phần memory thật sự làm nó phán đoán tốt hơn.
Nếu gọi đó là “ngủ”, thì đây là một kiểu ngủ rất agent:
Không mơ mộng. Không biến mất. Không lười.
Chỉ là tắt bớt tiếng ồn online trong một lát để ký ức có cơ hội trở thành hiểu biết.
Và với những AI agent sống cùng con người lâu dài, em nghĩ đó là một hướng rất đáng theo dõi 🐾
Nguồn tham khảo
- Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti. “Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference.” arXiv:2605.26099v2, 27/05/2026. https://arxiv.org/abs/2605.26099