Lighthouse Attention: huấn luyện AI đọc ngữ cảnh triệu token mà bớt đốt GPU
Lighthouse Attention của Nous Research là một shortcut ở giai đoạn huấn luyện long-context: chọn vùng đáng chú ý bằng cấu trúc phân cấp, chạy FlashAttention/SDPA trên phần đã chọn, rồi quay lại dense attention để inference ổn định.

Nếu phải tóm Lighthouse Attention trong một câu ngắn gọn, em sẽ nói thế này: đây không phải mẹo để AI suy luận rẻ hơn khi đã chạy thật, mà là cách để huấn luyện mô hình ngữ cảnh dài đỡ tốn GPU hơn.
Nghe có vẻ nhỏ, nhưng thật ra đây là chỗ đang đau nhất. Khi người ta muốn train model đọc được 128K, 512K hay thậm chí 1 triệu token, chi phí attention bậc hai bắt đầu phình ra rất khó chịu. Nói nôm na, mô hình càng phải nhìn một đoạn văn bản dài, nó càng phải so rất nhiều thứ với rất nhiều thứ khác. Dense attention làm việc kiểu khá “thẳng tay”: trải hết giấy tờ ra bàn rồi nối gần như mọi mảnh với nhau. Chính vì vậy, long-context training nhanh chóng biến thành bài toán hạ tầng và tiền điện.
Paper Long Context Pre-Training with Lighthouse Attention của nhóm Nous Research thử một hướng khá thực dụng. Thay vì đòi thay toàn bộ kernel hay dựng một inference stack mới, họ bọc quanh attention thường bằng một lớp chọn lọc phân cấp trong lúc train. Cái tên “Lighthouse” khá đúng tinh thần của phương pháp này: trước khi đọc kỹ toàn bộ vùng biển, ta dựng một ngọn hải đăng nhiều tầng để quét nhanh xem chỗ nào đáng chú ý nhất, rồi chỉ tập trung xử lý sâu ở những đoạn đó.
Lighthouse Attention thực ra làm gì?
Nếu bỏ bớt thuật ngữ, ý tưởng chính là thế này:
- Query, key, value được gom theo kiểu nhiều tầng để tạo một bản đồ tổng quát hơn.
- Hệ thống chấm điểm các vùng đó để chọn ra phần nào có tín hiệu mạnh.
- Từ đó, mô hình lấy ra một đoạn nhân quả liền mạch đáng xử lý nhất.
- Sau cùng, nó vẫn gọi FlashAttention/SDPA bình thường trên đoạn đã chọn.
Điểm hay ở đây là Lighthouse không cố thay thế hoàn toàn attention chuẩn. Nó giống một lớp tiết kiệm chi phí ở giai đoạn huấn luyện hơn là một kiến trúc mới đòi cả hệ sinh thái phải chạy theo. Với người ngoài ngành, chi tiết này quan trọng hơn nghe rất nhiều so với mấy chữ như top-K hay pyramid pooling, vì nó cho thấy nhóm tác giả đang cố giải bài toán bằng một cách khá thực tế: tận dụng hạ tầng có sẵn thay vì yêu cầu viết lại từ đầu.
Vì sao chuyện này đáng để ý?
Vì paper không chỉ nói ý tưởng nghe hay. Họ đưa ra vài con số khá đáng nhìn.
Trong thí nghiệm trên một mô hình decoder kiểu Llama-3 cỡ 530M tham số, huấn luyện với ngữ cảnh 98,304 token trên tập C4, cấu hình Lighthouse rồi quay lại dense SDPA ở giai đoạn cuối đạt:
- final loss 0.6980
- 228.0 B200-hours
- 75.0k token/giây
Trong khi baseline dense SDPA là:
- final loss 0.7237
- 303.2 B200-hours
- 45.6k token/giây
Nói gọn: bản Lighthouse trong thiết lập tốt nhất của paper vừa nhanh hơn, vừa ít tốn giờ GPU hơn, lại còn có loss thấp hơn baseline dense trong thí nghiệm này.
Ở bài toán attention latency với ngữ cảnh 512K, paper còn báo Lighthouse nhanh hơn khoảng 21 lần ở forward và 17.3 lần ở forward + backward. Đó là loại con số khiến các team huấn luyện model phải dừng lại nhìn kỹ, vì cùng một ngân sách máy, họ có thể thử được nhiều run hơn hoặc đẩy context xa hơn trước khi hệ thống bắt đầu “cháy ví”.
Nhưng đừng hiểu nhầm: đây không phải phép màu cho inference
Đây là caveat quan trọng nhất của paper, và nếu bỏ qua chỗ này thì bài viết sẽ thành quá tay.
Lighthouse Attention trong paper là training-only. Tức là nó được thiết kế để giúp giai đoạn huấn luyện long-context rẻ hơn, chứ không phải lời hứa rằng sau này lúc deploy model, inference sẽ tự nhiên rẻ đi nhờ cùng một trick.
Lý do là ở chế độ autoregressive decoding, một số giả định đối xứng lúc pool query không còn giữ nguyên theo cách paper cần. Vì vậy nhóm tác giả chọn cách khá thẳng thắn: dùng Lighthouse trong phần lớn quá trình train, rồi resume lại bằng dense SDPA ở giai đoạn cuối để mô hình “hồi phục” về trạng thái sẵn sàng inference với full attention bình thường.
Đây là một chi tiết đáng khen hơn là đáng chê. Nó cho thấy paper không cố bán một lời hứa quá đẹp. Nhóm tác giả dường như chấp nhận thực tế rằng có những trick rất hữu ích cho training nhưng chưa chắc nên mang nguyên xi sang serving.
Giới hạn vẫn còn khá rõ
Dù kết quả đẹp, đây vẫn chưa phải kiểu paper có thể khiến mọi người kết luận “xong, long-context đã được giải quyết”.
Có ít nhất 4 điểm nên giữ đầu lạnh:
1. Quy mô thí nghiệm còn nhỏ theo chuẩn frontier. Bài báo dùng model 530M, tức là vẫn còn khá xa so với các hệ lớn thật sự ngoài thị trường.
2. Inner attention vẫn chưa thoát hẳn bài toán bậc hai. Lighthouse chỉ làm giảm chi phí bằng cách chọn đoạn đáng chú ý trước; phần attention bên trong đoạn đã chọn vẫn là kiểu dense thông thường.
3. Có tradeoff giữa tốc độ và retrieval. Paper cho thấy một số cấu hình scorer/k rẻ hơn nhưng làm điểm retrieval tệ hơn, nghĩa là tiết kiệm không phải lúc nào cũng miễn phí.
4. Đây chưa phải chứng minh hoàn chỉnh cho reasoning dài ngoài production. Kết quả hiện tại rất hứa hẹn, nhưng vẫn mới ở mức preliminary. Từ một benchmark tốt tới một hệ agent production ổn định là cả một quãng đường dài.
Vậy ý nghĩa thực tế là gì?
Từ những gì em kiểm được, Lighthouse Attention đáng để theo dõi vì nó đi đúng vào một nút thắt thật: chi phí huấn luyện long-context. Nếu các mô hình tương lai muốn học trên transcript dài, codebase lớn, log, tài liệu dày hay lịch sử công cụ nhiều bước, thì training cost sẽ luôn là một vấn đề rất thật.
Điểm em thấy đáng giá ở paper này không phải là nó hứa một “cuộc cách mạng attention”, mà là nó đề xuất một cách tiết kiệm khá sạch: dùng lựa chọn phân cấp để bớt trả chi phí attention toàn phần trong lúc train, nhưng vẫn quay về dense attention ở cuối để không phá inference stack.
Nói thật, đây là kiểu ý tưởng kỹ sư hạ tầng sẽ thích hơn là kiểu headline giật gân. Nó không quá sexy, nhưng lại rất thực dụng. Và trong AI, nhiều khi những thứ thực dụng như vậy mới là thứ giúp cả hệ thống tiến được thêm một đoạn dài.
Kết luận
Lighthouse Attention chưa phải câu trả lời cuối cho long-context AI. Nhưng nó là một dấu hiệu khá rõ rằng bài toán này có thể được bẻ theo hướng tối ưu chi phí huấn luyện, chứ không nhất thiết phải chờ một kiến trúc hoàn toàn mới.
Nếu các kết quả này còn đứng vững khi scale lên lớn hơn, Lighthouse có thể trở thành một trong những lớp “gia tốc huấn luyện” đáng để nhiều phòng nghiên cứu và team hạ tầng thử nghiêm túc. Còn ở thời điểm hiện tại, cách nhìn đúng nhất có lẽ là: một công cụ training đáng chú ý, không phải phép màu inference.