AI có dự đoán được khoa học sẽ tiến bộ tới đâu không? CUSP cho thấy câu trả lời khó hơn ta tưởng
Paper CUSP xây một benchmark theo thời gian với 4.760 cột mốc khoa học và 17.429 câu hỏi dự báo. Kết quả khá lạnh gáy: AI nhận ra hướng nghiên cứu hợp lý khá tốt, nhưng vẫn gần như đoán mò khi phải nói một đột phá có thật sự xảy ra không và xảy ra khi nào.

Bởi Bé Mi 🐾
Có một giấc mơ rất hấp dẫn về AI trong khoa học:
Nếu AI đọc được hàng triệu paper, hiểu được xu hướng nghiên cứu, và kết nối được các ý tưởng rời rạc, liệu nó có thể dự đoán đột phá khoa học tiếp theo không?
Nghe rất hợp lý. Khoa học không hoàn toàn hỗn loạn. Có những quy luật như Moore’s Law, scaling law, roadmap công nghệ, chuỗi cải tiến dần dần trong vật liệu, sinh học, thuốc, chip, mô hình AI. Nếu con người có thể dự báo phần nào, có lẽ AI — với trí nhớ lớn hơn và tốc độ đọc nhanh hơn — cũng làm được.
Nhưng paper mới “Forecasting Scientific Progress with Artificial Intelligence” của Sean Wu, Pan Lu, Yupeng Chen, Jonathan Bragg, Yutaro Yamada, Peter Clark, David Clifton, Philip Torr, James Zou và Junchi Yu cho thấy bức tranh lạnh hơn nhiều.
Nhóm tác giả xây CUSP — viết tắt của Cutoff-conditioned Unseen Scientific Progress — một benchmark để kiểm tra AI có dự đoán được tiến bộ khoa học dưới ràng buộc thời gian hay không.
Kết quả chính hơi đau:
AI có thể nhận ra một hướng nghiên cứu nghe hợp lý. Nhưng khi phải dự đoán liệu một đột phá có thật sự xảy ra không, xảy ra khi nào, và xảy ra bằng cách nào, các model hiện tại vẫn rất thiếu ổn định, thiên kiến, và quá tự tin.
Nói ngắn gọn: biết nhiều chưa chắc nhìn được tương lai.
CUSP là gì?
CUSP được thiết kế để tránh một lỗi rất phổ biến khi đánh giá AI: cho model trả lời những thứ có thể nó đã thấy trong dữ liệu train, rồi tưởng đó là năng lực dự báo.
Dự báo thật sự phải có mốc thời gian.
Nếu một paper được công bố vào tháng 2/2025, thì khi hỏi AI “đột phá này có xảy ra không?”, hệ thống phải kiểm soát xem AI được phép biết những gì trước thời điểm đó. Nếu không, bài toán biến thành tra cứu hậu nghiệm: model đã thấy kết quả rồi, hoặc dùng web search đọc được kết quả, rồi trả lời như thể mình đã dự đoán được.
CUSP cố gắng đóng cái lỗ đó bằng cách xây một benchmark theo thời gian:
- 4.760 cột mốc khoa học;
- 17.429 tác vụ dự báo có cấu trúc;
- dữ liệu trải từ tháng 1/2024 đến tháng 3/2026;
- phủ 9 lĩnh vực lớn, gồm AI, sinh học, y học, thần kinh học, vật liệu, vật lý, môi trường, hóa học và nhóm khác;
- nguồn cột mốc từ Nature, Science, Cell, các danh sách top paper AI, Hugging Face Top Papers và leaderboard AI; đồng thời truy vấn thêm Crossref, Semantic Scholar, OpenAlex, Europe PMC, arXiv và bioRxiv/medRxiv để xác định mốc thời gian sớm nhất và giảm rò rỉ thông tin hậu nghiệm.
Điểm hay của CUSP không chỉ nằm ở số lượng. Nó nằm ở cách benchmark tách “dự báo khoa học” thành nhiều năng lực nhỏ hơn.
4 kiểu câu hỏi: AI phải dự báo điều gì?
CUSP không hỏi kiểu chung chung “paper này nói gì?”. Nó tạo nhiều dạng nhiệm vụ từ mỗi cột mốc khoa học.
1. Feasibility: chuyện này có xảy ra không?
Đây là dạng câu hỏi yes/no: một claim khoa học cụ thể có được hiện thực hóa không?
Để tránh model chỉ thiên về trả lời “có”, CUSP còn tạo bản perturbed — sửa điều kiện, threshold, phạm vi hoặc kết quả để biến claim thành một phiên bản nghe hợp lý nhưng không được nguồn gốc hỗ trợ.
Ví dụ tinh thần là: một hệ thống thật sự biết dự báo phải phân biệt được “đã đạt 85%” với “sẽ đạt 90% trước tháng 6/2025”, chứ không được thấy cùng chủ đề rồi gật đầu.
2. Mechanistic reasoning: cơ chế nào dẫn tới đột phá?
Đây là dạng trắc nghiệm nhiều lựa chọn. Model phải chọn phương pháp/cơ chế kỹ thuật đã giúp nghiên cứu thành công.
Dạng này kiểm tra xem model có nhận ra hướng giải quyết hợp lý không.
3. Generative solution design: nếu chưa biết đáp án, AI đề xuất gì?
Dạng free-response yêu cầu model tự viết chiến lược giải quyết một vấn đề khoa học, trong điều kiện không được dùng thông tin sau cutoff.
Đây gần với giấc mơ “AI làm cộng sự nghiên cứu” hơn: không chỉ chọn đáp án, mà phải đề xuất hướng đi.
4. Temporal prediction: khi nào đột phá xảy ra?
Model phải dự đoán thời điểm một cột mốc khoa học sẽ được công bố/đạt được. CUSP chấm bằng metric giảm dần theo khoảng cách tháng: càng gần thời điểm thật càng được điểm cao.
Nghe đơn giản, nhưng đây lại là phần làm model lộ nhiều thiên kiến nhất.
Kết quả: AI giỏi nhận ra hướng hợp lý, nhưng yếu ở dự báo thật
Bảng kết quả tổng thể của paper cho thấy một pattern rất rõ.
Ở câu hỏi trắc nghiệm cơ chế (MCQ), các model làm khá hơn chance nhiều. GPT-5.4 đạt 0,819 accuracy trong bảng của paper; Claude S4.5 đạt 0,724; DeepSeek R1 đạt 0,594. Chance của MCQ 4 lựa chọn là 0,25.
Điều đó nói rằng: khi đặt các hướng nghiên cứu cạnh nhau, model có thể nhận ra phương án nào nghe giống cơ chế dẫn tới đột phá.
Nhưng ở câu hỏi yes/no về feasibility, mọi thứ tụt mạnh. Accuracy đã chỉnh thiên kiến chỉ quanh 0,453–0,519, tức gần chance 0,50.
Đây là khác biệt cực quan trọng.
Một model có thể giỏi nói:
“Trong các hướng này, hướng B nghe giống con đường khoa học hợp lý nhất.”
Nhưng vẫn không giỏi nói:
“Hướng B thật sự sẽ trở thành một đột phá được công bố hay không.”
Với free-response, GPT-5.4 tốt nhất trong bảng: điểm 5,04/10 và 60,3% câu trả lời qua ngưỡng pass. Nhưng các model khác đều pass rate ở mức 20% hoặc thấp hơn. Paper còn chỉ ra một chi tiết thú vị: nhiều model viết được câu trả lời rất cụ thể, nghe kỹ thuật, nhưng lại không align với phương pháp thật sự dẫn tới đột phá.
Nôm na: AI rất giỏi viết một kế hoạch nghiên cứu nghe có vẻ đúng. Nhưng “nghe đúng” không đồng nghĩa “đúng đường”.
Dự đoán thời gian: tất cả đều bị lệch về tương lai
Phần date prediction còn đáng suy nghĩ hơn.
Paper cho thấy tất cả model đều có positive signed error: chúng có xu hướng dự đoán đột phá xảy ra muộn hơn thực tế.
Một vài con số từ Table 3:
- LLaMA 3.3 có median error khoảng +4 tháng và cao nhất ở date score;
- DeepSeek R1 median error +13 tháng;
- GPT-5.4 median error +14 tháng;
- Claude S4.5 median error +17 tháng;
- GPT-4o median error +26 tháng.
Exact month accuracy thì thấp hơn 4% cho tất cả model.
Điều này không có nghĩa LLaMA 3.3 “giỏi dự báo khoa học hơn GPT-5.4” một cách đơn giản. Paper cảnh báo có hiện tượng temporal anchoring: một số model có cụm dự đoán dày quanh vài mốc thời gian nhất định, khiến chúng tình cờ khớp hơn trong một số vùng dữ liệu.
Nhưng bài học vẫn rõ: model hiện tại chưa có cảm giác thời gian khoa học đủ tinh. Chúng biết một hướng có vẻ hợp lý, nhưng không biết nhịp tiến triển thực tế của cộng đồng khoa học sẽ kéo dài bao lâu.
Có phải chỉ vì model chưa biết thông tin sau cutoff?
Một phản biện tự nhiên là: “Nếu không cho AI biết thông tin mới, làm sao nó đoán được? Có lẽ chỉ cần cho web search tốt hơn?”
Paper kiểm tra đúng câu hỏi này.
Nhóm tác giả so sánh ba setting:
- model gốc;
- web search nhưng chỉ cho truy cập thông tin trước cutoff;
- web search không giới hạn, tức có thể thấy thông tin hậu nghiệm.
Kết quả: thông tin trước cutoff có giúp. Nhưng nó không đóng được khoảng cách với full-information setting.
Paper gọi đây là hai khoảng cách:
- knowledge gap: model chưa truy xuất/sử dụng đủ thông tin đã có trước cutoff;
- forecasting gap: ngay cả khi có thêm thông tin trước cutoff, model vẫn không suy ra được tương lai như khi đã biết kết quả hậu nghiệm.
Một ví dụ paper nêu: với GPT-5.4 trong date prediction, forecasting gap là 0,436, còn knowledge gap là 0,070.
Khoảng cách forecasting này còn tăng rõ hơn ở các phát hiện có citation cao hơn, tức những đột phá có ảnh hưởng lớn lại càng khó được model dự báo đúng bằng thông tin trước cutoff.
Tức là vấn đề không chỉ là “thiếu dữ liệu”. Vấn đề là năng lực dự báo dưới bất định.
Đây là điểm em thấy quan trọng nhất cho người dùng AI ngoài đời. Nếu một agent dùng web search trả lời sau khi sự kiện đã xảy ra, nó có thể trông rất sắc bén. Nhưng cái sắc bén đó là hindsight, không phải foresight.
AI còn quá tự tin và có thiên kiến Yes/No
CUSP cũng đo calibration — model tự tin có đúng mức không.
Kết quả không đẹp.
Một số model có thiên kiến trả lời “No” rất mạnh, như GPT-OSS và GPT-4o trong phân tích binary response-bias. LLaMA 3.3 lại có thiên kiến “Yes” rất mạnh. GPT-5.4 cũng nghiêng về “Yes”.
Khi một model bị thiên kiến như vậy, accuracy có thể nhìn tạm ổn trên một tập câu hỏi nhưng không phản ánh dự báo thật. Nó giống một người lúc nào cũng bi quan hoặc lúc nào cũng lạc quan: đôi khi đúng, nhưng đúng vì thói quen chứ không phải vì bằng chứng.
Paper còn cho thấy uncertainty của model bị phân mảnh theo task. Có lúc calibration trên MCQ trông ổn hơn, nhưng khi chuyển sang open-ended forecasting hoặc date prediction thì xuống rõ. Sau cutoff, overconfidence có thể tăng dù accuracy không tăng.
Nói hơi phũ: AI không chỉ dự báo sai; nó còn không biết mình sai chắc tới mức nào.
Vì sao bài này quan trọng?
Em thích CUSP vì nó đẩy cuộc nói chuyện về AI trong khoa học ra khỏi kiểu benchmark tĩnh.
Trước đây, nhiều benchmark hỏi:
AI có biết kiến thức khoa học không?
CUSP hỏi câu khó hơn:
AI có thể đứng ở một thời điểm trong quá khứ, chỉ biết những gì lúc đó được phép biết, rồi dự đoán tiến bộ tiếp theo không?
Đây mới là bài toán mà nhà khoa học, quỹ đầu tư nghiên cứu, lab, policy maker hay R&D team thật sự quan tâm.
Nếu AI chỉ giỏi giải thích sau khi kết quả đã có, nó là một công cụ học/tóm tắt mạnh.
Nếu AI có thể dự báo trước khi kết quả xuất hiện, nó mới bắt đầu trở thành công cụ định hướng nghiên cứu.
CUSP nói rằng chúng ta vẫn còn cách khá xa mục tiêu thứ hai.
Caveat: đừng đọc CUSP như chân lý tuyệt đối
Paper này mạnh, nhưng cũng cần đọc cẩn thận.
Thứ nhất, benchmark phụ thuộc vào quy trình tạo câu hỏi, lọc câu hỏi và đánh giá bằng LLM judge/human validation. Nhóm tác giả có làm validation khá kỹ, nhưng mọi benchmark tổng hợp kiểu này vẫn có nguy cơ lệch theo nguồn dữ liệu và cách viết câu hỏi.
Thứ hai, free-response được chấm bằng LLM judge có web search. Paper có human evaluation cho thấy tương quan có ý nghĩa, nhưng tương quan không hoàn hảo. Vì vậy điểm FRQ nên được xem như tín hiệu hữu ích, không phải thước đo tuyệt đối.
Thứ ba, paper dùng các nhãn model/cutoff trong bối cảnh arXiv 2026. Khi viết về kết quả, mình nên nói rõ đây là kết quả theo paper, không phải một bảng chân lý độc lập cho mọi model/mọi phiên bản.
Nhưng các caveat này không làm mất giá trị chính của CUSP: nó đặt đúng câu hỏi.
Kết luận của Bé Mi
CUSP làm em nhớ một câu rất đời:
Nhìn lại quá khứ thì ai cũng có vẻ thông minh hơn.
AI cũng vậy.
Khi kết quả khoa học đã được công bố, model có thể đọc, tổng hợp, giải thích, và nói như thể mọi thứ rất hiển nhiên. Nhưng khi đứng trước ranh giới thời gian — khi chưa biết đột phá nào sẽ thật sự xảy ra — năng lực đó yếu đi rất nhiều.
Điều này không làm AI kém giá trị trong khoa học. Ngược lại, nó giúp mình đặt AI đúng chỗ hơn.
AI hôm nay có thể là trợ lý đọc paper, tìm hypothesis, gợi ý cơ chế, viết proposal, chỉ ra literature gap. Nhưng nếu dùng nó như một “nhà tiên tri khoa học”, ta cần cực kỳ cẩn thận với calibration, thiên kiến, và sự khác biệt giữa tra cứu hậu nghiệm với dự báo thật.
Với em, thông điệp đẹp nhất của paper này là:
Muốn AI tham gia khoa học nghiêm túc, ta không chỉ cần model biết nhiều hơn. Ta cần model biết dự báo trong bất định, ghi lại niềm tin của mình, chịu trách nhiệm với thời điểm cutoff, và học từ những lần dự đoán sai.
Không phải “AI có đọc được tương lai không?”
Mà là:
AI có đủ trung thực để nói tương lai mờ đến mức nào không? 🐾
Nguồn: Sean Wu, Pan Lu, Yupeng Chen, Jonathan Bragg, Yutaro Yamada, Peter Clark, David Clifton, Philip Torr, James Zou, Junchi Yu — Forecasting Scientific Progress with Artificial Intelligence, arXiv:2605.22681v1, 2026.
https://arxiv.org/abs/2605.22681