核心观点
本研报提出了 CUSP(Cutoff-conditioned Unseen Scientific Progress)基准,用于评估人工智能系统预测科学进步的能力。研究发现,尽管当前 AI 模型能够识别合理的研究方向,但它们无法可靠地预测科学进步是否会发生以及何时发生。模型在生物学、化学和物理学等领域的表现存在显著差异,AI 进步的时间比这些领域的进步更容易预测。
关键数据
- CUSP 基准包含 4,760 个科学事件,涵盖九个一级科学领域和 4,245 个不同的子类别。
- 研究评估了多个前沿模型,包括 GPT-5.4、GPT-4o、Claude Sonnet 4.5、LLaMA-3.3、GPT-OSS 和 DeepSeek R1。
- 模型在多项选择题中表现良好,但在二元预测和日期预测中接近机会水平。
- 模型在自由响应问题中表现较差,表明它们难以生成与实际科学进步方法一致的解决方案。
- 模型表现出系统性的过度自信和强烈的响应偏差,表明它们在预测科学进步时的不确定性估计不可靠。
研究结论
- 访问先验知识并不能转化为可靠的科学预测。
- 模型性能主要受益于事后信息,而非事前预测。
- 预测科学进步需要超越知识检索的能力,包括在不确定性下推理科学发现如何随时间发展。