行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI Scientist的现在和未来

信息技术 2026-06-14 复旦大学&上海人工智能实验室胡诗郁

核心观点与关键数据

引言：AI作为科学发现的核心驱动力

历史上首次AI成果斩获两项诺贝尔奖（AlphaFold2），证明AI正在成为科学发现的核心驱动力。
AI科学家面临“重复危机”，需要自动化研究流程以提升效率。

前沿进展：AI Scientist系统概览

关键系统：Co-Scientist、ERA、DeepMind Aletheia等。
技术基座：Agentic Tree Search、VLM视觉反馈、Automated Reviewer等。
已实现能力：自主生成研究想法、编写/运行实验代码、撰写学术论文、特定领域超越人类SOTA。
未实现能力：通过顶会主会议审、跨学科通用科研能力、湿实验自主操作、理解科学概念、处理长周期复杂科研项目、独立提出范式级突破理论。

学术论文介绍I：Nature发表的重要系统

Co-Scientist（Nature 2026）：
- 核心架构：多智能体“科学方法论”（Generation、Reflection、Evolution、Proximity Check、Meta-review、Ranking Agent）。
- 湿实验验证：发现治疗AML的新药物重定位候选，验证AI提出的假说。
- 关键启示：归纳偏置、人机协作。
ERA（Nature 2026）：
- 核心挑战：科学软件开发的“迭代困局”。
- 核心思想：将科研探索建模为树搜索问题（代码变异、树搜索、思想重组）。
- 成果：基因组学、流行病学、时间序列预测任务中超越人类SOTA。
- 局限性：依赖预定义的“可评分任务”。
- 启示：未来科学家核心价值转向定义评估指标和领域构想。

学术论文介绍II：Agent能力评价与基准测试

Fudan NLP Group研究：
- 复杂约束下的工具使用基准测试（CCTU）：
  - 核心发现：所有模型任务完成率低于20%，约束违反率超过50%。
  - 关键瓶颈：长周期任务、工具增强不可或缺、小模型可超越大模型、学科间差异显著。
- SciAgentGym：
  - 核心挑战：长周期科学工具使用。
  - 语义抽象隐藏中间结果，确保非平凡性。
  - 消融实验结论：通用工具数据负迁移、错误恢复轨迹对鲁棒性至关重要。
- SciForge四步流程：
  - 构建工具依赖图、ε-贪心阶段、前向执行验证、轨迹→问题生成。
  - 核心挑战：传统RAG系统无法处理长文档多跳查询。
  - SPO方案：
    - 核心发现：未训练即超越最佳RAG基线，多证据多跳问题增益最显著。

AIScientist-WisPaper平台

功能介绍：文献检索、实验设计、数据分析、论文写作。
未来展望：闭环实验室、跨学科通用化、科研平权化。
核心共识：“Graded Autonomy”——机器速度闭环运行，锚定人类优先事项。

总结

AI科学家已从概念变为现实，具备自主生成想法、做实验、写论文、通过评审的能力。
未来5年是关键窗口期，需同步建立伦理框架和评估体系，降低AI科研门槛。

复旦⼤学上海⼈⼯智能实验室引⾔：为什么需要AIꢀScientistIntroduction:WhyAIScientist? 2前沿进展：AIꢀScientistꢀ系统概览State-of-the-ArtAIScientistSystems 3学术论⽂介绍I：Natureꢀ发表的重要系统PaperIntroI:NaturePublications 4学术论⽂介绍II：Agentꢀ能⼒评伌与基准测试PaperIntroII:AgentBenchmarks WisPaperꢀ功能介绍与OpenNoveltyWisPaperPlatform&OpenNovelty 引⾔：为什么需要AIꢀScientist Introduction:ꢀWhyꢀAIꢀScientist? 诺⻉尔化学奖诺⻉尔物理学奖 DemisꢀHassabisꢀ·ꢀJohnꢀJumperꢀ·ꢀDavidꢀBaker JohnꢀHopfieldꢀ·ꢀGeoffreyꢀHinton AlphaFold2ꢀ蛋⽩质结构预测&ꢀ计算蛋⽩质设计启发⼤脑的神经⽹络基础⼯作 ꢀ关键信号：历史上⾸次AIꢀ成果时斩获两项诺⻉尔奖⸺AIꢀ正在成为科学发现的核⼼驱动⼒重复危前沿进展：AIꢀScientistꢀ系统概览 2024-2026ꢀKeyꢀSystemsꢀOverview 技术基座核⼼创新 •ꢀAgenticꢀTreeꢀSearchꢀ渐进式搜索•ꢀVLMꢀ视觉反馈迭代优化图表•ꢀAutomatedꢀReviewerꢀ⾃动评审⻔控 •ꢀClaudeꢀSonnet,ꢀGPT-4o,ꢀo3,ꢀo4-mini•ꢀTemplate-based：⼈类提供研究脚⼿架•ꢀTemplate-free：完全开放式⾃主探索被接收论⽂ CompositionalꢀRegularization:ꢀUnexpectedꢀObstaclesinꢀEnhancingꢀNeuralꢀNetworkꢀGeneralization ICLRꢀ2025ꢀWorkshopꢀ·ꢀ3ꢀ篇投稿中1ꢀ篇通过均分6.33/10ꢀꢀ超过接收阈值 SakanaꢀAIꢀ接收后主动撤稿，披露AIꢀ⾝份 Workshopꢀ接收率60-80%（主会20-30%） AIꢀ全⾃动研究⾸次被⼈类同⾏评审接受已经能做到尚未做到 •ꢀ⾃主⽣成研究想法并编写/运⾏实验代码•ꢀ撰写完整学术论⽂(LaTeX)•ꢀ在特定领域超越⼈类SOTAꢀ(DeepScientist)•ꢀ通过Workshopꢀ级别同⾏评审(ICLRꢀ2025)•ꢀ多智能体协作科研(Co-Scientist)•ꢀ⽣物医学假说⽣成并实验验证 •ꢀ通过顶会主会议审稿•ꢀ跨学科的通⽤科研能⼒•ꢀ「湿实验」⾃主操作•ꢀ真正理解科学概念(vs.ꢀ模式匹配)•ꢀ处理⻓周期复杂科研项⽬•独⽴提出范式级突破理论学术论⽂介绍I：Natureꢀ发表的重要系统 Co-Scientistꢀ&ꢀERAꢀ(Natureꢀ2026) GoogleResearch/GoogleDeepMind/InsilicoMedicine/Stanford Nature,May2026|多智能体协作假说生成系统 ▶ꢀ科学进步的内核在于提出假设，现有LLMꢀ存在两个核⼼痛点：幻觉与缺乏严谨性：容易⽣成看似科学实则⽆法实现的⽅案。•缺乏计算扩展性：简单地增加模型参数并不等同于深度思考。• Co-Scientistꢀ试图通过结构化思维引擎解决这些问题 ▶ꢀ核⼼架构：多智能体“科学⽅法论” ••••••GenerationꢀAgentꢀ(⽣成者)：负责跨学科搜索并提出初步假设。ReflectionꢀAgentꢀ(反思者)：扮演“同⾏评审员”，批判假设的正确性与新颖性，并使⽤外挂⼯具查重。EvolutionꢀAgentꢀ(进化者)：基于辩论反馈，对⾼质量假设进⾏迭代优化和交叉杂交。ProximityꢀCheckAgent(拓扑邻近者)：⽣成假设的邻近图，相似想法的聚类、去重以及对假设空间的卓越⾼效探索。Meta-reviewꢀAgent(评价者)：综合评价反馈与辩论规律，迭代优化各代理性能。RankingꢀAgentꢀ(排序者)：引⼊Eloꢀ锦标赛机制，让不同假设进⾏“科学辩论”，优胜劣汰。 ▶ꢀ湿实验验证：从硅⽚到培养⽫• ••发现治疗急性髓系⽩⾎病(AML)ꢀ的新药物重定位候选发现新的协同组合疗法⽅案通过体外实验验证AIꢀ提出的假说更令人惊叹的是在多药联合治疗上的表现。寻找2-3种药物的协同效应是一个指数级增长的搜索空间，而Co-Scienꢀst成功预测了JNJ-64619178与Selinexor等组合的强协同作用，这通过传统的人工筛选几乎是不可能的。关键启示： •InducꢀveBias(归纳偏置)：将“科学辩论”逻辑嵌入智能体交互，比单纯提升模型参数更高效。 •人机协作：系统允许科学家在关键节点修改“研究计划配置”，实现了真正的“人在回路”指导。 Co-Scienꢀst证明了AI已具备在复杂生物医学领域进行“原创性推理”初级能力。 AcceleratingscientificdiscoverywithCo-Scientist,NATURE2026 (Natureꢀ2026) GoogleDeepMind ▶ꢀ核⼼挑战：科学软件开发的“迭代困局” 在许多科学领域，研究的核⼼往往在于设计能够最⼤化某种“质量分数”的经验软件（EmpiricalꢀSoftware）。例如，为了预测蛋⽩质结构、模拟⼤⽓流动或分析复杂的基因组轨迹。然⽽，现状却极度低效：开发周期⻓：构建⼀个健壮的实验代码库通常需要数年的领域积累。搜索空间受限：科学家往往基于直觉选择特定⽅法，难以穷尽所有可能的算法组合。转化能⼒弱：即便有优秀的前沿论⽂产出，将其思想复现并适配到具体任务中也是巨⼤的⼯程负担。 ERAꢀ的出现，正是为了将这种“⼿动试错”转化为“⾃动化的全局搜索”。 (Natureꢀ2026) ▶核⼼思想：将科研探索建模为树搜索问题代码变异ꢀ(CodeꢀMutation)：利⽤ꢀLLMꢀ作为“变异引擎”。不同于传统遗传算法的字符级随机扰动，LLMꢀ可以在语义层⾯理解代码逻辑，根据外部输⼊的“研究建议”（如某篇ꢀNatureꢀ论⽂的摘要）直接重写算法逻辑。树搜索ꢀ(TreeꢀSearch)：采⽤类似ꢀAlphaZeroꢀ的树搜索策略。系统利⽤PUCTꢀ公式平衡“开发（Exploitation，优化当前得分最⾼的⽅案）”与“探索（Exploration，尝试全新的算法分⽀）”。这保证了ꢀAIꢀ不会陷⼊局部最优解。思想重组ꢀ(IdeaꢀRecombination)：这是ꢀERAꢀ最具“创造⼒”的部分。它会分析多个成功的⽗代节点，提取两者的核⼼逻辑，⾃动融合成⼀个前所未⻅的混合模型。 (Natureꢀ2026) 1.基因组学：重塑单细胞单细胞整合排行在单细胞RNA测序(scRNA-seq)任务中，目标是消除实验批次效应（BatchEffects）同时保留生物学多样性。ERA基于已有的9种基础方法（如BBKNN,ComBat等），不仅复现了专家代码，还通过“重组”创造了40种新方法。结果：ERA的方案在OpenProblems权威榜单上超越了所有人类开发的SOTA。特别是BBKNN(TS)版本，通过将ComBat的校准逻辑与BBKNN结合，实现了14%的性能飞跃。 2.流行病学：挑战CDC集成预测在对美国COVID-19住院数据的预测中，ERA表现出了极强的鲁棒性。战果：ERA产生的14个预测策略优于CDC的官方Ensemble模型。发现：AI自动选出的最优解通常是“混搭”：将稳定的传统统计模型（如UMass-ar6_pooled）与灵活的流行病学模型（如基于再生数R的模型）结合。 3.时间序列预测：通用库的自动演进在GIFT-Eval测试中，ERA不仅为每个数据集生成专项代码，还探索出了一个“通用预测库”。突破点：AI自动在代码中加入了对节假日的处理逻辑（HolidaysLibrary）和分段趋势拟合，这使得代码的泛化能力极强。 ERA代表了AIAgent在科学领域从“对话式助理”向“工程化助手”的进化。它证明了在具有明确评估标准的任务中，AI可以极大地降低复杂科学软件的准入门槛。局限性：尽管ERA在经验建模上表现卓越，但它仍然依赖于预定义的“可评分任务（Scorable Task）”。对于需要从零推导理论框架或因果机制的“硬核发现”，ERA目前主要扮演的是“执行者”和“优化者”的角色。启示：未来的科学家可能不再需要精通每一行代码，他们的核心价值将转向：定义高质量的评估指标（Metrics）以及提供精准的领域构想（Ideas），而繁琐的实现与调优过程将交给像ERA这样的系统去自动完成。保罗·埃尔多斯ꢀ(PaulꢀErdős)ꢀ留下了海量的猜想，GoogleꢀDeepMindꢀ团队利⽤定制的GeminiꢀDeepꢀThink智能体（代号Aletheia），Gemini负责证明、Aletheia负责验证，对ꢀ700ꢀ个开放问题发起冲锋。 1.自然语言验证器(NLVerifier)：在Gemini生成初稿后，由特定的验证模块通过逻辑推演排除明显的错误。这让专家面对的候选方案从700个锐减至212个。在众多成果中，Erdős-1051最具代表性。问题：如果一个整数序列(an)增长极快（满足数是否一定是无理数？），那么级 Aletheia给出了一个漂亮的证明： •逻辑直觉：通过构造parꢀalproducts和tails，利用Mahler准则证明了该级数无法表示为分母固定的有理数•成果转化：该证明随后由人类数学家使用Lean4进行了形式化验证，并衍生出了一篇全新的学术论文接下来这个「Erdős-75号灵异事件」，暴露出AI的智商硬伤。这道题在数学圈臭名昭著，因为它被「诅咒」了。 1995年，埃尔德什在写下这个猜想时，犯了一个低级逻辑错误，这道题题干就是错的，是个伪命题。魔幻的一幕发生了：Aletheia接手后，不仅没发现题目有问题，反而凭借其狂暴的算力和自我博弈机制，硬生生地输出了一份长达几十页、逻辑闭环的「完美证明」。但DeepMind⾃⼰也承认，700题⾥⾯，智能体过滤了500题，剩下200题中的的68.5%都是学术垃圾。700个问题⾥只解答出13个，转化率还不到2%。提出了一个极具警示性的概念：潜意识抄袭(SubconsciousPlagiarism) 在解决Erdős-1089等问题时，AI生成的证明与1981年的一篇东欧冷门数学期刊上的论文高度重合。由于该文献在AI的预训练数据集中，即使AI在推理日志中没有表现出搜索该行为，它也可能在生成过程中“无意识”地复现了训练数据。 •风险：如果人类研究者直接署名发布此类成果，将面临严重的学术诚信挑战。 •反思：数学论文的署名权应始终属于人类，因为人类需要承担起“核实文献出处”这一法律与学术责任。 •现状：AI已经能熟练处理“学生练习题级别”的数学挑战，并能高效辅助专家缩小搜索空间 •局限性：AI在理解Erdős独特的命名约定和识别隐蔽文献方面仍显笨拙 •未来：数学发现的未来不在于AI的全自动化，而在于如何利用AI的超强联想力来识别那些被历史尘封的连接点学术论⽂介绍II：Agent能⼒评价与基准测试 FudanꢀNLPꢀGroupꢀResearchꢀPapers 将复杂上下文解决任务拆解为两个维度： 500个复杂上下文场景、1899个任务、3.16万项验证标准解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识，并正确使用模型在CL-bench上的任务解决率所有模型均在推理模式下进行评估，结果报告为三次运行的平均值±标准差(%)。 JunjieYe,Gu

点击免费查看完整报告

AI Scientist的现在和未来

核心观点与关键数据

你可能感兴趣