您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [复旦大学&上海人工智能实验室]:AI Scientist的现在和未来 - 发现报告

AI Scientist的现在和未来

报告封面

ThePresentandFutureofAIScientist 张奇 复旦⼤学上海⼈⼯智能实验室 Outline/⽬录 引⾔:为什么需要AIScientistIntroduction: Why AI Scientist? 前沿进展:AIScientist系统概览State-of-the-Art AI Scientist Systems 2 学术论⽂介绍I:Nature发表的重要系统Paper Intro I: Nature Publications 3 学术论⽂介绍II:Agent能⼒评伌与基准测试Paper Intro II: Agent Benchmarks WisPaper功能介绍与OpenNoveltyWisPaper Platform & OpenNovelty 未来展望与总结Future Outlook & Summary 引⾔:为什么需要AIScientist Introduction:WhyAIScientist? 2024诺⻉尔奖:AI登上科学最⾼殿堂 诺⻉尔物理学奖 诺⻉尔化学奖 DemisHassabis·JohnJumper·DavidBaker JohnHopfield·GeoffreyHinton AlphaFold2蛋⽩质结构预测&计算蛋⽩质设计 启发⼤脑的神经⽹络基础⼯作 💡关键信号:历史上⾸次AI成果同时斩获两项诺⻉尔奖⸺AI正在成为科学发现的核⼼驱动⼒ ⼈类科研的天花板在哪⾥? 科学范式的演进:从实验科学到AI驱动的「第五范式」 前沿进展:AIScientist系统概览 2024-2026KeySystemsOverview AIScientist:⾸个全流程⾃动科研系统 SakanaAI/UBC/Oxford·Nature2026 技术基座 核⼼创新 •ClaudeSonnet,GPT-4o,o3,o4-mini•Template-based:⼈类提供研究脚⼿架•Template-free:完全开放式⾃主探索 •AgenticTreeSearch渐进式搜索•VLM视觉反馈迭代优化图表•AutomatedReviewer⾃动评审⻔控 ICLR2025Workshop—AI论⽂⾸次通过同⾏评审历史性时刻:零的突破 被接收论⽂ CompositionalRegularization:UnexpectedObstaclesinEnhancingNeuralNetworkGeneralization ICLR2025Workshop·3篇投稿中1篇通过 均分6.33/10超过接收阈值 SakanaAI接收后主动撤稿,披露AI⾝份 Workshop接收率60-80%(主会20-30%) AI全⾃动研究⾸次被⼈类同⾏评审接受 2026年的AIScientist:能⼒边界 ❌尚未做到 已经能做到 •⾃主⽣成研究想法并编写/运⾏实验代码•撰写完整学术论⽂(LaTeX)•在特定领域超越⼈类SOTA(DeepScientist)•通过Workshop级别同⾏评审(ICLR2025)•多智能体协作科研(Co-Scientist)•⽣物医学假说⽣成并实验验证 •通过顶会主会议审稿•跨学科的通⽤科研能⼒•「湿实验」⾃主操作•真正理解科学概念(vs.模式匹配)•处理⻓周期复杂科研项⽬•独⽴提出范式级突破理论 学术论⽂介绍I:Nature发表的重要系统 Co-Scientist&ERA(Nature2026) Co-Scientist:Multi-AgentHypothesisGeneration(Nature2026) Google Research /GoogleDeepMind/InsilicoMedicine / Stanford Nature, May 2026 |多智能体协作假说生成系统 ▶科学进步的内核在于提出假设,现有LLM存在两个核⼼痛点: •幻觉与缺乏严谨性:容易⽣成看似科学实则⽆法实现的⽅案。•缺乏计算扩展性:简单地增加模型参数并不等同于深度思考。 Co-Scientist试图通过结构化思维引擎解决这些问题 ▶核⼼架构:多智能体“科学⽅法论” •GenerationAgent(⽣成者):负责跨学科搜索并提出初步假设。•ReflectionAgent(反思者):扮演“同⾏评审员”,批判假设的正确性与新颖性,并使⽤外挂⼯具查重。•EvolutionAgent(进化者):基于辩论反馈,对⾼质量假设进⾏迭代优化和交叉杂交。•ProximityCheckAgent(拓扑邻近者):⽣成假设的邻近图,相似想法的聚类、去重以及对假设空间的卓越⾼效探索。•Meta-reviewAgent(评价者):综合评价反馈与辩论规律,迭代优化各代理性能。•RankingAgent(排序者):引⼊Elo锦标赛机制,让不同假设进⾏“科学辩论”,优胜劣汰。 Co-Scientist:Multi-AgentHypothesisGeneration(Nature2026) Google Research /GoogleDeepMind/InsilicoMedicine / Stanford Nature, May 2026 |多智能体协作假说生成系统 ▶湿实验验证:从硅⽚到培养⽫ •发现治疗急性髓系⽩⾎病(AML)的新药物重定位候选•发现新的协同组合疗法⽅案•通过体外实验验证AI提出的假说 更令人惊叹的是在多药联合治疗上的表现。寻找2-3种药物的协同效应是一个指数级增长的搜索空间,而Co-Scien,st成功预测了JNJ-64619178与Selinexor等组合的强协同作用,这通过传统的人工筛选几乎是不可能的。 Co-Scientist:Multi-AgentHypothesisGeneration(Nature2026) Google Research /GoogleDeepMind/InsilicoMedicine / Stanford Nature, May 2026 |多智能体协作假说生成系统 ▶关键启示: •Induc&veBias(归纳偏置):将“科学辩论”逻辑嵌入智能体交互,比单纯提升模型参数更高效。 •人机协作:系统允许科学家在关键节点修改“研究计划配置”,实现了真正的“人在回路”指导。 Co-Scien)st证明了AI已具备在复杂生物医学领域进行“原创性推理”初级能力。 Accelerating scientific discovery withCo-Scientist,NATURE2026 ERA:LLM+TreeSearchforExpert-LevelScientificSoftware(Nature2026) Google DeepMind Nature, May 2026 | LLM +树搜索创建专家级科学软件 ▶核⼼挑战:科学软件开发的“迭代困局” 在许多科学领域,研究的核⼼往往在于设计能够最⼤化某种“质量分数”的经验软件(EmpiricalSoftware)。例如,为了预测蛋⽩质结构、模拟⼤⽓流动或分析复杂的基因组轨迹。 然⽽,现状却极度低效: •开发周期⻓:构建⼀个健壮的实验代码库通常需要数年的领域积累。•搜索空间受限:科学家往往基于直觉选择特定⽅法,难以穷尽所有可能的算法组合。•转化能⼒弱:即便有优秀的前沿论⽂产出,将其思想复现并适配到具体任务中也是巨⼤的⼯程负担。ERA的出现,正是为了将这种“⼿动试错”转化为“⾃动化的全局搜索”。 ERA:LLM+TreeSearchforExpert-LevelScientificSoftware(Nature2026) ▶核⼼思想:将科研探索建模为树搜索问题 •代码变异(CodeMutation):利⽤LLM作为“变异引擎”。不同于传统遗传算法的字符级随机扰动,LLM可以在语义层⾯理解代码逻辑,根据外部输⼊的“研究建议”(如某篇Nature论⽂的摘要)直接重写算法逻辑。 •树搜索(TreeSearch):采⽤类似AlphaZero的树搜索策略。系统利⽤PUCT公式平衡“开发(Exploitation,优化当前得分最⾼的⽅案)”与“探索(Exploration,尝试全新的算法分⽀)”。这保证了AI不会陷⼊局部最优解。 •思想重组(IdeaRecombination):这是ERA最具“创造⼒”的部分。它会分析多个成功的⽗代节点,提取两者的核⼼逻辑,⾃动融合成⼀个前所未⻅的混合模型。 ERA:LLM+TreeSearchforExpert-LevelScientificSoftware(Nature2026) 1.基因组学:重塑单细胞单细胞整合排行 在单细胞RNA测序(scRNA-seq)任务中,目标是消除实验批次效应(Batch Effects)同时保留生物学多样性。ERA基于已有的9种基础方法(如BBKNN, ComBat等),不仅复现了专家代码,还通过“重组”创造了40种新方法。 结果:ERA的方案在OpenProblems权威榜单上超越了所有人类开发的SOTA。特别是BBKNN (TS)版本,通过将ComBat的校准逻辑与BBKNN结合,实现了14%的性能飞跃。 2.流行病学:挑战CDC集成预测 战果:ERA产生的14个预测策略优于CDC的官方Ensemble模型。 发现:AI自动选出的最优解通常是“混搭”:将稳定的传统统计模型(如UMass-ar6_pooled)与灵活的流行病学模型(如基于再生数R的模型)结合。 3.时间序列预测:通用库的自动演进 在GIFT-Eval测试中,ERA不仅为每个数据集生成专项代码,还探索出了一个“通用预测库”。 突破点:AI自动在代码中加入了对节假日的处理逻辑(Holidays Library)和分段趋势拟合,这使得代码的泛化能力极强。 ERA:跨模型性能对⽐ ERA代表了AIAgent在科学领域从“对话式助理”向“工程化助手”的进化。它证明了在具有明确评估标准的任务中,AI可以极大地降低复杂科学软件的准入门槛。 局限性:尽管ERA在经验建模上表现卓越,但它仍然依赖于预定义的“可评分任务(ScorableTask)”。对于需要从零推导理论框架或因果机制的“硬核发现”,ERA目前主要扮演的是“执行者”和“优化者”的角色。 启示:未来的科学家可能不再需要精通每一行代码,他们的核心价值将转向:定义高质量的评估指标(Metrics)以及提供精准的领域构想(Ideas),而繁琐的实现与调优过程将交给像ERA这样的系统去自动完成。 Gemini挺进数学荒原:Erdős猜想的半⾃主发现之路 保罗·埃尔多斯(PaulErdős)留下了海量的猜想,GoogleDeepMind团队利⽤定制的GeminiDeepThink智能体(代号Aletheia),Gemini负责证明、Aletheia负责验证,对700个开放问题发起冲锋。 1.自然语言验证器(NL Verifier):在Gemini生成初稿后,由特定的验证模块通过逻辑推演排除明显的错误。这让专家面对的候选方案从700个锐减至212个。 2.领域专家垂直评审:人类专家介入,通过对比文献和跨学科沟通,剔除那些“理解错题意”的方案。 Gemini挺进数学荒原:Erdős猜想的半⾃主发现之路 在众多成果中,Erdős-1051最具代表性。问题:如果一个整数序列(an)增