行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI Scientist的现在和未来

信息技术 2026-05-27 复旦大学&上海人工智能实验室向向

核心观点与关键数据

引言：AI Scientist 的必要性

2024年诺贝尔物理学奖和化学奖由 AlphaFold2 获得，标志着 AI 成为科学发现的核心驱动力。
科学范式正从实验科学演进到 AI 驱动的“第五范式”。
AI Scientist 作为首个全流程自动科研系统，已实现从想法生成到论文撰写并通过同行评审的全自动化。

前沿进展：AI Scientist 系统概览

2024-2026年关键系统：
- Sakana AI: 首个全流程自动科研系统，基于 Claude Sonnet、GPT-4o 等模型，实现模板化与开放式探索，通过 ICLR 2025 Workshop 同行评审。
- Co-Scientist (Nature 2026): 多智能体协作假说生成系统，通过 Generation、Reflection、Evolution 等智能体解决 LLM 幻觉与计算扩展性问题，成功发现治疗 AML 的新药物。
- ERA (Nature 2026): LLM + 树搜索创建专家级科学软件，通过代码变异、树搜索、思想重组实现高效科学软件开发，在基因组学、流行病学等领域超越人类 SOTA。
- Gemini 挺进数学荒原: 利用 Aletheia 智能体半自主发现 Erdős 猜想证明，但存在“潜意识抄袭”风险，证明数学发现仍需人类核实。

学术论文介绍

Co-Scientist: 多智能体协作假说生成，通过科学辩论与湿实验验证实现原创性推理。
ERA: LLM + 树搜索，通过思想重组创造新算法，但依赖预定义任务。
Gemini: 数学猜想半自主发现，暴露 AI 理解隐蔽文献的局限。

Agent 能力评价与基准测试

CL-BENCH: 500个复杂上下文场景中，前沿模型平均仅解决 17.2% 任务。
CCTU: 复杂约束下 LLM 工具使用完成率低于 20%，约束违反率超 50%。
SciAgentGym: 长周期科学工具使用是关键瓶颈，GPT-5 在 L3 任务成功率仅 30.9%。
SciForge: 工具依赖图构建与轨迹生成显著提升鲁棒性。
MM-Doc-R1: 多轮 RL 训练迭代信息发现能力，多跳问题增益最显著 +10.0%。

WisPaper 平台与 OpenNovelty

提供文献检索、摘要生成、实验设计、数据分析、论文写作等功能，降低 AI 科研门槛。

未来展望与总结

技术挑战: 核心共识是“Graded Autonomy”，即机器速度闭环运行但锚定人类优先事项。
关键信息:
- AI Scientist 已从概念变为现实，能自主生成想法、做实验、写论文并通过评审。
- 当前模型能力短板：工具使用完成率低于 20%，上下文学习解决率仅 17.2%，长周期科学工具使用成功率 30.9%。
- 未来 5 年是关键窗口期，需同步建立伦理框架和评估体系，WisPaper 等平台将推动科研平权化。

ThePresentandFutureofAIScientist 张奇复旦⼤学上海⼈⼯智能实验室 Outline/⽬录引⾔：为什么需要AIScientistIntroduction: Why AI Scientist? 前沿进展：AIScientist系统概览State-of-the-Art AI Scientist Systems 2 学术论⽂介绍I：Nature发表的重要系统Paper Intro I: Nature Publications 3 学术论⽂介绍II：Agent能⼒评伌与基准测试Paper Intro II: Agent Benchmarks WisPaper功能介绍与OpenNoveltyWisPaper Platform & OpenNovelty 未来展望与总结Future Outlook & Summary 引⾔：为什么需要AIScientist Introduction:WhyAIScientist? 2024诺⻉尔奖：AI登上科学最⾼殿堂诺⻉尔物理学奖诺⻉尔化学奖 DemisHassabis·JohnJumper·DavidBaker JohnHopfield·GeoffreyHinton AlphaFold2蛋⽩质结构预测&计算蛋⽩质设计启发⼤脑的神经⽹络基础⼯作 💡关键信号：历史上⾸次AI成果同时斩获两项诺⻉尔奖⸺AI正在成为科学发现的核⼼驱动⼒⼈类科研的天花板在哪⾥？科学范式的演进：从实验科学到AI驱动的「第五范式」前沿进展：AIScientist系统概览 2024-2026KeySystemsOverview AIScientist：⾸个全流程⾃动科研系统 SakanaAI/UBC/Oxford·Nature2026 技术基座核⼼创新 •ClaudeSonnet,GPT-4o,o3,o4-mini•Template-based：⼈类提供研究脚⼿架•Template-free：完全开放式⾃主探索 •AgenticTreeSearch渐进式搜索•VLM视觉反馈迭代优化图表•AutomatedReviewer⾃动评审⻔控 ICLR2025Workshop—AI论⽂⾸次通过同⾏评审历史性时刻：零的突破被接收论⽂ CompositionalRegularization:UnexpectedObstaclesinEnhancingNeuralNetworkGeneralization ICLR2025Workshop·3篇投稿中1篇通过均分6.33/10超过接收阈值 SakanaAI接收后主动撤稿，披露AI⾝份 Workshop接收率60-80%（主会20-30%） AI全⾃动研究⾸次被⼈类同⾏评审接受 2026年的AIScientist：能⼒边界 ❌尚未做到已经能做到 •⾃主⽣成研究想法并编写/运⾏实验代码•撰写完整学术论⽂(LaTeX)•在特定领域超越⼈类SOTA(DeepScientist)•通过Workshop级别同⾏评审(ICLR2025)•多智能体协作科研(Co-Scientist)•⽣物医学假说⽣成并实验验证 •通过顶会主会议审稿•跨学科的通⽤科研能⼒•「湿实验」⾃主操作•真正理解科学概念(vs.模式匹配)•处理⻓周期复杂科研项⽬•独⽴提出范式级突破理论学术论⽂介绍I：Nature发表的重要系统 Co-Scientist&ERA(Nature2026) Co-Scientist:Multi-AgentHypothesisGeneration(Nature2026) Google Research /GoogleDeepMind/InsilicoMedicine / Stanford Nature, May 2026 |多智能体协作假说生成系统 ▶科学进步的内核在于提出假设，现有LLM存在两个核⼼痛点： •幻觉与缺乏严谨性：容易⽣成看似科学实则⽆法实现的⽅案。•缺乏计算扩展性：简单地增加模型参数并不等同于深度思考。 Co-Scientist试图通过结构化思维引擎解决这些问题 ▶核⼼架构：多智能体“科学⽅法论” •GenerationAgent(⽣成者)：负责跨学科搜索并提出初步假设。•ReflectionAgent(反思者)：扮演“同⾏评审员”，批判假设的正确性与新颖性，并使⽤外挂⼯具查重。•EvolutionAgent(进化者)：基于辩论反馈，对⾼质量假设进⾏迭代优化和交叉杂交。•ProximityCheckAgent(拓扑邻近者)：⽣成假设的邻近图，相似想法的聚类、去重以及对假设空间的卓越⾼效探索。•Meta-reviewAgent(评价者)：综合评价反馈与辩论规律，迭代优化各代理性能。•RankingAgent(排序者)：引⼊Elo锦标赛机制，让不同假设进⾏“科学辩论”，优胜劣汰。 Co-Scientist:Multi-AgentHypothesisGeneration(Nature2026) Google Research /GoogleDeepMind/InsilicoMedicine / Stanford Nature, May 2026 |多智能体协作假说生成系统 ▶湿实验验证：从硅⽚到培养⽫ •发现治疗急性髓系⽩⾎病(AML)的新药物重定位候选•发现新的协同组合疗法⽅案•通过体外实验验证AI提出的假说更令人惊叹的是在多药联合治疗上的表现。寻找2-3种药物的协同效应是一个指数级增长的搜索空间，而Co-Scien,st成功预测了JNJ-64619178与Selinexor等组合的强协同作用，这通过传统的人工筛选几乎是不可能的。 Co-Scientist:Multi-AgentHypothesisGeneration(Nature2026) Google Research /GoogleDeepMind/InsilicoMedicine / Stanford Nature, May 2026 |多智能体协作假说生成系统 ▶关键启示： •Induc&veBias(归纳偏置)：将“科学辩论”逻辑嵌入智能体交互，比单纯提升模型参数更高效。 •人机协作：系统允许科学家在关键节点修改“研究计划配置”，实现了真正的“人在回路”指导。 Co-Scien)st证明了AI已具备在复杂生物医学领域进行“原创性推理”初级能力。 Accelerating scientific discovery withCo-Scientist,NATURE2026 ERA:LLM+TreeSearchforExpert-LevelScientificSoftware(Nature2026) Google DeepMind Nature, May 2026 | LLM +树搜索创建专家级科学软件 ▶核⼼挑战：科学软件开发的“迭代困局” 在许多科学领域，研究的核⼼往往在于设计能够最⼤化某种“质量分数”的经验软件（EmpiricalSoftware）。例如，为了预测蛋⽩质结构、模拟⼤⽓流动或分析复杂的基因组轨迹。然⽽，现状却极度低效： •开发周期⻓：构建⼀个健壮的实验代码库通常需要数年的领域积累。•搜索空间受限：科学家往往基于直觉选择特定⽅法，难以穷尽所有可能的算法组合。•转化能⼒弱：即便有优秀的前沿论⽂产出，将其思想复现并适配到具体任务中也是巨⼤的⼯程负担。ERA的出现，正是为了将这种“⼿动试错”转化为“⾃动化的全局搜索”。 ERA:LLM+TreeSearchforExpert-LevelScientificSoftware(Nature2026) ▶核⼼思想：将科研探索建模为树搜索问题 •代码变异(CodeMutation)：利⽤LLM作为“变异引擎”。不同于传统遗传算法的字符级随机扰动，LLM可以在语义层⾯理解代码逻辑，根据外部输⼊的“研究建议”（如某篇Nature论⽂的摘要）直接重写算法逻辑。 •树搜索(TreeSearch)：采⽤类似AlphaZero的树搜索策略。系统利⽤PUCT公式平衡“开发（Exploitation，优化当前得分最⾼的⽅案）”与“探索（Exploration，尝试全新的算法分⽀）”。这保证了AI不会陷⼊局部最优解。 •思想重组(IdeaRecombination)：这是ERA最具“创造⼒”的部分。它会分析多个成功的⽗代节点，提取两者的核⼼逻辑，⾃动融合成⼀个前所未⻅的混合模型。 ERA:LLM+TreeSearchforExpert-LevelScientificSoftware(Nature2026) 1.基因组学：重塑单细胞单细胞整合排行在单细胞RNA测序(scRNA-seq)任务中，目标是消除实验批次效应（Batch Effects）同时保留生物学多样性。ERA基于已有的9种基础方法（如BBKNN, ComBat等），不仅复现了专家代码，还通过“重组”创造了40种新方法。结果：ERA的方案在OpenProblems权威榜单上超越了所有人类开发的SOTA。特别是BBKNN (TS)版本，通过将ComBat的校准逻辑与BBKNN结合，实现了14%的性能飞跃。 2.流行病学：挑战CDC集成预测战果：ERA产生的14个预测策略优于CDC的官方Ensemble模型。发现：AI自动选出的最优解通常是“混搭”：将稳定的传统统计模型（如UMass-ar6_pooled）与灵活的流行病学模型（如基于再生数R的模型）结合。 3.时间序列预测：通用库的自动演进在GIFT-Eval测试中，ERA不仅为每个数据集生成专项代码，还探索出了一个“通用预测库”。突破点：AI自动在代码中加入了对节假日的处理逻辑（Holidays Library）和分段趋势拟合，这使得代码的泛化能力极强。 ERA:跨模型性能对⽐ ERA代表了AIAgent在科学领域从“对话式助理”向“工程化助手”的进化。它证明了在具有明确评估标准的任务中，AI可以极大地降低复杂科学软件的准入门槛。局限性：尽管ERA在经验建模上表现卓越，但它仍然依赖于预定义的“可评分任务（ScorableTask）”。对于需要从零推导理论框架或因果机制的“硬核发现”，ERA目前主要扮演的是“执行者”和“优化者”的角色。启示：未来的科学家可能不再需要精通每一行代码，他们的核心价值将转向：定义高质量的评估指标（Metrics）以及提供精准的领域构想（Ideas），而繁琐的实现与调优过程将交给像ERA这样的系统去自动完成。 Gemini挺进数学荒原：Erdős猜想的半⾃主发现之路保罗·埃尔多斯(PaulErdős)留下了海量的猜想，GoogleDeepMind团队利⽤定制的GeminiDeepThink智能体（代号Aletheia），Gemini负责证明、Aletheia负责验证，对700个开放问题发起冲锋。 1.自然语言验证器(NL Verifier)：在Gemini生成初稿后，由特定的验证模块通过逻辑推演排除明显的错误。这让专家面对的候选方案从700个锐减至212个。 2.领域专家垂直评审：人类专家介入，通过对比文献和跨学科沟通，剔除那些“理解错题意”的方案。 Gemini挺进数学荒原：Erdős猜想的半⾃主发现之路在众多成果中，Erdős-1051最具代表性。问题：如果一个整数序列(an)增

点击免费查看完整报告

AI Scientist的现在和未来

核心观点与关键数据

你可能感兴趣

MPO行业深度AI光连接的现在和未来20260210

AI 对旅行意味着什么 - 现在和未来

拉丁美洲和加勒比地区的零售支付：现在和未来

固收点评：资金利率波动的过去、现在和未来

过去、现在和未来的水井坊

美国货币政策对新兴国家和欧元区的影响：现在和未来

深度报告：重为轻根：米氏互联网的过去、现在和未来

美国情报界多样性、公平性和包容性的过去、现在和未来

自动驾驶系列报告三：车载芯片篇-自动驾驶芯片：GPU的现在和ASIC的未来

健康与人工智能的现在和未来

AI Scientist的现在和未来

你可能感兴趣

MPO行业深度AI光连接的现在和未来20260210

AI 对旅行意味着什么 - 现在和未来

拉丁美洲和加勒比地区的零售支付 ： 现在和未来

固收点评：资金利率波动的过去、现在和未来

过去、现在和未来的水井坊

美国货币政策对新兴国家和欧元区的影响：现在和未来

深度报告：重为轻根：米氏互联网的过去、现在和未来

美国情报界多样性、公平性和包容性的过去、现在和未来

自动驾驶系列报告三：车载芯片篇-自动驾驶芯片：GPU的现在和ASIC的未来

健康与人工智能的现在和未来

拉丁美洲和加勒比地区的零售支付：现在和未来