您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[复旦大学&上海科学智能研究院]:2025年科学智能白皮书 - 发现报告

2025年科学智能白皮书

AI智能总结
查看更多
2025年科学智能白皮书

第一章徐增林程远杨燕青徐燕第二章邱锡鹏付彦伟王守岩杨珉邹宏第三章陆帅石磊魏轲朱雪宁高卫国李颖洲林伟杨伟第四章向红军季敏标刘智攀曹风雷高悦第五章应天雷郁金泰刘雷程远朱思语彭汉川徐书华第六章李昊张宏亮赵斌第七章迟楠徐丰主席金力委员(按姓氏拼音字母排序)步文博龚新高金亚秋彭慧胜研究团队专家委员会 第一章 序言1. 定义与范式2. 发展与态势3. 数据分析第二章 AI 前沿1. 从大语言模型走向自主智能体2. 具身智能3. 脑机接口4. AI 内生安全第三章 数学1. 基础理论2. 优化3. 统计4. 科学计算5. 复杂系统第四章 物质科学1. 物理2. 化学3. 材料4. 能源第五章 生命科学1. 合成生物学2. 医学3. 神经科学4. 医疗5. 演化第六章 地球与环境科学1. 大气科学2. 环境科学3. 生态科学第七章 工程科学1. 通信2. 遥感3. 微电子4. 空间信息第八章 人文社会科学1. 社会科学2. 人文科学3. AI 伦理治理第九章 展望与政策1. 未来挑战与研究方向2. 政策框架 复旦大学、上海科学智能研究院复旦大学、上海科学智能研究院上海科学智能研究院上海科学智能研究院复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学上海科学智能研究院复旦大学复旦大学复旦大学复旦大学复旦大学、上海科学智能研究院复旦大学、上海科学智能研究院复旦大学复旦大学复旦大学、上海科学智能研究院复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学复旦大学 3451213141518181920212425262730313233343738394242444548495051511 刘琦复旦大学曾璇复旦大学杨帆复旦大学高跃复旦大学第八章吴力波复旦大学、上海科学智能研究院唐世平复旦大学胡安宁复旦大学周葆华复旦大学吴肖乐复旦大学傅晓明复旦大学文少卿复旦大学杨庆峰复旦大学汤维祺复旦大学第九章应天雷复旦大学颜波复旦大学内容支持吴文婷施普林格·自然张嘉慧施普林格·自然Rebecca Dargie施普林格·自然John Pickrell施普林格·自然数据支持巨蓉施普林格·自然黄珏珺施普林格·自然陈佳怡施普林格·自然Vivek Aggarwal施普林格·自然项目协调徐晓创复旦大学杨燕青上海科学智能研究院王晓夏施普林格·自然丁思嘉施普林格·自然张瑶瑶施普林格·自然排版设计赵新武施普林格·自然Sou Nakamura施普林格·自然漆远复旦大学、上海科学智能研究院沈维孝复旦大学吴力波复旦大学、上海科学智能研究院张人禾复旦大学 第一章序言1. 定义与范式1.1 定义面向科学研究的人工智能(AI) 创新和人工智能驱动的科学研究的总和可被定义为科学智能(AI for Science, AI4S),是体现了人工智能创新与科学研究双向促进与深度融合1,从而变革科研范式。1.2 范式科学研究促进人工智能创新。传统科研范式大致可分为经验归纳(实验科学)、理论建模(理论科学)、计算模拟(计算科学)以及数据密集型科学2。实验科学由自然现象和实验结果归纳出一般性规律,但没有抽象出经验规律背后的普适理论。理论科学基于自然现象或实验结果,提炼科学问题并形成科学假设,然后运用逻辑推理和数学分析,构建普适理论,但难以在复杂系统中实验验证。计算科学以科学模型为基础,通过数值方法模拟复杂系统,但需要简化模型以及提高模拟精度,以解决模拟系统精度低且计算成本高的挑战。随着技术的发展和数据规模的增长,出现了数据密集型科学的研究范式。这一范式利用机器学习方法,自动从数据中 3发现统计关联,一定程度上避免了提出科学假设,但无法发现因果关系,且难以分析低质量数据和发现复杂系统中的规律。当前的科学研究主要面临系统复杂性的挑战,相互关联的自然、技术和人类系统受到跨时间和空间尺度作用力的影响,导致复杂的相互作用和涌现行为1。传统科学研究方法难以应对这些复杂性挑战,迫切需要新的科学研究方法。针对复杂数据中的因果关系,发展了一系列新的因果推断方法。针对高质量科学数据缺乏问题,如大气数据、天文数据等,发展了生成式人工智能技术,如扩散模型和大语言模型。针对处理复杂系统的局限性,发展了融合先验知识的深度学习,将先验知识嵌入深度神经网络,在增强模型可解释性的同时,显著提高模型的泛化能力,如物理信息神经网络3。人工智能创新重塑传统科学研究过程,加速科学发现。人工智能通过融合数据和先验知识的模型驱动、假设生成与验证、自动与智能化实验以及跨学科合作等方式,加速科学发现。传统科学发现以实验观察和理论建模为核心,提出科学假设并归纳一般规律,如物理定律。人工智能则采用模型驱动的方式,从大规模数据中自动发现隐藏的规律, 2. 发展与态势2.1 最新进展随着深度学习、生成模型与强化学习等技术的突破,人工智能不仅能从海量数据中识别人类难以察觉的复杂模式,更展现出自主提出科学假设、设计实验方案、优化研究路 径 的 惊 人 能 力。DeepMind 推 出 的AlphaFold 31突破性地实现了对几乎所有分子类型的蛋白质结构预测,提高了蛋白 - 配体相互作用预测的准确度,为新药研发、疫苗 设 计 带 来 革 命 性 变 革。Google 的GraphCast 模型2、华为“盘古”大模型3、复旦大学“伏羲”大模型4等 AI 气象模型显著提升了全球天气预报能力,实现更长时间尺度、更高精度的天气预测。普林斯顿等离子物理实验室利用强化学习优化等离子体控制,解决撕裂不稳定性问题,加速核聚变能源的实现5。加州大学伯克利分校和劳伦斯伯克利国家实验室利用机器人执行实验,机器学习规划实验并结合主动学习优化实验过程,研发用于无机粉末固态合成的自动实验室 A-Lab,显著提高了材料合成效率6。2.2 前沿科学问题与突破路径2.2.1 如何构建跨尺度的科学智能模型科学研究涉及从原子尺度到宏观系统的跨尺度建模,但当前 AI 模型通常仅适用于单一尺度,缺乏有效的多尺度耦合机制。为了解决这一挑战,可以从以下几个方面寻找突破路径:利用物理模型与 AI 的耦合建模,将已知的物理规律嵌入到 AI 模型中构建跨尺度关联,打造“灰盒模型”,提高模型的可信度和计算效率。开发跨尺度、多模态统一的神经网络架构,用于从微观到宏观的统一建模。2.2.2 如何提升 AI 模型在科学研究中的泛化性AI 模型依赖大规模训练数据,而高质量的科学数据往往有限。在数据有限的情况下,模型可能无法学习到有效的特征,难以适应新的领域或任务,限制了其在实际科学问题中的应用。为了解决这一挑战,可以从以下几个方 3. 数据分析本 研 究 中, 人 工 智 能(AI) 相 关 领 域可以划分为:AI 核心(如算法、机器学习等)、数 学、 物 质 科 学、 生 命 科 学、 地 球 与 环 境科学、工程科学、人文社会科学等七个领域。AI 核心以外的六个领域,统称为科学智能(AI4S)领域,后续章节将以上述领域划分展开。根据自然科研智讯(NatureResearch Intelligence)《自然》AI 相关出版物数量、引用量以及自然指数(NatureIndex) 期 刊 等 多 源 大 数 据, 可 以 对2015-2024 年全球 AI 相关出版物进行了系统 性 分 析。 数 据 结 果 显 示,AI 和 AI4S 研究正经历规模扩张与范式变革的双重突破。3.1 全 球 AI 出 版 物 迅 猛 成 长,AI4S加速井喷2015 至 2024 年 间, 全 球 AI 核 心 和AI4S 领 域 的 学 术 出 版 物 总 量 快 速 增 长。AI4S 异 军 突 起,2020 年 后 加 速 成 长, 有力推动了 AI 研究整体的井喷态势。如图 1.1所示,全球 AI 论文数量在过去十年间激增近三倍——从 30.89 万篇增至 95.45 万篇,年均增长率为 13.7%。2020 年是一个重要加速点,前后相较,年均增长率从 10.9%跃升至 16.0%。同期 AI 核心领域论文占比从 44.5% 降 至 38.0%, 而 AI4S 占 比 相 应提升了 6.4 个百分点,这源于 AI4S 论文的快 速 增 长,2020 前 年 均 增 长 10.5%,2020 后年则以 19.3% 的速度扩张。其中,工程科学和生命科学最为突出,年均增长率 从 2020 年 前 的 8.8% 和 15.3%, 分 别升至 16.1% 和 28.9%。2015 年 至 2024 年 间, 全 球 AI 出 版物 排 名 前 五 的 国 家 / 地 区 格 局 发 生 了 转 变(图 1.2)。中国增长势头尤为显著,出版物 总 量 从 2015 年 的 6.01 万 篇 上 升 至2024 年 的 27.39 万 篇, 占 全 球 总 量 的28.7%。2018 年, 中 国 AI 出 版 物 总 量 超越欧盟,居全球首位,2022 年超越欧盟和美国的总和。印度也展现出明显的追赶态势, 2015 年出版物总量为 1.82 万篇(仅为美国的 1/3),2024 年提升至 8.51 万篇,几乎与美国(8.57 万篇)齐平。 4传统科学发现从大规模解空间中生成候选假设并验证,效率低且难以找到高质量解4。人工智能凭借强大的数据处理和分析能力,可以更有效地探索解空间,生成高质量的候选假设。例如,在纯数学领域,机器学习可以辅助数学家发现新的猜想和定理5。科学研究依赖于实验评估理论。传统的实验设计和优化方法依赖人工经验和反复试错,成本高且效率低,如材料合成以及核聚变。人工智能与机器人技术结合可以实现实验的自动化设计与执行,并根据实时数据调整实验参数,优化实验流程和候选对象。总之,人工智能可以有效整合不同学科的数据和知识,打破学科壁垒,促进多学科深度融合,解决学科的挑战性问题。跨学科合作不仅拓展了各学科的研究边界,还催生了计算生物学、量子机器学习、数字人文等新兴学科。1.P. Berens. et al. AI for science: an emerging agenda.arXiv Preprint, https://arxiv.org/abs/2303.04217v1(2023).2.T. Hey. et al. The Fourth Paradigm: Data-IntensiveDiscovery,Microsoft(2009).3.Raissi, M. et al. Physics-informed neural networks:a deep learning framework for solving forwardand inverse problems involving nonlinear partialdifferential equations.J. Comput. Phys.378, 686–707(2019).4.Griffin, C. et al. A new golden age of discovery:seizing the AI for science opportunity.Technicalreport, https://storage.googleapis.com/deepmind-media/DeepMind.com/Assets/Docs/a-new-golden-age-of-discovery_nov-2024.pdf (2024).5.Davies, A. et al. Advancing mathematics by guidinghuman intuition with AI.Nature600, 70-74 (2021). 面寻找突破路径:利用生成式模型生成高质量科学数据,补充数据稀缺领域的样本多样性。通过预训练跨领域基础模型,结合小样本学习技术,快速适应新任务或学科场景2.2.3 如何利用 AI 拓展科学发现的创新边界AI 目前仍局限于已有知识的重组与推理,主要通