第一章 引言1.科学人工智能的定义与范例 22. 发展与趋势 4 研究团队 冯旭奇 刘秀璇 增范阳月高复旦大学 复旦大学 复旦大学复旦大学 复旦大学 1.基础理论 202. 运营优化 21 1.人工智能与物理学 282. 人工智能与化学 29 1.人工智能与合成生物学 372. 人工智能与医学 38 田雷 复旦大学 卞艳 复旦大学 内容支持 吴娇丽 Spring Nature 张嘉会 SpringNature 邓丽贝 Spring Nature 毕晓 John Pickrell Spring Nature 数据支持 第七章 工程人工智能 荣居 春华科学出版社黄佳怡 春华科学出版社陈佳怡 春华科学出版社阿加瓦尔 Vivek 春华科学出版社 第五章 田雷、应晋台、雷刘元、程思宇、朱汉川、彭淑华、徐复旦大学 复旦大学 复旦大学 复旦大学 上海科学人工智能研究院 复旦大学 上海科学人工智能研究院复旦大学 复旦大学 项目管理 第八章 人工智能与人文学科及社会科学 徐晓川 复旦大学 阎庆扬 上海人工智能科学学院 王珊 春夏出版社 丁思嘉 春夏出版社 张亚琦 春夏出版社 1.计算社会科学 602. 数字人文 61 第六章复旦大学 上海人工智能科学研究所 复旦大学 复旦大学郝立红 章斌 赵明 布局与设计 1.未来挑战与研究方向 641. 政策框架 65 赵新武 Spring Nature 佐藤春 Springer Nature 数学家们在揭示新的猜想和定理方面发挥着作用。5 第一章 科学研究依赖于理论的实验验证。传统的实验设计与优化方法通常依赖人工经验和迭代试错过程,这既昂贵又低效。在材料合成和聚变实验等领域尤其如此。 引言 人工智能与机器人的融合能够促进自动化实验设计与执行,利用实时数据优化参数,并提升实验工作流程及候选方案。人工智能擅长整合跨领域的数据与知识,打破学术壁垒,实现深度跨学科融合以应对基础性挑战。这种跨学科合作不仅推动了研究边界,也催生了计算生物学、量子机器学习、数字人文等新兴学科。 1.科研人工智能的定义与范例 遇到问题,并形成正式假设,最终通过系统的逻辑推理和数学分析发展出理论。然而,在复杂系统中验证这些理论仍然是一个重大挑战。 1.1 定义 AI for Science (AI4S) 代表了人工智能(AI) 创新在科学研究中的融合以及 AI 驱动的科学发现,展现了它们深度融合①,并确立了变革性研究范式。 计算科学基于科学模型,运用数值方法模拟复杂系统。然而,它必须简化这些模型,并且需要高精度计算,这本身就限制了保真度和效率。 随着技术进步和数据指数级增长,一种新的数据密集型科学研究范式已出现,该范式利用数据挖掘技术从大规模数据集中自动识别统计模式,从而减少了对先验科学假说的依赖。然而,它在建立因果关系、处理噪声或不完整数据以及发现复杂系统中的原理方面仍面临局限。 1.2 范例 科学研究推动人工智能的发展。传统研究范式可分为经验归纳(实验科学)、理论建模(理论科学)、计算模拟(计算科学)和数据密集型科学²。实验科学范式从对自然现象和可重复实验的观察中产生经验定律,但并未提供在根本层面上解释这些定律的理论基础。 例如物理定律等原则。相比之下,人工智能采用模型驱动方法,从大规模数据中自动发现隐藏模式,从而绕过了提出假设的需求。 增强泛化能力并提高可解释性,例如物理信息神经网络3。 对提出新方法的需求。建立因果关系的需求推动了创新性推理方法的发展,这些方法能够应对现代数据挑战。 参考文献 人工智能创新正在重塑传统研究流程,并加速发现进程。人工智能将数据驱动建模与先验知识相结合,我们称之为模型驱动,自动化假设生成与验证,实现自主智能实验,并促进跨学科合作。传统科学发现以实验观察和理论建模为中心,提出科学假设并归纳一般规律。 P.Berens 等人. 科学人工智能:一项新兴议程. 1. arXiv预印本, https://arxiv.org/abs/2303.04217v1 (2023). T. Hey 等人. 第四范式:数据密集型发现, 微软 (2009). Raissi, M. 等人. 物理信息神经网络:一个用于求解涉及非线性偏微分方程的正向和反向问题的深度学习框架. 计算物理杂志 378, 686–707 (2019). Griffin, C. 等人. 发现的新黄金时代:把握科学人工智能机遇. 技术报告, https://storage.googleapis.com/deepmind-media/DeepMind.com/Assets/Docs/a-new-golden-age-of-discovery_nov-2024.pdf (2024). Davies, A. 等人. 通过人工智能引导人类直觉以推动数学发展. 自然 600, 70-74 (2021). 为应对高质量科学数据(如大气和天文数据)的稀缺问题,扩散模型和大型语言模型(LLM)等生成式人工智能技术已被开发出来。为克服复杂系统建模中的局限性,已建立将先验知识嵌入深度神经网络的知识引导深度学习方法,这显著地 传统科学发现涉及从庞大的解空间中生成并验证候选假设,通常效率较低,且难以识别高质量的解。4 人工智能利用其强大的数据处理和分析能力,更高效地导航解空间,从而生成高质量的候选假设。例如,机器学习可以协助 现代研究面临着复杂的挑战,其中相互关联的自然、技术和人类系统在时空上表现出多尺度动态。传统研究方法难以有效应对这些复杂挑战。 理论范式同样始于对自然现象和可重复实验的观察,并从中识别出基础科学。 2.发展与趋势 3. 数据分析 构建跨学科知识图谱、因果推理框架和生成模型,以整合多领域知识库,使人工智能能够从现有知识中提取洞见并提出新的科学假设。 可以通过以下方法探索突破之路: 在本报告中,人工智能相关领域被划分为七个大类:核心人工智能(涵盖算法和机器学习)、数学、物理科学、生命科学、地球与环境科学、工程学以及人文与社会科学。后六类领域统称为“AI科学”(AI4S)。后续章节将遵循此分类。 2.1 近期进展 将已确立的物理定律嵌入人工智能模型中,从而实现跨尺度关联。这种方法产生了“灰箱模型”,提升了模型的可信度与计算效率。 深度学习、生成模型和强化学习的突破,使人工智能能够识别人类难以察觉的、存在于海量数据集中的复杂模式。人工智能已展现出卓越的能力,能够自主生成科学假设、设计实验方案以及优化研究路径。 • 建立一个由强化学习驱动的闭环系统,用于AI辅助的实验设计、数据分析和理论建模,实现自动化科学发现。 • 开发跨越多尺度与多模态的统一神经网络架构,以实现从微观到宏观层面的模型一致性。 • 开发可视化工具和交互式界面,将人工智能生成的假设映射为可解释的科学逻辑链,支持专家完善和验证理论。 基于自然研究智睿(Nature Research Intelligence)收集的关于人工智能(AI)发表量和引用次数的数据,以及自然指数(Nature Index)追踪的期刊,我们对2015年至2024年的全球人工智能相关研究进行了系统性分析。研究结果表明,人工智能(AI)与人工智能赋能科学(AI4S)的研究在发表规模和研究范式上正经历双重突破。 AlphaFold3 1在预测几乎所有类型蛋白质分子的结构方面取得了突破性进展,显著提高了蛋白质-配体相互作用预测的准确性,并革新了药物发现和疫苗设计。 2.2.2 如何提高人工智能模型在科学研究中的泛化能力 人工智能模型严重依赖大规模训练数据;然而,高质量数据可能稀缺。缺乏足够的数据,模型可能难以学习有效的特征,限制其适应新领域或任务的能力,并限制其应用。 同样地,GraphCast 2、Pangu 3 和 Fuxi4 等人工智能驱动的气象模型极大地提升了全球天气预报能力,实现了更长的时间尺度和更高精度的预测。 突破的可能路径:• 利用生成模型合成高质量科学数据,以增强数据稀缺领域的样本多样性。 3.1 全球人工智能出版物快速增长,同时AI4S领域也迎来激增。 2015年至2024年,人工智能(AI)与AI4S领域的学术发表总量迅速增长。科学智能成为主要驱动力,自2020年起加速发展,显著推动了人工智能研究的爆炸式增长。如图1.1所示,过去十年间全球AI发表数量近乎翻了三番——从308,900激增至954,500,年均增长率达13.7%。2020年是一个关键转折点,其年均增长率从2020年前的10.9%上升至2020年后的16%。在此期间,核心AI领域的发表份额从44.5%下降至38.0%,而AI4S领域则势头大振,份额提升了6.4个百分点——其快速扩张体现在2020年前后的年均增长率从10.5%跃升至19.3%。在AI4S细分领域,工程学与生命科学表现突出,其年均增长率分别从2020年前的8.8%和15.3%上升至2020年后的16.1%和28.9%。 在普林斯顿等离子体物理实验室,强化学习已被应用于优化等离子体控制,以应对撕裂模不稳定性的挑战,并加速核聚变能源的发展。 • 预先训练跨领域基础模型,并结合小样本学习技术,以实现对新任务或学科场景的快速适应。 与此同时,加州大学伯克利分校与劳伦斯伯克利国家实验室合作建立了A-Lab——一个用于无机粉末固态合成的自主实验室——该实验室结合了机器人实验、机器学习驱动的实验规划以及主动学习优化。 2.2.3 如何在人工智能辅助的科学发现中突破创新边界 人工智能目前局限于基于现有知识进行重组和推理,主要通过模式识别和现有数据的重组来生成结果,并未展现出真正的创造性思维。研究往往需要跨学科知识的整合与数据,但人工智能模型在综合不同领域的见解方面面临挑战。使人工智能能够积极参与科学假说的提出与验证的挑战仍然是一个未解决的问题。 参考文献 Abramson, J.等. 使用AlphaFold 3进行精确的1.生物分子相互作用结构预测. Nature 630, 493–500 (2024). Lam Remi 等., 学习精准的中程2.全球天气预报技巧. Science382,1416- 1421(2023). Bi, K. 等. 使用3D神经网络进行精确的中程3.全球天气预报. Nature619, 533–538 (2023). Chen,L. 等. FuXi: 一个用于15天全球天气预报的4.级联机器学习预测系统. npj Clim Atmos Sci6, 190 (2023). Seo, J. 等. 使用深度强化学习避免融合等离子体撕裂5.不稳定性. Nature 626, 746–751 (2024). Nathan, J. S. 等. 一个用于加速合成新型材料的6.自主实验室. Nature624, 86–91 (2024). 2.2 主要挑战与路径 2.2.1 如何为科学模型构建跨尺度人工智能 研究通常需要从原子尺度到宏观系统进行跨尺度建模。然而,当前的AI模型通常局限于单一尺度,并且缺乏有效的多尺度耦合机制。 3.3 各国在AI4S领域的国家优势存在差异,中美仍为主要的科研合作伙伴。 2015年至2024年间,全球前五国家/地区的AI相关出版物格局发生了显著变化(图1.2)。中国经历了显著增长,其出版物总数从2015年的60,100篇增至2024年的273,900篇——占全球总量的28.7%。2018年,中国总AI出版物超过欧盟,成为全球AI研究的领先贡献者。到2022年,其产出已超过欧盟和美国的总和。与此同时,印度展现出强劲的上升势头,其出版物从2015年的18,200篇——当时约为美国总量的三分之一——增至2024年的85,100篇,几乎与美国的85,700篇产出量持平。 英国:工程学(15.3%),人文与社会科学(美国9.0%,欧盟9.4%,英国10.8%)。与此同时,中国的产出主要集中在工程学(38.9%),其