AI智能总结
总第906期 - 2 -一、AI for Science历经萌芽、探索和快速发展三个阶段AI for Science(又称AI4S,即人工智能驱动的科学研究)是利用人工智能技术和方法,通过从海量数据中提取有价值的信息,构建模型以预测和解释自然现象等,助力解决科学研究中的复杂问题和科研挑战,从而加速科学发现的进程。AI for Science发展是人工智能技术进步、科学数据积累和科学计算发展融合演进的过程,其发展历程可以分为以下几个重要阶段:萌芽阶段(1950s-20世纪末):计算机辅助科学的早期尝试。从1936年阿兰·麦席森·图灵提出图灵机的构想开始,人类从未停止对人工智能应用的思考和探索。1950-1980年代,计算机主要用于数值计算领域,并在数值模拟领域得到应用。科学家们利用计算机进行复杂的物理系统模拟,解决大量的数学方程,推动了计算科学的初步发展。1980年代,专家系统的兴起带动人工智能发展迎来小高潮。专家系统通过逻辑推理模拟人类专家决策,验证了知识工程的潜力,将其应用于化学分析、医学诊断等领域,代表如研究有机分子识别的工具DENDRAL、医疗诊断工具MYCIN和CADUCEUS等,但因依赖人工规则和有限的数据处 - 3 -理能力,其应用范围受限。1990年代起,机器算法和神经网络的研究快速发展,特别是1997年IBM的深蓝超级计算机战胜国际象棋世界冠军卡斯帕罗夫,引发了全球对AI在复杂任务上应用潜力的关注。此阶段以计算机作为辅助工具、以解决特定科学问题为核心特征,但受限于符号逻辑主导的算法、缺乏数据驱动能力和有限的计算能力,使其难以应对复杂系统的动态建模。探索阶段(21世纪初-2010年代中期):机器学习与科学研究的初步结合。进入21世纪,随着计算能力大幅提升、科学数据库初步积累以及卷积神经网络(CNN)、循环神经网络(RNN)等一系列关键算法突破,科学家开始尝试利用AI从大规模数据中自动提取高层次特征、挖掘科学规律。特别是深度学习等技术的发展推动AI在图像识别、语音识别等领域的突破,为科学研究带来了新的机遇。2006年,杰弗里·辛顿(GeoffreyHinton)提出深度信念网络(DBN),推动深度学习训练方法的发展。同年,NVIDIA推出CUDA框架,利用GPU的并行处理能力加速各种计算任务,大大提升了深度学习算法效率。2008年,Google语音识别应用程序基于隐马尔可夫模型等技术,大大提高语音识别 - 4 -的准确率,这些技术后被迁移至蛋白质序列分析领域。2012年,杰 弗 里・辛 顿 与 他 的 两 位 研 究 生 训 练 的 深 度 卷 积 神 经 网 络(AlexNet)在ImageNet图像识别竞赛中以碾压优势夺冠,验证深度学习在复杂数据中的潜力,推动计算机视觉技术向科学领域渗透。这一阶段,AI仍以辅助性角色存在,应用集中于基因组学、化学信息学、天文学等数据密集型领域,特别是2003年人类基因组计划完成后对海量数据分析的需求激增,AI技术被用于基因序列分析、基因表达数据处理等,而物理、材料等机理驱动学科仍以传统计算为主,尚未形成系统性方法论,但这也推动了从专家系统到数据驱动模式的发展,为后续AI for Science的发展打下了基础。快速发展阶段(2010年代中后期至今):深度学习驱动的范式革命。深度学习等技术加速突破推动AI从“工具”升级为“新范式”,加速数据驱动与机理建模深度融合。这一阶段以2016年AlphaGo击败人类围棋冠军为起点,验证了深度强化学习在复杂系统中的决策潜力,随后2018年DeepMind的AlphaFold 1将深度学习应用于蛋白质折叠问题,显著提高预测准确度,并在国际 - 5 -蛋白质结构预测竞赛(CASP13)中获得冠军,推动了全球对人工智能驱动科学研究的广泛关注。之后,AlphaFold 2、AlphaFold3加速演进,为学术科研和医药研发等领域带来巨大助力,2024年的诺贝尔化学奖也颁给了DeepMind的Demis Hassabis和JohnJumper,以表彰AlphaFold在蛋白质结构预测方面的贡献。在2018年,鄂维南教授提出了AI for Science的概念,其深度势能团队也在2020年利用机器学习与物理建模方法实现了亿级原子量子分子动力学模拟,并获戈登贝尔奖。在此期间,Transformer架构的提出,以及后续OpenAI的GPT系列模型及Qwen、DeepSeek、Gemini等模型在自然语言及多模态处理任务上的强大能力引发了新一轮AI热潮,让AI具备跨任务迁移能力,推动跨学科知识融合,也加速了AI for Science领域模型的搭建。得益于这一时期算力跃升、海量数据和混合建模的发展,AI在驱动蛋白质预测、药物发现、材料研发、气候预测、量子力学等领域取得重要进展。 - 6 -二、AI for Science应用逐步拓展并带动各国争相布局当前,人工智能在解决科学研究的痛点、难点问题上已表现出强大实力和巨大潜力,AI for Science已从愿景发展为全球共识,各国政府、科研机构和企业巨头纷纷布局,推动AI for Science技术突破不断取得进展,应用领域和应用深度加速延展。(一)AI for Science已在多学科领域得到应用生物医药领域,AI在蛋白质结构预测、药物研发、基因测序、靶标发现等方面的应用取得了显著进展,成为AI for Science的“旗舰”应用。其中,谷歌旗下的DeepMind的AlphaFold 2通过学习现有氨基酸序列实现蛋白质3D结构原子级精度预测,成为AI for Science发展中的关键节点;目前其下一代的AlphaFold 3无需任何结构信息输入就能准确预测蛋白质、DNA、RNA及配体等生命分子的结构及其相互作用方式,准确率比现有最佳传统方法高出50%,带来药物设计与生物结构领域震撼变革。在医疗领域,AI制药企业Exscientia的Centaur Biologist等平台将靶点和疾病进行匹配,对药物分子的药理毒性、药代动力学进行预测,并推动AI设计药物进入临床试验;麻省理工学院等团队开发了 - 7 -可用于前列腺癌预测与评估的深度学习分析模型P-NET,可自动预测前列腺癌症状态、为前列腺癌患者预测新的治疗靶标等。此外,谷歌推出Med-PaLM 2、MedGemini医疗大模型,微软推出LLaVA-Med生 物 医 学 大 型 语 言 和 视 觉 模 型 , 我 国的 百 度PaddleHelix团队于2024年10月发布了新的mRNA序列设计算法LinearDesign 2,腾讯人工智能实验室也研发根据氨基酸准确预测出蛋白质结构的人工智能工具“tFold”,正加速蛋白质结构预测、mRNA疫苗及相关药物研发进程。材料科学领域,AI通过模拟和预测材料性能,改变传统依靠试错、枚举的材料发现模式,加速推动新材料研发进程。2023年11月,DeepMind团队开发的GNoME模型能通过分子动力学模拟预测材料性能,预测出220万种新的晶体,其中38万种是稳定的,并通过实验验证了736种;而在2024年初的三周内,GNoME模拟了数百万个晶体结构,帮助团队发现了超过2.2万种新的无机晶体材料。此外,Google的AI Quantum团队开发出量子化学模拟系统,提升复杂材料性质预测效率;DeepMind团队与加州大学伯克利分校合作将机器人技术与人工智能相结合, - 8 -开发出自主新材料发现合成系统A-Lab,推动过程无人化的材料分析。我国的深势科技先后推出三维分子表征大模型Uni-Mol、覆盖元素周期表超90种元素的DPA-2预训练模型,推动AI工具在新材料研发等领域的应用拓展。气象科学领域,AI在气象预测和气候变化研究中发挥重要作用,通过大数据分析和人工智能模型预测,提升天气预报、气候变化、自然灾害等预测准确性。2023年6月,谷歌推出的MetNet-3天气模型可提前24小时对降水、表面温度、风速和风向等核心变量进行高分辨率预测,大大扩展预测前臵时间范围和变量。2023年11月,DeepMind推出了采用图神经网络架构的机器学习模型GraphCast,可以提前10天预测天气状况,比天气模拟系统更快、更准确地预测气旋的轨迹、洪水等风险。此外,英伟达与MeteoFrance于2023年底共同开发了天气预报系统FourCastNet,能快速生成全球天气预测;2024年6月,微软推出首个大气人工智能基础模型Aurora,可以在1分钟内准确预测全球天气和空气污染。我国气象局也在2024年6月发布“风 - 9 -清”“风顺”“风雷”3个人工智能气象大模型,不仅能提前、准确预测气象变化,更提升了天气系统预测的可解释性。其他科学领域,人工智能已在数学、物理等领域得到应用,推动科学问题发现与解决。在数学领域,DeepMind先后推出矩阵乘法算法应用AlphaTensor(2022年10月)、用于发现更高效排序算法的AlphaDev(2023年6月)、开发能够解答国际数学奥林匹克竞赛难题的AlphaGeometry(2024年1月)等,全球研究人员已应用DeepMind开发的人工智能算法和程序证明数学定理、发现新定理、解决难题,如在2021年数学家和AI研究人员利用DeepMind开发的机器学习框架证明了Kazhdan-Lusztig多项式的成立。目前,DeepMind的AlphaGeometry 2表现已超过奥林匹克竞赛普通金牌得主的水平。在物理领域,欧洲核子研究中心在2014年ATLAS实验中应用深度神经网络识别希格斯玻色子,2015年成立机器学习工作组处理海量实验数据。2022年2月,研究人员与DeepMind联合开发人工智能深度强化学习系统,实现托卡马克内等离子体进行磁控。2022年8月,利用大量实验数据训练的深度神经网络,找到质子中存在隐性内含粲夸克的证 - 10 -据。同时,英伟达在2021年推出了Modulus物理-机器学习框架,用于解决复杂物理系统建模和模拟问题。(二)主要科技强国纷纷推进AI for Science布局作为该领域的先行者、领先者,美国联邦政府正不断加码AI forScience布局,抢占“AI+科研”高地。美国能源部(DOE)、国家科学基金会(NSF)、国防部(DOD)、卫生部(HHS)等部门近年来不断推动人工智能技术在科学研究领域的应用。其中,美国能源部在2023年5月发布《面向科学、能源和安全的人工智能》,致力于推动人工智能赋能科学研究、能源开发和国家安全等领域。美国能源部依托其下属实验室打造用于科学发现的人工智能基础模型和科学数据库,如在2024年5月推出科学、安全和技术人工智能前沿“FASST”计划,并在气象预测、核能研发等领域布局大量研究项目。同时,2024年4月美国总统科学技术顾问委员会(PCAST)发布《赋能研究:利用人工智能应对全球挑战》报告,提出AI for Science发展的“三角”模型和七大核心领域布局,并为美国总统决策提供了新的科研组织模式和科研流程规范等行动建议。 - 11 -欧洲、日本等国家和地区也逐步部署AI for Science,利用人工智能助推科学研究加速发展,以期重振其传统科研优势。2023年12月,欧盟委员会发布《科学中的人工智能》报告,提出利用人工智能加速欧洲科学发现和促进创新,强调将AI融入科学发现以增强欧盟在全球科研领域的竞争优势。2025年2月,欧盟委员会发布《科学领域人工智能基础设施建设》报告,梳理欧盟人工智能基础设施建设现状与挑战,强调成员国加强合作,推动人工智能在科学领域的应用。2024年5月,英国皇家科学院发布《人工智能时代的科学:人工智能如何改变科学研究的性质和方法》报告,剖析人工智能驱动科研研究的角色、潜力及挑战,并强调构建全球科学界共识。同时,英国国家科研与创新署设立生成式模型研究中心与人工智能化学研究中心,研究人工智能在化学、材料等科研领域的应用。日本文部科学省在“信息整合型物质·材料开发倡议”项目中,