您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[浙江大学]:人工智能重塑科学与工程研究 - 发现报告

人工智能重塑科学与工程研究

2025-03-26浙江大学陈***
AI智能总结
查看更多
人工智能重塑科学与工程研究

朱霖潮 浙江大学计算机科学与技术学院人工智能研究所zhulinchao@zju.edu.cn Recognition,LEarning,Reasoning 提纲 l科学研究方法l以蛋白质结构预测为例lAI驱动科学研究的全过程l小结 科学研究方法 常规内容页标题微软雅黑30号字l第一范式:经验驱动——基于观察和归纳的实验研究l以经验主义和人的思考为主导的科学研究范式 l实验是开展研究的主要手段 l起源可追溯至古希腊和中国的早期实验方法l数千年文明史中,人类绝大多数技术发展源于对自然现象的观察和实验总结 亚里斯多德认为自由落体运动中,物体越重,下落越快;物体越轻,下落越慢。 伽利略的落体实验:通过实验验证物体落下速度与质量无关 甲骨文反映了早期古人通过观察自然现象(如天气、农作物生长、天象等),并进行记录的做法。 科学研究方法 常规内容页标题微软雅黑30号字l第二范式:理论驱动——基于科学假设和逻辑演绎的理论研究l当实验条件不具备时,第一范式难以为继 l不再局限于描述经验事实,使用数学工具研究更精确的自然现象l从“知其然”到“知其所以然”,对自然界规律做出背后原理性的解释l探索第一性原理(FirstPrinciple),提供精确描述自然规律的语言,形成可分析的理论模型 科学研究方法 常规内容页标题微软雅黑30号字l第三范式:计算驱动——以计算和仿真为主导的科学研究l肯尼斯·威尔逊博士(计算物理学家、诺贝尔奖获得者)指出,计算是与理论 和实验并列的科学方法之一l高性能计算机和大规模并行计算兴起l利用计算机精确、大规模求解方程组l探索无法通过实验和理论推导解决的复杂问题 l将量子力学方程转换为计算机高效求解的形式l处理复杂多电子体系问题 科学研究方法 常规内容页标题微软雅黑30号字l第四范式:数据驱动——数据密集型科学研究方法l图灵奖获得者吉姆·格雷提出数据密集型科学研究 l利用海量数据采集取代传统观察,以机器学习、统计学等技术替代人类归纳 l大数据:例如,美国国家海洋和大气管理局每天收集数十T的环境数据,包含卫星、雷达、船舶、气象 l传统模式(先提出假设再验证)vs.让数据本身”说话” 天文大数据 大型强子对撞机(LHC)实验数据统计 科学研究方法 常规内容页标题微软雅黑30号字l第五范式:智能驱动(AIforScience)——人工智能驱动的科学研究l计算驱动范式准但不够快,擅长处理小规模的科学问题 l数据驱动范式中,AI主要作为数据分析工具;然而仅靠统计分析,难以在复杂系统的研究上实现突破l第五范式中,AI驱动科学发现的全过程,包括提出假设、设计实验等,应对计算复杂性高的组合爆炸问题,实现实验、理论、计算和数据科研范式的融合 知识:改变科学家获取和传递知识的方式数据:生成、提取和标注大规模科学数据集实验:模拟、加速并指导复杂实验模型:建模复杂系统及其组件的相互作用解决方案:为大规模搜索问题提供方案 科学发现是一个多方面的过程,包含几个相互关联的阶段,包括假设形成、实验设计、数据收集和分析。人工智能有望通过增强和加速研究过程的各个阶段来重塑科学发现1。 科学研究方法 应用:方程求解 斯托克斯方程 气压梯度力的向量式 湍流系统给定时间内在垂直于流动的方向上的热通 量和动量传递(由剪切应力τ表示)为 地转方程 从左到右分别是地转相对涡度、行星涡度和伸展涡度。 应用:工程仿真 应用:地球科学 应用:工程设计 lAnsys发布AnsysSimAI™,通过结合AI,将设计流程加速10-100倍l雷诺集团利用AnsysSimAI,加速了汽车零部件的设计和测试过程,数分钟内完成测试,减少了产品开发周期 l飞机机型设计的优化流程l首先确定需要优化的设计参数,然后进行CFD 分析评估气动性能,确定多个优化目标,进行参数敏感性分析l根据结果实施最优约束设计变更,通过形态变换调整机身外形,最终得到空气动力学性能更优的机型设计 应用:气象预报 l华为云盘古气象模型是首个精度超过传统数值预报方法的AI模型,速度相比传统数值预报提速10000倍以上l气象模型能够提供全球气象秒级预报,其气象预测结果包括位势、湿度、风速、温度、海平面气压等lGoogleDeepMind的GraphCast:利用图神经网络,不到1分钟内生成10天全球预报,在90%的1380个验证目标上优于传统系统 人工智能重塑科学与工程研究 ——以蛋白质结构预测为例 蛋白质结构预测:为什么蛋白质结构如此重要? l生命的基本构件和功能执行者l结构决定功能 l主要结构(Primarystructure):由氨基酸残基 (Aminoacidresidue)通过肽键(Peptidebond)连接形成的多肽链(Polypeptidechain)l二级结构(Secondarystructures):多肽链局部折叠形成的规则结构,包括α螺旋(αhelix)和β折叠(βsheet)l三级结构(Tertiarystructure):整个多肽链在三维空间中的折叠结构l四级结构(Quaternarystructure):由多个蛋白质亚基组合在一起形成的复合蛋白质结构l疾病与蛋白质结构异常 l药物开发与蛋白质靶点 蛋白质结构预测:蛋白质折叠问题 l序列决定结构:蛋白质的氨基酸序列包含了所有必要的信息,决定了其最终三维结构。l一条线性氨基酸链如何在水溶液中自发折叠成特定的 三维结构?l折叠机制的复杂性:蛋白质折叠涉及多种分子力的精确平衡:氢键形成、疏水相互作用(疏水核心的形成)、范德华力、静电相互作用、熵效应、溶剂效应l实验挑战 l直接观察蛋白质折叠过程极其困难 l建立完整的折叠理论困难 l计算挑战 l从计算角度看,蛋白质折叠问题搜索空间巨大,需要 模拟复杂的物理和化学过程l头计算折叠过程十分缓慢 蛋白质结构预测:CASP竞赛 l早期挑战与背景l结构预测的可靠性问题:1980年代末到1990年代初, 蛋白质结构预测领域处于混乱状态。lJohnMoult和JanPedersen的愿景 l完全透明、公正的“盲测”竞赛 lCASP的建立与运作机制 l首届CASP竞赛(1994年) l独特的盲测机制lCASP的演变与影响 lCASP1到CASP9(1994-2010):稳步进展lCASP10-CASP13(2012-2018):深度学习兴起lCASP14(2020):AlphaFold2 蛋白质结构预测:AlphaFold(2018年) lCASP13 l2018年12月,AlphaFold在CASP13获全球第一,平均得分明显高于其他参赛者。l技术方案 l使用多序列比对(MSA)收集同源蛋白质序列数据,通过分析序列变异模式找出蛋白质中的 残基对接触可能性l将这些信息输入深度残差神经网络,预测蛋白质内各残基之间的距离和角度约束l使用梯度下降优化算法,将预测的距离和角度约束转化为完整的三维结构l引起轰动但尚未完全突破 l尽管AlphaFold表现出色,仍未达到实验精度水平 蛋白质结构预测:AlphaFold2(2020年) l“AlphaFold时刻”:CASP14上的惊人表现l2020年11月30日,在CASP14的线上会议上,DeepMind团队公布了AlphaFold2的结 果,平均GDT_TS得分达到92.4分(满分100)l在100个测试蛋白质中,有三分之二的预测达到了与实验结构几乎无法区分的精度水平(GDT_TS>90)l《科学》杂志评为2021年度科学突破 蛋白质结构预测:AlphaFold2(2020年) l技术方案:采用端到端架构1.多序列比对(MSA)处理 lAlphaFold2首先对输入蛋白质序列进行大规模数 据库搜索,找到同源蛋白质序列,并构建MSA2.Evoformer模块 lTransformer变体:包含多个交替的行(序列)和列(残基位置)注意力机制l三角乘法更新操作维护残基间距离和角度的几何一致性3.结构模块:将Evoformer处理的信息转换为三维坐标 l预测每个氨基酸残基的主链角度(φ,ψ,ω)和侧链角度(χ) l使用前馈网络预测3D坐标框架l采用等变神经网络保持空间变换不变性4.损失函数设计 lLDDT(局部距离差异测试)损失:评估局部结构准确性 lTM-score(模板建模评分)损失:评估全局结构相似性l几何约束损失:确保蛋白质物理合理性 2024年诺贝尔化学奖(2024年10月9日) l2024年诺贝尔化学奖聚焦于人工智能在蛋白质结构预测领域的突破性进展l大卫·贝克(DavidBaker)表彰其在计算蛋白质设计领 域的工作l戴密斯·哈萨比斯(DemisHassabis)和约翰·朱姆珀(JohnM.Jumper)表彰其在使用人工智能进行蛋白质结构预测方面取得的进展。 l人工智能应用于基础科学研究首次获得诺贝尔奖,标志着计算方法在化学、生物学领域的重要性得到认可 2024年诺贝尔物理学奖(2024年10月8日) lJohnHopfield,Neuralnetworksandphysicalsystemswithemergentcollectivecomputationalabilities(《具有涌现集体计算能力的神经网络和物理系统》),1982,PNAS 1949年赫布(Hebbiantheory)提出:神经元之间持续重复经验刺激可导致突触传递效能增加(Neuronsthatfiretogether,wiretogether),即学习和记忆的本质是大脑结构在后期经验刺激下改变神经元之间强弱联结的权重的结果。Hopfield以能量最小这一物理学视角优化神经网络而得到局部最优解。 lAckleyDavidH,HintonGeoffreyE,SejnowskiTerrenceJ,AlearningalgorithmforBoltzmannmachines,Cognitivescience,Elsevier,9(1):147–169,1985Boltzmann机能够达到全局优化原因在于基于统计物理所设计的MonteCarlo方法,以一定的概率重新设置神经元的值,选择的概率保证网络收敛于由“能量”完全确定的热平衡态。 小结 l蛋白质结构预测:存在近50年的科学难题lAlphaFold2(DeepMind)和RoseTTAFold(Baker实验室)两个系统的开发,将蛋白质 结构预测精度从之前的40-50%提高到90%以上lAI不只是大模型:专用AI系统 lAlphaFold是科学吗? l尽管AlphaFold2可以精确预测结构,但它并不能解释蛋白质如何折叠或为何采取特定结构 l传统研究试图通过理解基本物理过程来解决蛋白质折叠问题,DeepMind通过关注结果而非过程,采取了不同路径。l如果你能治愈癌症,你关心它是如何真正工作的吗? l蛋白质折叠只是“冰山一角” l模拟整个细胞 l蛋白质复合物l蛋白质设计l蛋白质动力学l蛋白质构象变化l突变解释l… AI驱动科学研究的全过程 科学研究的主要挑战 多尺度 大数据/小数据 任务多 l环境科学领域l航空航天领域l医疗健康领域l材料科学领域l地质学与资源勘探领域l… PDB(蛋白质数据库)中的结构数量l1982年有100个结构 l1993年有1,000个结构l1999年有10,000个l2014年有100,000个l… l非线性耦合:不同尺度之间的相互作用并不是简单的线性叠加,而往往是复杂的、非线性耦合l某一尺度上的微小变化,可能会通过耦合机制对其他尺度产生巨大影响。 l数据量大、类型多,包括蛋白质序列、学术出版物、电子医疗记录、基因测序和影像等领域。每种类别都具有独特的属性l某些科学领域数据稀缺 l科学领域非常广泛,知识体系复杂l各学科发展出各自专业术语、研究方法和理论框架,导致跨学科交流困难l学科壁垒和专业分化使得