AI智能总结
王一博,深势科技2024.09.21 AI4S的第一类寻宝图:AI建模高维复杂函数1.1 AI4S的第二类寻宝图:AI驱动平台化科研1.2 AI4S该怎么学1.3 前AI时代科研体系遇到的困难 “维数灾难”问题 从原始工具到现代科技,从石器时代到AI时代人类文明的发展离不开工具的变革,而工具的革新,离不开科学技术的发展 科学研究的第二范式:计算|Kepler范式 科学研究的第二范式:计算|从纸笔到计算机 世界上第一台现代电子数字计算机ENIAC,诞生于1946年2月14日的美国宾夕法尼亚大学。占地面积约170平方米,重达30英吨。它包含了17468根电子管,7200根晶体二极管。计算速度是每秒5000次加法或400次乘法,是使用继电器运转的机电式计算机的1000倍、手工计算的20万倍。用于美国军方弹道轨迹计算和曼哈顿计划。 Kepler(数据驱动)范式遇到的问题 化⼯数据 材料数据 数据收集的效率低下 缺乏有效的数据分析方法 科学研究的第三范式:理论 It remains that, from the same principles, I nowdemonstrate the frame of the System of the World. 现在,我将展示世界体系的框架。 ——1687年,艾萨克·牛顿,《自然哲学的数学原理》 科学研究的第三范式:理论|Newton范式 Newton(物理模型)范式遇到的问题 大部分的物理问题和所有的化学问题在原理上已经解决,剩下的问题就是求解薛定谔方程。 困难只在于运用这些定律的方程太复杂,无法求解。 ——保罗·狄拉克《电子的量子理论》 宏观仿真:飞机制造和污染扩散 C919研发使用三维数字样机技术 雷神山医院污染扩散仿真 数据驱动和基本原理驱动范式产生的后果 典型场景 典型场景 复杂的问题 “简单”的问题可以得到解决 材料性质和材料设计,药物,催化剂等只能通过经验和试错的办法解决理论和应⽤的脱离 结构⼒学,机械⼯程,航空航天,电⼦⼯程等这些问题的解决构成了现代⼯业的基础 复杂问题的挑战是什么? 简单和复杂问题的分界线: ≈自由度的个数=维数 传统方法面临的困难:维数灾难 (随着维数的增加,复杂度指数增加) 从下围棋看复杂问题面临的挑战 30秒围棋入门教学 接下来就用你刚学到的知识去和AlphaGo对线吧 围棋是很简单的一门游戏。孔子曾说,吃饱了没事干就去下围棋吧。以下教程将在半分钟以内教您学会围棋。 2.画×的点就是棋子的气。占据所有气就能闷死对面。 1.这是围棋的棋盘。上面标记了九个特殊的点,但这只是装饰,并没有什么用。 3.趁对手不注意,吃掉对方的棋子!就像这样,很简单不是吗? AI解决人脸识别中的“维数灾难”问题 AI带给Science的新机会 AI带给Science的新机会 AI方法为解决“维数灾难”问题提供了有效手段 AI为解决维数灾难问题提供了有效的手段 结构、⼒场与采样是分⼦模拟的三个关键 (在不和动量同时出现时,我们也常⽤r表示坐标) ⼒场:描述原⼦间相互作⽤的数学模型 ⽅法1:第⼀性原理计算密度泛函理论(DFT) •VASP是⽬前最流⾏的电⼦结构计算和量⼦⼒学-分⼦动⼒学模拟软件包之⼀。可以使⽤赝势和平⾯波基组,进⾏从头电⼦结构和量⼦⼒学分⼦动⼒学计算。 •CP2K是⼀个从头算分⼦动⼒学软件,可以对固态、液体、分⼦、周期、材料、晶体和⽣物系统进⾏原⼦模拟。 准确但计算开销昂贵计算开销O(N3) ⼒场:描述原⼦间相互作⽤的数学模型 ⽅法2:经验⼒场例如:LJ, EAM, MEAM,AMBER, CHARMM Tunableparameters 计算效率⾼但结果不可信计算开销O(N) ⼒场:描述原⼦间相互作⽤的数学模型 ⽅法2:经验⼒场例如:LJ, EAM, MEAM,AMBER, CHARMM ⽅法3:深度势能Deep Potential ⽅法1:第⼀性原理计算密度泛函理论(DFT) 准确但计算开销昂贵计算开销O(N3) 24接近第⼀性原理计算精度接近经验⼒场计算效率计算开销O(N) 计算效率⾼但结果不可信计算开销O(N) 使⽤机器学习拟合⾼维势能⾯ 模型:数据:由第⼀性原理计算给出训练:⽬标:数值近似第⼀性原理定义的能量函数3N维 学习第⼀性原理 计算结果 使⽤机器学习拟合⾼维势能⾯ 模型:数据:由第⼀性原理计算给出训练:⽬标:数值近似第⼀性原理定义的能量函数3N维要求:1.保证模型可扩展性2.保持物理上对称性 学习第⼀性原理 最终模型: 深度势能:物理建模+⼈⼯智能+⾼性能计算 Background •训练⼀个机器学习势函数的开销: 以Al𝒙Mg𝒚Cu𝒛[∗]势函数为例(𝟎≤𝒙,𝒚,𝒛≤𝟏,𝒙+𝒚+𝒛=𝟏): •10 millionCPU core-hours和20-30 thousandGPUcard-hours •New paradigm:pretraining-then-finetuning 数据驱动模式典型应用:Alphafold2 •Alphafold2:一款数据驱动的解决蛋白质三维结构预测的方法。 •为什么适合? •已有数据足够多•建模需求明确•评估标准明确•探索空间大 Alphafold2的成功给药物设计、结构生物学等许多科学和应用领域带来了根本的改变 AI4S的第一类寻宝图:AI建模高维复杂函数1.1 AI4S的第二类寻宝图:AI驱动平台化科研1.2 AI4S该怎么学1.3 AI快速发展的十年 2012——2022从AlexNet到ChatGPT,AI经历了快速发展和变革的10年 2012年,IlyaSutskever作为Jeff Hinton的博士生做出AlexNet,2022年,IlyaSutskever作为OpenAI的首席科学家做出ChatGPT; 模型的发展与变革 2012——2022 2012年,AlexNet、ConvNets;2014年GAN;2015年ResNet;2018年,Transformer和注意力机制; 框架的发展与变革 2012——2022 2015年,Google发布TensorFlow,DMLC发布MXNet;2016年,Facebook发布PyTorch。 社区与公司的发展与变革 2012——2022 2014年,Deepmind被Google收购;2015年,OpenAI创立;2016年,HugglingFace社区创立 对比AI和Science领域 AI发展迅速的原因:模型、框架、平台完善,快速试错迭代 Science领域的现状:领域知识艰深、软件迭代慢、组织形式落后 AI4S新特点:由概念导入期进入应用落地期 AI4S基础设施:“砖瓦”与“四梁N柱” “四梁”:基本原理、模型算法与软件系统 基本原理与数据驱动的模型算法与软件系统 AI for Science为从底层构建全新的跨尺度算法与软件带来新机遇 打造AI4S基础设施—算法与软件系统 打造开源平台及软件应用 构建预训练模型 DPA:打造“自然科学界的ChatGPT” •全球首个覆盖元素周期表70种元素的深度势能原子间势函数预训练模型DPA-1•模型将成为药物、材料、能源等行业微观机理探索的重要基础设施•显著降低研究人员使用门槛及研发成本,缩短研发周期 作为基础设施 ABACUS与DeepModeling社区合作 •ABACUS目标:开源、功能完整、易用易开发•AI和新硬件:带来新机遇,各种密度泛函理论算法仍然持续更新 •从21年初开始,ABACUS在DeepModeling社区下开始践行开源的理念 Uni-Mol通用分子表示框架和预训练模型 Uni-Mol:第一个通用分子3D表示学习(MRL)框架和预训练模型 Uni-Mol: A Universal 3D Molecular Representation Learning Framework(ICLR 2023)https://openreview.net/forum?id=6K2RM6wVqKu 通用3D分子表示学习框架: 预训练模型: •表征:原子类型+原子坐标•模型:Transformer+旋转平移不变性+SE(3)-等变•优势:同一套表征方法可以同时用以处理小分子、复合物,可以应用于分子性质预测、3D坐标预测等多种任务。 •数据:209M小分子构象•策略:原子类型还原+原子坐标还原•优势:使用海量无标记数据让模型先学习分子结构的特点来获取通用能力 https://github.com/dptech-corp/Uni-MolSource codes,pretraining data,pretrained models,finetuned model weights,and demosfor downstream tasksare all accessible. “四梁”:高效率、高精度的实验表征方法 电池化学组成表征技术 (1)X射线光电子能谱(XPS)(2)电子能量损失谱(EELS)(3)X射线吸收近边谱(XANES, XAS) 提供高通量的正向数据 电池材料形貌表征技术 提供新的反演算法 (1)扫描电镜(SEM)(2)透射电镜(TEM)(3)原子力显微镜(AFM) 电池界面敏感表征技术 基于人工智能的实验表征反演算法 (1)和频振动光谱(SFG)(2)表面增强拉曼光谱(SERS) 自动化实验表征方法与控制软件 电池晶体结构表征 实验表征与数据自动化采集与智能化管理 (1)X射线衍射(XRD)(2)核磁共振(NMR)(3)X射线吸收谱(XAS,EXAFS) 面向实验表征与计算模拟联动的解决方案 电池官能团表征 (1)红外谱(IR)(2)拉曼谱(Raman) 二维材料缺陷检测 MoS2中的单硫(S-vacancy),双硫(2S-vacancy),氧替代(oxygen substitution)缺陷是指材料晶格中缺少⼀个或两个硫原⼦的位置,或者在晶格中氧原⼦取代硫原⼦。这种缺陷的存在对材料的性质有重要的影响。 需求: 找到STEM图像中的缺失的单/双原⼦,氧替代及其位置 二维材料缺陷检测 二维材料缺陷检测 MoS2缺陷标注困难 二维材料缺陷检测 MoS2-仿真 Abtem:https://abtem.readthedocs.io/en/latest/intro.htmlBohrium:https://nb.bohrium.dp.tech/detail/6241642088 二维材料缺陷检测 原因:晶格畸变、探测器噪声、样品漂移和扫描畸变、时间依赖的对⻬误差、辐射损伤以及表⾯污染等 二维材料缺陷检测 二维材料缺陷检测 二维材料缺陷检测 ⽣成对抗⽹络的结果 实验图的缺陷检测 “四梁”:高度整合的算力平台 •专用芯片有很大的发展空间•未来的计算能力可能主要靠高度整合的异构架构 •通用芯片门槛高、能力增长空间有限•最常用的计算只有少数几种 共同开发存算一体分子动力学专用芯片 保持第⼀性原理精度的前提下,相较GPU等“冯·诺依曼”芯⽚,第1版NVNMD(基于FPGA): 速度提升1-2个数量级能耗降低2-3个数量级 “四梁”:替代文献的数据库与知识库 构建智能化的文献知识库 科学知识来自于文献和各类数据库(如PDB) 实现科学文献的分类检索与智能推荐 知识库:文献内容最有效的表达形式 实验表征数据、计算模拟数据、文献数据等多模态数据库与知识库 简洁明了,便于自动化搜索和发展AI算法 Science Navigator对话式文献知识库 进一步助力科研人员提升科研生产力,释放更多的时间精力在解决关键问题与创新思考上 文献阅读目