新的发现黄金时代 抓住 AI 的科学机遇 康纳 · 格里芬 | 唐 · 华莱士 | 胡安 · 马特奥斯 - 加西亚 | 汉娜 · 希夫 | 普什梅 · 科利 Acknowledgements 感谢Louisa Bartolo、Zoë Brammer和Nick Swanson提供的研究支持,以及以下人士通过访谈和/或对草案反馈分享的见解。文中所有观点及任何错误均由作者独家负责。 Žiga Avsec, Nicklas Lundblad, John Jumper, Matt Clifford, Ben Southwood, Craig Donner, Joëlle Barral, Tom Zahavy, Been Kim, Sebastian Nowozin, Matt Clancy, Matej Balog, Jennifer Beroshi, Nitarshan Rajkumar, Brendan Tracey, Yannis Assael, Massimiliano Ciaramita, Michael Webb, Agnieszka Grabska-Barwinska, Alessandro Pau, Tom Lue, Agata Laydon, Anna Koivuniemi, Abhishek Nagaraj, Harry Law, Tom Westgarth, Guy Ward-Jackson, Arianna Manzini, Stefano Bianchini, Sameer Velankar, Ankur Vora, Sébastien Krier, Joel Z Leibo, Elisa Lai H. Wong, Ben Johnson, David Osimo, Andrea Huber, Dipanjan Das, EkinDogus Cubuk, Jacklynn Stott, Kelvin Guu, Kiran Vodrahalli, Sanil Jain, Trieu Trinh, Rebeca Santamaria-Fernandez, Remi Lam, Victor Martin, Neel Nanda, Nenad Tomasev, Obum Ekeke, Uchechi Okereke, Francesca Pietra, Rishabh Agarwal, Peter Battaglia, Anil Doshi, Yian Yin. Introduction Introduction 世界各地的实验室正在酝酿一场安静的革命 , 科学家们对人工智能的使用正在成倍增长.三分之一的博士后现在使用大型语言模型来帮助进行文献综述 , 编码和编辑。在十月 , 我们的创作者AlphaFold2系统 , Demis Hassabis 和 John Jumper 成为诺贝尔laureates 在化学领域因使用AI预测蛋白质结构而获奖,同时表彰科学家David Baker因其设计新型蛋白质的工作。社会将很快开始更直接地感受到这些益处。药物and材料在 AI 的帮助下设计 , 目前正在通过开发。 在本文中,我们探讨人工智能如何transform科学学科,从基因组学到计算机科学再到天气预报。一些科学家正在训练自己的AI模型,而另一些则在 Fine-tune 现有的AI模型,或利用这些模型的预测来加速他们的研究。科学家们将AI作为一种科学工具,帮助解决诸如设计与疾病靶标更紧密结合的蛋白质, 但也在逐渐改变科学本身的实践方式。 科学家们对人工智能的采纳背后存在着日益强烈的紧迫感。在过去的几十年里,科学家们继续推动了一系列重要的进步,从新冠疫苗到可再生能源。但需要越来越多的研究人员取得了这些突破, 并向将它们转换为下游应用程序因此 , 尽管科学劳动力在过去的半个世纪里有了显著的增长 ,上涨超过七倍在美国 alone 仅限,我们所期望的社会进步已经放缓。例如,世界上许多地方都见证了这一现象。持续放缓在生产力增长的推动下,公共服务质量正在受到影响。在朝着2030年可持续发展目标前进的过程中,我们在健康、环境以及更广泛领域面临的最大挑战取得进展。失速. 特别是 , 今天希望取得突破的科学家越来越多地遇到与规模and复杂性从他们需要掌握的不断增长的文学基础 , 到他们想要进行的日益复杂的实验。现代深度学习方法特别适合这些规模和复杂性挑战并且可以压缩未来科学进步所需的时间。例如,在结构生物学领域,单个X射线晶体学实验确定蛋白质结构的时间。可能需要多年的工作 , 成本约为 100, 000 美元, 取决于蛋白质。AlphaFold 蛋白质结构数据库现在免费提供 2 亿个预测蛋白质结构的即时访问。 人工智能对科学的潜在益处并不保证能够实现。许多科学家已经使用基于大规模语言模型的工具来辅助日常任务,如编码和编辑,但使用以AI为中心的研究方法的科学家比例尚未显著增加。要低得多 , 尽管上升迅速。在急于使用 AI 的过程中 , 一些早期的科学用例已经可疑影响。政策制定者可以帮助加快人工智能的使用 , 并将其引向影响更大的领域。美国能源部, the European Commission, 英国的皇家社会, and the美国国家科学院, 除其他外 , 最近已经认识到AI for Science机会。但是还没有一个国家制定了全面的战略来实现这一目标。 我们希望本文能为制定和影响科学政策及资金决策的人士提供策略参考。首先,我们识别出五个日益迫切的机会领域,在这些领域中,人工智能的应用正在快速增长,并探讨了在这些领域取得突破所需的主要要素。接着,我们探讨了使用人工智能在科学研究中最常提及的风险,如对科学创造力和可靠性的潜在影响,并论证了在每个领域中,人工智能最终可以带来净益处。最后,我们提出四项公共政策建议,以帮助开启一个由人工智能赋能的新黄金时代。 在整个文章中,我们借鉴了来自我们自己的AI for Science项目以及外部专家的逾二十次访谈所得的见解。文章自然反映了作为私营部门实验室的视角,但我们认为我们提出的论点对整个科学界都是相关的。我们希望读者能够回应并分享他们对AI for Science最重要机会、关键要素、风险和政策想法的看法。 A 部分 : 机会06B 部分 : 成分13C 部分 : 风险25D 部分 : 政策回应32 A 部分机会 科学家们致力于理解、预测和影响自然世界和社会世界的运行规律,激发并满足好奇心,以及应对社会面临的重大问题。技术和方法, 像显微镜 , X射线衍射和统计 , 都是产品科学和启用者在过去的一个世纪里,科学家们越来越依赖这些仪器来进行实验并推进他们的理论。计算工具和大规模数据分析变得尤为重要,这从发现希格斯玻色子到人类基因组映射,涵盖了诸多方面。从一个角度来看,科学家们对人工智能的日益使用是这一长期趋势的自然延伸。但这也可能预示着更为深刻的转变——科学能力的一种不连续跃升。 而不是列出它所在的所有区域可能为了使用人工智能 , 我们强调了五个我们认为存在命令式要使用它。这些机会横跨各个学科,并针对科学家在科学研究过程中不同阶段面临的特定瓶颈进行解决,该瓶颈与规模和复杂性相关,从提出强大的新颖假设到与世界分享他们的研究成果。 与 Al 一起加速科学的 5 个机会 改变科学家消化和交流知识的方式 模拟、加速和通知复杂的实验 2. Data 生成、提取和注释大型科学数据集 对复杂系统及其组件如何相互作用进行建模 确定大型搜索空间问题的新颖解决方案 1. 知识 改变科学家消化和交流知识的方式 为了做出新的发现 , 科学家需要掌握一个不断增长的预先存在的知识体系指数级变得更加专业化。这个 '知识负担’有助于解释为什么科学家进行变革性的发现越来越老 , 跨学科 , 位于精英大学 ,为什么论文份额由个人或小团队创作的作品正在下降 , 尽管小团队通常更有利于推进破坏性科学思想. 当谈到分享他们的研究时,欢迎出现了诸如预印服务器和代码仓库等创新,但大多数科学家仍然主要通过传统途径分享他们的发现。密集的 , 行话重的 , 只有英文的文件这可能会阻碍而非激发各界(包括政策制定者、企业以及公众)对科学家工作的兴趣。 科学家们已经利用大型语言模型(LLMs)以及基于LLM的早期科学助手来应对这些挑战,例如通过综合最相关的见解从文学。在早期演示, 我们的科学团队使用了我们的双子座LLM将在一天内从最相关的20万篇论文中找到、提取并 填充特定数据。未来创新,如对更多科学数据进行LLM微调以及长上下文窗口和引用使用的进步,将逐步提升这些能力。正如我们在下文中所述,这些机遇并非没有风险。但它们为我们提供了重新思考某些科学任务的机会,例如“阅读”或“撰写”科学论文的新含义,在这个世界上,科学家可以利用LLM来批判它、根据不同受众定制其影响,或将之转化为“互动论文”。音频指南. 2. Data 生成、提取和注释大型科学数据集 尽管关于数据 abundance 时代的流行叙事越来越多,但在自然世界和社会世界的大范围领域内仍存在严重的科学数据匮乏问题,从土壤、深海、大气到非正式经济。人工智能可以在不同方面发挥作用。例如,它可以通过减少数据收集过程中可能出现的噪音和错误来提高现有数据收集的准确性。DNA 测序,检测样品中的细胞类型, or捕捉动物的声音。科学家还可以利用 LLM 不断增长的跨图像、视频和音频操作的能力 , 提取非结构化将埋藏在科学出版物、档案以及教学视频等不太显眼资源中的科学数据转换为结构化的数据集。 AI也可以帮助标注科学数据,并提供科学家们使用这些数据所需的支持信息。例如,至少有三分之一的微生物蛋白质需要这样的标注。没有可靠的注释详细介绍他们被认为要执行的功能。在 2022 年 ,我们的研究人员使用 AI 预测蛋白质的功能, 导致中的新条目UniProt,Pfam and InterPro数据库。 人工智能模型 , 一旦验证 , 也可以作为合成科学数据的新来源。例如 , 我们的AlphaProteo蛋白质设计模型训练基于超过1亿个由AlphaFold 2生成的AI蛋白质结构以及实验获得的结构。蛋白质数据库.这些AI机会可以补充并增加其他急需的努力以生成科学数据的回报,如档案数字化,或者资助新的数据采集技术和方法,例如正在进行的单细胞基因组学项目,旨在创建前所未有的详细程度的个体细胞的强大数据集。 3. 实验 模拟、加速和通知复杂的实验 许多科学实验既昂贵又复杂,进展缓慢。有些实验根本无法进行,因为研究人员无法获得所需的设施、参与者或输入。聚变便是这种情况的一个典型例子。它承诺提供一个几乎无限且无排放的能源来源,能够支持能源密集型创新技术的发展,如海水淡化。为了实现这一目标,科学家们需要创造并控制等离子体- 物质的第四种基本状态。但是 , 所需的设施建造起来非常复杂。ITER托卡马克反应堆的原型于 2013 年开始建造 , 但等离子体实验是未设置为开始最早到 2030 年代中期 , 尽管其他人希望在更短的时间内建造更小的反应堆。 AI 可以帮助模拟聚变实验,并使后续实验时间的使用更加高效。一种方法是在物理系统模拟上运行强化学习代理。在2019年至2021年期间,我们的研究人员与瑞士苏黎世联邦理工大学进行了合作。演示如何使用强化学习(RL)来控制托卡马克反应堆模拟中等离子体的形状。这些方法可以扩展到其他实验设施,如粒子加速器,望远镜阵列, or引力波探测器. 使用AI模拟实验将在各个学科中大不相同,但一个共同点是模拟通常会指导和影响实际实验,而不是替代它们。例如,普通人的平均值有超过 9, 000错觉变异,或DNA中的单个字母替换。大多数这些遗传变异是无害的,但有些可以破坏蛋白质执行的功能,从而导致囊性纤维化等罕见遗传疾病以及癌症等常见疾病。对这些变异效果的物理实验通常仅限于单一蛋白质。AlphaMissense 模型将7100万潜在