关于可解释性研究的主要研究计划1并且“通用下一代人工智能方法”(“重大研究计划”)旨在:针对人工智能(AI)发展的主要国家战略需求,以人工智能的基本科学问题为核心;开发一套新的AI方法;并促进中国的基础AI研究和人才培养,从而支持中国在新的国际竞争中的主导(主导)地位。 科学技术(S&T)。 我:I. 科学目标 主要研究计划旨在:针对以深度学习为代表的AI方法中的基本科学问题,如鲁棒性差、可解释性差、强数据依赖性;揭示机器学习的基本原理;以及开发可解释和可推广的下一代AI方法,从而促进AI方法在科学领域的创新与应用。 II. 核心科学问题 该重大研究项目旨在解决可解释和可泛化的下一代人工智能方法的基本科学问题,围绕以下三个核心科学问题进行研究。 (i) 深度学习的基本原则。 深度挖掘深度学习对超参数的依赖关系,理解深度学习背后的工作原理,并为深度学习方法建立近似理论、泛化误差分析理论和优化算法收敛理论。 (ii) 解释性及可推广性的下一代人工智能方法。 通过结合规则和学习,建立高精度、可解释和可泛化的人工智能新方法,并且不依赖于大量标注数据。开发下一代人工智能方法所需的数据库和模型训练平台,并提升由下一代人工智能方法驱动的基础设施。 (iii) 面向科学领域的下一代人工智能方法的应用。 开发新的物理学模型和算法、构建开源科学数据库、知识库、物理学模型库以及算法库,并在解决科学领域复杂问题中推广新颖人工智能方法的典范应用。 III. 2025年资助研究方向 (i) 育苗项目。 围绕核心科学问题,并遵循总体科学目标,[中国国家自然科学基金委员会(NSFC)] 意图通过培养项目方法资助申请项目(申请项目)。 强烈的探索性,新颖的主题选择,以及良好的前期研究基础。研究方向如下: 1. 神经网络的全新架构以及新的预训练或自监督学习方法。 对于图像、视频、图表和域场等数据,开发更高效的新颖神经网络架构,以及预训练或自监督学习方法,并在实际数据集上验证它们。 2.深度学习的基本理论。 研究神经网络的功能空间理论和误差分析。研究神经网络非线性训练过程中的重要现象,包括直觉学习、稳定性的边缘、损失突变和凝结。分析损失景观嵌入结构、训练超参数、凝结、正则化技术等对Transformer和Mamba等架构的样本效率、分布外检测、泛化能力和推理性能的影响。 3.大型模型的基本问题。 研究多任务、多数据和大型模型的基本问题,包括但不限于大型模型的表现理论、泛化理论和样本效率,以及大型模型的训练稳定性、扩展定律、涌现现象等;研究大型模型的记忆诅咒问题;研究大型模型的机制,如思维链、多步推理、上下文学习以及推理外推能力(如长度泛化)。 4. 以数据为中心的机器学习。 关注大型模型数据侧的获取成本和效率问题,分析数据生成模型的优化和泛化过程,以加速生成模型的训练和推理;关注训练数据的质量和数量,设计多样化和高质量的数据生成方法,提出高效的数据选择和匹配策略,并探索通过协同迭代优化数据和模型的方法,以加速通用大型模型的训练。 5.人工智能在科学领域的原理与方法。 关注科学领域中的典型应用场景,例如核聚变、药物研发、材料设计以及多体电子问题,开发人工智能与基本理论和模型集成的方案。 物理学、化学、生物学等学科建立了可推广的跨尺度人工智能辅助计算的原理和方法,并解决了典型的复杂正向和逆向问题。 (ii)关键支持项目。 围绕核心科学问题,并在总体科学目标的指导下,[NSFC] 计划采用关键支持项目方法,资助那些有良好前期研究成果积累、能在理论和关键领域促进总体科学目标的项目。技术,并且具有学研用(学研用)的产业-学术界-研究机构-用户基础。研究方向如下: 1. 集成逻辑与深度学习的推理方法。 通过融合逻辑方法和深度学习方法,提高人工智能系统的可靠性及其处理复杂推理问题能力。通过构建形式化数学数据库,优化机器翻译技术和证明算法,实现高度自动化的定理证明,并建立高度严谨的推理模型。 2.几何生成,结合物理与人工智能。 通过整合物理仿真和深度学习方法,实现多物理微几何结构的基本生成模型;通过建立形式化边界表示(B-Rep)表达的计算机辅助几何[设计](CAGD)模型数据库,实现具有准确功能描述和高精度的CAGD模型的自动生成,并构建高质量的几何资产;以及加强由CAGD模型生成的四面体、四边形和更高阶网格的鲁棒性,以提高物理仿真的稳定性和准确性。 3. 新一代仿脑人工智能。 关注生物神经元的节能特性和多样性结构,建立生物神经元与人工神经元之间的简单高效映射,使人工神经元具备生物神经元的能量优化和树突非线性计算功能,并提出统一的能量优化算法框架。结合神经网络连接结构与脑区特性,设计一种受生物神经元特性约束并基于时空信息嵌入的人工神经网络模型,以实现记忆和决策等高级认知功能。实现生物与人工神经元之间至少三种映射。 人工神经元和至少三种树突计算功能,从而与现有映射相比,实现改进的准确性、性能和可解释性。 4. 类人认知学习框架。 探索类人认知学习框架,通过智能体的主动感知与交互以及模型的自主学习和迭代更新,提高系统的智能化水平,并解决在复杂物理环境中具身智能体的交互决策问题,从而为因果模型构建和物理常识生成等具身AI(具身智能)任务提供支持。 5. 由物理过程驱动的多智能体仿真场景的可靠生成。 建立一个由物理原理驱动的场景模型,以实现环境的逼真动态模拟;集成多模态信息,以增强智能体与环境之间的互动,并确保模拟实体的特性和行为与真实世界相匹配;并建立和改进模拟数据可信度评估系统,以确保模拟场景的可靠性,从而为复杂系统研究决策提供坚实的虚拟基础。 6. 可解释人工智能方法及其在复杂化学反应系统中的应用。 基于深度学习和物理模型的融合,开发可解释的人工智能方法,用于分析和构建化学反应网络,揭示复杂化学反应系统的微观机制和表面界面活性规律,并促进可解释人工智能方法在能源催化、合成化学和合成生物学等重要领域的实际应用。 7. 驱动于人工智能的虚拟细胞研究。 基于多组学数据和人工智能方法,开发虚拟细胞技术以模拟动态细胞过程,分析细胞相互作用原理,并预测生物体对干扰的复杂响应。具体包括:1)虚拟单细胞:关注酵母和细胞系等典型场景,利用多组学数据构建多尺度基因调控和信号通路网络模型,以动态预测细胞行为,并在合成生物学或药物筛选中得到应用;2)虚拟生物体:关注线虫和胚胎等典型场景,构建多细胞 使用成像和组学数据研究互动关系及时空动态变化,以便揭示生物体的生物学机制。 8. 前沿罕见病诊断与决策的大型模型 建立一个针对罕见病的规模化临床和遗传信息数据库,涵盖基因和临床表现等多维信息,并结合多模态数据,构建可解释的罕见病诊断决策大模型,从而为罕见病的诊断和治疗提供关键依据。 9. 基于多模态大型模型的生物元件(生物元件)的设计,适用于极端环境。 基于极端环境微生物数据,构建一个多模态和预训练的大模型,该模型集成了蛋白质和核酸序列的序列、结构和功能;分析重要生物成分与环境适应性、代谢功能等之间的联系,并构建一个用于预测成分对极端环境适应性的预测模型;设计开发可耐受高温、高压和极端pH值的蛋白质和核酸等功能成分,并在湿实验室中验证它们,以促进它们在工业和医学等领域的工业化应用。 (iii) 集成项目。 今年,[NSFC]计划选择具有显著应用价值和良好研究基础的研发方向,以综合资助的方式进行选择,研发方向如下: 1. 具有记忆-推理分离和记忆的通用大型模型等级制(与推理分离、分层). 设计一个具有记忆-推理分离和层次结构的通用大型模型的新架构,构建一个推理数据集,并研究大型模型的基本理论和训练方法。具体包括:(1) 探索具有记忆-推理分离的模型架构,实现可扩展的、可学习的、高度压缩的、分布式的和分层式记忆存储,设计新的具有高效存储和计算能力的训练方法,并通过从头开始预训练大型模型(参数量不少于7B和tokens量不少于1T)来验证新架构和训练方法的有效性;(2) 实现文本推理数据的自动提取,以及自然语言推理数据和分析数学定理的自动构建。 数据库;3) 阐明下一个标记预测训练范式有效性的内在机制(机制),并研究超参数和模型复杂度对大型模型推理能力的影响。 2. 结构材料结构-性能关系的方法与应用。 研究结构材料的组成、组织结构、加工等知识编码表示方法,开发如符号回归和深度学习等材料知识构建算法,构建具有明确物理意义的结构-性能关系数学或经验模型;研究可解释材料特征工程、知识驱动的高精度建模和材料因果推断等方法,揭示多组分组成、复杂工艺和组织结构对材料性能影响的内在关系,并建立材料数据库、知识库和技术库;开发一种数据与知识驱动的全新结构材料研发和制造全流程方法,并开发2-3种高性能典型金属结构材料,通过工程试验进行验证。 3. 一个集成环境、系统和模型的智能操作系统。 关注物理世界中计算硬件和设备的通用化和智能化,打破物理环境和智能模型之间的界限,设计环境、系统和模型协同进化的方案。具体包括:1)研究操作系统、AI模型和物理环境联合迭代进化的方法,以确保环境-系统-模型协同进化,从而将整体性能至少提高50%,与各自进化相比;2)研究面向多样化计算硬件和物理设备的分布式操作系统元架构,支持至少五种硬件和设备的有效抽象和适应性,与各自抽象相比,提高利用率至少30%;3)研究面向复杂物理环境的高度可靠分布式数据传输和存储平台,实现物理空间中智能元素的弹性互联和实时协作。 (i)紧密围绕核心科学问题,将鼓励具有坚实基础和跨学科特点的前沿探索;将优先支持原创性研究。 (ii)优先考虑开发下一代人工智能新方法或促进新人工智能方法在科学领域应用的研究项目。 (iii) 关键支持项目和集成项目应具备良好的研究基础和以往[研究成果]的积累,并直接贡献和支持整体科学目标。 V. 2025年资金计划 [NSFC] 计划资助约15个培育项目,每个项目的直接成本资助约为人民币40万元,资助期限为3年。培育项目的申请表应注明“2026年1月1日至2028年12月31日”为研究期限。[NFSC] 计划资助约6个关键支持项目,每个项目的直接成本资助约为人民币300万元,资助期限为4年。关键支持项目的申请表应注明“2026年1月1日至2029年12月31日”为研究期限。[NSFC] 计划资助约3个集成项目,每个项目的直接成本资助约为人民币8000万至1200万元,资助期限为4年。集成项目的申请表应注明“2026年1月1日至2029年12月31日”为研究期限。 VI. 应用要求及重要事项 (i)申请者资格。 申请重大研究项目的人员应满足以下条件: 1. 具有承担基础研究项目经验。 持有高级专业技术职位(职称)。 博士后研究人员、目前正在攻读学位的个人以及没有工作单位或单位不属于[国家基金委注册]依托单位的人员无资格申请。 (ii)应用限制条款。 《2025年国家自然科学基金项目指南》中“申请条款”的相关要求应予以实施。 (iii)重要事项的应用。 申请者和主办方单位应仔细阅读并实施本项目指南的相关要求。中国国家自然科学基金会2025年项目指南并且,关于2025年国家自然科学基金项目申请和最终结果的通知. 1.无纸化申请将应用于重大研究计划的项目。申请表提交期限为2025年3月1日至2025年3月20日16:00。 申请人应根据国家自然科学基金在线信息系统中的重大项目申报指南和起草提纲,在线填写和提交电子申请表及附件。 (b) 主要研究项目旨在战略性地提供方向性指导和相关多学科研究优势的整合,紧密围绕核心科学问题,形成项目集群。申请人应根据主要研究项目提出的待解决的问题的核心科学问题以及项目指南中提出的资助研究方向,独立拟定项目名称、科学目标、研究内容、技术路线、相关研究费用等内容。 在申请表中,选择“重大研究项目”作为资金类别;选择“培育项目”、“重点项目”或“整合项目”作为子类