长期关注中国学者的开放数据态度、共享实践与政策环境 高质量科学数据是科学研究的重要基石。科学数据与人工智能的深度融合,更是推动创新突破、实现可持续发展的关键要素。 —— 曹宏斌中国工程院院士、中国科学院过程工程研究所研究员 开放数据是科学信任的基石:当研究数据得到共享,方法保持透明,结果可重复时,科学公信力随之提升,科研进程得以加速。我衷心感谢中国科学院计算机网络信息中心与施普林格·自然展开合作,并引导推进这一愿景。 ——Harsh Jegadeesan施普林格·自然首席出版官 中国开放数据白皮书2025 目录 前言42025 年中国开放数据情况分析报告6基于国际合作的高能物理科学数据共享12我国气象科学数据开放共享实践与展望16我国地震科学数据管理与开放共享的现状及未来发展的思考18数据驱动的冰冻圈研究范式实践20智能化赋能医学数据管理与开放共享的思考24高质量科学数据集建设及典型案例26数据驱动的催化科学创新实践与进展28中国科学院化学化工科学数据中心:化学化工基础数据资源建设及 AI-Ready 应用实践30高质量科学数据的 AI 就绪度评价实践32推动开放科学实践:中国开放数据现状及其对基础设施、自动化和合作的影响36作者简介38 前言 曹宏斌 中国工程院院士、中国科学院过程工程研究所研究员周园春 中国科学院计算机网络信息中心副主任、研究员 高质量科学数据,是将科学数据转化为现实生产力、真正赋能各行各业数字化转型的引擎。2025 年 5 月,国家数据局印发《数字中国建设 2025 年行动方案》,该方案特别强调,在重点领域建设高质量数据集,并积极开展人工智能高质量数据集建设。本报告深入探讨了高质量科学数据建设,通过分析 2025 年的调研结果,详细剖析了我国科学数据政策的落实情况、FAIR 原则的实践进展以及 AI 技术在数据管理中的应用;同时,报告还吸纳了多篇行业论文,涵盖物理学、化学、地球科学和医学等学科领域的创新实践进展,探讨了气象和地震科学数据在经济社会发展、防灾减灾中的深度应用,以及高质量数据集建设、应用和评价的典型实践。 的生态体系。 在地震科学领域,中国地震台网中心黄兴辉等探讨了我国地震科学数据管理与开放共享的现状,分析其在地震监测、预警、科研及社会应用中的成效,并对未来发展方向提出思考,旨在推动地震科学数据资源体系的高质量建设与全球服务能力提升。国家地震科学数据中心通过整合多学科观测数据与科技项目汇交数据,构建了覆盖全生命周期的高质量数据资源体系,为地震科学研究和防灾减灾事业提供了坚实基础。未来需进一步加强国际合作,推动全球数据资源共享,同时深化智能化技术应用,提升数据处理与服务能力,为全球防灾减灾和地球科学研究作出更大贡献。 报告以我国开放数据发展现状开篇,中国科学院计算机网络信息中心姜璐璐等分析了 2025 年中国开放数据调查情况。今年调查显示,中国学者对开放数据的支持度较高,近八成受访者支持将研究数据开放获取作为学术惯例,大部分受访者在实践中已遵循 FAIR 原则,AI 工具在数据管理中的应用逐步深化。对此,报告提出了加强科学数据开放共享政策落实、关注科研人员现实担忧、消解数据共享阻碍因素、加强数据管理并采用可信平台、合理利用AI 工具等多方面工作建议。 在地球科学领域,中国科学院西北生态环境资源研究院康建芳等探讨了数据驱动的冰冻圈研究范式实践,重点分析冰冻圈科学数据资源体系建设、整编标准规范及开放共享实践,旨在提升冰冻圈数据质量与可用性,支持全球气候变化研究。通过物理机理与 AI 的深度融合、构建冰冻圈数字孪生及跨尺度多要素联动研究,将进一步深化对冰冻圈演变机制的理解,为全球生态保护与灾害防治提供科学依据。 在医学领域,中国医学科学院医学信息研究所刘辉等探讨了智能化技术在医学数据管理与开放共享中的应用价值、面临挑战及未来发展方向,旨在通过人工智能赋能,推动医学数据高效利用与价值释放,助力医疗卫生事业高质量发展。智能化手段正为医学数据管理带来范式变革,借助 AI 技术的应用,显著提升了数据管理效能、数据质量以及共享安全水平。我国在医学数据管理与开放共享方面已取得实质性突破,但仍面临数据安全、标准互操作性等挑战。未来需要通过政策完善、技术应用和人才培养等多方面努力,进一步释放医学数据的价值潜能。 多个国家科学数据中心在各自学科领域的科学数据开放共享中展开了丰富实践,取得显著成效。在高能物理领域,中国科学院高能物理研究所姜晓巍等探讨了高能物理科学数据的国际合作与共享机制,重点分析其特点、挑战及实践,展示了国家高能物理科学数据中心在推动全球数据协同治理中的关键作用。该中心将持续推动大科学装置科学数据的长期保存与可持续开放共享,在技术层面依据 FAIR 原则建立全流程管理规范,在管理层面制定分阶段、分级别的数据开放策略,在组织机制层面统筹“实验组—实验室—资助机构”三方力量,构建稳定、可持续的数据保存与共享长效机制。 在高质量科学数据生产、应用和评价方面,也产生了多个典型案例成果。关于高质量科学数据生产,中国科学院计算机网络信息中心王鹏飞等分析了高质量科学数据的内涵,认为高质量科学数据不仅是“可获取数据”,还需具备真实性、结构化、可计算性和可解释性。以团队发表的 scCompass 单细胞数据集为典型案例,论证了当数据具备结构统一、质量可控和语义自洽特性时,人工智能即可真正参与科学推理,实现数据与知识的共生循环。高质量科学数据既是人工智能科研的新能源,也将成为人类知识体系自我进化的新起点。 在气象科学领域,国家气象信息中心肖文名详细介绍了我国气象科学数据开放共享的实践进展与未来展望,强调其在推动气象事业发展、支撑国家科技创新及促进经济社会进步中的重要作用。气象科学数据开放共享不仅提升了数据的利用价值,还促进了气象事业与经济社会各领域的深度融合。未来将强化部门、地方、企业、科研机构间的数据共享,建立健全安全可信机制,形成不少于 5 个细分领域高质量数据集,孵化 30 个认证数据服务,吸引30 家第三方服务商入驻,构建“可信管控、合规运营、价值共创” 关于高质量科学数据的应用,国家纳米科学中心高扬等探讨了数据驱动方法在催化科学中的创新实践与进展,展示了中国在基于领域知识的催化性能预测、可解释模型辅助的反应器件开发和全流程机器人化学家等方向的突破,并展望了未来数据驱动催化研究的主要方向。未来研究应聚焦于数据标准化、模型深度融合和自主研发平台建设,进一步释放数据驱动催化研究的创新潜力,为实现高效、精准的催化材料开发奠定基础。 学创新奠定了坚实基础。展望前路,我们需要进一步深化跨领域协同与国际合作,推动数据标准化与 AI 技术的深度融合,构建安全 可 信、价 值 共 创 的 数 据 生 态,使 高 质 量 科 学 数 据 成 为 AI-4Science 创新的核心引擎,助力全球科技进步与可持续发展。 中国科学院过程工程研究所赵月红等介绍了中国科学院化学化工科学数据中心在化学化工基础数据资源建设、AI-Ready 数据集构建及应用实践方面的成果,并探讨了未来结合人工智能技术推动化学化工领域发展的方向。随着人工智能技术的发展,化学化工科学数据中心将进一步加强与 AI 的深度融合,推动高质量数据资源建设和智能化应用,为化学化工领域的创新提供坚实支撑。 关于高质量科学数据的评价,中国科学院计算机网络信息中心秦川等介绍了科学地平线(SciHorizon)平台在高质量 AI 就绪(AI-Ready)科学数据评价方面的实践,构建了国际首个面向“数据+模型”的综合评价框架,从规范性、可用性、可解释性和合规性四个维度刻画高质量科学数据的 AI 就绪程度。这一框架不仅提升了科学数据的可识别性,还为 AI4Science 创新提供了系统性评价支撑。未来,科学数据将实现“可评价、可治理、可调用”的一体化支撑,为 AI4Science 创新提供更加稳固和持续的动力,推动科学研究迈向智能化新阶段。 施普林格·自然研究数据创新总监 Graham Smith 分析了基础设施、自动化与合作对推动开放科学实践的影响,介绍了施普林格·自然推出的开放科学助手工具,可帮助作者完善数据可用性声明和共享方案,让数据开放更易实现且更具可操作性。此外,他认为,数据开放共享的基础设施有助于规范共享标准,提升数据质量;数据出版赋予数据集正式可见性和可引用性,为其带来了学术认可的路径。最后,他介绍了施普林格·自然在中国的相关合作策略及实践案例。 综上所述,在科学数据与 AI 融合的浪潮中,各领域在高质量科学数据资源建设、AI 融合应用、开放共享机制构建及评价体系创新等方面已取得显著成效:从高能物理的全球协同治理到化学化工的 AI-Ready 数据集实践,从冰冻圈的数字孪生探索到医学数据的智能化管理,从地震、气象科学的全生命周期数据资源体系到 SciHorizon 平台的“数据+模型”评价框架,均为数据驱动的科 6 2025 年中国开放数据情况分析报告 姜璐璐 张泽钰 李宗闻 李成赞 周园春中国科学院计算机网络信息中心 今年是 figshare 与 Springer Nature 携手面向全球科研人员发放《开放数据状况调查问卷》的第 10 年,也是《中国开放数据情况分析报告》连续发布的第 3 年。本次报告主要基于 2025 年中国受访学者填写《开放数据状况调查问卷》的情况,对本年度中国开放数据总体情况做出分析和梳理。 一、问卷调查基本情况 本次调研共收到来自中国学者的有效问卷 1015 份。为尽可能准确反映中国受访者的开放数据情况,报告去除了仅填写所在国家或地区、学科领域、工作年限等基础信息的问卷,基于 772 份问卷开展系统分析与整理。 本次报告统计的中国受访者中,有 65%来自高校,12%来自医 院,11%来 自 科 研 机 构,分 列 中 国 受 访 者 占 比 的 前 三 位(见图 1)。 二、调研主要发现 1. 中国学者对开放数据的支持度稳定保持在高位 在开放获取方面(见图 3),2023 年至 2025 年三年间,支持开放获取的人数占比常年稳定在 80%以上,且每年有轻微增长。需要注意的是,2025 年反对开放获取的中国学者占比激增至11%。 在开放数据态度方面(见图 4),自 2023 年起,支持“让研究数据开放获取成为学术惯例”的中国受访者占比稳定在 78%;同时,2025 年反对开放数据的受访者占比为 5%,较 2024 年有轻微下降。 中国受访者的学科背景情况显示,排名前三位的分别是医学(27%)、生物学(19%)和工程学(11%),与上一年度的情况基本持平。今年,地球与环境科学领域的受访者占比小幅上升至 9%,位列第四位(见图 2)。 据时的主要担忧。事实上,中国受访者常年认为自己在数据共享方面的贡献并未获得足够认可(近三年统计情况见图 6)。数据显示,认为自己未获得适当认可的受访者占比在逐年小幅下降,但常年超过 50%;同时,认为自己在数据共享方面的贡献获得适当认可的受访者占比逐年上升,从 2023 年的 18%上涨至 2025 年的27%。可见,中国受访者的数据贡献认可度虽逐年提升,但整体认可度仍明显不足。 与此同时,“数据引用”依然是中国受访者数据共享的第一驱动因素(见图 7),占比达到 71%,连续 4 年居于首位;其次,“期刊或出版商要求”、“提升我的研究影响力和可见度”,分列第二、三位,成为驱动中国受访者共享数据的重要动因。 2. 中国学者数据共享的阻碍因素并未得到有效缓解 在数据共享时的主要担忧方面(见图 5),抢发(40%)、担心数据