AI智能总结
The State of Open Data in China 2024 长期关注中国学者的开放数据态度、共享实践与政策环境 A long-term focus on Chinese scholar’s attitudes towards open data,their sharing practices, and the policy environment 科学数据的开放共享是科技创新的源泉,是科技事业发展的必然产物和共性规律。 ——于贵瑞中国科学院院士中国科学院地理科学与资源研究所研究员 开放数据共享对于加快科学发现具有巨大潜力,也是施普林格·自然进一步开放科学的承诺和努力的一部分。我十分高兴看到开放数据共享在全球,尤其是在中国的增长,其中中国科研人员对这一开放科研的实践展现了极大热情。随着政府机构、科研资助机构、学术机构和出版机构的开放数据政策,正结合起来产生重要的影响力,施普林格·自然将继续通过扩大我们的数据政策、与各界建立更紧密的伙伴关系,以及应用人工智能等新技术,助力形成一种开放的科研文化。 —— STEVEN INCHCOOMBE(史蒂文·印驰库姆 )施普林格·自然科研总裁 中国开放数据白皮书2024 目录 前 言42024年中国开放数据情况分析报告6中国材料腐蚀科学数据分析利用技术的研究现状和展望14中国生态系统野外台站长期观测数据开放共享的实践与思考16我国人类遗传资源数据管理与开放共享的现状及思考20数据驱动的多学科交叉研究探索22国家青藏高原科学数据中心:引领地学数据开放共享24数据与智能联合驱动的生命科学研究新范式实践与进展26中国数据论文现状分析28中国科技资源标识应用实践和探索30让开放变简单:AI 可以推进开放科学吗?32作者简介34 4 前 言 于贵瑞 中国科学院院士、中国科学院地理科学与资源研究所研究员周园春 中国科学院计算机网络信息中心副主任、研究员 科学数据是科技创新的核心资源。科学数据的主要来源一般包括大科学装置、实验试验与计算、野外台站观测网络、科学考察、科技项目汇交、国际合作计划和交互、科研论文产生的关联数据。2023年12月31日,国家数据局会同多部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,提出“充分发挥数据要素乘数效应,赋能经济社会发展”的目标。在此背景下,《2024年中国开放数据报告》应运而生,通过对调研问卷的深入分析,全面梳理了中国开放数据的现状、问题和发展趋势。同时,还汇集了多个国家科学数据中心在各学科领域科学数据开放共享和应用发展方面的报告,以及中国单细胞转录组数据开放共享实践进展、中国数据论文的发展现状等报告,为读者呈现了一幅丰富多彩的数据开放共享画卷。 对新科研范式对野外台站长期观测数据的开放共享提出的挑战和需求,提出了未来持续推进数据开放共享的主要着力点。 国家基因组科学数据中心张思思等聚焦于人类遗传资源的数据管理与共享,系统梳理了国际人类遗传资源管理制度与框架的特点,分析其对资源管理与共享利用的启示;同时,深入探讨了我国人类遗传资源管理制度,总结了国家生物信息中心在我国人类遗传资源数据管理中取得的成效与积极作用。最后,探讨了人类遗传资源数据共享问题,并展望了深化人遗平台建设的方向,包括引入新型数据管理机制,推广数据共享模式,推动高质量数据生成,赋能生命科学创新发展。 国家基础学科公共科学数据中心胡良霖等介绍了中心数据资源体系建设情况,精心梳理了战略性新兴产业等对应的科技项目汇交专项数据,并依据国家“数据要素×”三年行动计划中明确的12个行业和领域梳理了相关场景所需的数据资源。中心开展了多学科交叉实践探索,如研究多学科跨领域数据融合服务网络关键技术与基础框架,开展基础领域多学科交叉融合应用研究。最后,针对当前面临的挑战,提出了科学数据供给、科学数据治理理论和方法、科研基础设施、科学数据要素化路径等应对和发展建议。 2024年,中国学者对开放数据的支持度保持在高位并呈现逐年增长态势,期刊和出版商的数据政策对中国学者数据共享行为的影响力在增强。同时,关于开放数据,我们还面临着诸多挑战,比如受访者担心自己的成果不能够被正确使用、希望自己获得更为充分的数据共享贡献认可,科研机构、资金资助方等对科研人员共享数据的引导作用还不够。但我国开放数据的工作进展不断向好。国家数据政策的不断出台、开放数据存储库的建设推广、学者们对开放数据的认可度不断提升,以及人工智能技术对开放数据的辅助支持,都是我国开放数据事业发展的强劲动力。 国家青藏高原科学数据中心潘小多等分享了中心在引领地学数据开放共享方面的实践。中心在数据共享、质量控制、数据评审等方面取得显著成效,支持了青藏科考等一系列国家重大项目,促进了青藏高原地球系统科学创新。未来,中心还将从数据图书馆阶段全面转型到数据实验室阶段,充分发挥数据对未来地学科技创新的支持能力,推动数字孪生地球发展,更好地服务社会需求和国家战略。 国家材料腐蚀与防护科学数据中心马菱薇等介绍了国内材料腐蚀科学数据的发展情况,从数据的特点、数据资源采集及分析挖掘技术、材料耐蚀性能与寿命预测等方面进行了具体阐述。目前,国家材料腐蚀与防护科学数据中心已经开展150余个不同气候环境和重大工程腐蚀大数据联网观测,相关数据分析方法和模型,解决了腐蚀产物累积效应下腐蚀非线性动力学过程无法准确建模仿真的难题。文章最后,提出了通过“数据-知识”智能融合驱动、跨模态知识图谱、腐蚀领域大语言模型等新型科研范式持续推进材料腐蚀科学数据共享应用的未来展望。 中国科学院动物研究所李鑫等以生命科学领域单细胞组学数据为切入点,介绍了国内外生命科学领域数据开放发展态势。国际上合作开展的人类细胞图谱数据库为探索和理解人体细胞的多样性和复杂性,促进单细胞生物学和医学研究的发展,以及实现利用人工智能解析基因功能与复杂生物过程,提供了宝贵的资源。我国单细胞组学数据开放与利用也取得了显著进展,包括生命领域科学数据的标准化收集与整合、高质量开放共享体系构建与高水平数据赋能生命科学研究等方面的实践探索。未来,我国将构建更高质量的生命科学数据开放体系,迎来数据、智能联合驱动的生命科学研究新范式与高质量数据开放共享协同发展。 国家生态科学数据中心何洪林等介绍了国内外生态系统野外台站(网络)长期观测数据开放共享发展情况。国家生态科学数据中心在推动中国生态系统野外台站长期观测数据开放共享过程中开展了诸多实践,包括编制出版生态系统和生物多样性领域野外站观测技术规范、生态系统野外台站长期观测数据产品的团体标准;开发和出版数据专著、图集、数据论文等野外站数据产品;研发多个数据应用分析挖掘工具;建立新一代生态网络云平台等。并针 中国科学院文献情报中心刘筱敏对中国数据论文现状进行分析。梳理了我国数据期刊的创办、相关政策及数据论文标准规范的制定情况,认为这些积极的政策条件,引导了我国数据论文出版的新发展。以Web of Science为数据源,观察和分析了中国学者和机构发表数据论文的贡献。从数据论文发表国别来看,中国发表2092篇论文,位列全球第二;从全球数据论文发表机构来看,中国科学院位列全球第二。我国的国际合作论文较多,占论文总数45.1%,覆盖了135个国家/地区,其中中美合作发表的论文占全部国际合作论文的49.1%。中国发表的数据论文引用频次较高,篇均被引21次,但主要引用来自中国学者,影响力的广泛性有待进一步提升。总体来看,全球数据论文发展仍在起步阶段,发文数量少且国家分布不均匀。但数据论文因其严格的同行评议、灵活的开放获取、详尽的数据描述等机制优势,势必将对科研和社会发挥重要作用。 回望过去一年,中国开放数据事业在多方共同努力下取得了显著进展,展现出了蓬勃的生命力和广阔的发展前景。中国学者对开放数据的支持热情持续高涨,期刊和出版商的数据政策在推动数据共享方面发挥了越来越重要的作用。多家国家科学数据中心等机构在各自领域的数据开放共享方面开展了大量实践探索,取得了显著成效。这些机构不仅推动了数据的标准化、规范化和高质量开放共享,还通过研发数据分析工具、建立云平台等方式,为科研人员提供了便捷的数据获取和利用途径。此外,中国数据论文的发展也呈现出良好的态势,为全球数据论文的发展贡献了中国智慧和力量。 我们相信,随着数据政策的不断完善、开放数据存储库的建设推广、学者们对开放数据的认可度不断加强以及人工智能技术的不断发展,我国开放数据事业将迎来更加广阔的发展前景。我们将继续秉持开放、共享、合作的理念,推动数据资源的充分利用和价值最大化,为科技创新和社会发展注入新的动力和活力。 中国科学院计算机网络信息中心王姝等介绍了我国科技资源标识服务平台建设,重点分析科技资源标识在不同领域的应用探索情况,如大科学装置领域的数据溯源与可追溯性、科研资源共享与整合、科研趋势分析与预测,生物多样性领域的数据标准化与规范化、数据共享与整合、科普教育与公众参与。预测未来的科技资源标识会更加智能化、数字化和标准化:通过科技资源标识与人工智能深度融合,标识系统将更加智能化,应用于自动标注、智能检索和个性化推荐;通过标识标准和规范建设,提高系统间的互操作性,提升资源使用效率和准确性。 施普林格·自然Niki Scaplehorn探讨了人工智能在促进开放科学方面的作用。生成式人工智能的快速发展,可以帮助作者更便捷地生成高质量、结构化的元数据。另外,生成式人工智能与其他技术相结合,可以用来准确识别论文稿件中的数据类型,区分新生成的或重复使用的数据,检查是否符合数据政策,并辅助作者编写全面的数据可用性声明。此外,施普林格自然正在探索人工智能的更大潜力,使作者更容易发表数据论文,并提高其的可见度。虽然技术本身并不能解决开放科学的难题,但是人工智能技术可以帮助作者更好地遵守期刊数据共享政策,减轻编辑和作者的工作负担,提高论文质量,并最终推进科学发现。 2024年中国开放数据情况分析报告 姜璐璐 张泽钰 李宗闻 李成赞 周园春中国科学院计算机网络信息中心 一、问卷调查基本信息 2024年是figshare与Springer Nature携手面向全球科研人员发放《开放数据状况调查问卷》的第9年。本报告主要针对2024年中国受访学者在开放数据领域的调研成果,回顾2016年至今的调研数据,阐述本次调研的基本信息、主要发现以及相关对策建议。 本次调研共收到来自中国学者的有效问卷414份,中国受访者占全球参与总人数的9%,位列全球第三。近三年中国参与人数整体比例较高,维持在10%左右(图1)。 参与本次调查的中国受访者中,七成来自高校,其次是科研机构(13%)和医学院(8%),分列第二位和第三位(图2)。学科分布上,排名前三位的分别是医学(21%)、生物学(19%)和工程科学(13%),今年来自社会科学领域的受访者明显增加,排名第四位(工程科学54份,社会科学52份)(图3)。受访者职业分布上,博士或硕士研究生约占47%,占比最高,副教授(13%)、博士后(11%)分列第二位和第三位。 二、调研主要发现 基于2024年调查收到的中国学者问卷,结合2016年以来的中国受访者问卷,围绕中国科研群体在开放数据领域的态度、动因、阻碍、实践等进行统计分析,主要发现包括: 1.中国学者对开放数据的支持度保持在高位并呈现逐年增长态势 近年来,随着开放科学和开放数据理念的进一步普及,越来越多的中国学者开始了解并接触到相关内容与实践。2022–2024年的统计数据显示,支持“让研究论文开放获取成为学术惯例”的中国受访者近三年呈逐年上升趋势,其中,2023年(83%)和2024年(85%)支持率已超八成。与此同时,不同意率常年低于5%(图4)。对于“让研究数据开放获取成为学术惯例”的态度,近三年来,持同意态度的受访者稳定在六至七成,不同意者近三年均低于10%(图5)。可以看到,一方面,中国科研人员对于论文开放获取、数据开放共享,整体持更为积极的态度;另一方面,中国学者对于数据开放共享的认