您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国科学院&科学数据银行]:中国开放数据白皮书2023 - 发现报告

中国开放数据白皮书2023

AI智能总结
查看更多
中国开放数据白皮书2023

科学数据的开放、共享和应用,会促进科学界带来新的知识。而大数据、人工智能和大模型的融合发展,也将激活科学研究的创新力和生命力,破解更多科学密码。 ——陈润生 中国科学院院士 中国科学院生物物理研究所研究员 开放数据状况报告是一项全球调查,旨在深入了解科研人员对于开放数据的态度和体验。我们很高兴与中国科学院计算机网络信息中心携手,合作发布一份有关中国开放数据情况的报告,以便出版机构、科研资助机构和科研机构更好地了解科研人员的看法,以及需要以哪些支持来帮助他们将数据公开。作为科研界的积极合作伙伴,施普林格·自然致力于开创数据共享的新方法,并支持科研人员使数据共享成为新常态。 —— STEVEN INCHCOOMBE(史蒂文·印驰库姆 )施普林格·自然科研市场总裁 中国开放数据白皮书2023 目录 前 言42023年中国开放数据情况分析6我国科学数据的新型知识产权保护规则12中国科学院推动数据开放的政策与实践14中国空间科学领域数据开放实践与思考16全球微生物大数据共享平台的建设与应用18中国对地观测科学数据开放共享的现状和趋势20中国农业科学数据开放共享实践与进展22基于SI数字框架的计量数据开放共享特点介绍24中国科技期刊开放研究数据政策与实践28开放数据在中国——施普林格·自然的政策、实践和愿景31 4 前 言 陈润生 中国科学院生物物理研究所周园春 中国科学院计算机网络信息中心 涉及具体学科领域的数据共享工作,报告邀请了5篇来自国家科学数据中心的观点报告。科学数据是重要的国家基础性和战略性资源,而地球科学、生物学、农业农村等领域产生的科学数据,具有极高的经济价值和社会价值,做好这些数据的收集、储存、保护、开发与利用工作,将对我国国民经济和社会发展产生深远影响。微生物和农业等领域均重视数据平台建设,促进领域数据的海量汇聚,形成了有效的整合效应,促进科学数据资源的共享利用。另一方面是数据标准建设达成一定成效,形成数据共享的基础,提升数据质量,实现数据互联互通。 开放数据是开放科学的重要组成部分,数据密集型科学发现的新型科研范式正在对科学数据开放共享提出迫切需要。经过中国政府、政策制定者等多方努力,中国的开放数据和开放科学数据事业正迎来蓬勃发展。 中国在全球开放科学的舞台上扮演着重要角色。在2023年的调查问卷反馈中,中国受访者占全球参与人数的11%,排全球第二。同时,中国科研群体对于开放科学有比较高的接受度和支持度。有78%的受访者赞成公开研究数据成为惯例。然而,数据共享在实践中还在敏感数据许可、数据滥用等问题上存在一定阻碍因素。因此,报告对国家政策法规体系、科研评价体系、科研机构的指导作用和数据共享最佳实践提出了相关建议。 来自国家空间科学数据中心的邹自明等介绍了国内外空间科学领域数据开放发展情况,从领域科学数据的高质量供给、高水平开放共享、开放生态建设等方面具体阐述了中国在推动空间科学领域开放共享过程中的实践与进展,并提出了面向数据与智能融合驱动的新型科研范式持续推进领域科学数据开放与利用的展望。 同时,报告邀请中国数据开放共享领域的专家共同参与此次报告的撰写。在政策研究与法规层面,来自国家知识产权局的顾昕等介绍了中国对于科学数据这一新型知识产权的保护规则,并对大规模科学数据集合提出保护建议,较于个体科学数据已开展的系列知识产权合规工作,大规模数据集合还缺乏完善的制度保障,亟待构建一种新型产权制度。 来自国家微生物科学数据中心的马俊才的介绍,国家微生物科学数据中心以世界微生物数据中心(WDCM)为平台,倡导了全球微生物菌种保藏目录(GCM),在微生物资源共享和挖掘方面建立一套国际标准体系,建立全球权威的微生物组学参考数据库和数据分析平台,有效促进全球微生物数据的汇聚、融合、共享与利用。 在建设实践层面,来自中国科学院科学数据总中心的陈昕等从数据政策建设实践、科学数据管理与共享服务实践、科学数据治理能力实践、项目数据汇交实践几个方面系统介绍了中国科学院在科学数据开放的政策与实践上的建设情况。 国家对地观测科学数据中心的李国庆系统地介绍了中国对地观测数据的特点,并分析了中国对地观测数据开放共享的参与方、开放现状及各方态度;总结了中国对地观测领域开放数据存在的问题及机遇。 国家农业科学数据中心的周国民从分析农业科学数据的特点为入口,全面梳理了国家农业科学数据中心在促进农业科学数据开放共享上的系列举措,分享了相关工作成效,并对未来工作进行了展望。 国家计量科学数据中心的熊行创首先介绍了基于SI数字框架的计量数据开放共享特点,并提出计量可追溯性和机器可读、可理解、可操作性是数字时代计量数据作为质量信任之锚的显著特点。 科学数据在学术出版中起到了保障科研诚信、促进学术交流的重要作用。本次问卷的大部分受访者也赞同这一观点,认为“论文出版是最主要的数据获取方式”。在中国科技期刊的开放数据实践进展上,来自《中国科学数据》的孔丽华研究表明“中国科技期刊卓越行动计划”的资助刊物中有超过81%的“领军期刊”已制定了数据政策,但这在中国科技期刊总量(5000多种)中占比,仍微乎其微。此外,数据论文出版作为一种新型出版模式,正在积极推动数据引用和重用,释放数据更大的价值。中国创办的数据期刊的论文发文量正处于上升期,并开展了数据共享和出版、数据政策建设的丰富实践。 作为出版机构的施普林格·自然介绍了其在中国的数据政策、实践与愿景。施普林格·自然支持中国的开放数据政策和数据存储库,并建议了在中国鼓励数据共享的最佳实践。 我们高兴地看到,本次调查中大部分科研群体赞成开放科学数据成为常态,并且希望得到共享数据能够带来更多的学术认可,这也反映了科研群体对开放科学数据这一概念具有较为正面的认知,并希望以此开展更多学术交流、获得学术认可。当然,政策法规体系建设、科研评价的激励、科研机构的实践指导等,都能够极大帮助科研群体在科学数据开放共享过程中消除障碍、提供便利,逐步形成驱动数据开放的强大动因。我们呼吁,科研机构、高校、学术期刊、出版商、数据存储库、技术提供商等科研共同体,在拥抱开放科学的道路上继续携手前行,共同为构建开放科学和开放数据大家庭努力。 2023年中国开放数据情况分析 姜璐璐 张泽钰 李宗闻中国科学院计算机网络信息中心 一、报告情况介绍 2023年, 是figshare与Springer Nature连续面向全球科学家发放《开放数据状况调查问卷》的第八年。据统计,此次调查中,共收到来自中国的有效问卷反馈642份,中国受访者占全球参与人数的11%,位列第二。本报告以本次调查收到的这642份中国学者的问卷数据为依据,对中国科研群体在开放数据的动机、存在的挑战、看法和实践行为等方面展开调查分析。 根据对中国受访者的数据分析,报告呈现以下要点: ·有78%的受访者赞成将公开研究数据作为常规惯例;·56%的受访者认为其在共享数据的学术认可上“获得太少”,20%回答“不知道”;·74%的受访者表示不清楚“数据管理计划”的概念,49%的人表达需要相关培训支持;·49%的受访者重复使用过他人或团队公开共享的数据;·已发表的论文是最主要的数据获取方式(69%)。 在参与此次调查的中国受访者中,60%来自高校,是占比最高的人群,16%来自医院或医疗组织,14%来自研究机构,6%来自医学院,3%来自企业,另有1%来自政府机构。在学科分布上,从事医学(29%)研究的受访者比例最高,其次是生物(18%),工程(9%)和地球与环境科学(9%)领域。从职业阶段分布上看,约有47%的受访者处于职业早期(于近5年内发表了第一篇论文)。因此,本次调查可能在一定程度上反映出中国青年科研群体对待开放数据的认识。 78%的受访者赞成将公开研究数据作为常规惯例 二、主要发现 1.数据共享的驱动与阻碍 提升学术认可与影响力是最重要的数据共享驱动因素。调查发现,科研群体最关注的仍是研究成果是否获得认可,及产生的学术影响力。获得“完整的数据引用(69%)”“研究论文被引用(62%)”“提高研究的影响力和知名度(51%)”是中国受访者数据共享的最主要驱动因素。此外,政策要求也发挥着重要的驱动作用,有48%的受访者会因“期刊/出版商的要求”共享数据,38%和36%的人会应资金资助方或所属机构的要求共享数据。 但数据共享尚未获得足够的学术认可。当被问及研究人员目前是否因共享数据而获得足够的承认或认可时,超半数的受访者(56%)选择了“不,他们获得的承认太少”,值得注意的是,较上一年度相比这一比例正在降低。24%的受访者认为数据共享者已获得足够的认可(18%)或过多认可(6%)且这一比例正在上升。 中国科研群体对于开放科学有比较高的接受度和支持度。有78%的受访者赞成将公开研究数据作为学术研究惯例。其中,73%的受访者认为开放数据可促进合作,70%认为“有助于验证我的研究发现”,63%认为“可避免重复劳动”,57%认为“可补充现有数据”,仅1%的受访者从未从数据共享中获益。 50.3%的受访者认为资助方应将研究数据的共享作为获得经费的要求之一(29.4%反对,20.2%回答“不清楚”);若经费申请人没有遵循项目的强制共享数据要求时,44.9%的人认为申请应遭拒绝或给予其他相应处罚(30.4%反对,24.8%回答“不清楚”)。 数据共享依旧存在诸多阻碍因素。在问及关于数据共享的潜在问题或担忧时,57%的受访者担心数据“包含敏感信息或数据共享前须获研究参与者许可”,医学领域的受访者对此的担忧尤为突出(31.96%);此外,中国是全球(43%)受访者中对此表达最多顾虑的国家。中国受访者担忧的其他问题还包括“数据滥用(39%)”,“其他实验室抢发研究成果(36%)”以及“不确定数据版权和数据许可(36%)”等;只有约10%的受访者表示对数据共享没有顾虑。 在认可形式上,论文的完整引用(41%)是研究人员在数据共享上获得最多的认可形式。其次是数据共享者作为论文的合著者(33%),次之是作为工作考核的内容(22%)。但是,有30%的受访者表示从未在数据共享上获得过任何认可,67%的学者表示他们并未因数据共享而有机会加入任何合作项目。 数据共享尚未获得足够的学术认可 8 相比于全球其他国家和地区,中国受访者在项目进行阶段尤其倾向将数据存储在个人计算机上(88%),40%的人选择使用个人云存储。选择使用机构服务的人群比例明显较低(机构云存储16%,机构存储库12%,机构网络6%)。此外,约有36%的人选择使用物理方式(如纸质笔记本等)保存数据。 2.科学数据管理的实践 较少的受访者(15%)会整理所有收集到的数据以便分享。有34%的受访者表示会整理计划公开的数据,21%的受访者会整理部分数据用于公开,18%的受访者仅对计划分享给同事或他人的数据进行整理。另有约7%的学者表示缺乏相关资源,但乐于开展此项工作。在数据整理的支持工作上,中国学者更倾向通过所在机构获取支持。全球受访者中50%的学者选择从所在机构获取专家帮助,而中国学者中这一比例占到70%,他们通过实验室(46%)、所在部门(35%)、机构图书馆(17%)获得过专家帮助。 中国受访者关于数据管理计划(Data Management Plan,DMP)的认知、实践能力及实施支持上普遍需要提升。调查显示,有72%的中国受访者不清楚或者不知道DMP的概念。涉及DMP的制定能力评估,近半(49%)的中国受访者表示自己不具备制定可实施的DMP能力,需要更多培训和信息,仅51%的受访者在不同程度上表示能够胜任。谈及DMP的制定动因上,40%的受访者表示制定数据管理计划是出于行业规范或期望的考虑,39%的人出于项目资助方的要求,36%的人出于机构要求考虑,也有部分人表示会出于个人选择而非其他人要求制定DMP(32%)。 较多数中国受访者(56%)倾向在研究发表后再公开自己的数据。此外,14%的学者会选择在提交研究论文时公开数据,只有3%的受访者会在数据收集的当下