您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [科学信息研究所]:科研分类与结构化数据的价值 - 发现报告

科研分类与结构化数据的价值

信息技术 2026-04-23 科学信息研究所 刘银河
报告封面

2026年3月 Jonathan Adams, Dmytro Filchenko 作者简介 Jonathan Adams博士是科学信息研究 所(ISI) 首 席 科 学 家, 兼 任 伦 敦国王学院政策研究所客座教授。2017年,埃克塞特大学因其在高等教育与研究政策方面的贡献授予其荣誉理学博 士 学 位。ORCiD:0000-0002-0325-4431。Web of Science ResearcherID:A5224-2009。 Dmytro Filchenko博 士于2024年 加入科睿唯安,担任科学信息研究所研究与分析高级总监。他取得了乌克兰数学建模与计算专业博士学位,在学术界和商界均拥有超过15年的经验。其多元化领导背景包括曾任苏梅国立大学副教授兼副校长、基准测试主管和技术总监。他还曾是一位企业创始人。加入科睿唯安之前,他曾就职 于QS(Quacquarelli Symonds),责主导QS世界大学排名系列及一系列其他教育科技和研究情报产品的开发。 传承基石,引领未来 学信息的获取、解读与利用。ISI维护着Web of Science索引及其相关分析内容与服务所依托的核心知识库。ISI通过各类活动、会议和出版物传播相关知识,并开展原创研究以持续巩固、拓展和完善这一知识体系。 关于科学信息研究所(ISI) 如需了解更多信息,欢迎访问www.clarivate.com/isi 科睿唯安旗下的科学信息研究所(ISI)半个多世纪以来始终致力于科研信息组织工作的开创与推进。如今,ISI继续致力于提升科研诚信,并改进科 本报告是科学信息研究所(ISI)文献计量学方法与分析系列报告之一,阐述了科睿唯安对科研活动数据进行结构化处理的方式与原因,以确保全球 科研生态系统中的知识发现、评估与决策,均建立在可靠、可比且具备情境感知的信息基础之上。 关于ISI报告 ISI报告借助科睿唯安值得信赖的出版物和引文数据与分析,针对前沿研究趋势提供简明而深刻的洞察。 概览 执行摘要科研分类的定义与重要性科研文化与研究文献科研分类对引文分析的重要性引文网络如何识别学科分类跨内容的学科分类将数据类别映射至国家评估体系将科研元数据映射至发展目标国际合作的分类结论:结构化科研活动数据的重要性 执行摘要 无论是在自然科学、工程技术,还是经济与社会科学领域,高质量的科研分析均依赖经过验证且结构化的数据。一个管理得当的数据库,如果同时具备全面的元数据,能够与其他数据源实现互操作,其用途将更加广泛。科研本身如此,科研信息与分析亦然。本报告聚焦科睿唯安及其科学信息研究所(ISI)所采用的一系列方法与流程,旨在确保数据、分类结构及相关元数据等关键要素,始终处于Web of Science文献计量数据库及其相关产品的核心位置。 ISI的学术期刊分类体系可追溯至1956年Current Contents的创刊。这是一份定期发布的刊物,用于向研究人员通报最新的期刊出版信息。最初主要覆盖生物学与医学领域,随后迅速扩展至包括社会科学、人文艺术在内的全部研究领域。每期均按学科分组设立子栏目,并通过关键元数据进行索引,例如作者、机构所在地、关键词等。 随着技术进步和出版形式的多样化发展,ISI及在其基础上诞生的科睿唯安相关部门不断识别并应对围绕出版数据结构的一系列挑战。本报告围绕方法的演变过程,重点探讨以下问题: 科研文化:不同学科之间不仅研究内容各异,其科研文化亦各不相同,包括研究组织方式、规划管理模式以及成果发表形式等。其中一个重要变量在于期刊论文、会议论文或学术专著在不同领域所占的主导地位。为了实现可比性分析,必须将这些差异考虑在内。 第2节列出了Web of Science核心合集中的主要文献类型,并展示其在不同学科领域的使用差异(图1)。 第3节举例说明了不同学科类别之间的其他文化差异,以及这些差异对文献计量分析的影响(图2、图3)。 自上而下的分类与自下而上的主题:分类工作通常从宏观视角出发,自上而下逐步细化,系统长期保持稳定,便于用户以熟悉的方式检索信息。另一种路径则从最细粒度的层面出发,根据共同特征向上聚类,形成更具时效性和主题性的结构。 第4节回顾了Web of Science数据所采用的粗粒度与细粒度结构,并介绍了ISI与莱顿大学科学技术研究中心(CWTS)合作开发的一种基于引文数据的主题分类体系。 第5节进一步探讨跨内容的自下而上分类方法,展示了如何通过关联互补数据库,为关键研究主题提供更深入的洞察。 将研究映射至发展目标与成效:分类体系必须具备全面性,对于Web of Science而言,这不仅意味着覆盖全面,还需适用于多样化的研究目的。科研评估体系通常围绕管理与政策需求构建,科研政策目标往往由国家需求或社会目标所驱动,例如研究活动对经济社会产生的影响。那么,这些体系之间应如何建立关联? 第6节将全球期刊类别与国家层面的评估分类体系进行关联,并展示了ISI在1996年Research Assessment Exercise(RAE)中的映射实践(图4)。 第7节介绍了将Web of Science数据映射至联合国可持续发展目标(SDG)所采用的方法。 合作的影响:ISI早在20世纪90年代就已经明确了研究学科分类的必要性,而其近期研究进一步表明,国际合作能够提升论文的被引频次与科研影响力。 第8节展示了科研评估工具InCites Benchmarking & Analytics如何对国内与国际合作进行分类,以识别在同类型文献中引用表现突出的研究成果(图5、表1)。 结构化科研活动数据的重要性:结构化、经过验证且具备互操作性的科研活动数据,并非只是便利工具,而是实现可信检索、发现与评估的前提条件。 结论部分总结了本报告中的若干关键可行见解,供科研人员及科研分析人员(包括科研管理部门、基金资助机构及政策制定者)参考。 1.科研分类的定义与重要性 经过筛选、验证并结构化的数据,是开展可信科研分析的基础。当数据库通过全面的元数据具备多功能性,并与相关、互补的数据资源实现互联互通时,这一基础将更加坚实。这一原则不仅适用于科研本身,亦适用于科研成果发表与绩效数据。依托源自科学信息研究所(ISI)数十年的方法论积累,科睿唯安打造了Web of Science――一个由共享元数据与清晰的分类结构连接而成的数据库体系,帮助科研人员、机构及政策制定者应对日益复杂且高度互联的科研环境i。 对于科研读者而言,对学术出版物进行索引与分类的需求由来已久。1945年之后,随着科研期刊数量的激增,这一需求愈发迫切。Eugene Garfield博士意识到,研究人员需要“路标”来追踪海量的最新信息。这一洞察促成了科学信息研究所(ISI)的成立(现为科睿唯安核心组成部分),以及周报Current Contents的推出。目前,科睿唯安已收录超过22,000种经编辑遴选的期刊,每种期刊均归入Web of Science核心合集的254个学科类别中,并实现整本完整收录,该持续扩展的数据集合中已包含9,900万条元数据记录和26亿条引文链接。 科研分析同样依赖结构化数据。一篇高被引论文或许代表具有影响力的研究成果,但仅靠被引次数这一个指标,如何将其与其他论文进行比较?哪些“其他论文”才具有可比性,是否应限定为同一学科、同一年份、同一国家或地区?如果忽视这些变量,分析结果可能产生多大偏差?一个典型错误是在初步分析论文与引文数据时,直接计算每篇论文的平均被引次数,这种平均值往往既缺乏意义,也具有误导性。因此,合理的分类是关键。 科研分类可以基于学科、领域、研究方向、研究活动类型或文献类型。科研工作的每一条信息都附有一系列特征属性,即元数据,它们揭示了科研活动的特定信息:研究内容、发生地点、完成时间、研究主体与合作者,以及资助方。这些特征不仅会影响研究项目的进程与成果,也有助于揭示其与其他类型数据标签(如专利、科研项目及政策目标)之间的关联。因此,这些信息必须得到妥善记录、清晰呈现,并便于读者、研究人员和分析人员获取。 当元数据出现不完整、不一致或结构混乱时,研究发现与分析可能产生严重偏差。研究人员与分析人员面临的主要挑战包括: •非结构化的时间元数据,可能导致误导性的趋势判断,而数据覆盖不完整则会造成分析缺口;•学科分类不严谨或缺乏一致性,会削弱可比性,并可能导致错误结论;•文献类型元数据缺乏一致性,会使比较分析失去有效性;•对非传统科研成果的结构化收录不足,会限制跨数据源的发现与分析;•机构归属数据不完整,会导致合作分析失真,而忽视不同合作模式则可能得出误导性结论。 2.科研文化与研究文献 科研文化会影响研究人员发表研究成果及参考已有文献的方式。不同类型的科研活动逐渐形成了各具特征的论文与引文模式。例如,在生物医学领域,研究团队通常发表频率较高,论文篇幅相对较短,并且常引用标准方法论。而在工程学领域,研究成果往往先通过会议论文发表,随后再整理为期刊文章,因此论文产出频率较低,但成果更为凝练综合。由此,也导致生物医学领域的引文总体规模显著大于工程学领域,两者的引文分布特征自然存在差异。 研究文献的主要类型及其特征包括: •研究论文与综述论文:是自然科学领域原创性研究的主要成果形式。引用是科研文化的核心组成部分,较高的引文影响力与学术声誉之间的正相关关系已得到广泛认可。•会议论文:是工程与技术领域将研究成果快速传达给科研用户的重要渠道,更贴近实际应用,但其引文模式与期刊论文存在明显差异。•图书、图书章节与专著:是人文与艺术领域的重要成果形式。在这些领域中,即便一部专著具有重要影响,也可能需要较长时间才能形成引文影响力。•灰色文献(Grey Literature):包括研究团队、公共部门、智库、政府机构等基于学术研究撰写的各类报告。这类文献具有重要价值,但结构化程度较低,直到近年才开始纳入索引。其与所依据的先前研究之间的关联往往不一致,且较难验证。 任何文献对于信息检索与知识发现都可能具有重要意义,因此科睿唯安在Web of Science中对上述所有文献类型按照统一标准与结构进行分类处理,以支持全面、完整的检索与发现。 然而,在科研评估中,经过同行评议的研究论文与综述论文通常仍是引文数据的核心来源。引文分析一般局限于期刊文献所构成的引文索引体系,这一体系形成了跨学科的通用衡量标准。然而,若在评估人文学科研究时忽视图书成果,或在评估研究影响(尤其是更广泛的社会影响力)时忽视灰色文献,都是不恰当的。但简单计算得出的被引次数,目前尚无法为科研管理与评估提供有效信息,因此需要谨慎、负责任地加以使用与解读ii。 ISI曾与英国周期性科研评估体系――Research Assessment Exercise(RAE)及科研卓越框架(Research Excellence Framework,简称REF)的管理机构合作,对学者在同行评审中所选择提交的文献构成比例进行了详细分析。由于评估结果影响科研经费的分配,这些文献理应反映研究人员自认为最具代表性的重要成果。研究发现,尽管不同学科领域之间的文献类型构成差异基本符合预期,但各学科内部的文献类型构成却在不同时间阶段呈现出令人意外的变化。 图1. 1996年至2021年英国科研评估周期中,学者所选择提交的研究文献构成比例。图中展示了按大类学科领域归类的评估单元(Units of Assessment,UOA)在四种主要文献类型上的分布。“其他提交成果”包括专利、灰色文献、展览与表演记录,以及其他未发表资料iii。 25年间,研究成果类型的构成比例发生了变化:社会科学领域逐渐从专著转向期刊论文,工程学领域则从会议论文转向期刊论文。自然科学领域始终专注于期刊论文,而艺术与人文学科仍然保持以图书为主要发表形式的传统。 像Web of Science这样结构完善的数据库,能够对各类科研成果进行全面覆盖并清晰标注。理解不同文献类型及其发表工作的差异,不仅对研究发现至关重要