行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

科研分类与结构化数据的价值

信息技术 2026-04-23 科学信息研究所刘银河

科研分类与结构化数据的价值

高质量的科研分析依赖于经过验证且结构化的数据。一个管理得当的数据库，如果同时具备全面的元数据，能够与其他数据源实现互操作，其用途将更加广泛。

科研分类的定义与重要性

科研分类可以基于学科、领域、研究方向、研究活动类型或文献类型。
科研工作的每一条信息都附有一系列特征属性，即元数据，它们揭示了科研活动的特定信息：研究内容、发生地点、完成时间、研究主体与合作者，以及资助方。
当元数据出现不完整、不一致或结构混乱时，研究发现与分析可能产生严重偏差。

科研文化与研究文献

不同类型的科研活动逐渐形成了各具特征的论文与引文模式。
研究文献的主要类型及其特征包括：研究论文与综述论文、会议论文、图书、图书章节与专著、灰色文献。
在科研评估中，经过同行评议的研究论文与综述论文通常仍是引文数据的核心来源。

科研分类对引文分析的重要性

期刊论文的引文通常在发表后的最初几年迅速增长，随后年增量逐渐下降，并在大约十年后趋于稳定。
为使引文分析中的数据更具同类可比性，我们需要按照发表年份和学科分类对所有论文进行分类。
新的时间变量：在线发表日期。
学科分类：Web of Science的254个学科类别，构成了稳定、精细的基础性分类体系；ESI的22个学科类别，则提供了管理层面的宏观概览。

引文网络如何识别学科分类

Web of Science与ESI的分类体系主要采用“自上而下”的方式构建。
一种更具时效性的方法，是基于论文之间的引文关联，“自下而上”构建分类体系。
2019年，荷兰莱顿大学科学技术研究中心（CWTS）研究团队与ISI合作，开发了首个此类动态分类体系，名为“引文主题”。

跨内容学科分类

“研究主题”分类体系的设计，旨在应对科研数据组织中的一个长期挑战：实现跨平台、跨内容的数据整合。
“研究主题”通过构建统一的分类架构，能够一致地应用于不同类型的研究成果，从而克服了传统分类体系的局限。
“研究主题”分类体系具有动态性，因为基于内容的分类框架会随着研究格局的发展而不断演化。

将数据类别映射至国家评估体系

不同分类体系下的出版数据能够形成相关、且具有可解释性的聚类，并可实现相互关联。
在澳大利亚，用于澳大利亚卓越科研评估（ERA）的学科分类体系，基于澳大利亚与新西兰标准科研分类（ANZSRC）框架下的“研究领域”（Fo R）。
英国的Research Assessment Exercise（简称RAE，后演变为前文所述的REF）体系并未明确规定各学科对应的期刊。

将科研元数据映射至发展目标

联合国可持续发展目标（SDG）是一个全球认可的框架，由17个相互关联的目标组成，旨在于2030年前应对最紧迫的社会、经济与环境挑战。
科睿唯安已将SDG引入其高级科研分析解决方案（如InCites与Web of Science Research Intelligence平台），作为一种分类体系，用于对与全球发展重点相关的研究成果开展系统性计量与对比分析。

国际合作的分类

随着国际合作占比的提升，跨国合作论文的被引频次高于其他论文的现象也愈发明显。
ISI的一项近期研究进一步拓展了科研成果的“同类可比”分类原则。
为纳入合作这一维度，ISI开发了“合作性学科规范化引文影响力”（Collab-CNCI）指标。

结论：结构化科研活动数据的重要性

结构化、经过验证且具备互操作性的科研活动数据，并非只是便利工具，而是实现可信检索、发现与评估的前提条件。
科睿唯安将分类与规范化机制贯穿从索引到分析的每一个环节，将庞大、异构的数据资源，转化为稳定、可解释且可落地应用的科研信息，服务于科研人员与科研分析人员。

2026年3月 Jonathan Adams, Dmytro Filchenko 作者简介 Jonathan Adams博士是科学信息研究所（ISI）首席科学家，兼任伦敦国王学院政策研究所客座教授。2017年，埃克塞特大学因其在高等教育与研究政策方面的贡献授予其荣誉理学博士学位。ORCiD：0000-0002-0325-4431。Web of Science ResearcherID：A5224-2009。 Dmytro Filchenko博士于2024年加入科睿唯安，担任科学信息研究所研究与分析高级总监。他取得了乌克兰数学建模与计算专业博士学位，在学术界和商界均拥有超过15年的经验。其多元化领导背景包括曾任苏梅国立大学副教授兼副校长、基准测试主管和技术总监。他还曾是一位企业创始人。加入科睿唯安之前，他曾就职于QS（Quacquarelli Symonds），责主导QS世界大学排名系列及一系列其他教育科技和研究情报产品的开发。传承基石，引领未来学信息的获取、解读与利用。ISI维护着Web of Science索引及其相关分析内容与服务所依托的核心知识库。ISI通过各类活动、会议和出版物传播相关知识，并开展原创研究以持续巩固、拓展和完善这一知识体系。关于科学信息研究所（ISI）如需了解更多信息，欢迎访问www.clarivate.com/isi 科睿唯安旗下的科学信息研究所（ISI）半个多世纪以来始终致力于科研信息组织工作的开创与推进。如今，ISI继续致力于提升科研诚信，并改进科本报告是科学信息研究所（ISI）文献计量学方法与分析系列报告之一，阐述了科睿唯安对科研活动数据进行结构化处理的方式与原因，以确保全球科研生态系统中的知识发现、评估与决策，均建立在可靠、可比且具备情境感知的信息基础之上。关于ISI报告 ISI报告借助科睿唯安值得信赖的出版物和引文数据与分析，针对前沿研究趋势提供简明而深刻的洞察。概览执行摘要科研分类的定义与重要性科研文化与研究文献科研分类对引文分析的重要性引文网络如何识别学科分类跨内容的学科分类将数据类别映射至国家评估体系将科研元数据映射至发展目标国际合作的分类结论：结构化科研活动数据的重要性执行摘要无论是在自然科学、工程技术，还是经济与社会科学领域，高质量的科研分析均依赖经过验证且结构化的数据。一个管理得当的数据库，如果同时具备全面的元数据，能够与其他数据源实现互操作，其用途将更加广泛。科研本身如此，科研信息与分析亦然。本报告聚焦科睿唯安及其科学信息研究所（ISI）所采用的一系列方法与流程，旨在确保数据、分类结构及相关元数据等关键要素，始终处于Web of Science文献计量数据库及其相关产品的核心位置。 ISI的学术期刊分类体系可追溯至1956年Current Contents的创刊。这是一份定期发布的刊物，用于向研究人员通报最新的期刊出版信息。最初主要覆盖生物学与医学领域，随后迅速扩展至包括社会科学、人文艺术在内的全部研究领域。每期均按学科分组设立子栏目，并通过关键元数据进行索引，例如作者、机构所在地、关键词等。随着技术进步和出版形式的多样化发展，ISI及在其基础上诞生的科睿唯安相关部门不断识别并应对围绕出版数据结构的一系列挑战。本报告围绕方法的演变过程，重点探讨以下问题：科研文化：不同学科之间不仅研究内容各异，其科研文化亦各不相同，包括研究组织方式、规划管理模式以及成果发表形式等。其中一个重要变量在于期刊论文、会议论文或学术专著在不同领域所占的主导地位。为了实现可比性分析，必须将这些差异考虑在内。第2节列出了Web of Science核心合集中的主要文献类型，并展示其在不同学科领域的使用差异（图1）。第3节举例说明了不同学科类别之间的其他文化差异，以及这些差异对文献计量分析的影响（图2、图3）。自上而下的分类与自下而上的主题：分类工作通常从宏观视角出发，自上而下逐步细化，系统长期保持稳定，便于用户以熟悉的方式检索信息。另一种路径则从最细粒度的层面出发，根据共同特征向上聚类，形成更具时效性和主题性的结构。第4节回顾了Web of Science数据所采用的粗粒度与细粒度结构，并介绍了ISI与莱顿大学科学技术研究中心（CWTS）合作开发的一种基于引文数据的主题分类体系。第5节进一步探讨跨内容的自下而上分类方法，展示了如何通过关联互补数据库，为关键研究主题提供更深入的洞察。将研究映射至发展目标与成效：分类体系必须具备全面性，对于Web of Science而言，这不仅意味着覆盖全面，还需适用于多样化的研究目的。科研评估体系通常围绕管理与政策需求构建，科研政策目标往往由国家需求或社会目标所驱动，例如研究活动对经济社会产生的影响。那么，这些体系之间应如何建立关联？第6节将全球期刊类别与国家层面的评估分类体系进行关联，并展示了ISI在1996年Research Assessment Exercise（RAE）中的映射实践（图4）。第7节介绍了将Web of Science数据映射至联合国可持续发展目标（SDG）所采用的方法。合作的影响：ISI早在20世纪90年代就已经明确了研究学科分类的必要性，而其近期研究进一步表明，国际合作能够提升论文的被引频次与科研影响力。第8节展示了科研评估工具InCites Benchmarking & Analytics如何对国内与国际合作进行分类，以识别在同类型文献中引用表现突出的研究成果（图5、表1）。结构化科研活动数据的重要性：结构化、经过验证且具备互操作性的科研活动数据，并非只是便利工具，而是实现可信检索、发现与评估的前提条件。结论部分总结了本报告中的若干关键可行见解，供科研人员及科研分析人员（包括科研管理部门、基金资助机构及政策制定者）参考。 1.科研分类的定义与重要性经过筛选、验证并结构化的数据，是开展可信科研分析的基础。当数据库通过全面的元数据具备多功能性，并与相关、互补的数据资源实现互联互通时，这一基础将更加坚实。这一原则不仅适用于科研本身，亦适用于科研成果发表与绩效数据。依托源自科学信息研究所（ISI）数十年的方法论积累，科睿唯安打造了Web of Science――一个由共享元数据与清晰的分类结构连接而成的数据库体系，帮助科研人员、机构及政策制定者应对日益复杂且高度互联的科研环境i。对于科研读者而言，对学术出版物进行索引与分类的需求由来已久。1945年之后，随着科研期刊数量的激增，这一需求愈发迫切。Eugene Garfield博士意识到，研究人员需要“路标”来追踪海量的最新信息。这一洞察促成了科学信息研究所（ISI）的成立（现为科睿唯安核心组成部分），以及周报Current Contents的推出。目前，科睿唯安已收录超过22,000种经编辑遴选的期刊，每种期刊均归入Web of Science核心合集的254个学科类别中，并实现整本完整收录，该持续扩展的数据集合中已包含9,900万条元数据记录和26亿条引文链接。科研分析同样依赖结构化数据。一篇高被引论文或许代表具有影响力的研究成果，但仅靠被引次数这一个指标，如何将其与其他论文进行比较？哪些“其他论文”才具有可比性，是否应限定为同一学科、同一年份、同一国家或地区？如果忽视这些变量，分析结果可能产生多大偏差？一个典型错误是在初步分析论文与引文数据时，直接计算每篇论文的平均被引次数，这种平均值往往既缺乏意义，也具有误导性。因此，合理的分类是关键。科研分类可以基于学科、领域、研究方向、研究活动类型或文献类型。科研工作的每一条信息都附有一系列特征属性，即元数据，它们揭示了科研活动的特定信息：研究内容、发生地点、完成时间、研究主体与合作者，以及资助方。这些特征不仅会影响研究项目的进程与成果，也有助于揭示其与其他类型数据标签（如专利、科研项目及政策目标）之间的关联。因此，这些信息必须得到妥善记录、清晰呈现，并便于读者、研究人员和分析人员获取。当元数据出现不完整、不一致或结构混乱时，研究发现与分析可能产生严重偏差。研究人员与分析人员面临的主要挑战包括： •非结构化的时间元数据，可能导致误导性的趋势判断，而数据覆盖不完整则会造成分析缺口；•学科分类不严谨或缺乏一致性，会削弱可比性，并可能导致错误结论；•文献类型元数据缺乏一致性，会使比较分析失去有效性；•对非传统科研成果的结构化收录不足，会限制跨数据源的发现与分析；•机构归属数据不完整，会导致合作分析失真，而忽视不同合作模式则可能得出误导性结论。 2.科研文化与研究文献科研文化会影响研究人员发表研究成果及参考已有文献的方式。不同类型的科研活动逐渐形成了各具特征的论文与引文模式。例如，在生物医学领域，研究团队通常发表频率较高，论文篇幅相对较短，并且常引用标准方法论。而在工程学领域，研究成果往往先通过会议论文发表，随后再整理为期刊文章，因此论文产出频率较低，但成果更为凝练综合。由此，也导致生物医学领域的引文总体规模显著大于工程学领域，两者的引文分布特征自然存在差异。研究文献的主要类型及其特征包括： •研究论文与综述论文：是自然科学领域原创性研究的主要成果形式。引用是科研文化的核心组成部分，较高的引文影响力与学术声誉之间的正相关关系已得到广泛认可。•会议论文：是工程与技术领域将研究成果快速传达给科研用户的重要渠道，更贴近实际应用，但其引文模式与期刊论文存在明显差异。•图书、图书章节与专著：是人文与艺术领域的重要成果形式。在这些领域中，即便一部专著具有重要影响，也可能需要较长时间才能形成引文影响力。•灰色文献（Grey Literature）：包括研究团队、公共部门、智库、政府机构等基于学术研究撰写的各类报告。这类文献具有重要价值，但结构化程度较低，直到近年才开始纳入索引。其与所依据的先前研究之间的关联往往不一致，且较难验证。任何文献对于信息检索与知识发现都可能具有重要意义，因此科睿唯安在Web of Science中对上述所有文献类型按照统一标准与结构进行分类处理，以支持全面、完整的检索与发现。然而，在科研评估中，经过同行评议的研究论文与综述论文通常仍是引文数据的核心来源。引文分析一般局限于期刊文献所构成的引文索引体系，这一体系形成了跨学科的通用衡量标准。然而，若在评估人文学科研究时忽视图书成果，或在评估研究影响（尤其是更广泛的社会影响力）时忽视灰色文献，都是不恰当的。但简单计算得出的被引次数，目前尚无法为科研管理与评估提供有效信息，因此需要谨慎、负责任地加以使用与解读ii。 ISI曾与英国周期性科研评估体系――Research Assessment Exercise（RAE）及科研卓越框架（Research Excellence Framework，简称REF）的管理机构合作，对学者在同行评审中所选择提交的文献构成比例进行了详细分析。由于评估结果影响科研经费的分配，这些文献理应反映研究人员自认为最具代表性的重要成果。研究发现，尽管不同学科领域之间的文献类型构成差异基本符合预期，但各学科内部的文献类型构成却在不同时间阶段呈现出令人意外的变化。图1. 1996年至2021年英国科研评估周期中，学者所选择提交的研究文献构成比例。图中展示了按大类学科领域归类的评估单元（Units of Assessment，UOA）在四种主要文献类型上的分布。“其他提交成果”包括专利、灰色文献、展览与表演记录，以及其他未发表资料iii。 25年间，研究成果类型的构成比例发生了变化：社会科学领域逐渐从专著转向期刊论文，工程学领域则从会议论文转向期刊论文。自然科学领域始终专注于期刊论文，而艺术与人文学科仍然保持以图书为主要发表形式的传统。像Web of Science这样结构完善的数据库，能够对各类科研成果进行全面覆盖并清晰标注。理解不同文献类型及其发表工作的差异，不仅对研究发现至关重要

点击免费查看完整报告

科研分类与结构化数据的价值

科研分类与结构化数据的价值

你可能感兴趣

银行业详解银行非结构化文本数据背后的价值：匠心独运，厚积薄发

关系型数据库：结构化数据存储与优化，构建稳健的信息基石头豹词条报告系列

深度学习在城市计算中跨域数据融合的应用：分类、进展与展望

用于商标和经济数据分类分析的商标的 “算法链接与概率 ” 一致性

释放非结构化数据价值，助力数据驱动型组织-中国非结构化数据中台实践白皮书 V2

疫情后复苏反弹叠加科研板块高景气度，重视诺禾致源的投资价值

非结构化数据管理知识与实践白皮书

主题ETF与行业分类对比分析：聚焦企业属性主题ETF，挖掘制度红利投资价值

家电行业半年度策略：把握行业景气复苏，分类布局价值与成长

制造与购买 - 采购专业人员的结构化方法

科研分类与结构化数据的价值

你可能感兴趣

银行业详解银行非结构化文本数据背后的价值：匠心独运，厚积薄发

关系型数据库：结构化数据存储与优化，构建稳健的信息基石 头豹词条报告系列

深度学习在城市计算中跨域数据融合的应用：分类、进展与展望

用于商标和经济数据分类分析的商标的 “算法链接与概率 ” 一致性

释放非结构化数据价值，助力数据驱动型组织-中国非结构化数据中台实践白皮书 V2

疫情后复苏反弹叠加科研板块高景气度，重视诺禾致源的投资价值

非结构化数据管理知识与实践白皮书

主题ETF与行业分类对比分析：聚焦企业属性主题ETF，挖掘制度红利投资价值

家电行业半年度策略：把握行业景气复苏，分类布局价值与成长

制造与购买 - 采购专业人员的结构化方法

关系型数据库：结构化数据存储与优化，构建稳健的信息基石头豹词条报告系列