您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中船信息]:非结构化数据管理知识与实践白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

非结构化数据管理知识与实践白皮书

2023-06-04中船信息球***
非结构化数据管理知识与实践白皮书

非结构化数据管理知识与实践(2023版)2023年4月 上海鸿翼软件技术股份有限公司中国电子技术标准化研究院北京中船信息科技有限公司华迪计算机集团有限公司北京数科网维技术有限责任公司福昕鲲鹏(北京)信息科技有限公司北京点聚信息技术有限公司友虹(北京)科技有限公司永中软件股份有限公司参编单位编写组成员张 群 罗永秀黄永庄王 雷 周兆锋刘赛赛王长胜尹 卓姚宝敬任 歌吕艳静方 俊徐志东曹幼林闫 述 陈亚军张 程张 治杨吉云龙凌云张 凯彭革非刘 丹陆 猛梁 勇 版权声明本白皮书版权属于上海鸿翼软件技术股份有限公司、中国电子技术标准化研究院,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或观点的,请注明:“来源:电子文件管理推进联盟”。违反以上声明者,将追究其相关法律责任。 目录1.前言.........................................................12.非结构化数据管理............................................32.1.非结构化数据定义及特征...............................................32.2.非结构化数据管理的发展历程...........................................42.3.OFD——归档用电子文件的标准格式......................................73.非结构化数据管理体系.......................................103.1.数据管理能力成熟度模型..............................................113.2.非结构化数据应用分级要求............................................133.3.非结构化数据战略与顶层设计..........................................193.4.非结构化数据治理....................................................213.5.非结构化数据管理....................................................223.6.非结构化数据价值....................................................334.非结构化数据管理解决方案...................................384.1.非结构化数据管理与ECM企业内容管理..................................384.2.ECM内容管理成熟度模型CM³............................................414.3.ECM内容管理平台架构.................................................434.4.ECM内容管理核心技术.................................................464.5.新一代ECM平台的发展方向............................................515.非结构化数据管理应用实践...................................545.1.非结构化数据管理应用类型............................................545.2.非结构化数据管理应用实践............................................566.结束语.....................................................74 非结构化数据管理知识与实践(2023版)11.前言数据,是当今时代企业生产生存的命脉。企业的持续经营必将产生大量数据,而海量的数据也无时不刻地在影响着企业的经营。无论是在企业的战略层面还是执行层面,数据管理对于企业决策都具有举足轻重的作用。在战略层面,基于数据管理能够有效梳理企业数据资源,支撑企业优化战略决策,提前洞悉业务中存在的潜在问题,把握市场,拓展机遇,抢占竞争先机;而在执行层面,通过数据管理能够帮助企业解决现有业务中的数据责权不清、数据标准不明、管理流程混乱、数据质量低下等常态问题,形成标准化的数据利用流程,提升运营效率,培养企业的核心竞争力。2018年,全国信息技术标准化技术委员会大数据标准工作组组织制定的GB/T36073-2018《数据管理能力成熟度评估模型》(以下简称DCMM)国家标准正式发布。在推动DCMM国家标准落地应用过程中,当前部分企业已经逐渐形成对数据的管理意识,并陆续开展数据管理相关工作。因此,发布DCMM是顺势而为,旨在指导国内企业的数据管理建设与数据文化培养,为企业数字化基础设施的形成与完善提供方向与建议。根据调查显示,企业数据管理工作目前侧重于结构化数据的管理,已经形成了多种针对企业业务中产生的结构化数据进行管理的专业软件,能够以体系化、动态化、甚至智能化的手段,对企业内的结构化数据进行高成熟度的管理。然而,相比之下,企业针对文档、图片、音视频等非结构化数据的管理方面仍投入不足。这些文件充斥在企业的存储系统与员工日常办公中,大部分企业却依旧处于非结构化数据的局部建设或者初步建设阶段。一方面,大部分企业尚未认识到非结构化数据管理的重要性;另一方面,缺乏成熟的 非结构化数据管理知识与实践(2023版)2非结构化数据管理体系和工具的支撑,也缺乏针对非结构化数据实践的专门标准。为此,上海鸿翼软件技术股份有限公司、中国电子技术标准化研究院联合北京中船信息科技有限公司、华迪计算机集团有限公司,以及北京数科网维技术有限责任公司、福昕鲲鹏(北京)信息科技有限公司、北京点聚信息技术有限公司、友虹(北京)科技有限公司、永中软件股份有限公司等电子文件管理推进联盟会员单位,共同开展对非结构化数据管理相关的技术、应用以及标准化的研究探索工作。作为DCMM在非结构化数据领域的补充与细化,本白皮书立足于非结构化数据管理应用实践,结合DCMM国家标准体系框架,提出了非结构化数据管理能力分级评价模型,并形成以内容管理成熟度模型CM³为核心的非结构化数据管理解决方案,是鸿翼及电子标准院前期累积的重要研究成果。本白皮书的发布,一方面是为了呼吁各界加强对非结构化数据管理技术、应用及标准化工作的关注,增强社会面的非结构化数据管理意识;另一方面旨在通过分享前期研究成果,支撑各行业及企业开展非结构化数据管理体系建设,实现产业数据管理能力的全面提升。而2023年的新版本,则是基于行业近几年的研究重点,聚焦非结构化数据相关的新举措、新实践、新里程碑,对本白皮书进行了更新、勘误、充实。希望本白皮书能够与时俱进,帮助企业精准定位自身非结构化数据管理水平,以正确的手段实现企业数字化转型的目标。本白皮书由上海鸿翼软件技术股份有限公司和中国电子技术标准化研究院共同组织编写并更新。 非结构化数据管理知识与实践(2023版)32.非结构化数据管理2.1.非结构化数据定义及特征非结构化数据是指未通过数据模型预先定义的数据,包括关系数据和模型数据。在企业的整体数据架构中,非结构化数据往往是指不适合用数据库二维关系逻辑表来表现的数据,包括所有格式的办公文档、标准通用标记语言下的子集、各类报表、图像和音频视频文件以及工程图文档信息等,约占企业数据存储量的80%。存储在计算机系统中的数据被分为结构化数据和非结构化数据。结构化数据与非结构化数据在数据对象、数据格式、时间维度、存储形式、增长速度、信息含量、数据价值等方面存在明显差异,具体如表1所示:表1结构化数据与非结构化数据特征差异结构化数据非结构化数据数据对象结构化数据以关系型或单一数据属性,如:银行卡号、日期、财务金额、电话号码、地址、产品名称等作为数据对象非结构化数据以内容或本体,如文件、图像图形、音视频、邮件、报表、网页、各种纸本等作为数据对象数据格式强调基于表格的关系型数据值格式类型,如:字符型、整型、日期型、数值型等由于非结构化数据较多体现在无模式、自描述的文件及内容,其数据格式更为多样,如:png、jpg、mp4、doc、ofd、pdf等各种类型时间维度结构化数据的以单一数据属性为主,需要构建关联,呈现分析结果,应用时效性较短非结构化数据以文件和内容为主,信息量较大,应用时效性会更长存储占比在企业日常运营产生的数据中,结构化数据占存储数据总量的20%在企业日常运营产生的数据中,非结构化数据占存储数据总量的80%存储形式结构化数据通常仅存储在软件应用系统和数据仓库中非结构化数据的存储端多样,可以储存在个人电脑、服务器、应用系统、文件柜或档案室等终端以及数据湖为代表的大数据平台中 非结构化数据管理知识与实践(2023版)4增长速度通常结构化数据占业务数据增长量的20%通常非结构化数据占业务数据增长量的80%信息含量结构化数据需要结合上下文语义呈现信息,信息量较小,着重体现在定量数据和关键的业务信息非结构化数据所包含的信息量较大,可以扩展至情感性、描述性、文档性等更为广泛的信息数据价值结构化数据的价值主要体现在假设、明确或已知的数据分析价值非结构化数据价值拥有更广泛的、探索性、数据挖掘等未知的数据洞察价值综上所述,非结构化数据与结构化数据是两种差异巨大的数据类型,随着大数据存储和计算能力的增强,非结构化数据由于其丰富的信息量,相较结构化数据拥有更大的数据资产化价值空间。组织应注重非结构化数据在数据管理中的有效管理,着重针对非结构化数据的无序性、分散性开展价值挖掘,对缺乏规则化的非结构化数据,尤其是对分散在个人电脑、服务器、各种应用程序及大数据存储中的非结构化数据开展全面的治理,进一步发挥非结构化数据的资产化价值。2.2.非结构化数据管理的发展历程数据管理的起始可以追溯到20世纪60年代的数据库技术,当时计算机已经开始在商业环境下获得应用,文件是数据存储的主要介质。文件的存储和访问成为数据管理的核心需求,这也可以看作非结构化数据管理的最初阶段。20世纪90年代初期,随着无纸化办公技术的发展,传统纸质文档逐步转换为电子化文档,这个时期企业开始构建电子文档库、数字图书馆、数字档案馆,非结构化数据管理体现为对这些数字化文 非结构化数据管理知识与实践(2023版)5档的管理。2000年以后,随着互联网技术的发展,非结构化数据率先体现在以WEB网页为主的内容管理上,随着网站技术的发展,出现了网页内容管理(WebContentManagement),这个时期电子商务、电子政务系统也随之快速发展。2005年以后,随着企业信息化的不断深入,非结构化数据融入到业务场景中,企业业务流程系统承载了大量文档、图表、报告、音频等形式的非结构化数据。对这类数据的管理需求促进了ECM企业内容管理(EnterpriseContentManagement)的出现,随着ECM的出现,非结构化数据开始与业务场景深度融合,发挥出了更大的价值。2010年以后,随着云计算,物联网、移动互联网和大数据的不断发展,非结构化数据呈现形式更为多样,如:影像文件、视频文件、工程电子文档、ISO质量电子文档等,这个阶段ECM企业内容管理和非结构化数据应用的发展也越来越趋于规模化。2015年以后,随着人工智能技术的成熟与普遍化,非结构化数据开始向着内容服务自动化、文本挖掘、语义分析等方向发展,并形成了非结构化数据管理体系下的内容服务中台化和内容服务智能化。从上述非结构化数据发展历程可以收获以下几点:一、非结构化数据是随着计算机应用的发展不断丰富起来的,因此