热门搜索：

2022年中国数智融合发展洞察

信息技术2022-01-09艾瑞咨询机构上传

iResearch艾中国数智融合发展洞蔡@2022.7 iResearch Inc. iResearch摘要艾瑞语VUCA时代，市场变化加速。企业需要更加敏捷而准确的数智化决策，这些决策应当是分钟级的而非天级的，应当是基于全量数据的而非局部数据的，应当是基于准确数据的而非基于“脏数据”的，应当是业务人员和数据分析人员任意发起的而非是通过复杂流程和多部门配合才能实现的。传统的数仓或者湖仓分离架构让数智融合和企业敏捷决策变得困难：数据孤岛存在，决策无法基于全量数据；数据来回流转，成本高、周期长、时效差。基于存储-缓存-计算分离，湖-仓-AI数据统一元数据管理的Serverless，可在数据量、成本、效率、敏捷方面取得最优解。开源为数智生态贡献重要力量，但这不预示所有企业需通过开源产品自建数智平台。实际上，大多企业聚焦自己核心业务，选择性能稳定、无须运维、数智融合、端到端自动化与智能化的商业化数智平台，ROI会更高。当然，平台应与主流开源产品具有良好继承性，如此，更加灵活开放，企业的IT人才补给成本也更低来源：艾瑞咨询研究究自主研究及验制C2022.7 iResearch Inc.www.iresearch.com.cn2 iResearch艾中国数智融合发展背影企业数智融合的痛点及应对2数智融合典型实践3 iResearch数据量和非结构化数据占比上升艾瑞统一管理，统一查询使用，成为新的挑战全球数据量以59%以上的年增长率快速增长，其中80%是非结构化和半结构化数据，中国数据量的上升较全球更为迅速。数据量和非结构化数据的上升，使得基于对象存储的数据湖越来越为普及。此时，如何使用统一管理，统一查询使用，成为新的挑战。2015-2030年中国数据量规模及全球占比企业内结构化数据与非结构化数据占比及使用情况28.8%结构化27.8%数据17520%仅占20%，其余80%都是以文在企业的数据中，结构化数据23.2%23.6%件、语音、图片等形式存在的非结构化数据。且非结构化数据的增速远远高于结构化数据随着时间的推移，非结构化数据所占的比例将会越来越高。非结将化非结构化数数据，80%据30%49企业长期以来，受技术影响对结构化数据的利用率均高于对非结构化数据的利用率，12但实际上，非结构化数据的3体量与其包含的信息量都更结构化多：是企业末得到充分利用数据201520202025e2030e的宝费资产70%中国年数据量（ZB）+中国年数据量全球占比（%）来源：中国电信招股说明书，艾端咨测研究整理及绘制，来源：艾瑞咨询研究就自主研究及绘制。C2022.7 iResearch Inc.www.iresearch.com.cnC2022.7 iResearch Inc.www.iresearch.com.cn4 iResearch数据多源异构成为常态艾瑞数据从“汇聚才可被用”到“链接即可被用"在传统数仓中，多源数据经ETL过程并集中入仓，方可被使用。该方式有许多不足：第一，因有复杂的ETL过程及大量数据的传输，数据实时性难以保障，因此分析常必须T+1才可完成；第二，数据的全量存储和存储成本之间难以取舍，因此必须提前扶择保留哪些数据，随着数据种类的逐渐增多，这很难做到；第三，对于异常值的下钻、回溯等，无法回溯到最为原始的数据。随着应用场最的增多，数据库的种类也逐渐丰富，如更适应物联网场景的时序数据库、更适应知识谱图应用的图数据库，等等。综上，多源异构、分布存储、现用现传、统一查询与应用的架构，逐渐被数捷型企业认可。数据仓库vs数据湖vs湖仓一体数据库的多源性BI报表接口百报表数据仓库统一资源池结构化/半计算层计算层结购化数据站式数据车管理存储层存储层存算分离，弹性扩展部署资源管理监控邀检工性能容量高可用安全性结构化/半数据湖结梅化/啡非报表关系型非关系型结构化数据...数仓集群数湖集群开源Oracle DB2达梦OpenMySQLPostgre数据仓库vs湖仓一体数据湖vs湖仓一体SLReids“湖仓一体作为数据处理统“湖仓体弥补Hadoop下一底座，提供卖时处理多引擎数据潮实时数据处理的缺失多数据类型能力，避免数据移降低事后数据治理难度，提升动建模，降低数据处理的成本了大数据应用性能，公有云1公有云2私有云虚拟机物理机来源：艾瑞咨询研究究自主研究及绘制。来源：艾瑞咨资研究就自主研究及绘制C2022.7 iResearch Inc.www.iresearch.com.cnC2022.7 iResearch Incwww.iresearch.com.cn5 iResearch大数据的5V价值有待进一步释放瑞可从平台性工具入手，进而解决思维和技能的问题大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业，提供全链条技术、工具和平台，孕育数据要索市场主体，深度参与数据要索全生命周期活动，是激活数据要态消能的关链支撑，是数据要素市场培育的重要内容。目前，大数据产业仍存在数据壁垒突出、碎片化问题严重等瓶颈约束，大数据容量大、类型多、速度快、精度准价值高的5V特性未能得到充分释放。这其中既有思维、技能的要素，又有工具的要素，三者也并非割裂存在，一般来说性能稳定、简单易用的全链条平台工具有助于消除思维的“不敢”和技能的“不会”，化解掉5V特性释放的原始阻力，使得大数据更加普适化。大数据5V特性速度（Velocity）数量（Volume）●TB级●批处理·记录/日志·多进程●实时·表&文件·数舞流大数据5V特征种类（Variety)价值（Value)·结构化·统计学·非结构化·相关性·事件性·多因素·概率性·可信性·真伪性·假设性真实性（Veracity）·来源&信誉·有效性来源：艾瑞咨询研究乾根据公开资料整理●可审计性C2022.7 iResearch Inc.5 iResearch云原生：从微服务走向Serverless瑞从PaaS到FaaS，基础设施被更深层次地托管和“屏蔽当前，微服务的生态和实践已经比较成熟，其设计方法、开发框架、CI/CD工具、基础设施管理工具等，都可以帮助企业顺利实施，然而其仍有许多不足：（1）粒度仍然比较大。（2）开发仍有较高门槛。（3）微服务基础设施管理、高可用和弹性仍然很难保证。（4）基础设施的成本依然较高。而Serverless中，开发者不再需要将时间和资源花费在服务器调配、维护、更新、扩展和容量规划上，这些任务都由平台处理，开发者只需要专注于编写应用程序的业务逻辑。如果再结合低变代码，则“编写应用程序”的难度也大为降低，企业内的技术人员更加贴近业务微服务中，大量运维仍未被托管典型的serverless架构函数编程模型微服务开发/DevOpsHTTP清求def handler(event,context)APL网关FaaS平台eventcontextKubernetes伟鞋DevOps消息列队触发器定时器事件Faas事件函政实例控制器异步/同步容器loT虚拟机基信设施运维团队云存储消息队列消息从列计算，存储，网绪身份认证API网关云供应商BaaS平台来源：(华为serverless核心技术与实线》，艾瑞咨询研究赖整理及绘制来源：(华为serverless心扶水与实)，艾瑞咨测研究究整理及绘制，C2022.7 iResearch Inc.www.iresearch.com.cnC2022.7 iResearch Incwww.iresearch.com.cn7 iResearch人工智能：需要大规模准确数据哺育艾瑞人工智能应用引发数据治理需求企业在部署AI应用时，数据资源的优劣极大程度决定了AI应用的落地效果。因此，为推进AI应用的高质量落地，开展针对性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系，自前多停留在对于结构性数据的治理优化，在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足A应用对数据的高质量要求，为保证AI应用的高质效落地，企业仍需进行面向人工智能应用的二次数据治理工作。AI应用对数据治理需求A应用的数据要求基于AI应用的数据治理需求l数据规入多源异构数据源传统数据治理多以人为面向对象，基于有限数据容量进行聚合类信息展示，AI可接纳数据量远远大于人所接纳的数据量挖掘企业内外部信息，纳入结构化数据半结构化数据和非结构化数据，提升与和信息量，且可用高质量数据越多，模型质量和准确性越好。数AI模型相关的数据积累，数据训练规模田数据类型掘治扩张，数据类型异构，散据噪声指数级AI应用，尤其是知识图谱搭建，需要大量半结构化和非结构增加，对此建立针对性的数据治理体系化数据支持来开展工作，因此AI应用在结构化歇据基础上的需求传数据融合&质量优化特征工程将半结构化或非结构化数据纳入数据源井支持上层分析应用★数据压量多个数据源下的据融合结构化数据、半结AI模型对数据高度照，其质量优劣极大程度影响AI模型的内容不一致等间题；构化数和非结将化数应用效果，因此AI数据源需极力规避“garbagein，导缺失值、缺失字段；据，进行以A应用为目garbageout"的问题发生，多维度的质量检查成为必修课。错误值、异常样本；的特征工程数据实时性接入实时性数据AI模型对实时性要求高，大部分应用需基于实时数据实现分析、推荐和预警等目的，支持A应用的数据源更强调具备实AI模型需纳入实时数据，构建批流体的数据聚合计算模式时性接入能力。来源：艾瑞咨询研究察自主研究及绘影。C2022.7 iResearch Inc.wwww.iresearch.com.cn8 iResearch业务敏捷需要I架构习“去过程化瑞通过抽象解耦、水平扩展、自动化与智能化实现去过程化VUCA时代，市场变化加速，通过数据来分析和决策的需求，也有了更高的不确定性，当这些需求提出，通过一套复杂的T流程和漫长的等待，变得不再现实，IT架构的去过程化变得极为重要，去过程化是指减少或完全去掉原始数据/原子能力与业务需求之间的中间数据/步骤，或使中间数据/步骤无须人为干预，自动化、智能化完成。其可实现架构的简单化、扁平化，同时可对业务需求实时响应，以进一步实现敏捷和创新。架构一开始就放弃“精细梳理方可使用以及“梳理完成干万别动”思想，用全量原始数据保障读时模式，有助于打破“僵”与“乱”的悸论，使得企业用更少的“能量”便可以维持数字化系统的持续运行。去过程化四大支撑去过程化分层示例相关标签抽象与解耦敏捷的展现交互层/应用层低代码/无代码将IT架构抽象成存储、处理、应用三层，处理层敏捷BI物联网皮用敏捷BI又拆分成原子能力和数据模型，当不确定的需求低/无代码应用GraphQL/JsonAPI来临，现将数据、能力、展现与应用形式进行组人看数/用数人用数/产数设备用数/产数合进行处理，统一接口统一查询语言稳定且可水平扩震的基础设饰统一角色与权限应用的敏来自于基础的稳，上层的简来自于底层智能的计算层/处理层的繁，基础设施稳定性更加重要，微服务泛化模型高性能计算与网缩数据模型处理原子能力智能决策存算分离和读时模式往往存在更多的重复数据传冷热温数据分层输与计算，对网络和计算要求更高，RDMA自动化与智能化统一的数据层/存储层存算分离通过智能化完成基础性能优化，降低硬件压力或硬件成本；通过智解化完成部分过程的自动化，对象存储/数据原始非结构化数据洁构化数据数据仓库从而屏蔽“人”规角下的该过程。来源：艾瑞咨询研究院自主研究及绘影。C2022.7 iResearch Inc.wwww.iresearch.com.cn9 iResearch艾瑞中国数智融合发展背景企业数智融合的痛点及应对数智融合典型实践10 iResearch痛点一：数据量-成本-效率难以兼得艾瑞不可能三角需要更高维的技术去打破在传统架构中，数据量、存储成本和计算效率是一组不可能三角，如果不考虑数据量和数据类型，那么一个传统的数仓或者单体的DBMS即可满足；不考虑计算效率，那么基于HDFS或者公有云对象存储即可满足，当下价格仅约0.1元/G/月并持续下降，归档存储等价格更低；

点击免费查看完整报告