您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[StartDT奇点云]:2023数据云场景指南 - 发现报告
当前位置:首页/行业研究/报告详情/

2023数据云场景指南

2023数据云场景指南

统一性开放性中立性安全性什么是数据云数据云是企业自有的、无孤岛、无绑定、安全可控的数据基础设施,帮助企业在其内部统一连接、共享数据资产,构建企业内、外数据生态,助力企业管理与应用全域数据。就像一家公司只能有一个 ERP,一家公司最终也只能有一个数据云。统一的数据平台是未来企业建设数据云所必备,也是消灭孤岛所必需。 强调对数据云要满足开源标准,提供对 API 的集成能力,确保数据可以被简单地广泛使用。不管何种需求,都可以使用数据云来应对。 云原生架构要求平台使用开放式计算和开放式存储,同时确保可移植性和可扩展性,支持多云跨云,避免受制于特定供应商。 在所有环境中均保证数据的安全性、高治理和高可控,确保数据的共享和使用得到安全保障,确保企业对数据的充分可控。 02侨䰘✻㖞兞䭷文如果你面临以下挑战,应该关注数据云统一规划建设数据云,封装复杂性,提供易用性技术数据云不仅能成为企业核心系统,而且持续产出业务和技术价值,让数据的分析应用更简单,运维更容易,数据更安全。越来越多的云计算资源,越来越复杂的数据库引擎,越来越多元异构的数据源,如何建立底座?越来越多的数据主体,越来越多的产品和应用,越来越复杂而多元的业务场景,如何产生价值?数据云的特性数据的使用主体从最早的单一主体公司,到集团下的多家主体公司;从最早的营销及销售领域,拓展到财务、供应链、人力资源等企业管理的方方面面,并面临着海量个性化数据服务的挑战。一个数据引擎无法应对所有场景。目前存在离线、实时、即席查询、图计算和时序五大引擎,未来还有向量引擎。如何避免引擎烟囱,统一开展多引擎混合部署和调度,成为平台建设的关键难题。数据的使用场景不仅仅限于用户域,而拓展到了研发、制造、流通等全链条;看数据和用数据的人从管理层向经营层和执行层拓展。更多用户,更多数据,更多场景。使用多家云计算厂商的服务,成为显著趋势。根据 Snowflake的统计,每个美国客户平均使用 3.8 朵云;根据字节云的调研,中国的大型客户平均使用 5 朵云。国内还有大量自建和租用服务器的用户。数据产品及应用需要摆脱对高级人才的依赖,让更多的普通开发者能加入研发,开发可用、易用的数据服务和应用,让业务人员能更灵活地使用数据及AI应用,产生业务价值。数据从最早的系统结构化数据,拓展到了更多的非结构化领域,包括 IoT、日志、图片和视频等等;数据库表从早期的Oracle、MySQL 等少数几种拓展到近百种自研和市售产品。多场景2多云5多应用3多源异构4多主体1多引擎6业务统一数据安全分级分类,风险管控智能化,便于数据安全分享由数据管理组织主导建设,数据云成为核心系统统一提供数据服务,降低使用门槛,业务易用统一建设和运维,IT 维护与优化便捷,成本更优数据云 03%BUB$MPVE企业数据基础设施建设需配合业务变化数据云七大常见场景,让规划建设有章可循挑战不会一成不变。企业数据基础设施建设既不能“一蹴而就”,也无法“一劳永逸”。随着企业数字化程度加深,各部门对数据应用需求从“看数”延伸至“用数”,上层数据分析对底层数据基础设施的要求随之变高。企业需结合当下情况及阶段性未来规划,搭建数据基础设施并持续完善升级。因此,从过去 600+ 数据云建设案例中,我们总结出了数据云七大常见场景,方便企业查询所处阶段,并为即将到来的挑战做好准备。企业数据基础设施现状有 基 于 MySQL、Oracle、HANA 等搭建的数据仓库曾自建开源数据平台已完成数据基础设施建设1. 使用了免费版 CDH,或所使用产品的经营实体已退出中国(例如 Teradata)2. 有硬性要求,必须使用国内研发的自主可控数据产品(例如国央企)已完成业务系统 IT 化1. 中大型集团企业,需要向集团各个部门提供数据服务2. 需要跨国跨云需要保障企业各系统内数据的安全合规对应场景方案传统数仓升级数据技术栈优化数据资产治理自主可控替代数据中台建设集团数据云服务数据安全合规P5/P11P19P28P42P49P51//////常见痛点技术部门应对的不只是运营需求,还更多承接分析需求。使用传统数仓处理需求,遇到商业及技术问题。分析需求升级,需要多引擎技术支持,由此需应对多源异构计算、数据存储等复杂问题。1. 缺乏体系性的数据资产建设规划。2. 治理后未形成合理的数据架构和运维体系,随着业务迭代,易再次陷入混乱。需要寻找国产的、安全合规的替代产品。存了大量数据但用不起来。1. 保障集团内各业务单元 / 部门进行安全隔离,同时计算资源要合理分配,支持共享或隔离。2. 数据平台庞大,对 IT 团队数据能力要求高,运维困难。1. 数据安全相关法规、要求多,不知从何下手。2. 需要同时满足数据安全合规与业务发展的要求。场景查询索引 04侨䰘✻㖞兞䭷文20 世纪 80 年代20102015企业数据基础设施建设,终将走向 DT 3.0 数据云时代附:数据基础设施演进路线在从 IT(信息技术)到 DT(数据技术)时代转变的过程中,数据系统的重要性日益凸显。伴随数字化认知的加深,不仅是互联网行业,各行各业都涌现出了对数据能力的需求。数据技术创新迎来爆发式增长。其中,大部分企业并不冒进,而是谨慎入局,往往选择从报表等单点分析入手,对数据的需求多处于“看”的阶段,并未在核心系统中大规模应用。因此技术层面,数据仓库 +BI 工具就能满足业务需求。在这个阶段,企业对数据技术的可靠性要求较低,即便数据仓库崩溃,影响也在可控范围。在流量红利消失等市场变化推动下,企业的增长方式不得不从粗放式转为精细化运营,近年更是开始注重在精准营销、供应链管理等领域投入。“用数”需求加深,DT 时代从 1.0 迈向 2.0。在这些企业中,数据已从边缘系统进入核心系统,作为基础设施直接赋能业务决策,与业务增长密不可分。当数据系统正式成为生产系统,企业对数据技术的可靠性要求更高。虽然数据仓库技术早在上世纪 80 年代就已经出现,但后来随着云计算的出现和存算基础设施的更新,以 Hadoop 为代表的大数据平台开始成为主流,“上云”成为新的趋势。近年,数据量的指数级增长和 AI 的超速发展,推动企业从“上云”走向“云上”。基于云原生技术搭建数据云平台,已成为企业的主流选择。未来,数据作为 AI 的基础,将极大程度上推动人工智能的发展,数据云也会成为 DT 3.0 时代的 AI 基础设施。图:数据系统的演进IT 时代DT 时代20 世纪 80 年代生态变迁主要服务商1.0 单一 IT 系统 1.0 数据仓库2.0 多个 IT 系统2.0 大数据产品3.0 复杂 IT 系统3.0 数据云20102015云下环境国外厂商主导开始上云大数据产品阶段云上环境构建 AI 基础设施变成 must-have partner国内厂商追赶国内外并行发展 05%BUB$MPVE数据仓库是企业的重要基础设施,在数字化转型过程中发挥着至关重要的作用。多年来,众多大中型企业建设了基于 MPP(大规模并行处理,Massively Parallel Processing)数据库的数据仓库,例如以 Teradata、Oracle、IBM 等厂商为代表的传统数仓。但在当下分析时效要求越来越高、数据需求变化越来越快、数据量越来越庞大的形势下,传统的数据仓库无论在成本、灵活性还是开放性,都显露出诸多不足,渐渐无法满足数字化深水区企业的数据需求。大数据 + 云计算时代,企业亟需既能适应业务弹性变化、又能提供良好分析体验的新一代数据仓库解决方案。而在选择新型数仓之前,企业需知晓两个前提:OLTP 和 OLAP 系统必须分离;在 OLAP 系统的选择上,由以 Hadoop 为代表的分布式大数据平台替代 MPP 数仓是最优解。企业用数需求加深,传统数仓无法充分承担分析需求传统数仓升级有基于 MySQL、Oracle、HANA 等搭建的数据仓库技术部门应对的不只是运营需求,还更多承接分析需求。使用传统数仓处理需求,遇到商业及技术问题。1. 为什么需要分离 OLTP、OLAP ?2. 为什么用分布式大数据平台替代 MPP 数仓是必然选择?平台部署可大可小多源数据集成运维服务支撑企业数据基础设施现状常见痛点关键问题落地实践重点关注 06侨䰘✻㖞兞䭷文为什么需要分离 OLTP 与 OLAP ?OLTP 主要用于基本的、日常的事务处理,尤其是处理大量的交易数据,例如电商交易环境下的订单、支付、库存等。在 OLTP 场景中,用户并发操作量大,要求系统实时进行数据操作响应,在查询时往往也只会检索一条或几条明确的目标数据,以实现用户的业务交互。OLAP 是数据仓库系统的主要应用,支持对海量数据进行复杂的统计分析操作,更侧重决策支持,并提供直观易懂的查询结果,例如电商场景中常见的根据用户行为进行用户画像、做商品推荐等。在 OLAP 场景中,用户需要对历史数据进行汇总、对比和计算,以得到分析结果。在 OLAP 发展早期,其操作并没有专门的数据库支撑,企业选择直接与 OLTP 业务放在同一个数据库中完成。但随着业务量增加,OLAP 需要处理的数据量也随之增加,给 OLTP 系统带来了过大负担,在执行时会导致业务交易性能下降。因此业内开始将 OLTP、OLAP 拆分成两套不同的数据库进行处理。数据处理大致分为 OLTP(On-Line Transaction Processing,联机事务处理)和 OLAP(On-Line Analytical Processing,联机分析处理)两类。传统数仓升级支持日常事务操作的业务交易数据支持简单的查询、更新和处理实时更新负荷较重,强调高并发和快速响应关注业务事物的详细信息,颗粒度较细业务操作人员采用第三范式,数据高度归一化对象数据更新用户颗粒度查询类型数据库设计系统负荷支持决策分析和报告的分析型数据支持复杂的分组、组合和多维分析查询较少更新,以提供⻓期历史视图负荷较轻,侧重批量检索和复杂计算通过汇总和抽象提供概览信息,颗粒度较粗管理人员和分析人员采用星型或雪花型模型,包含事实表和维度表OLTPOLAP 07%BUB$MPVE为什么用分布式大数据平台替代 MPP 数仓是必然选择?MPP 架构的诞生解决了“数据多,很难在一台物理机器上分析数据”的难题,但它支持的应用以小集群、低并发场景为主。近年来,随着数据的快速增长和新兴业务的不断产生,MPP 数据库因缺乏支持现代分析和数据科学所需的灵活性,逐渐被以 Hadoop 为代表的分布式大数据平台替代。相较于 MPP 数仓,分布式大数据平台具备吞吐量大、扩展性和容错性好、硬件成本相对低及灵活处理多种类型数据等优势,在面向 OLAP 场景时可实现更好的性能,降低延迟,更匹配当下企业的数据分析需求。传统的MPP数据仓库以 DataSimba 为代表的分布式大数据平台坚持开放工业标准,提供完善的Open API;底层可基于常规PC服务器,也支持全球9大IaaS云,并已实现云原生优化;与国产CPU、数据库、操作系统均有完整互认证。扩展性强,已实现100%容器化;具备故障自愈(Failover)机制,可吸收硬件设备的故障和异常;可支持上百节点。支持批、流、图、即席、时序等多种类型的Job混合调度与租户隔离。使用开放通用语言,开发技术门槛相对低;提供企业级的官方运维服务。要素开放强混合低封闭系统,需搭配专有硬件与运维服务,对其他业务系统数据集成困难。不支持大规模分布式,系统超过6个节点后,加速比几乎为零,难以支持超1T的大数据场景。仅支持关系型数据库。使用专有DSL语言,开发人员招聘难度较大。封闭弱单一넞系统开放拓展性计算模型人力成本传统数仓升级 08侨䰘✻㖞兞䭷文平台部署可大可小在数字化能力构建过程中,企业所处的行业不同、自身量级不同,对数据基础设施的需求也极为多元。一个好的分布式大数据平台需要具备可扩展能力,“可大可小”以满足不同企业的不同量级需求。此外,分布式大数据平台需要具备工程化的平台实力,帮助企业应对海量数据、复杂架构、大规模并发作业、超大任务量等高难度挑战。DataSimba 支持横向扩容,