AI智能总结
什么是数据云 数据云是企业自有的、无孤岛、无绑定、安全可控的数据基础设施,帮助企业在其内部统一连接、共享数据资产,构建企业内、外数据生态,助力企业管理与应用全域数据。 开放性 统一性 强调对数据云要满足开源标准,提供对 API 的集成能力,确保数据可以被简单地广泛使用。不管何种需求,都可以使用数据云来应对。 就像一家公司只能有一个 ERP,一家公司最终也只能有一个数据云。统一的数据平台是未来企业建设数据云所必备,也是消灭孤岛所必需。 安全性 中立性 云原生架构要求平台使用开放式计算和开放式存储,同时确保可移植性和可扩展性,支持多云跨云,避免受制于特定供应商。 在所有环境中均保证数据的安全性、高治理和高可控,确保数据的共享和使用得到安全保障,确保企业对数据的充分可控。 如果你面临以下挑战,应该关注数据云 统一规划建设数据云,封装复杂性,提供易用性 数据云不仅能成为企业核心系统,而且持续产出业务和技术价值,让数据的分析应用更简单,运维更容易,数据更安全。 数据云七大常见场景,让规划建设有章可循 企业数据基础设施建设需配合业务变化 挑战不会一成不变。企业数据基础设施建设既不能“一蹴而就”,也无法“一劳永逸”。 随着企业数字化程度加深,各部门对数据应用需求从“看数”延伸至“用数”,上层数据分析对底层数据基础设施的要求随之变高。企业需结合当下情况及阶段性未来规划,搭建数据基础设施并持续完善升级。 因此,从过去 600+ 数据云建设案例中,我们总结出了数据云七大常见场景,方便企业查询所处阶段,并为即将到来的挑战做好准备。 04侨䰘✻㖞兞䭷⽂ 附:数据基础设施演进路线 企业数据基础设施建设,终将走向 DT 3.0 数据云时代 在从 IT(信息技术)到 DT(数据技术)时代转变的过程中,数据系统的重要性日益凸显。 伴随数字化认知的加深,不仅是互联网行业,各行各业都涌现出了对数据能力的需求。数据技术创新迎来爆发式增长。其中,大部分企业并不冒进,而是谨慎入局,往往选择从报表等单点分析入手,对数据的需求多处于“看”的阶段,并未在核心系统中大规模应用。因此技术层面,数据仓库 +BI 工具就能满足业务需求。在这个阶段,企业对数据技术的可靠性要求较低,即便数据仓库崩溃,影响也在可控范围。 在流量红利消失等市场变化推动下,企业的增长方式不得不从粗放式转为精细化运营,近年更是开始注重在精准营销、供应链管理等领域投入。“用数”需求加深,DT 时代从 1.0 迈向 2.0。 在这些企业中,数据已从边缘系统进入核心系统,作为基础设施直接赋能业务决策,与业务增长密不可分。 当数据系统正式成为生产系统,企业对数据技术的可靠性要求更高。虽然数据仓库技术早在上世纪 80 年代就已经出现,但后来随着云计算的出现和存算基础设施的更新,以 Hadoop 为代表的大数据平台开始成为主流,“上云”成为新的趋势。近年,数据量的指数级增长和 AI 的超速发展,推动企业从“上云”走向“云上”。基于云原生技术搭建数据云平台,已成为企业的主流选择。 未来,数据作为 AI 的基础,将极大程度上推动人工智能的发展,数据云也会成为 DT 3.0 时代的 AI 基础设施。 传统数仓升级 企业用数需求加深,传统数仓无法充分承担分析需求 数据仓库是企业的重要基础设施,在数字化转型过程中发挥着至关重要的作用。多年来,众多大中型企业建设了基于 MPP(大规模并行处理,Massively Parallel Processing)数据库的数据仓库,例如以 Teradata、Oracle、IBM 等厂商为代表的传统数仓。但在当下分析时效要求越来越高、数据需求变化越来越快、数据量越来越庞大的形势下,传统的数据仓库无论在成本、灵活性还是开放性,都显露出诸多不足,渐渐无法满足数字化深水区企业的数据需求。 大数据 + 云计算时代,企业亟需既能适应业务弹性变化、又能提供良好分析体验的新一代数据仓库解决方案。 而在选择新型数仓之前,企业需知晓两个前提: OLTP 和 OLAP 系统必须分离; 在 OLAP 系统的选择上,由以 Hadoop 为代表的分布式大数据平台替代 MPP 数仓是最优解。 为什么需要分离 OLTP 与 OLAP ? 数 据 处 理 大 致 分 为 OLTP(On-Line Transaction Processing, 联 机 事 务 处 理) 和 OLAP(On-Line AnalyticalProcessing,联机分析处理)两类。 OLTP 主要用于基本的、日常的事务处理,尤其是处理大量的交易数据,例如电商交易环境下的订单、支付、库存等。在 OLTP 场景中,用户并发操作量大,要求系统实时进行数据操作响应,在查询时往往也只会检索一条或几条明确的目标数据,以实现用户的业务交互。 OLAP 是数据仓库系统的主要应用,支持对海量数据进行复杂的统计分析操作,更侧重决策支持,并提供直观易懂的查询结果,例如电商场景中常见的根据用户行为进行用户画像、做商品推荐等。在 OLAP 场景中,用户需要对历史数据进行汇总、对比和计算,以得到分析结果。 在 OLAP 发展早期,其操作并没有专门的数据库支撑,企业选择直接与 OLTP 业务放在同一个数据库中完成。但随着业务量增加,OLAP 需要处理的数据量也随之增加,给 OLTP 系统带来了过大负担,在执行时会导致业务交易性能下降。因此业内开始将 OLTP、OLAP 拆分成两套不同的数据库进行处理。 为什么用分布式大数据平台替代 MPP 数仓是必然选择? MPP 架构的诞生解决了“数据多,很难在一台物理机器上分析数据”的难题,但它支持的应用以小集群、低并发场景为主。近年来,随着数据的快速增长和新兴业务的不断产生,MPP 数据库因缺乏支持现代分析和数据科学所需的灵活性,逐渐被以 Hadoop 为代表的分布式大数据平台替代。 相较于 MPP 数仓,分布式大数据平台具备吞吐量大、扩展性和容错性好、硬件成本相对低及灵活处理多种类型数据等优势,在面向 OLAP 场景时可实现更好的性能,降低延迟,更匹配当下企业的数据分析需求。 平台部署可大可小 分布式大数据平台应“可大可小” 在数字化能力构建过程中,企业所处的行业不同、自身量级不同,对数据基础设施的需求也极为多元。一个好的分布式大数据平台需要具备可扩展能力,“可大可小”以满足不同企业的不同量级需求。此外,分布式大数据平台需要具备工程化的平台实力,帮助企业应对海量数据、复杂架构、大规模并发作业、超大任务量等高难度挑战。 DataSimba 大数据平台最小化部署 DataSimba 私有化部署最小规格仅需 5 台机器,每台机器配置如下: DataSimba 大数据平台最大可部署 DataSimba 支持横向扩容,增加机器节点,也支持纵向扩大单台机器的配置规格。 Q:数据云平台 DataSimba⽀持哪些大数据集群管理系统? A:DataSimba 目前认证的大数据集群管理系统包括: 多源数据集成 企业中往往有多个异构的、在不同软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,导致数据难以在系统之间交流、共享和融合,从而形成了“信息孤岛”。随着企业数字化不断深入,数据流通需求日益强烈,亟需对已有数据进行整合。 企业在多源数据整合时往往面临挑战。一方面,多数据源集成流程复杂,十分依赖团队经验。另一方面,企业在数据集成时难免遇到被单一技术厂商绑定的困境,导致集成难度倍增。例如:SAP 系统的数据操作对实施顾问有强依赖,小至增加一个订单状态信息的需求,都需要通过专业的 SAP 业务顾问和实施开发团队完成。同时,SAP系统接口协议繁杂,可参考的文档较少,企业自行集成往往需要花费数月时间。 面对这一市场需求,主流大数据技术公司开发了专门用于数据融合的工具,可快速集成多个数据源,开箱即用,大大提高了数据准备过程的工效,突破了多源数据集成的技术瓶颈。 Q:数据云平台 DataSimba 在多源数据集成方面的优势? A:DataSimba 支持 50+ 种数据源,是目前国内行业中集成数据源最多的大数据平台,在解决特定厂商数据库导出问题等方面具有充足落地实践经验。 10侨䰘✻㖞兞䭷⽂传统数仓升级 运维服务⽀撑 传统数仓向大数据平台升级是一项复杂工程,系统性运维服务必不可缺 如前述,海量数据的爆发式增长给企业数据的开发应用带来了一系列挑战:数据孤岛严重,阻碍数据的共享与统一;数据质量低,各部门数据协作困难;单点自动化较为普遍,难以支撑整体效能提升;运维成本高,企业负担加重。 而对于数据技术能力较弱的企业而言,传统数仓升级是一项极为复杂的工程,涉及多个组织部门的协作,因此采购与产品配套的运维服务成为这些企业升级数据能力的选择。 头部大数据平台厂商往往会提供先进方法论指导下的运维保障服务体系,例如提供平台架构优化、数据治理、数据血缘、任务监控等多类型服务的策略、配套方案及落地支持,从而帮助企业保障大数据平台稳定运行。 需要提供运维服务 数据技术栈优化 数据需求日益复杂,多云多引擎的混合适配及优化成新难题 处于此场景的企业通常具备一定的数据技术能力,能够通过自建开源的数据平台,来解决企业初期阶段的数据需求。但随着业务部门数据分析需求日渐复杂,数据类型增多,解决包括离线、实时、时序等数据引擎在内的多引擎调度问题成为重中之重。此外,对于数据跨云存储以及各部门之间需隔离数据权限的企业,还要进一步实现平台跨云以及多租户能力。 企业自建开源数据平台,如需进一步解决多引擎、多云、多租户问题,技术团队的规模及人员能力就成了掣肘难题。但数据平台岗位所需技术角色多,又要求人员具备丰富的业务理解和行业经验,短期内打造专业团队难度高。 目前成熟的大数据平台厂商已经在各行业、各业务场景上积累了丰富经验,在综合评估投入、技术难度、业务价值的前提下,选择能伴随企业需求成长的服务商往往是处于现阶段企业最优解。 如何应对多云问题? “计算多云,应用多端”已成为企业数据基础设施建设的显著趋势。Flexera 2023 年云状态报告显示,87% 的国外受访企业在 IT 架构上实施多云战略。而在中国,一项由火山引擎发起的、对 4000 多家在云上消耗超过 100 万的企业客户调研显示,有 88% 的企业采用多云架构,平均每家企业会使用“5 朵云”。同时,对于跨国企业而言,即使境内外使用同一家云厂商,其数据也会因政策管控等问题,需要面临另一种形态的“多云”问题。 企 业 出 于 业 务 需 求、 成 本、 效 率 等 多 方 面 考 虑, 选 择 多 云 架 构, 也 对 企 业 数 据 平 台 提 出 了 更 高 的 要 求。DataSimba 数据云平台“跨平台”、“云原生”特性有效解决多云问题。其中“跨平台”指可以使用统一的账号权限体系,对多个 IaaS 云基础设施、多个 Workspace(域)进行管理,实现分级多域、跨云跨平台部署,以提升企业的协作与管控效率。“云原生”充分发挥云基础设施的优势,依托 CI/CD(持续集成持续交付)、容器化编排、微服务、存算分离、元数据管理等技术能力,从而降低运维和存算成本,提高研发和治理效率,支持客户对云平台做出最优、最贴近业务发展需要的选择。 需要支持多云 DataSimba 支持海内外 9 大主流云厂商的云原生,并可横跨多云,支持统一账号、权限、审计的多 Workspace兼容管理。 Q:什么是 DataSimba 的 Workspace(工作空间)? A:Workspace 提供可构建数据平台的工作环境,不仅承载数据平台的配置(包括但不限于平台访问地址、Logo、版权等信息),更是数据平台资源隔离、数据隔离的物理划分对象。 没有一个 OLAP 引擎是“完美”的 时至今日,依旧没有一个引擎能完美适配所有的数据场景。 企业应从业务场景需求出发,分维度对不同数据库引擎进行测试和