您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:CDP企业数据云平台从入门到实践2023 - 发现报告
当前位置:首页/其他报告/报告详情/

CDP企业数据云平台从入门到实践2023

2023-03-17-阿里巴巴J***
CDP企业数据云平台从入门到实践2023

封面页 (此页面将由下图全覆盖,此为编辑稿中的示意,将在终稿PDF版中做更新) 目录 Cloudera CDP产品介绍 .......................................................................... 4 CDP/HDP何去何从 ............................................................................... 23 Hive3新特性 ....................................................................................... 62 CDP平台的安全和治理 ........................................................................... 78 CDP集群管理 ..................................................................................... 115 如何访问CDP集群 .............................................................................. 142 如何迁移CDH/HDP到CDP .................................................................. 148 HDFS迁移到CDP ............................................................................... 160 Hive迁移到CDP ................................................................................ 173 HBase迁移到CDP .............................................................................. 192 CDP之操作型数据库 ............................................................................ 206 CDP之数据存储 .................................................................................. 226 CDP之数据仓库 .................................................................................. 255 Cloudera CDP产品介绍 4 Cloudera CDP产品介绍 一、 阿里云+Cloudera产品介绍 1. 阿里云+Cloudera大数据方案介绍 Cloudera公司的几款产品在2021年FORRESTER WAVES中的位置都是Strong Performers或者Leader,展现出产品被市场认可的程度。 Cloudera公司的核心产品是Cloudera Data Platform(CDP),它整合了CDH和HDP两者的优势,并根据业界的最新技术趋势形成的新平台,提供了业界首个混合数据云平台产品。 CDP在混合云和多云环境中可以提供强大的自助服务分析和弹性,给IT和数据管理员所需要的复杂性、细粒度的安全与治理策略。 Cloudera最新的许可政策 • Cloudera的许可政策类似于成熟的Red Hat开源模型。 Cloudera CDP产品介绍 5 • 该模型在市场上广为人知,并被全世界的企业所接受。 • 所有产品源均将获得OSI批准的许可证(Apache Software License,ASL或GNU Affero General Public License,AGPL)的许可。 • 访问从Cloudera获得的所有产品的二进制文件和源代码都需要订阅协议,获取到产品许可证和访问账户才能进行访问。 • 由Apache Software Foundation托管的我们为之贡献的所有开源项目将继续是ASF管辖的项目。 • 我们的源代码贡献模型保持不变,并且仍然是第三方项目的第一个上游。第三方项目存储库的公共资源仅在上游。 Cloudera终止提供社区版CDH和HDP的下载和维护 • 2021年2月1日,Cloudera终止CDH和HDP社区版的免费下载,所有的CDH和HDP产品也逐渐进入了结束生命周期的支持阶段。 • HDP 2.6.x/CDH 5.x覆盖了约70%的客户群,EOS时间2020年12月终止生命周期和支持。 • HDP3:2021年12月终止生命周期和支持。 • CDH 6.3:2022年3月终止生命周期和支持。 Cloudera CDP产品介绍 6 售卖形态:基于阿里云如何售卖CDP? • 公有云形态:半托管模式的CDP Cloudera CDP混合数据云平台是企业版CDH的全新商业化升级产品,是阿里云和Cloudera联合打造阿里云上的半托管形态的大数据平台。该平台可以灵活地运行各种企业工作负载(包括实时摄取和分析、批处理、交互式SQL查询和分析、企业搜索、高级分析和机器学习等),支持从边缘计算到人工智能的多功能数据分析,提供企业级的安全模型来保障客户数据安全。 基于阿里云部署的Cloudera CDP企业数据云提供给用户开箱即用的CDP平台,减少了用户对平台搭建的时间成本和人工成本,并大幅度降低后续的运维成本。 • 专有云On-Premise:线下转售三大套件(CDP、CDF、CDSW) Cloudera CDP产品介绍 7 阿里云的交付模式: 公有云 线下输出 部署开通 阿里云 选项1:Cloudera原厂服务 选项2:GTS 运维 Tier1/Tier2:阿里云 Tier 3:cloudera 产品默认带7*24原厂远程支持服务 现场服务可购买PS 应用交付 合作伙伴 合作伙伴 二、 公有云方案:云上CDP 1. 基于阿里云部署的CDP 1) 产品核心 • 部署商业版CDP,包括完整的Cloudera Manager及Cloudera Runtime。 • 基于多种规格的ECS,开箱即用,支持云上集群扩展能力以及数据湖。 • 与阿里云产品集成互通,提供高安全、合规和高可用的云上CDP平台,降低复杂性。 Cloudera CDP产品介绍 8 • 无需配置的正版软件及正版license许可证。 2) 产品引擎与服务 • 100%兼容开源Hadoop生态,经阿里云与Cloudera联合研发性能优化。 • 提供商业化SLA保障与7*24小时的阿里云和Cloudera专家支持服务。 • 提供专家服务及咨询,如平台迁移、数据迁移、版本升级、参数调优等。 2. 一致的安全与治理-SDX 1) 专为随时随地进行多功能分析而设计 Cloudera CDP产品介绍 9 • 安全性:动态细粒度的访问控制始终应用于所有云和数据中心。包括全栈加密和密钥管理、动态行过滤和动态列掩码。 • 治理:跨平台应用的企业级审计、数据血缘和治理功能,具有丰富的合作伙伴集成扩展性。 • 元数据:利用所有元数据(结构、运营、业务和社交)建立信息资产,以提高可用性、信任度和价值。 • 目录:用于管理和使用跨越所有分析和部署的数据资产的单一窗格。 • 智能:洞悉平台中如何使用数据、元数据和分析,从而为优化提供建议和自动化。 2) SDX提供 • 通过在所有云和数据中心中一致地应用动态细粒度访问控制实现安全性。包括全栈加密和密钥管理。 • 通过跨平台应用的企业级审计、沿袭和治理功能进行治理,并具有丰富的合作伙伴集成扩展性。 Cloudera CDP产品介绍 10 • 还有智能,可以洞悉平台中如何使用数据,元数据和分析,从而为优化提供建议和自动化。 • 我们从最广泛的意义上利用元数据:不仅是您称为架构的结构类型,而且还包括运营、业务和社交方面的元数据,建立信息资产以提高可用性,信任度和价值。 • 最后,SDX提供的数据目录是一个统一的窗格,用于管理和使用涵盖所有分析和部署的数据资产。 3. 统一版本(CDP–Cloudera Data Platform) CDP–整合CDH和HDP两者的优势。 CDP PVC基础版功能地图。 Cloudera CDP产品介绍 11 CDP针对CDH/HDP用户的新功能。 CDH客户的新功能 策略和授权 • 动态行过滤和动态列掩码 • 基于属性的访问控制 • SparkSQL细粒度的访问控制 • Sentry到Ranger的迁移工具 数据治理 • 元数据、血缘和监管链,高级数据发现和业务词汇表 • Navigator到Atlas的迁移,提高了性能和可伸缩性 流媒体 • 支持与HDFS,AWS S3和Kafka流的Kafka Connect • 对Kafka集群的集群管理和复制支持 • 使用Cruise Control在集群之间存储和访问架构以及重新平衡集群 运营数据库 • 支持具有完整ACID事务功能的标准SQL • 二级索引 • 星型Schema支持 • 基于表的视图 数据仓库 • Hive-on-Tez提供更好的ETL性能 • ACID事务,ANSI 2016 SQL支持,主要性能改进 • 查询结果缓存 • 物化视图 • 改进的CBO,矢量化覆盖率 存储 • Apache Ozone提供HDFS 30倍的可扩展性,支持100亿个对象 • S3原生支持 • 与Kafka和Nifi的集成 安全 • 使用Knox的基于网关的SSO • 支持Ranger KMS-KeyTrustee集成 • 支持新的Key HSM版本 Cloudera CDP产品介绍 12 HDP客户的新功能 管理 • 虚拟私有集群(VPC) • 自动传输加密设置 • 针对管理员的细粒度RBAC