您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:阿里云大数据分析师ACP认证课程 - 发现报告
当前位置:首页/其他报告/报告详情/

阿里云大数据分析师ACP认证课程

2023-10-08-阿里巴巴宋***
阿里云大数据分析师ACP认证课程

大数据基础知识阿里云大数据分析师ACP认证课程‹#›学习完本课程后,你将能够:1. 了解大数据的概念、特征、发展历程、技术演进与应用场景2. 了解开源大数据平台Hadoop的原理与其主要生态构成3. 了解大数据分析的概念、应用场景与流程4. 了解数据库、数据仓库的原理与区别5. 了解大数据分析所需要的统计基础课程目标阿里云认证阿里云认证阿里云认证 ‹#›课程目录1. 大数据概述1.1 大数据的定义1.2 大数据的特征1.3 大数据的应用领域1.4 开源大数据平台Hadoop2. 大数据分析概述3. 大数据分析的流程4. 大数据分析的技术工具与统计基础‹#›大数据的定义•大数据(Big Data)•指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合•是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就像矿石,需要汇聚、清洗、分析、挖掘等处理才能发挥蕴含的价值阿里云认证阿里云认证阿里云认证 ‹#›为什么会有大数据移动互联网带来爆炸式的数据增长数据作为一种资产越来越重要存储技术和计算能力的飞速发展‹#›大数据的处理思路将问题化简成一个更简单的能处理的问题将问题拆分成多个可以简单求解的小问题传统方式大数据方式阿里云认证阿里云认证阿里云认证 ‹#›大数据的处理思路7将问题化简成一个更简单的能处理的问题将问题拆分成多个可以简单求解的小问题传统方式大数据方式‹#›大数据的处理思路将问题化简成一个更简单的能处理的问题将问题拆分成多个可以简单求解的小问题传统方式大数据方式阿里云认证阿里云认证阿里云认证 ‹#›大数据的处理思路将问题化简成一个更简单的能处理的问题将问题拆分成多个可以简单求解的小问题传统方式大数据方式‹#›云计算与大数据•云计算提供存储与计算的基础设施,大数据则是运行在其上的应用。电力系统云计算电器设备大数据阿里云认证阿里云认证阿里云认证 ‹#›大数据的产生与发展-统计学的出现321•John Graunt利用统计学建立起对黑死病早期预警系统的理论•1663年•美国人口普查局工程师Herman Hollerith发明了打孔卡制表机,大大缩短了工作时间•1880年•银行家Henry Furnese用结构化的方式收集和分析了有关竞争对手的商业活动来获取竞争优势,这被认为是第一次数据分析的商业应用•1865年‹#›大数据的产生与发展-数据大爆炸开启•始 于 出 版 社 经 营 者 O'Reilly 和 MediaLiveInternational 之 间 的 一 场 头 脑 风 暴 论 坛 ,Web 2.0诞生,即用户生成的Web,其中大部分内容将由服务的用户提供,而不是服务提供者本身•2004年•Hadoop这个开源框架被创建出来,专门用于存储和分析大数据集。它的灵活性使它对管理非结构化数据(语音、视频、原始文本等)特别有用,我们正在越来越多地生成和收集这些数据•2005年•Facebook这样的社交软件开始出现•2004年654阿里云认证阿里云认证阿里云认证 ‹#›大数据的产生与发展-数据时代全面到来•国内云计算热潮兴起,阿里云成为世界上第一家对外提供5K云计算服务能力的公司•2013年•国务院发布《促进大数据发展的行动纲要》,大数据上升到了国家战略层面•2015年•Spark、Storm、Flink成为Apache开源项目,流式计算引擎逐渐投入应用•2014年987‹#›课程目录1. 大数据概述1.1 大数据的定义1.2 大数据的特征1.3 大数据的应用领域1.4 开源大数据平台Hadoop2. 大数据分析概述3. 大数据分析的流程4. 大数据分析的技术工具与统计基础阿里云认证阿里云认证阿里云认证 ‹#›大数据的特征Volume体量巨大Variety种类繁多Value价值密度低Velocity处理速度快•大数据(Big Data)•指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合•是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。•大数据的4V特征:‹#›大数据的特征 – 体量巨大•根据IDC做出的估测,数据一直都在以每年50%的速度增长,即两年增长一倍•人类在最近两年产出的数据量相当于之前产生的全部数据量•人类生产的所有印刷材料的数据量是200PB•历史上全人类说过的所有的话的数据量大约是5EB(1EB=1024PB)个人计算机硬盘的容量:TB量级人类生产的所有印刷材料:200PB一些大企业的数据量:EB量级阿里云认证阿里云认证阿里云认证 ‹#›大数据的特征 – 种类繁多•10%为结构化数据,通常存储在数据库中•90%为非结构化数据,格式多种多样科学研究• 基因组• 地球与空间探测企业应用• 交易记录• 应用日志• 文档、文件互联网• 文本• 图像、视频• 查询日志、点击流物联网• 传感器• 监测设备‹#›大数据的特征 – 处理速度快•从数据的生成到消费,时间窗口非常小,可用于生成决策的时间非常少。•最高峰值订单54.4万笔/秒•单日处理数据量达到970PB阿里云认证阿里云认证阿里云认证 ‹#›大数据的特征 – 价值密度低•以视频为例,一部1小时的视频,在不间断的监控中,有用数据可能仅有几秒,价值密度低,商业价值高。财务报表视频‹#›课程目录1. 大数据概述1.1 大数据的定义1.2 大数据的特征1.3 大数据的应用领域1.4 开源大数据平台Hadoop2. 大数据分析概述3. 大数据分析的流程4. 大数据分析的技术工具与统计基础阿里云认证阿里云认证阿里云认证 ‹#›大数据的应用领域大数据电商金融制造教育政府交通农业能源•大数据在许多行业都有着广泛的应用‹#›大数据应用场景示例 - 城市治理•2016年,杭州市政府联合各阿里云等企业开始建设“城市大脑”。2017年的云栖大会上,城市大脑1.0正式发布。次年的云栖大会发布了更加强大的2.0版本。阿里云认证阿里云认证阿里云认证 ‹#›•大数据预测早期癌症•通过对血常规、血生化和尿常规数据进行分析预测,为每个体检者预测出一个患癌症的风险几率。•然后将预测结果与癌症患者已有指标进行对比,采用大数据标准评估和人工智能模拟技术,动态评估预测体检者的早期癌症风险。大数据应用场景示例 - 医疗‹#›课程目录1. 大数据概述1.1 大数据的定义1.2 大数据的特征1.3 大数据的应用领域1.4 开源大数据平台Hadoop2. 大数据分析概述3. 大数据分析的流程4. 大数据分析的技术工具与统计基础阿里云认证阿里云认证阿里云认证 ‹#›Hadoop概述• Hadoop是一个在计算机硬件的集群上存储数据、运行应用程序的开源的软件框架。•解决大数据运算的框架方案•大规模的存储/计算•对于大型的Job处理速度非常快•多种多样的处理引擎,如:Tez、Spark、Storm等传统的关系型数据库Hadoop模式着重数据写入着重数据读出速度读取速度更快写的速度很快数据治理标准的结构化的数据可以不是结构化标准的处理有限的,没有数据处理数据处理数据类型结构化结构化半结构化非结构化更适用于交互式的OLAP分析复杂的ACID事务数据操作数据挖掘处理非结构化数据大量的数据存储/处理‹#›Hadoop的特点•高可靠性:•Hadoop按位存储和处理数据的能力值得人们信赖•高扩展性:•Hadoop在计算机集群间分配数据并完成计算,可以方便地扩展到数以千计的节点中•高效性:•Hadoop能够在节点之间动态地移动数据,因此处理速度非常快•高容错性:•Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配•低成本:•与一体机、商用数据仓库以及数据集市相比,Hadoop是开源的,项目的软件成本因此会大大降低阿里云认证阿里云认证阿里云认证 ‹#›Hadoop生态概览HDFS(Hadoop分布式文件系统)YARN(分布式资源管理器)MapReduce(分布式处理框架)Spark(分布式内存计算)Hive(SQL处理)Hbase(列式存储数据库)ZooKeeper(分布式协调服务)Oozie(工作流调度系统)SparkSQLPIG(脚本处理)SparkStreamingMLlibGraphXAmbari(分布式集群配置管理工具)Flume(日志收集)Sqoop(数据交换)‹#›HDFS文件系统HDFS是Hadoop Distributed File System的简称,是Hadoop抽象文件系统的一种实现。•适合海量数据存储•适合大数据量批处理•一次性写入,多次读取•保证数据一致性•通过多副本提高可靠性阿里云认证阿里云认证阿里云认证 ‹#›MapReduceApache MapReduce•是从 Google MapReduce 派生而来的•MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算•适合大规模数据处理•每个node处理数据后都将会存储在这个node上•每个MapReduce job都是由两个阶段组成的:Map/Reduce‹#›分布式离线计算框架 -MapReduceMapReduce的例子SplittingMapCombineShuffle/SortReduceI wish to wish thewish you wish towish, but if youwish the wish thewitch wished, I won’twish the wish youwish to wishI wish to wish thewish you wish towish, but if youwish the wish thewitch wished, I won’twish the wish youwish to wishI1wish 1 1 1 1to 1 1the 1you 1wish 1 1 1but 1if 1you 1the 1 1witch 1wishes 1I 1won’t 1wish 1 1 1 1the 1 you 1to 1I1wish 4to 2the 1you 1wish 3but 1if 1you 1the 2witch 1wishes 1I 1won’t 1wish 4the 1 you 1to 1but 1I 1 1If 1the 1 2 1to 2 1wish 4 3 4wishes 1witch 1won’t 1you 1 1 1but 1I 2If 1the 4to 3wish 11wishes 1witch 1won’t 1you 3阿里云认证阿里云认证阿里云认证 ‹#›HiveHive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。•操作接口采用类SQL语法,学习成本低•避免了去写MapReduce,开发效率高•适用于海量结构化数据离线分析• WEB访问日志分析(典型应用)•可用于构建离线数据仓库‹#›HBaseHbase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。•海量存储,