您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:阿里云大数据分析师ACP认证课程 - 发现报告

阿里云大数据分析师ACP认证课程

2023-10-08-阿里巴巴宋***
阿里云大数据分析师ACP认证课程

阿里云大数据分析师ACP认证课程 课程目标 学习完本课程后,你将能够: 1. 了解大数据的概念、特征、发展历程、技术演进与应用场景2. 了解开源大数据平台Hadoop的原理与其主要生态构成3. 了解大数据分析的概念、应用场景与流程4. 了解数据库、数据仓库的原理与区别5. 了解大数据分析所需要的统计基础 课程目录 1. 大数据概述 2. 大数据分析概述 3. 大数据分析的流程 4. 大数据分析的技术工具与统计基础 大数据的定义 •大数据(Big Data) •指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合•是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据就像矿石,需要汇聚、清洗、分析、挖掘等处理才能发挥蕴含的价值 大数据的处理思路 大数据的处理思路 大数据的处理思路 将问题化简成一个更简单的能处理的问题 云计算与大数据 •云计算提供存储与计算的基础设施,大数据则是运行在其上的应用。 课程目录 1.1 大数据的定义 大数据的特征 •大数据(Big Data) •指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合•是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 •大数据的4V特征: 大数据的特征 – 体量巨大 •根据IDC做出的估测,数据一直都在以每年50%的速度增长,即两年增长一倍 •人类在最近两年产出的数据量相当于之前产生的全部数据量 •人类生产的所有印刷材料的数据量是200PB •历史上全人类说过的所有的话的数据量大约是5EB(1EB=1024PB) 个人计算机硬盘的容量:TB量级 大数据的特征 – 种类繁多 •10%为结构化数据,通常存储在数据库中•90%为非结构化数据,格式多种多样 物联网 • 交易记录• 应用日志• 文档、文件 • 传感器• 监测设备 大数据的特征 – 处理速度快 •从数据的生成到消费,时间窗口非常小,可用于生成决策的时间非常少。 •最高峰值订单54.4万笔/秒•单日处理数据量达到970PB 大数据的特征 – 价值密度低 •以视频为例,一部1小时的视频,在不间断的监控中,有用数据可能仅有几秒,价值密度低,商业价值高。 课程目录 1. 大数据概述 1.1 大数据的定义1.2 大数据的特征 1.3 大数据的应用领域1.4 开源大数据平台Hadoop 2. 大数据分析概述 3. 大数据分析的流程 4. 大数据分析的技术工具与统计基础 大数据的应用领域 •大数据在许多行业都有着广泛的应用 大数据应用场景示例 - 城市治理 •2016年,杭州市政府联合各阿里云等企业开始建设“城市大脑”。2017年的云栖大会上,城市大脑1.0正式发布。次年的云栖大会发布了更加强大的2.0版本。 大数据应用场景示例 - 医疗 •大数据预测早期癌症 •通过对血常规、血生化和尿常规数据进行分析预测,为每个体检者预测出一个患癌症的风险几率。•然后将预测结果与癌症患者已有指标进行对比,采用大数据标准评估和人工智能模拟技术,动态评估预测体检者的早期癌症风险。 课程目录 1. 大数据概述 1.1 大数据的定义1.2 大数据的特征1.3 大数据的应用领域 1.4 开源大数据平台Hadoop 2. 大数据分析概述3. 大数据分析的流程4. 大数据分析的技术工具与统计基础 Hadoop概述 •Hadoop是一个在计算机硬件的集群上存储数据、运行应用程序的开源的软件框架。•解决大数据运算的框架方案•大规模的存储/计算•对于大型的Job处理速度非常快•多种多样的处理引擎,如:Tez、Spark、Storm等 Hadoop的特点 •高可靠性: •Hadoop按位存储和处理数据的能力值得人们信赖 •高扩展性:•Hadoop在计算机集群间分配数据并完成计算,可以方便地扩展到数以千计的节点中 •Hadoop能够在节点之间动态地移动数据,因此处理速度非常快 •高容错性:•Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配 •低成本: •与一体机、商用数据仓库以及数据集市相比,Hadoop是开源的,项目的软件成本因此会大大降低 HDFS文件系统 HDFS是Hadoop Distributed File System的简称,是Hadoop抽象文件系统的一种实现。 •适合海量数据存储•适合大数据量批处理•一次性写入,多次读取•保证数据一致性•通过多副本提高可靠性 Hive Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。 •操作接口采用类SQL语法,学习成本低•避免了去写MapReduce,开发效率高•适用于海量结构化数据离线分析•WEB访问日志分析(典型应用)•可用于构建离线数据仓库 HBase Hbase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。 •海量存储,列式存储,高并发•极易扩展,可以横向添加RegionSever的机器,进行水平扩展•可以支撑高并发KV查询场景•可以支撑实时或批量数据更新 ZooKeeper ZooKeeper是一个分布式服务框架,是Apache Hadoop 的一个子项目,主要是用来解决分布式应用中经常遇到的一些数据管理问题。 •在Hadoop中,ZooKeeper主要用于实现HA(HighAvailability),包括HDFS的NamaNode和YARN的ResourceManager的HA•在YARN中,ZooKeeper用来存储应用的运行状态•还可用于负载均衡、数据的发布和订阅等 Spark Spark •是UC Berkeley AMP lab (加州大学伯克利分校AMP实验室)所开源的类Hadoop MapReduce的通用并行框架•专门用于大数据量下的迭代式计算。 Spark •伯克利将Spark的整个生态系统分成为伯克利数据分析栈(BDAS),在核心框架 Spark 的基础上,主要提供四个范畴的计算框架: •Spark Streaming:流式计算,主要用于处理线上实时时序数据•GraphX:提供基于图的算法 •Spark SQL:提供了类SQL的查询,返回Spark-DataFrame的数据结构•Mllib: 提供机器学习的各种模型和调优 课程目录 1. 大数据概述 2. 大数据分析概述 1.2 大数据分析的应用场景 3. 大数据分析的流程 4. 大数据分析的技术工具与统计基础 大数据分析的概念 •数据分析是基于商业等目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。•大数据分析针对的是海量的多样化的数据集合。 课程目录 1. 大数据概述 大数据分析的应用场景 – 概述 •大数据分析,在商业、制造业、媒体等领域有广泛的应用 •零售商、银行、制造商、电信供应商和保险公司等都在利用数据挖掘技术。 大数据分析的应用场景举例 – 关联分析 •啤酒与尿布 •啤酒与尿布的故事可以说是营销界的经典段子。这个故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员在分析销售数据时发现了一个令人难以理解的现象: 在某些特定的情况下,啤酒与尿布两件看上去毫无关系的商品会经常出现在同一个购物篮中,而且,啤酒与尿布在周末的时候销量明显会高于平时。这种独特的销售现象引起了管理人员的注意。他们经过后续调查发现,这种现象出现在年轻的父亲身上。 •为什么“啤酒与尿布”的故事会产生在沃尔玛的卖场中?•原因来自于两个方面:•沃尔玛先进的计算机技术•沃尔玛运用了大数据分析方法 大数据分析的应用场景举例 – 趋势预测 •谷歌流感趋势 •谷歌流感趋势是谷歌2008年推出,用于预警流感的即时网络服务。其发明者是谷歌公司的两名软件工程师杰瑞米·金斯伯格和马特·莫赫布。他们一致认为:”谷歌搜索显示的数据分布模式非常有价值“。 •谷歌在美国的九个地区就这一观点做了测试,并且发现,它比联邦疾病控制和预防中心提前了7~14天准确预测了流感的爆发。 大数据分析的应用场景举例 – 决策支持 •美国总统大选 •美国总统奥巴马成功击败对手罗姆尼,再次赢得美国总统选举的当天,《时代》杂志撰写了一篇文章,描述了奥巴马总统获胜背后的秘密数据挖掘。 以竞选工作组发言人本拉波特的话来形容:“奥巴马团队拥有‘核代码’,数据是能够击败罗姆尼的最根本优势! 课程目录 1. 大数据概述 2. 大数据分析概述 3. 大数据分析的流程 3.1 大数据分析流程总览 3.2 大数据的采集3.3 大数据的存储3.4 大数据的计算3.5 大数据的应用 4. 大数据分析的技术工具与统计基础 课程目录 1. 大数据概述 2. 大数据分析概述 4. 大数据分析的技术工具与统计基础 大数据预处理技术 – 数据清洗 数据清洗: •针对原始数据,对出现的噪声进行修复、平滑或者剔除•包括异常值、缺失值、重复记录、错误记录等•同时过滤掉不用的数据,包括某些行或某些列 噪声数据处理: •异常值:箱线图、Tukey’s Test等•删除、当做缺失值、忽略•分箱发:箱均匀、箱中位数或箱边界、平滑数据 课程目录 1. 大数据概述 2. 大数据分析概述 3.1 大数据分析流程总览3.2 大数据的采集与预处理 4. 大数据分析的技术工具与统计基础 大数据的存储 •单硬盘存储:使用一块硬盘存储数据 •磁盘阵列(RAID):在单机上使用多块硬盘均匀储存数据 课程目录 1. 大数据概述 2. 大数据分析概述 3. 大数据分析的流程 3.1 大数据分析流程总览3.2 大数据的采集与预处理3.3 大数据的存储 4. 大数据分析的技术工具与统计基础 大数据的计算 •大数据时代的计算模式,从单机计算进入了集群计算 大数据的计算技术 •Twitter开源的分布式实时大数据处理框架 •框架简单,学习成本低•毫秒级延迟,实时性好•健壮、稳定•编程成本高•逻辑与批处理完全不同,无法公用代码•Debug比较复杂 •Spark核心API的扩展,实现高吞吐、可容错的实时流处理 •编程语言丰富、编程简单•框架封装层级高,封装性好•可以共用批处理逻辑•微批处理,时间延迟大•稳定性相对较差•机器性能消耗大 •Flink是一种可以处理批处理任务的流处理框架 •Flink流处理为先的方法可提供低延迟、高吞吐、近乎逐项处理的能力•可通过多种方式对工作进行分析进而优化任务•提供了基于Web的调度视图 课程目录 1. 大数据概述 2. 大数据分析概述 3. 大数据分析的流程 3.1 大数据分析流程总览3.2 大数据的采集与预处理3.3 大数据的存储3.4 大数据的计算 3.5 大数据的应用 4. 大数据分析的技术工具与统计基础 大数据可视化 •数据可视化 •利用计算机图形学和图像处理技术,将数据转换为图形或者图像在屏幕上显示出来进行交互处理的理论方法和技术•数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。 •数据可视化随着平台的拓展、应用领域的增加,表现形式的不断变化 •从原始的BI统计图表,到不断增加的诸如实时动态效果、地理信息、用户交互等等 •数据可视化的概念边界不断扩大 大数据BI 商业智能BI(Business Intelligence)是用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。 现代BI工具: •阿里云Quick BI: 丰富图表、海量数据实时在线分析、集成方便、成本低、使用简单。 •