目 大数据综述 荣之联企业大数据平台方案 1大数据平台建设方法 汽车制造业应用大数据畅想 大数据时代到来 数据处理思维转变 数据处理思维转变 案例二amazon.com 案例一GO09翻译 ·聘请了20多名书评家和编辑组成的团队,在网页上创立“亚马逊的声音”向客户推荐新书,写书评;·通过客户的购买历史,寻找客户的相似性,对客户分群进行产品推荐,推荐的总是与以往购买的相似或略有区别;通过大量的数据分析,找出书籍之间的关联关系,即“item-to-item”,时亚马逊发生了天翻地覆的变化。·AMAzON销售额的三分之一来自于“item-to-item”的推荐系统。AMAZON最终放弃了在线书评,书评团队被解散茶之联 ,谷歌翻译系统为了训练其系统,收集其能找到的所有翻译:·谷歌收集了上万亿页的语料库,包括质量参差不齐的文档;:上万亿的语料库,相当于950亿句英语:。相对而言,谷歌的翻译质量还是最好的;·谷歌翻译之所以更好,不是因为它拥有一个更好的算法机制,而是增加了各种各样的数据,包括有错误的数据:·在谷歌的翻译团队中,大多数工程师并不懂其翻译出来的语言; 数据处理思维转变 数据处理思维转变 关联关系,预测的关键。很多时候,知道“是什么”就够了,没必要知道“为什么” 一旦我们完成了“关联关系”分析,我们就可以继续向更深层次研究因果关系,找出背后的“为什么” 其它案例 沃尔玛:请把蛋挞和飓风用品摆在一起,请把啤酒和尿片摆在一起:·某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性·对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号:·某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性:对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号; 大数据与BI融合* 大数据主要厂商 大型企业和机构在寻求解决棘手的大数据问题时,往往会使用开源软件基础架构Hadoop的服务。由于Hadoop深受欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop提供解决方案。Hadoop的发行版除了社区的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自已的商业版本。商业版主要是提供Hadoop专业的技术支持,这对一些大型企业尤其重要。 大数据生态 目录 大数据综述 企业大数据平台架构原则* √技术-按需频度的数据获取批量和实时数据米用不同的技术手段和工具,遵循统一的文件接口标准 √技术-多样化数据共存 跨同构/异构数据库(物理系统),基于文本、数据库的数据抽取和加载 业务人员通过逻辑数据对象组件访问数据,而不用关心数据的物理存储方式。通过数据组织与前端应用功能,使业务人员可以较容易、较快地定位和了解数据的内容。 V数据-数据质量控制 通过一系列的技术和业务手段实现数据集成平台数据质量控制,主要体现在数据正确性(技术)、完整性、一致性(业务)、有效性。 大数据平台整体架构 大数据关键技术+ 分布式大数据平台 高级数据分析与可视化 数据质量与生命周期管理 大数据关键技术-Hadoop Apache Hadoop* Stack Hadoop系统工作原理 ApacheHadoop*集群的运行 大数据关键技术-两种平台相互集成 大数据关键技术-数据管控 目录 传统数据平台与大数据分布式平台特性差异 数据价值往往不确定并行ETL、Web索引、日志分析、文本挖掘、图形视频分析挖掘全量数据应用为主简单的数据关系应用离线应用为主实时BI:分布式流式计算开发为中心通过API/脚本/类SQL交互非结构化为主、动态模式通常在PB-EB级,稀疏Hadoop生态系统分布式、极度的扩展性与并行能力相关工具完善中 大数据分析与传统BI分析差异 ·结构化数据·数据规模一般为TB规模·集中式,为了分析进行大量数据移动,数据向计算靠近·批处理为主 ·结构化/非结构化混合分析的能力·数据规模从数十TB到PB级别·分布式,计算向数据靠近·支持流式分析 大数据处理和管理体系一多结构化 大数据实施建议 Think big,start small 大处着眼,小处着手 大数据的角色和技能 目录 汽车企业IT的过去 汽车企业IT的将来 汽车制造业大数据能力创新的方向 大数据在汽车制造企业的应用 大数据在汽车制造行业大有作为 保证基础信息质量,保证数据揭示的信息达到最佳使用效果 通过大数据连接客户和产品 感知客户行为,实时精准营销与服务 目 典型案例:新华社新媒体数据库项目 项目背景 解决方案 基于大数据与云计算技术体系理念和技术架构基础上,建立一个全新的新媒体数据库,并实现工作素材库、工作库、应用库和知识库的架构格局。 为全球一体化多媒体采编与数字加工平台,新媒体多元化加工开发与集成服务平台等一系列关键业务系统提供数据存储、全文检索、数据库及其基础应用服务。 客户收益 0全面提升新媒体数据库的应用服务能力,达到对外服务商业化的标准。 整合更多的社会资源,组建知识库群,进而形成决策智库,服务于各级政府决策,提升新华社在政府决策中的影响力根据用户的兴趣特点和购买行为,实现个性化推荐,拓展了具有很大潜力的长尾客户 典型案例:贵州移动用户互联网行为分析项目 项目背景 解决方案 随着3G爆发性增长和智能手机普及,移动互联网发展一日干里,流量猛增大大超前运营商预期,另一方面,无论在移动还是固定网络,语音通信市场目前已经趋向饱和,基于语音通信的增值业务已有明显下降的趋势;随着移动互联网的飞速发展,语音业务的经营必然被流量增值业务的经营所取代。 客户收益 基于用户WAP上网行为分析,实现对客户内容偏好、客户网络行为偏好和互联网标签的筛选,助力于精细化营销开展,基于互联网行为分析,洞悉客户需求,将客户细分为娱乐、交流、学习、生活、商务、工具六大类,构建移动互联网产品标签库;通过自有互联网业务与网络热点产品进行“渗透率”"覆盖率”、“活跃率”对比分析,构建增值业务产品市场竞争评估体系。 典型案例:中国人力资源和社会保障出版集团企业培训平台 项目背景 解决方案 当前,我国正处于贯彻落实“十二五”规划的关键时期和实施人才强国战略的重要时期,产业布局调整、企业升级换代进入关键阶段,许多地区和行业存在着技能劳动者供不应求的现象,尤其是在传统产业和高新技术产业领域,技能劳动者特别是高技能人才严重短缺,供需之间的结构性短缺矛盾日益突出。 。中国人力资源和社会保障出版集团将坚持以服务人力资源社会保障事业发展为已任,以培育人才、助力民生为工作主线,逐步打造成为我国人力资源社会保障信息交汇平台、职业教育和职业培训教材研发基地、职业安全和劳动保障知识传播中心 客户收益 满足远程教育培训的需求(满足培训和教学两方面的功能需求),针对课件制作精品课程制作提供良好便捷的设计制作平台。 足集团未来信息化扩展的需求,应对日益激烈的信息数字化竞争。 典型案例:中信银行信用卡中心 解决方案 项目背景 中信银行信用卡中心充分利用银行的内部资源,自2007年发卡至今,凭借强大的安全保障、便捷的还款方式、优质的客户服务以及持续丰富的刷卡优惠活动,中信平安信用卡已从竞争日趋白热化的国内信用卡市场中异军突起 发卡量增长迅速:2008年发卡约500万张,2010年增加了一倍。业务数据增长迅速:随着业务的迅猛增长,业务数据规模也线性膨胀。数据存储、系统维护、数据有效利用都面临巨大压力。 分布式架构与关系型数据库的结合,实现结构化与非机构化数据的存储与处理多数据源(30+)整合,数据交换平台建设创建客户统一视图,客户全方位挖掘分析。营销活动管理的闭环应用 客户收益 EMCGreenPlumCloudera HadoopInformaticaPowerCenterIBMSPSS 实时的商业智能 可以结合实时、历史数据进行全局分析,风险管理部门现在可以每天评估客户的行为,并决定对客户的信用额度在同一天进行调整;原有内部系统、模型整体性能显著提高 D秒级营销 提供了统一的客户视图,更有针对的进行营销。2011年,中信银行信用卡中心周缩短到2-3天。 典型案例:迪信通库存优化项目 解决方案 项目背景 ?提供了库存优化的解决方案,③建立的销量预测模型,实现了对周期采购的合理指导。?实现了销量预测准确率校验、库存周转效果校验、缺货校验等功能。 ?迪信通是国内市场占有率最高的通讯连锁零售企业,库存量偏高、库存周转率低一直是困扰企业的难题。?迪信通库存优化项目是通过大数据分析和挖掘技术实现手机销量的准确预测,根据预测结果指导采购人员合理采购,从而达到降低库存量,提高库存周转的自的。 客户收益 ClouderaHadoopSASBirt ?通过库存优化模型,降低了企业的库存量,提高了库存周转率。?为企业的采购提供了科学依据,提升了企业的采购管理、库存管理能力。 典型案例:国金证券营销活动管理平台 解决方案 项目背景 。在数据层采集交易系统、CRM系统、HR系统、EBOSS系统、呼叫中心系统的数据,建立客户、员工、产品统一视图,为了满足后续业务的扩展,比如实现融资融券、股指期货、资产管理等相关系统数据的采集和对接。 。营销活动管理系统的功能包括活动统一视图、营销活动上线前管理、营销活动执行管理、营销活动评估、客户营销活动360度视图、渠道系统对接等。自动对接外围系统,包括互动短信、彩信平台、EDM、电销、微信平台、股票终端,进行对客户的接触。。业务人员自助式的通过简单建模对大量的营销历史数据进行多维数据分析和数据挖掘。 国金证券股份有限公司是中国证券监督管理委员会核准的七家合规试点证券公司之一,公司现有客户超过30万户,托管的证券市值和保证金超过280亿元。随着规模的不管扩大,企业对信息化建设的要求也在不断提高。 国金证券希望满足业务创新对营销活动管理的要求,实现智能化的营销决策支持、多步骤多渠道的活动流程管理、精细化的客户信息管理、高度自动化的系统执行。 0Oracle11gRAC。Cloudera HadoopInformaticaPowerCenter0IBMSPSS 客户收益 为智能化的营销管理提供支持?客户360度视图查询?客户接触信息的统一管理市场营销活动的统一视图管理の市场营销活动全生命周期的流程管理自动化的渠道系统对接 典型案例:华大基因项目 解决方案 项目背景 随着华大基因信息化建设工作的不断深入,业务系统不断建设和深化应用,为了充分利用各应用系统积累的数据资源,提升企业的数据利用水平,实现基于综合数据的科学辅助决策。全面整合华大基因现有业务系统数据,建立面向分析的企业级数据仓库和灵活可扩展的BI展现系统的任务已经迫在眉睫。。随着不断发展的华大科研和资源体系,对科学管理提出了更高的要求;随着不断增长的客户需求和市场前景,对科学决策提出了更高的要求;不断壮大的华大业务和员工队伍,对科学运营提出了更高的要求。 构建企业级数据仓库平台和企业级数据展现平台通过对业务数据的分析使决策者及时精确的掌握公司整体运营状况,并对未来经营状况和发展规划进行科学决策对其他主要业务系统的数据全面整合,进行多维度的关联加工汇总,提供及时准确的全面运营数据展现。 客户收益 Oracle11gINFORMATICA9.5TABLEAU8.1 整合离散的业务数据,实现数据挖掘;?直观展现集团运营状况和市场变化;の建立BI系统,实现科学决策 汇报完毕感谢聆听