AI智能总结
演讲人:马洪宾 KYLIGENCE=Kylin+Intelligence 智能的神兽 •2016年由ApacheKylin创始团队创建•专注于大数据分析、指标平台及AI•为世界500强及行业先锋所认可•多次获得全球和国内头部分析机构的行业认可•头部投资机构多轮投资:红点、顺为、宽带、斯道(FidelityArm)、Coatue、浦银国际、中金资本、歌斐等 大数据平台降本增效的困境 向量化技术和预计算技术 预计算技术的性能和成本优势 预计算价值的量化及其启示 v大数据平台降本增效的困境 但存在较强的同质性和可预测性 v大数据平台降本增效的困境 v大数据平台降本增效的困境 在IT基础设施上的投入也从之前的粗犷扩张型转向精打细算型 决策者将在满足业务需求的同时,更多关注预算控制与建设成本核算 v大数据平台降本增效的困境 v大数据平台降本增效的困境 Apache Gluten (Incubating) Architecture v预计算技术的性能和成本优势 什么是预计算技术?一种基于数据建模提前计算并存储中间结果,并在查询时使用这些预计算结果进行查询加速的技术,是对空间换时间这一朴素而有效的思想的实践 类比:CDN利用最靠近每位用户的服务器 提前分发数据,更快、更可靠地将音乐、图片、影片发送给用户,以保证高性能、可扩展性及低成本 v预计算技术的性能和成本优势 什么是预计算技术?一种基于数据建模提前计算并存储中间结果,并在查询时使用这些预计算结果进行查询加速的技术,是对空间换时间这一朴素而有效的思想的实践 v预计算技术的性能和成本优势 为什么在高并发场景下,预计算技术具备性能和成本优势?通过预计算以及查询的模型索引匹配技术,将用户对原始表的查询转换为对模型中某个预计算结果的查询,可以大大减少单次查询的计算量,从而缩短查询时间,节约集群计算资源(CPU+Memory) 单条查询消耗的总CPU时间=该查询使用的总核数*查询总时长QueryCPUCost=Corenumber*Duration 在Sparksql中,一条查询可能分为多个stage,更准确一些应该是QueryCPUCost=i=1𝐀𝐀𝠀𝐀𧀀𝐀𠐀𝐀𨠀𧀀𝐀∗𝐀𡠀𝐀𨐀𧀀𝐀𠐀𝐀𝐀𡠀𧰀𝠀𝐀其中n是该条查询的stage数如何量化预 相比简单的QueryDuration,QueryCPUCost更能准确反映查询所消耗的硬件资源成本,对于评估系统整体计算成本也更有参考价值 v预计算价值的量化及其启示 量化指标如何选择? 成本指标 使用场景:通过QueryCPUCost指标,数据决策者可以:•统计某个在线业务场景的CPUCost •横向比较该业务场景的CPUCost是否处于高位•评估及量化该业务场景的预计算优化空间从而为管理者的决策提供更有利的依据和支持 QueryCPUCost 如何量化预计算的价值? v预计算价值的量化及其启示 在KYLIGENCE下一代企业级数据分析平台中,我们提供了Costperquery的系统指标,用户可以从查询界面和查询历史界面直观看到每条查询的CPUCost v预计算价值的量化及其启示 实验室测试,预计算技术在绝大多数场景下,相比非预计算技术的CPUCost都要更低 如何量化预计算的价值? 通过对预计算价值的量化,我们可以帮助企业管理人员更直观的看到预计算技术带来的性能和成本优势,从而降低决策难度 谢 谢 观 看