您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[小米]:小米数据平台产品设计思考与实践 - 发现报告

小米数据平台产品设计思考与实践

信息技术2024-08-12-小米
AI智能总结
查看更多
小米数据平台产品设计思考与实践

目录CONTENT 01数据生命周期全流程介绍 02技术驱动型产品的设计与协同经验方法论 03小米一站式数据生产平台的产品建设思路 01 数据生产到应用的生命周期全流程介绍 数据全⽣命周期流程 建堤修坝、水库水渠,将自然水分流收集、存储 数据的产⽣ ⽣活中的各种⾏为都在产⽣着各种各样的数据 线上(主要):联⽹的智能终端,如⼿机/电脑/⼿表/电视等 线下:基于⾮智能设备或终端产⽣逛店/运动/饮⻝/⾳乐….各种线下活动拍照/录⾳/绘画/连接/体感… .各种实体⾏为 ⽀付/收藏/转发/播放/点赞… .各种功能操作 数据的收集 数据的收集是将不同业务系统、终端、源头的数据实现互联互通 线上⾏为采集(端上) •硬件联⽹:Wi-Fi、传感器、摄像头等等•传统:问卷、登记 •客户端:Web、Andorid、iOS、Windows•服务端:⽇志、消息 外部数据采集-爬⾍;业务系统数据同步-跨源MysqltoHive、异构MQtoHive 数据的收集 ⽣活中,我们选择⼀个存储物品的容器时,⼀般会考虑哪些因素? 数据的存储 根据数据的结构、规模、使⽤场景、成本等信息,选择不同的数据存储介质 数据的处理 将汇聚后的原始、堆砌状态的数据进⾏资产内容建设、加⼯处理后使其产⽣业务价值 关键内容 处理过程 对数据抽取、转换、加载(ETL),分层建设 在各个环节对数据进⾏「清洗」 数据的处理——ETL 将原始,混乱的数据转化为干净,新鲜和可靠的数据的,使其更易于使用,方便从中获取业务见解 数仓分层:归纳整理、化繁为简、减少重复、提升效率 SQL:结构化的查询语句 所有关系型数据库的公共语⾔;⽤于存取数据以及查询、更新和管理关系数据库系统 数据的处理——清洗 提到“清洗”,⽐如洗⾐服⼀般是在做什么? 1、洗掉脏东⻄2、去除多余3、补好缺漏4、晒⼲整理 数据清洗的核⼼:•问题数据的补充、调整 •冗余数据的查重、映射•数据的整理、统⼀ 数据的处理——离线实时 02 技术驱动型产品的产品设计与研发协同方法论 数据⽣产平台是技术驱动型产品 技术驱动型产品的核⼼特征 其实,与其他类型产品经理的⼯作模式没有本质区别 技术驱动型产品中,产品经理该怎么做 为共同的业务价值⽬标努⼒技术与产品不是对⼿,⽽是战友,荣辱与共技术的产品思维,产品的技术理解是相互的 转变思维 在产品擅⻓的领域做到更专业,更好的分⼯协作持续学习,将技术语⾔转化为产品语⾔ 体现专业 技术驱动型产品中,产品经理该怎么做 按需分工 技术主导,产品配合:技术选型与扩展产品主导,技术⽀持:⼯具体验交互流程 合适的协作流程:引⼊技术评审、技术参与产品内审互相深度参与:⽤户调研、产品⾛查、⽅案共创 技术驱动型产品中,产品经理该怎么做 价值牵引,技术驱动也可能变成产品牵头 专业的⼈做专业的事,各司其职,更⾼效 技术:•写代码、做实现 •避免炫技,做⽤户真正需要的产品•拥抱变化,持续更新升级(认知/思路/策略/需求) •性能/架构/稳定性 产品:•界⾯设计,沟通协调 •运营推⼴,⽤户交流 案例⼀:技术驱动架构升级 技术选型 引⼊数据湖解决Hadoop+传统数仓的成本及事物性问题 数据湖选型:Delta、Hudi、Iceberg(写⼊/并发/性能/成熟度更好) 案例⼆:产品驱动体验效率优化 业务场景复杂,依赖关系建⽴繁琐 •拖拽式的作业编排->快速建⽴关系•节点及上下游定位->聚焦关键节点链路•⾃动推荐依赖->智能/⾃动依赖 案例三:技术的升级使得产品能持续完善 OLAP引擎升级促使查询体验交互式改造每查询888s下降至5s Hive引擎机制所限->提交过程长,资源消耗大,耗时长,只能等 •查完通知•转成作业•超长的自动终止限制 Presto+Spark3.X的升级->⼤部分查询可直接提交,资源策略优化,查询效率⼤幅上升 •多引擎联查,智能路由•⽇志诊断•编辑联想,⾃动补全•并⾏查询•⾃定义超时•… … 03 小米一站式数据生产平台的产品建设思路 基础服务的统⼀为“破烟囱”奠定基础 可扩展性⾼的产品形态 功能可灵活快速的补⻬,更稳健的⽀撑收敛统⼀ 特⾊化的⽣产开发流程 规范化的流程,促进⽤户正确的使⽤平台,发挥更⼤效益 业界: 1.物理机房的隔离 2.项⽬/库隔离3.开发中⼼&运维中⼼完全独⽴ ⼩⽶: 1.通过Workflow的版本进⾏“开发态”与“⽣产态”的区分2.以测试库/正式库+变量形式做隔离转换3.辅助补充各流程环节及检验⼯具 ⼀站式的数据⽣产体验 ⽣产平台本质是作为趁⼿的⼯具,为业务助⼒ 在更⼤的维度上做全景扩展,提供更多完善的服务⽀持 层次递进的平台建设思路 以各阶段要解决的不同问题为牵引,分级扩展,逐步做透(不⽌适⽤于数据平台) 感谢观看