业务背景与问题
当前互联网业务呈现运营活动密集、产品迭代频繁的特点,数据分析需求日益复杂,数据驱动的重要性不断提升。传统数仓架构面临以下问题:
- 数据杂且量大:上千张表、数百PB存储,查询慢,SQL复杂,shuffle大。
- 自助率低:需求满足效率低,业务需依赖数据研发提需求,周期长。
- 口径不一致:数仓层内少许冗余,层间冗余严重,导致口径易不一致。
宽表建设方案
为解决上述问题,提出一层大宽表的技术方案:
- 模型特点:通过ETL和维度关联处理,封装指标口径,支持超多字段,减少表数量。
- 存储优势:单一业务主题下,数十张数仓表精简为一张,存储下降约30%。
- 性能优化:采用列式存储、引擎提速、建模提速等措施,提升查询性能。
宽表优缺点分析
- 优点:
- 口径统一,使用简便。
- 表数量大幅下降,字段含义更易理解。
- 存储下降约30%。
- 挑战:
- 查询性能需优化,复杂计算场景性能下降。
- 开发和回溯成本增加,需更高业务理解能力和工具支持。
自助可视化平台
为提升需求满足效率,构建自助可视化平台:
- 功能:可视化配置主题模板,点选查询,拖拽图表,自助报表。
- 优势:
- 降低沟通成本和使用门槛,提升分析效率。
- 无需研发依赖,即配即用,即点即出。
- 自主可控,降低成本,提高弹性。
平台核心能力
- 数据查询:通过点选查询主题,操作简单,结果可保存为数据集进行深度分析。
- 数据加工:业务人员可自助配置展示信息和例行存储信息。
- 拖拽分析:通过拖拽字段形成丰富图表,支持多种业务表达。
- 自助报表:组合分析内容,通过筛选器实现关联分析,支持布局调整和图表复用。
效果与规划
- 效果:自助率从30%提升至75%+,研发排期需求明显降低。
- 规划:
- 持续优化高性能引擎,提升查询性能。
- 开放云化,助力更多业务。
结论
宽表建模更适合快速迭代的数据驱动型业务,可视化自助分析平台能极大解决需求排期问题,提升业务分析效率,降低成本,释放研发人力。