背景介绍
腾讯新闻商业化海量日志处理应用涉及数据源包括插件数据、腾讯新闻DB数据、收入数据、数据后台日志等,通过离线计算和实时计算技术支持多业务广数据应用。
海量日志处理架构
架构设计包括海量日志采集上报、数据加工计算、数据存储、数据应用和监控管理,设计目标为高效处理海量日志数据。
数据上报
数据上报分为实时处理和离线处理,涉及客户端点击/曝光等数据,以及Tdbank、DBMysql、FlinkCDC等数据源,用户通过PC/H5后台接出使用。
实时计算
采用Lambda架构,进行数据分层设计,并实现元信息管理。
离线计算
数据分层管理包括探测实验(raw_ssp)、广告请求(raw_view)、广告曝光(raw_click)等,通过DWS、ADS、DIM等数据仓库进行多维分主题指标池报表展示,运营/产品查询新闻曝光月实事表、广告位置维表等。
数据质量及链路保障
通过冗余备份、多数据源互备、自定义告警等措施,保障数据质量,解决故障点如上报服务集群写满消息队列、节点数据失败回放、内存不足等,故障频率极低至中等。
总结
生产使用数据仓库规范化,包括数据分层、主题、事件规范化,数据格式、命名、ETL等,上报规范化数据埋点、口径、参数等。
应用举例
FlinkCDC(Change Data Capture)-DB数据同步技术实现实时维表更新、实时排行榜更新、数据备份、数仓构建,参考链接为https://cloud.tencent.com/document/product/849/52698。
应用举例
FlinkCDC实现方法包括SQL模式和自定义DeserializationSchema模式。