城市数据感知标准化交付
自我介绍
舒伟架构师,2013年入职百度担任数据工程师和调度系统架构师,2017年加入阿拉丁集团担任IM系统架构师,2020年加入京东负责直通车产品架构。
平台介绍
城市统一感知体系通过多源数据采集,实现跨部门、跨层级的城市数据整合。体系包括:
- 以人为中心的感知(城市群体感知)
- 以传感器为中心的感知
- 市级平台、综治区县平台、网格员信息上报
- 主动群体感知和被动群体感知
- 跨部门、跨层级的固定感知(如摄像头、IoT设备)
- 数据直通车基础架构
平台能力目录
平台具备数据采集、处理、同步等核心能力,支持多源异构数据的整合和准实时同步。
核心技术讲解
数据直通车基础架构
- 离线(准实时)同步架构:包括HDFS、FTP、关系型数据库、时空数据库、MINIO等组件。
- 架构图展示了任务管理、运行实例管理、数据源管理等模块。
痛点分析
- 多源异构:数据来源多样,格式不统一。
- 大数据量增量同步(准实时):
- 场景1:根据id增量同步数据。
- 场景2:增量字段场景(如update_time)。
解决策略
- 策略1:根据调度周期和调起时间计算,每次同步一个周期的数据。
- 优点:逻辑简单。
- 缺点:对数据及时性要求高,补数逻辑复杂。
- 策略2:借鉴sqoop,增量时间不耦合调度周期。
- 优点:允许数据延迟。
- 缺点:需要记录上次同步时间,可能丢数据。
- 策略3:每次同步前查询源表增量字段最大值。
- 优点:解决丢数据问题。
- 缺点:多一个参数配置,逻辑复杂。
- 策略4:每次同步前查询源表增量字段最大值,动态判断区间。
- 优点:解决最后一批数据不能及时同步的问题。
- 缺点:逻辑复杂,需要动态判断区间。
准实时同步API拉取架构
- 背景:通过简单配置实现发送HTTP请求获取数据并落盘。
- 痛点:请求发起和解析结果的配置易用性,时间窗口、循环变量、分页获取数据。
- 适用场景:数据采集时效性要求高,数据提供方提供标准API接口。
- 配置包括:API基本信息、分页和时间窗口、响应解析、API接口组配置、执行逻辑。