核心观点与背景
中国银保监会要求银行保险业加速数字化转型,强调数据治理和资产管理的重要性。习近平总书记和郭树清均指出科技自立自强是关键,数字化转型是核心任务,需推进云化转型、优化科技与业务融合、夯实数据基础、深化敏捷转型和强化人才保障。
当前数据服务挑战
当前底层基础数据服务面临三大挑战:
- 数据文件集成过程中多次从HDFS或GPFS读取,对存储IO性能和网络带宽造成巨大压力。
- 跨机房数据加载场景下,直接通过Spark加载数据导致网络带宽消耗过大。
- 信创压力下需选择新文件存储系统,但需同时满足不同类型数据的存储要求,屏蔽底层系统差异并兼容多种文件存储系统。
Alluxio数据缓存应用历程
为解决上述问题,兴业银行通过Alluxio建设数据缓存服务层,优化数据访问效率。应用场景包括数据集成任务、大数据ETL和查询等,采用分层结构(热数据、温数据、冷数据)和对应用透明的读写缓存机制。
数据缓存分层结构
- 热数据:存于RAM和SSD
- 温数据:存于HDD
- 冷数据:存于HDFS
- 计算缓存层:Alluxio
- 大数据ETL和查询:通过Alluxio加速
跨机房数据加载与缓存管理
通过设置TTL、Pin等策略,实现跨机房数据加载(如从DC-A到DC-B),并优化网络带宽使用。
统一数据生命周期管理
Alluxio提供统一接口(Java文件API、HDFS接口、S3接口、REST API、POSIX接口),兼容GPFS、信创文件系统和对象存储。
大数据架构优化
通过存算分离架构(Hadoop集群),Alluxio实现统一HDFS/对象存储,提升资源利用率,并优化租户隔离。
缓存平台性能提升
- 读写效率提升:缓存命中后效率提升近1倍,降低HDFS NameNode压力。
- 网络带宽降低:将网络带宽使用峰值从30Gb/s降至2Gb/s左右。
未来优化与展望
- Cache缓存优化与监控。
- 数据中台集群存算分离架构演进,实现更好的租户隔离与SLA控管。
- 文件缓存系统与计算引擎深度优化,与kubernetes集成。
- 总行与分行数据共享方案设计。