AI智能总结
姓名:房军 个人简介 房 军 ( 足 止 ) 阿 里 云 阿里云高级技术专家,专精数据湖,数据仓库,数据治理等多项数据领域工作 背景介绍 背景介绍 背景介绍 困难与挑战 表体量大 l如何高效利用带宽,平衡增量数据与存量数据的迁移l超大规模数据迁移,如何保障数据一致性l双跑任务的编排,任务之间的流量分配l迁移要求业务影响的最小化,任务改造最小化l复杂项目管理及长周期的资源交付管理 背景介绍——迁云总体方案 Spark验数集群:用于数据校验 2OSS:配置目标端OSS对象储存服务 EMR集群:部署目标端EMR计算集群 调度系统:同时用于调度阿里云EMR任务 3DLF迁移服务:用于数据全量/增量迁移与校验等 资源保障 资源保障——端到端的预警机制支撑资源准备 数据迁移 数据迁移——数据资产管理为数据迁移保驾护航 任务迁移 04 任务迁移——灵活机动的双跑规划为任务迁移提速 •创新式引入数据调度依赖双跑策略,极大提升了发现双跑问题的速度 •Dlf内置50+函数完成数据校验,支持行级diff •首创预同步影子桶方案,节约专线资源,提升双跑流程效率 任务迁移——灵活机动的双跑规划为任务迁移提速 平台割接 平台割接——一万次的准备成就最后的成功 总结回望 平台割接——一万次的准备成就最后的成功 总结回望——在线可视的项目管理让风险最低 致谢 T h a n k s 荣誉出品