您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:CFS Turbo 千亿级样本训练的实践分享 - 发现报告

CFS Turbo 千亿级样本训练的实践分享

2024-09-12腾讯淘***
CFS Turbo 千亿级样本训练的实践分享

大模型训练的实践分享 杨飞主讲人: 大模型训练面临的挑战 十亿级→百亿级文件数 千万级→亿级目录数 MB级→百KB级平均文件大小 02新一代元数据引擎Meta Turbo 传统的元数据方案设计 1.目录开销大,无法支持海量目录2.目录性能较差3.无法动态横向扩容 新一代自适应条带化目录 文件OPS:百万级→千万级目录OPS:万级→10万级 系统支持文件数量X10百亿级→千亿级 系统支持目录数量X10千万级→亿级 03智能预读策略Intelligent Read-ahead Policy 大模型AI训练阶段示意图——以混元Dit为例 数据清洗 数据转换 开始训练 数据整理 基于index和打包后的文件进行训练 基于过滤条件的yaml,生成dataindex 基于原始图片,生成对应的索引 智能预读策略