GTSfactory 预训练模型的 AI 系统实战
当下的架构问题
- 20年技术变迁和架构升级历程:从单体架构到微服务架构,再到AI平台架构,如今进入预训练大模型时代。
- 预训练模型现状:数量庞大(万级基础设施模型),但定制化模型生产困难(亿级应用场景模型)。
- 定制化模型痛点:人才稀缺、数据稀缺、模型生产周期长。
- AI发展阶段:当前处于手工作坊时代,期待工业化生产时代。
解决方案:GTSfactory 与封神榜
- GTSfactory:自动化生产AI模型,解决人才和数据稀缺问题。
- 封神榜:开源预训练大模型体系,包含30+开源模型,涵盖NLU、多模态、医疗等领域。
- GTSfactory 效果:自动生产的模型接近人工最好水平,每个类别仅需十几个样本。
预训练模型的痛点
- 大模型参数规模增长迅速,但显存未同步增长,导致门槛高。
- 中文模型数量少,仅占1%(500个模型),缺乏成熟的大模型预训练框架。
封神榜开源大模型体系
- 模型列表:二郎神(13亿参数)、MacBERT(1.1亿参数)、文本生成模型(39亿参数)、BERT模型(1亿参数)等。
- 下载量:2万每月,与清华大学、上海交通大学等合作开源。
AI 理想照进现实:系统问题
- 需解决系统问题:算力资源调度、显存优化、并行训练、交互学习、多模型协作。
- GTS模型生产平台:实现模型自动化生产。
- 封神榜开源大模型体系:提供基础保障。
模型自动化生产中的系统问题
- GTS模型生产机制:用人机交互迭代的方式生成样本。
- 多模型自动交互:GTS训练编排机制,包括TATP、样本生成、样本标注等。
- 三级调度机制:任务编排(三级)、任务调度(二级)、资源调度(一级)。
预训练大模型中的系统问题
- 大模型训练方案:GPT-3的并行策略(6节点、3072张A100)。
- 模型并行实现:MegatronTensor的Tensor并行和流水并行。
- 跨越显存瓶颈:ZeRO数据并行的增强模式。
- 炼丹实例:39亿BERT模型的训练优化策略。
封神训练框架
- 特点:支持封神榜大模型、简单易用的pipeline、丰富示例、性能提升300%。
- 支持领域:CV、NLP全领域。
- 优势:专为Transformers的大模型、大数据设计,社区完善,模型丰富。
预训练大模型的生产系统
- 底层支持:TensorFlow、PyTorch、OneFlow。
- 数据体系:原始数据+24TB/月,训练数据+300GB/月。
- 模型体系:余元、周文王、闻仲、燃灯、二郎神等。
- Fengshen框架:易用的pipeline,支持训练/Fine-tune。
未来设想
- 下一代深度学习模型的训练和部署系统:算力池、模型Master、专家选择、动态结构稀疏激活。
- 关于封神榜大模型开源体系:40+成员,自2021年5月发布以来持续更新。
GTS 模型生产平台
- AI自动化生产AI,解决定制化模型生产难题。
- 公测中,提供模型自动化生产服务。