行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

IDEA_研究院预训练大模型的_AI_系统实战_陈崇沛

文化传媒 2022-07-19 ArchSummit深圳2022|全球架构师峰会杨建江

GTSfactory 预训练模型的 AI 系统实战

当下的架构问题

20年技术变迁和架构升级历程：从单体架构到微服务架构，再到AI平台架构，如今进入预训练大模型时代。
预训练模型现状：数量庞大（万级基础设施模型），但定制化模型生产困难（亿级应用场景模型）。
定制化模型痛点：人才稀缺、数据稀缺、模型生产周期长。
AI发展阶段：当前处于手工作坊时代，期待工业化生产时代。

解决方案：GTSfactory 与封神榜

GTSfactory：自动化生产AI模型，解决人才和数据稀缺问题。
封神榜：开源预训练大模型体系，包含30+开源模型，涵盖NLU、多模态、医疗等领域。
GTSfactory 效果：自动生产的模型接近人工最好水平，每个类别仅需十几个样本。

预训练模型的痛点

大模型参数规模增长迅速，但显存未同步增长，导致门槛高。
中文模型数量少，仅占1%（500个模型），缺乏成熟的大模型预训练框架。

封神榜开源大模型体系

模型列表：二郎神（13亿参数）、MacBERT（1.1亿参数）、文本生成模型（39亿参数）、BERT模型（1亿参数）等。
下载量：2万每月，与清华大学、上海交通大学等合作开源。

AI 理想照进现实：系统问题

需解决系统问题：算力资源调度、显存优化、并行训练、交互学习、多模型协作。
GTS模型生产平台：实现模型自动化生产。
封神榜开源大模型体系：提供基础保障。

模型自动化生产中的系统问题

GTS模型生产机制：用人机交互迭代的方式生成样本。
多模型自动交互：GTS训练编排机制，包括TATP、样本生成、样本标注等。
三级调度机制：任务编排（三级）、任务调度（二级）、资源调度（一级）。

预训练大模型中的系统问题

大模型训练方案：GPT-3的并行策略（6节点、3072张A100）。
模型并行实现：MegatronTensor的Tensor并行和流水并行。
跨越显存瓶颈：ZeRO数据并行的增强模式。
炼丹实例：39亿BERT模型的训练优化策略。

封神训练框架

特点：支持封神榜大模型、简单易用的pipeline、丰富示例、性能提升300%。
支持领域：CV、NLP全领域。
优势：专为Transformers的大模型、大数据设计，社区完善，模型丰富。

预训练大模型的生产系统

底层支持：TensorFlow、PyTorch、OneFlow。
数据体系：原始数据+24TB/月，训练数据+300GB/月。
模型体系：余元、周文王、闻仲、燃灯、二郎神等。
Fengshen框架：易用的pipeline，支持训练/Fine-tune。

未来设想

下一代深度学习模型的训练和部署系统：算力池、模型Master、专家选择、动态结构稀疏激活。
关于封神榜大模型开源体系：40+成员，自2021年5月发布以来持续更新。

GTS 模型生产平台

AI自动化生产AI，解决定制化模型生产难题。
公测中，提供模型自动化生产服务。

报告封面

点击免费查看完整报告

你可能感兴趣

hot

传媒行业通用预训练模型技术拆解：AIGC系列专题，“大模型+小样本”快速适配下游场景，“AI+传媒”的效力取决于适配与迭代

商贸零售

上海证券2023-03-29

hot

【九点特供】这家公司很快将与英伟达发布激动人心的联合声明;马斯克表示xAl将于本周开源AI聊天机器人Grok，实现AGI的重要突破节点来临，这家公司的多模态预训练大模型已进入实验性训练阶段

商贸零售

未知机构2024-03-12

hot

汇洲智能：卡位大模型的数据预训练新秀

商贸零售

财通证券2023-12-26

hot

传媒行业通用预训练模型技术拆解-AIGC系列专题：“大模型+小样本”快速适配下游场景，“AI+传媒”的效力取决于适配与迭代

商贸零售

上海证券2023-03-29

hot

预训练大模型与医疗：从算法研究到应用

商贸零售

清华大学2025-03-10