您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[智源研究院]:AI大模型开源生态及大模型平台实践 - 发现报告

AI大模型开源生态及大模型平台实践

信息技术2023-09-05胡晓曼智源研究院庄***
AI智能总结
查看更多
AI大模型开源生态及大模型平台实践

演讲人:华为昇思MindSpore开源生态总监胡晓曼 CONTENTS 01·生态基石:AI大模型开源生态发展洞察分析02·模型底座:华为AI大模型全景架构及应用案例03·平台架构:大模型平台技术架构及技术分析 01 生态基石:AI大模型开源生态发展洞察分析 A螺旋上升式发展、重大变革机会,从感知理解世界到生成创造世界,A增长新曲线 感知理解世界 月,使得LLM成为技术演进方向大规模语言模型(LLM)所现出来的能力超出预期 LLM从量变到质变 增大模型容量有效办法 从chatGPT和更多实验中发现,语言模型规模超过一定阅值产生了超预期的能力涌现,比如语言理解能力,意图理解能力,多轮对话记忆能力等; 增加模型参数增加训练数据增减训练轮数 增加模型参数是当前曾大模型容量的最可行方法提升模型参数和增加训练数据见效最佳 文章重点考案了小样本提示任务中各种模型的涌现能力更大规模是否能够促使更多涌现能力,LLM规模天花板在哪,将是NLP未来的重要研究方向 为什么近年模型容量提升速度却在放缓?模型参数持续提升,当前模型性能提升逐渐趋于平缓模型参数提升带来了极大的成本提升 ChatGPT:大算力+大数据=大模型,人工反馈强化学习增强模型效果 ChatGPT成功关键:庞大算力支持+RLHF使模型更对齐人类语境+高质量数据持续训练 ChatGPT过人之处:RLHF基于人类反馈的强化学习 Why RLHF? HOWRLHF? 口什么是RLHF? 第一步:精心标注语言以Prompt方式微调模型 RLHF: Reinforcement Learning from Human Feedback 学生别题:OpenA招募了40位专家,标注了5万条亮质量致据,有监暂微调训阵模型,通过样例学习款会机器理解人类prompt忽合的急图,并此给出回善 即,人类反馈的强化学习 增强了人对模型输出结果的调节,并且对结果进行了更具理解性的排序, 口为什么需要RLHF? 第二步:对答案优劣排序,训练奖励模型 RLHF带来的威力 企业运营效率多少最为合适? 有效的迅应:实的回应:默认领向长答需公正的回应:特针对治事件艳绝不当闯题 老师阳卷:落过OpenAI开故的若API收集数据(模型对间一问照的不尚回答),收集人类的评分并排序,以比数据训练奖器模型,售诉机器人类的喜 利用RLHF,chatGPT性能领先一众模型: 回答 第三步:通过强化学习训练出策略模型 如左围,chatGPT编出4个结果对 我也不知道,请您告诉我那资产负债事多少合适?不能过高也不能过低?业界先进企业一股-100天 对送者更频向于“业胃先进企业股<100天*其能回落对手对语者无帮购:即,RLHF日的量提升chatGPT输出累有效性: 学生模考:从数据集中果群promp样别,从蓝督模型初始化策落模型,受用美模型考茶费略模型的调出,美微模限现升策略模生的效果, ChatGPT国内商业化落地,对算力集群软硬件提出全新挑战 集群建设的挑战 模型训练、推理的技术挑战 参数大:GPT-3/ChatGPT训练数据量45TB相当于170个维基百科:单次训练算力费用高达2000万美元(OpenAI万卡V100/A100持续选代3年): 模型:ChatGPT模型闭源,国内存在1~2年差距:科研团队、算法公司积极参与算法创新需要大算力支持。 ·全技术难:ChatGPT大模型+大数据持续学习、基于人类反馈强化学习和微调、多机多卡/单卡推理等全栈全流程技术要求: ,行业结合难:优质模型+专业知识投入+厂商A技术支撑,是大模型可以产业落地的关键。 ChatGPT商业模式:云服务、传统业务升级、主垂类解决方案 云服务变现 laaS云服务器 ●微软:NewBing,对google发起挑战·百度:文心一言嵌入百度搜索·360搜索等其他搜索公司·科大讯飞:新一代智能客服·畔哩哗哩:新一代虚拟人 上下游各赛道百花齐放,商业模式持续探素 以ChatGPT为代表的AIGC行业,上游主要包括数据供给方、算法/模型机构、创作者生态以及底层配合工具等,中游主要包括文字、图像、音频、视频等数字内容的处理加工方,下游主要是各类数字内容分发平台、消费方及相关服务机构等, 头部公司聚焦基础设施+大模型初创集中各领域应用层 02 模型底座:华为AI大模型全景架构及应用案例 华为大模型方案:集群全栈软硬件能力,使能大模型开发、训练、微调、部署 开放服务平台 ·NLP、CV、多模态、AIGC等12+基础大模型E2E极简筒、开箱即用 高效微调+小型化部署 微调组件:5%参数微调即实现全参精度调优小型化组件:量化/然增/剪枝/部署一站式工具链,多维混合压缩20X压缩比,精度损失<0.5% 高并发分布式训推框架 多维混合并行:自动寻优,数据、算子、pipeline、模型自动切分,大规模并发执行多级存储优化:全忌内存复用、稀确特征缓存、CPU/NVMe offload 大规模集群算力稳定输出 ,芯片内置200G网卡,NPU规模从1K→8K,干卡规模集群线性度55%→80% 昇腾大模型沙盘,构筑中国大模型创新高地 业界AI框架均已开始布局大模型技术,探素通用A能力 基于PyTorch扩展的框架根据Transformer定制井行策略,TensorFlow也正探索框架内支持大模型技术 国内深度学习框架市场份额现状 全球学术生态份额 国内AI框架市场份额调研 VICWC IDC PyTorch : 33%飞:26%TensorFlow : 22%屏思:8%其: 7%+ 2023年Q1基于屏思的顶会论文243+(连续全球第二) Pytorch:起源学术界向工业级渗透,经过8年已成为业界领导者: 飞浆:依托上层应用套件得到部分行业认可;异思:学术生态具备一定规模,产业影响力不足; 动静统一是主流技术趋势AI框架持续送代和升级,大模型、AI4S、 AI框架的技术挑战和趋势 、超大模型,高效能训练和推理 千亿参数、K级万级集群高性能、高稳定训练大模型及下游任务,高并发、低时延极致推理服务 二、AIforScience,融合AI和HPC技术生态 融合编程,数值方法和A方法融合高效漏合编程融合计算,A和HPC负载混合、异构硬件统一加速 三、易用性覆盖开发、训练、部署全流程 生态错点从AP趋于模型和套件,简化就到端全流程动态图和静态留统一,兼顾开发效、执行、郎馨效率 异思持续演进,MindSpore2.0全新技术升级 昇思2020年开源至今,汇聚行业、科研及开源力量,正在繁荣发展 5500+服务企业金融、医疗、制造、数字政府等 昇思MindSpore技术生态 400+模型600+顶会论文已发布紫东太初、鹏程神农等10个创新大模型 ,论文基金项目合作 昇思MindSpore开源生态 1.3w+画献者30Sig细为开源社区贡献代码、提交issue/合入PR 基础能力全面增强,易用性扎实提升 部署态:动/静态图能力进一步提升 开发态:编程门槛进一步降低 文档及工具进一步完善 动态国执行性能提升 静态图语法完备,编译性能提升 API亮备度大幅提升 ,静态照语法完新提升(60%->90%),JITFallback变持使用三方库(numpy、sklearn等100+三方率),Cell级编译复用,大模型编深大幅提升 新增400+AP接口,置蓝90%Pytroch计算和数据类API·支持120+ Pandas API,数据处理支持Dict类型品数式+更向对象合编程斯落式 API文档全面支持中文,优化报错机制,提供系统化指导.MindSpore Dev Toolkit : 特API胰射拍描,供VSCode智能代码补全插件 ·新增Expander激分机制新Trace的Graph Capture机8]·大算子胆合,动态算子下发流水化 API亮备:授口谨盖90%PTAPI,降低90%的迁移、学习成本,模型排本微型一行代码迁移 动态图热行性能:罕均提升50%(Vs1.10版本) JitFalilback:支持编泽/递行时照退Python热行 文格工具完善:优化API文稳和官网使用体验,重点编出阿题处建案例 丰富社区资源 教程文档完善丰富实能案剂/配管视器教程/优化AP文剂 丰富经验、问驱案别/专调团队支撑,问驱快速 官网使用体验优化 官网格送/通CodeLab体超花/家代作 原生支持大模型实现训练-推理全流程技术闭环 微调 部署 开发&训练 高性能部器 高根块化,开箱即用 强盖CV/NLP/AIGC/Rec等热门领城,10行代码实现模型定义、训练、微调和验证,实现典型模型开发效率月->周级别 ,支持干亿参数单卡推理支持百亿大模型分布式和增量准理,孕均性能30ms/token 在5%参数量上持平全参微调精度,降低30%的计算内存,有效提升看吐量 创新打造AI+HPC融合架构,广泛支持科学计算 联合高校/开发者构建领域套件,满盖各领域SOTA模型/常用数据集/前后处理,各领域全流程打通,支持三大科学智能范式高效开发 MindSporeSPONGE1.0,架构全面升级,新增20+生物计算SOTA模型,覆盖药物研发全流程,包含抗体序列设计、蛋白质动态结构解析等超级应用,计算、实验双重验证有效,效率提升10X+ MindSporeFlow0.1,构建基于物理、数据和数据机理融合驱动的三种AI流体仿真技术以及端到端可微分的CFD求解器:提供流体领域案例14个,网络模型8个; +MindSporeElec0.2,构建端到端可微的时域有限差分FDTD求解器;完成大规模阵列天线的电磁仿真,精度媲美传统方法,性能提升10X+; 融合计算框架,兼容Python生态,支持Numpy接口200+,Pandas接口100+;支持微分方程表达Sympy;丰富的微分能力,支持高阶高纬微分,函数式微分:支持稀疏计算, 降低开发门槛,加速A场景化应用丰富北向领域套件, 利用A+M亲和训练策略、混合精度、数据下沉等关键技术CV/OCR领域关键模型精度性能领先 支持第三方框架兼容,实现低成本迁移 三方生态 第三方生态模型迁移开发 兼容各类开发接口,降低90%迁移成本 Pytorch模型库/开发套件/工具组件/ 使能中科院-紫东·太初升级2.0,从三模态演进到全模态的大模型 基于异思社区开源:紫东太初2.0-3.8B ?基于昇腾昇思的紫东太初2.0-3.8B模型,开源图像-文本多模态部分 ?相比紫东太初1.0,支持更细粒度的图像识别、更具知识的视觉问答、更丰富的图像描述 紫东·太初2.0 联合鹏城实验室发布鹏程.神农,入围戈登贝尔新冠特别奖 昇思:大规模集群分布式计算的极致性能 该研究入围戈登贝尔新冠特别奖 支撑新冠疫苗和药物研发提前部器 通过6.3*1022次运算实现演化模拟领先于新冠病毒进化5个月时间 助力昌平实验室,打造AI4S两大创新场景应用 动态蛋白结构解析-FAAST 抗体序列设计-A4 全自动解析取蛋白质动态结构,解析时间降至小时级,助力药物研发 针对病毒快速生成或改造抗体,得到高活性、高可用抗体,助力抗体研发 传统方法:>3个月 FAAST:<1小时 FAAST超级应用 A4超级应用 传统解析方法单条数据解析需专家投入一年,AlphaFold2仅能解析静态结构 ,AI+约速蛋白质结构预测模型交互选代AI方法与传统解析方法·全自动解析蛋白质动态结构 实验验证 实验验证 ,计算验证有效抗体数量对比传统方法15倍提升,实验验证针对多种毒株有强活性 新方法氨基酸平均的束数目15-20,特合实验组要求单结构解析时间约1小时,全程自动化 支撑行业用户基于昇思套件,加速金融AI业务上线 加入昇思生态,社区全年200+场活动期待您的参