行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

从千亿模型到ChatGPT的一点思考2023

信息技术 2023-12-06 清华大学 HEE

研报总结

主要发现与讨论

从千亿模型到ChatGPT的发展：文章探讨了从千亿参数模型到ChatGPT的演变，强调了预训练大模型在人工智能基础设施中的重要地位。ChatGPT的出现展示了在大模型研究领域存在的代差，同时也揭示了其在认知推理能力上的局限，特别是在常识应用方面。
中国大模型研究进展：中国在大模型领域的研究取得了显著进展，包括与国际领先模型（如OpenAI的GPT系列模型）的对比分析。清华与智谱合作，在国产超算上训练出悟道1.75万亿参数模型，展示了强大的计算能力与资源适应性。
开源模型的成功：ChatGLM-6B作为开源模型，在GitHub和Huggingface平台上迅速获得了大量关注，成为热门资源。这反映了开源模型在促进技术共享与创新方面的巨大潜力。
大规模模型的关键特性：研究指出，大规模模型在准确性、鲁棒性、校准误差等方面表现出色，尤其是在指令提示微调和自监督预训练过程中。这强调了模型规模与性能之间的正相关性。
技术挑战与解决方案：面对训练大规模模型的挑战，如高成本、计算效率低下、稳定性问题等，研究提出了基于国产硬件（如海光GPU、昇腾910）的解决方案，实现了在不同平台上的高效训练与应用。
模型应用与评价：GLM-130B作为中国自主研发的千亿参数模型，在多项评估指标上表现出色，尤其是在英语和中文领域的自然语言处理任务中。这表明中国大模型在跨语言处理能力上有显著提升。
模型的开源与社区贡献：GLM-130B模型的开源不仅降低了使用大规模模型的门槛，还促进了学术界和工业界的广泛交流与合作。这为全球AI研究提供了宝贵的资源。
未来展望：随着ChatGPT等模型的兴起，大模型研究正朝着多模态、跨语言和更高效的方向发展。中国在这一领域持续投入，旨在构建以中文为核心的大规模预训练模型，以推动人工智能技术的全面发展。

结论

该研报总结了从千亿模型到ChatGPT的演进历程，强调了中国在大模型研究与开源创新方面的进展。通过对比分析，突出了中国模型在性能、规模和应用上的竞争力，同时也指出了当前面临的挑战与未来的机遇。研究认为，通过技术创新和合作，中国有望在人工智能领域发挥更大的影响力，推动全球AI技术的前沿发展。

唐杰清华⼤学计算机系知识⼯程实验室（KEG）试试我们的系统 •ChatGLM-6B开源，10天 10000 stars•当天在 GitHub 的趋势排行第一•过去10天在Huggingface趋势排行第一•开源的训练数据量达到1万亿字符的模型预训练⼤模型预训练大模型是新一代人工智能应用的基础设施 ChatGPT带来的机遇与挑战 ChatGPT的出现表明我们在大模型上的研究还存在代差同时ChatGPT仍然存在认知推理能力不足的问题，常识缺乏成功：逻辑性很强不足：缺乏常识我们的⼀点点进展清华、智谱联合在国产超算海洋之光上参与训出悟道1.75万亿模型适配国产超算的DeepSpeed兼容库清华和国家超算济南中心、智谱联合研发了GLM-130B普惠模型 Attention层的Softmax采用单精度，1%的损失极大稳定了训练训练成本由GPT-3的460万美元降至600万元千亿GLM-130B 自2022年8月发布以来，收到53个国家369个研究机构的使用需求 •Google•Microsoft•Meta•AI2•Stanford•MIT•UC Berkely•CMU•Harvard•Princeton•Cambridge 千亿GLM-130B GLM-130B与OpenAI、Google、Meta、Microsoft等基础大模型相比，在部分评估指标上具有优势 1.Liangetal.,HolisticEvaluationofLanguageModels.arXiv:2211.09110 千亿GLM-130B Stanford报告的世界主流大模型评测：亚洲唯一入选模型，准确性、恶意性与GPT-3持平，鲁棒性和校准误差在所有模型中表现最佳 3.人类反馈强化学习 OpenAIGPT系列模型 ChatGLM(v0.8) ChatGLM：JSON格式事件抽取 ChatGLM：Cosplay聊天 ChatGLM：创作剧本杀剧本写一个剧本杀大纲，关于古埃及神话，现代冒险，神秘组织。简介：本剧本杀讲述了一群现代冒险家前往古埃及探险，无意中发现了神秘组织的阴谋，他们必须联手阻止这场危机。 1.亚历山大(Alexander):一位年轻的考古学家，对古埃及文化充满热情。 2.艾米丽(Emily):一位聪明的女大学生，对古埃及神话和宗教充满兴趣。 3.布鲁斯(Bruce):一位经验丰富的探险家，擅长挖掘古代文物和宝藏。 4.珍妮(Jenny):一位神秘的女子，似乎知道很多关于神秘组织的事情。 5.神秘人(Mysterious Man):一个神秘的陌生人，经常出现在冒险家们的身边。场景：本剧本杀的场景设定在古埃及，冒险家们将在古埃及的神庙、陵墓和城市中寻找线索和答案。他们也会遇到各种古埃及神灵和神话中的生物，如奥西里斯、伊西斯、托特和哈托尔等。剧情：亚历山大是一位年轻的考古学家，他在研究古埃及文化时，发现了一些神秘的线索。他听说古埃及神话中的神灵和神话中的生物与现代世界有着神秘的联系，于是决定前往古埃及探险。 ChatGLM：创作剧本杀剧本写一个剧本杀大纲，关于古埃及神话，现代冒险，神秘组织。在古埃及，亚历山大遇到了艾米丽和布鲁斯，他们一起进入了一些古老的神庙和陵墓中寻找答案。他们发现了一些古代文物和宝藏，但也遇到了一些危险。在一次战斗中，他们无意中发现了神秘组织的阴谋。神秘组织是一个古老的组织，他们试图通过古埃及神话中的生物和神灵来掌控世界。他们计划利用这些生物和神灵来发动战争，并掌控整个世界。艾米丽和布鲁斯意识到他们的冒险家朋友已经成为了神秘组织的靶子，他们必须联手阻止这场危机。珍妮是一位神秘的女子，她似乎知道很多关于神秘组织的事情。她告诉冒险家们，神秘组织可以追溯到古埃及时期，他们一直在寻求掌控世界的力量。她告诉他们，只有找到神秘的“神器”,才能阻止神秘组织的阴谋。冒险家们踏上了寻找“神器”的旅程。他们来到了古埃及的城市，找到了一些线索。但他们很快发现，他们不仅要面对神秘组织的攻击，还要面对一些神秘的生物和神灵。他们必须利用自己的智慧和勇气，才能取得胜利。最终，冒险家们找到了“神器”,并成功地阻止了神秘组织的阴谋。但他们也明白了，神秘组织永远不会停止寻找掌控世界的力量，他们必须时刻保持警惕。结尾：本剧本杀以冒险家们成功阻止神秘组织的阴谋为背景，他们在古埃及的神庙和陵墓中冒险，寻找答案和线索。他们不仅面对着危险，还要应对一些神秘的生物和神灵。他们的胜利不仅代表着正义的胜利，也意味着古埃及神话与现代世界之间的神秘联系得到了维护。 ChatGLM的不同用途替代搜索 ChatGLM的不同用途多任务 ChatGLM的不同用途合理性 ChatGLM的不同用途数学题 ChatGLM的不同用途写代码多轮多轮多轮多轮多轮 How does this happen? 千亿模型 GPT-3:Size的重要性 •流畅的⽂本⽣成–47%的用户无法区分哪些是GPT-3生成的新闻，哪些是真实用户撰写的新闻为什么千亿(100B)⼤规模⼤规模难题：没⼈⽤得起 p规模vs.精度pOPT和BLOOM等精度相对⼀般p悟道1.75T、M610T使⽤成本太⾼p如何⽀持⽤单机推理pNVIDIAvs.国产化p封闭vs.开源训练开源开放的⾼精度千亿中英双语稠密模型，对⼤模型研究有重⼤意义训练出GPT-3本⾝就⾯临重重挑战…… p训练成本⾼昂：训练1750亿参数的GPT-3使⽤了上万块V100，机时费⽤是460万美元，总成本据悉达到1200万美元 p⼈⼒投⼊极⼤：⾕歌PaLM540B的团队：前期准备29⼈，训练过程11 p训练过程不稳定：容易出现训练不收敛现象 GLM-130B：千亿模型之旅 p8个⽉时间，从零开始解决⽆数的难题： p算法难题：千亿模型的混合精度训练⾮常不稳定，且调试困难 p模型梯度爆炸，Embedding层的过⼤梯度，Post-LN、Pre-LN和Sandwich-LN的不稳定性，DataLoader状态种⼦恢复，以及Softmax和Attention的计算精度选择…… p⼯程难题：不同架构集群上⾼效训练千亿模型是极⼤的挑战 p海光集群、A100集群、神威超算、昇腾910集群p频繁的随机硬件故障、Megatron-DeepSpeed中的3D流⽔线平衡调试、CUDAkernel效率调优、训练显存紧张、数万进程TCP初始化、Element-wise算⼦融合新型⼤模型：GLM̶⾃回归填空自然语言：生成，还是理解？ n自回归模型GPT：单向注意力，擅长长文本生成n自编码模型BERT：双向注意力，擅长文本理解n编码器-解码器模型T5：编解码，对话任务并⾏策略：⾼效训练千亿模型 p测试集群配置： pA100集群（A100）：96台DGX-A100，每台2张200GBIB⽹卡p海光GPU（Hygon）：3000台机器，每台4张DCU加速卡、4张50GIB⽹卡p申威处理器（Sunway）：8192个节点，每节点⼀块SW26010-PRO处理器硬件差异性⼤ p训练GPT-3 175B规模的模型，按照相同的300B单词量估计训练时间：⼤模型训练最⼤挑战：训练稳定性 p权衡利弊：训练稳定性（⾼精度低效）还是训练效率（低精度⾼效） pOPT-175B：训练崩溃时反复调整学习率，跳过数据（权宜之计，损失性能）pBLOOM 176B：embedding norm和BF16（损失性能，有限适配平台） GLM-130B：稳定训练⽅法 pAttention score层：Softmax in 32 避免上下溢出!!!⇥↵! AAADznicrVPNa9swFFfsbuuyr7Q77iIaBt1hwW5Lt0uhbFAGvaSwtIUoC7IsJ6Ky5UrPpZkQu+7v6233/SGTU3d0Sdmg7IF4P73v30NKSikMRNGPVhCuPHj4aPVx+8nTZ89fdNbWj42qNOMDpqTSpwk1XIqCD0CA5Kel5jRPJD9Jzj7W/pMLro1QxWeYlXyU00khMsEoeNN4rfUTY0xUyTUFpQuac2tUBjm9dETyDDZJpimzJFEyNbPcK3vkxuL2/dDfv1gCqnTOEnOuwabOES0mU3iD9/C/GtyrDZXllP5uht9i4iv+j1LN3DcKRM5NE9IwwnvtJUoH/Xj3hs/fuC4kbW/dc8t3z7w8bKPGnW7Ui+aCl0HcgC5qpD/uXJFUsSrnBTBJjRnGUQkjSzUIJrlrk8rwkrIzOuFDD2s6ZmTnz9Hh196S4kxpfwrAc+vtDEtzU7PykTmFqVn01ca7fMMKsvcjK4qyAl6w60ZZJTEoXL9tnArNGciZB5Rp4WfFbEr9ZsH/gLZfQrxIeRkcb/Xi3d7O0U53/0OzjlX0Cm2gTRSjd2gffUJ9NEAsOAzOg6+BDfvhRejCb9ehQavJeYn+kPD7L8emTUY=softmaxQiK>ipd= softmaxQiK>i↵pdmaxQiK>i↵pd= FP16softmax FP32QiK>i↵pd!⇥↵!! p调⼩ Embedding层梯度，缓解前期梯度爆炸问题 word_embedding = word_embedding * alpha + \word_embedding .detach() * (1 ‒ alpha) GLM-130B：让每个⼈都能⽤上千亿模型 p降低门槛：运⾏BLOOM/OPT⾄少需要⼀台DGX-A100（8*80G）p在保留中间计算结果为FP16的情况下，将GLM-130B的权重进⾏量化 pVector-wise对称PTQ量化⽅案pINT8下⼏乎不损失结果、INT4下只有极⼩的损失 GLM-130B：开源模型代码，免费下载（https://github.com/THUDM/GLM-130B） p双语：同时⽀持中⽂和英⽂ p⾼精度（英⽂）：在LAMBADA上优于GPT-3 175B(+4.0%)、OPT-175B(+5.5%)和BLOOM-176B(+13.0%)，在MMLU上略优于GPT-3 175B(+0.9%)p⾼精度（中⽂）：在7个零样本CLUE数据集(+24.26%)和5个零样本FewCLUE数据集(+12.75%)上明显优于ERNIE Titan 3.0 260Bp⾼效推理：⽀持⽤⼀台A100 (8 * 40G)/V100 (8 * 32G)服务器基于FasterTransformer进⾏快速推理（相⽐Megatron提速最⾼可达2.5倍）p低门槛推理：最低量化⾄INT4，允许在4张3090/ 8张2080Ti上完成推理p跨平台：⽀持在NVIDIA、海光DCU、昇腾910和神威处理器上的训练 How does this happen? 本质理论静态表⽰学习 •“You shall know a word by the company it keeps.”—John Rupert Firth •Learn static word representation Applev.s. Apple? Transformer的动态表⽰能⼒ •Dynamic representation•Large Key-Value Networks can substitute Large FFNs in transformers ⼤模型带来的in-context能⼒ •In-context Learnin

点击免费查看完整报告

从千亿模型到ChatGPT的一点思考2023

研报总结

主要发现与讨论

结论

你可能感兴趣

保险行业专题研究之八：从评估价值法到DDM模型的寿险估值思考

电子元器件行业深度分析：从技术演进角度-关于苹果零部件的一点假设和思考

传媒行业AI专题报告之一：AIGC与ChatGPT正掀起新一轮的产业浪潮，从“上网”到“上算”，由“网络世界”至“虚拟现实”

2023全域用户经营白皮书：STAR模型，从用户运营到生意增长

2023餐饮从流量运营到顾客运营-顾客增长型营销模型培训课件【餐饮】

通信行业周报：云通讯：从0到1的行业，未来千亿企业通讯服务市场即将爆发

传化集团有限公司管控诊断报告：从百亿到千亿，跨越式发展过程中的管理困惑

改性塑料：从家电到新能源，千亿市场的 “性能升级王”

深度研究报告：千亿市值龙头公司系列研究（一）：深度研究报告:从优秀到卓越，做时间的朋友

商贸零售：消费增长新范式思考系列-破局“降级与内卷”的增长新模型，从老铺黄金和毛戈平谈起