您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:从千亿模型到ChatGPT的一点思考2023 - 发现报告
当前位置:首页/行业研究/报告详情/

从千亿模型到ChatGPT的一点思考2023

从千亿模型到ChatGPT的一点思考2023

1从千亿模型到ChatGPT的一点思考清华大学计算机系知识工程实验室(KEG)唐杰 2试试我们的系统•ChatGLM-6B开源,10天10000stars•当天在GitHub的趋势排行第一•过去10天在Huggingface趋势排行第一•开源的训练数据量达到1万亿字符的模型 3预训练大模型预训练大模型是新一代人工智能应用的基础设施nTransformer应用在OpenAIGPT 1中,Transformer架构是预训练大模型的技术基础2018年GPT模型参数1.1 亿大模型从单模态向多模态发展,从文本逐步发展到视觉、虚实迁移控制大模型通用能力强,可完成多场景任务,降低成本,提高效率现有300+应用基于OpenAIGPT-3开发OpenAI与阿里、智源均已推出多模态模型大模型已成为各国人工智能技术新方向,亟需建立以中文为核心的超大规模预训练模型nOpenAIGPT 2.0nBAIDU Ernie 1.0,基于Bert 模型做进一步优化2019年GPT -2模型参数15亿nOpenAIGPT 3,跨时代意义的语言大模型,标志着AI文本生成到下一个阶段2020年GPT -3模型参数1750亿悟道2.0模型参数1.75 万亿nDALL-E / Clip:OpenAI大规模图像模型, 可基于短文本生成对应图像和进行图像分类nAliceMind:阿里大规模多模态模型,集合语言理解与生成能力2021年DALL-E 模型参数1.6 万亿n出现大规模基于预训练模型的应用nGLM -130B: 125T中英文文本6亿图+千万级视频千万级别知识图谱nChatGPT: 在问答模型中引入人类反馈强化学习,大幅提升生成结果质量2022年GLM -130B大模型模型参数1300亿GPT -2GPT -3ChatGPTnChatGLM: 基于GLM -130B底座,具备问答和对话功能的千亿中英双语模型nGPT -4: 多模态大模型,可同时实现图像和文本输入nErnie Bot(文心一言):百度全新一代知识增强大语言模型2023年ChatGPT, GPT-4ChatGLMDALL·EGPT -4DALL·E 4ChatGPT带来的机遇与挑战4ChatGPT的出现表明我们在大模型上的研究还存在代差同时ChatGPT仍然存在认知推理能力不足的问题,常识缺乏成功:逻辑性很强不足:缺乏常识 6我们的一点点进展6清华、智谱联合在国产超算海洋之光上参与训出悟道1.75万亿模型全机性能单精度混合精度万亿模型647 PFLOPS1.18 EFLOPS十万亿模型525 PFLOPS1.00 EFLOPS百万亿模型198 PFLOPS230 PFLOPS适配国产超算的DeepSpeed兼容库系统算法协同设计,具备全机训练百万亿模型的能力国家超算济南中心智谱清华国实集团国产大模型清华和国家超算济南中心、智谱联合研发了GLM-130B普惠模型训练成本由GPT-3的460万美元降至600万元Attention层的Softmax采用单精度,1%的损失极大稳定了训练 7千亿GLM-130B基础架构训练方式量化加速跨平台能力GPT3 -175BGPT自监督预训练——NVIDIA BLOOM-176BGPT自监督预训练INT8MegatronNVIDIAGLM -130BGLM自监督预训练和多任务预训练INT 8/INT4FasterTransformerNVIDIA、海光 DCU 、昇腾910 和申威对比优势高精度:•Big -bench-lite:+5.2% •LAMBADA:+2.3 % •CLUE: +24.3% •FewCLUE:+12.8% 普惠推理:节省75%内存可单台3090(4)或单台2080Ti(8)进行无损推理高速推理:比Pytorch提速7-8.4倍Megatron提速2.5倍跨平台:支持更多不同的大规模语言模型的适配英文: 在MMLU 、LAMBADA、BIG -bench -lite等超过GPT -3, OPT, PaLM自2022年8月发布以来,收到53个国家369个研究机构的使用需求•Google•Microsoft•Meta•AI2•Stanford•MIT•UC Berkely•CMU•Harvard•Princeton•Cambridge•华为•百度•阿里巴巴•腾讯•头条•滴滴•建设银行•智源•小冰•小米•北京大学•浙江大学•上海交大•中科大•复旦大学•中科院大学•香港大学•香港科技大学•清华大学中文:在CLUE 和FewCLUE上远超ERNIE 3.0, Yuan 8千亿GLM-130BGLM-130B与OpenAI、Google、Meta、Microsoft等基础大模型相比,在部分评估指标上具有优势1.Liangetal.,HolisticEvaluationofLanguageModels.arXiv:2211.09110 9千亿GLM-130BStanford报告的世界主流大模型评测:亚洲唯一入选模型,准确性、恶意性与GPT-3持平,鲁棒性和校准误差在所有模型中表现最佳InstructGPTdavinciv2(175B*)GPT-3 davinciv1(175B)GLM(130B)BLOOM(176B)UL2(20B)YaLM(100B)OPT(175B)指令提示微调0.01.00.5准确性AccuracyInstructGPTdavinciv2(175B*)GPT-3 davinciv1(175B)GLM(130B)BLOOM(176B)UL2(20B)YaLM(100B)OPT(175B)0.01.00.5指令提示微调鲁棒性RobustnessBig-bench-lite:+5.2% LAMBADA:+2.3% CLUE: +24.3% FewCLUE:+12.8% 30+评测SOTA双语高精度4*RTX3090可运行其他千亿模型的1/10INT8/4模型量化2-3倍推理加速高可用、低成本NVIDIAGPU、昇腾910、海光DCU、申威等芯片适配多平台适配1.Liangetal.,HolisticEvaluationofLanguageModels.arXiv:2211.09110校准误差Calibration error恶意性ToxicityInstructGPTdavinciv2(175B*)GPT-3 davinciv1(175B)GLM(130B)BLOOM(176B)UL2(20B)YaLM(100B)OPT(175B)0.01.00.5指令提示微调InstructGPTdavinciv2(175B*)GPT-3 davinciv1(175B)GLM(130B)BLOOM(176B)UL2(20B)YaLM(100B)OPT(175B)0.01.00.5指令提示微调 11OpenAIGPT系列模型GPT-2十亿模型GPT-3davinci千亿基座Codex百亿模型code-davinci-002代码数据预训练text-davinci-002InstructGPT有监督指令微调text-davinci-003(RLHF)ChatGPT(RLHF)18年6月19年2月20年5月21年7月21年底22年11月23年2月GitHubCopilot人类反馈强化学习1.千亿基座模型2.有监督指令微调3.人类反馈强化学习读书受教育社会接轨GPT-3.5GPT-3+RLHFGPT-4GPT-1NewBing(GPT-4)23年3月WebGPT(RLHF) 12OpenAIGPT系列模型GPT-2十亿模型GPT-3davinci千亿基座Codex百亿模型code-davinci-002代码数据预训练text-davinci-002InstructGPT有监督指令微调text-davinci-003(RLHF)ChatGPT(RLHF)18年6月19年2月20年5月21年7月21年底22年11月23年2月GitHubCopilot人类反馈强化学习读书受教育社会接轨GPT-3.5GPT-3+RLHFGPT-4GPT-1NewBing(GPT-4)23年3月WebGPT(RLHF)GLM百亿模型清华&智谱GLM系列模型ChatGLM(SFT+RLHF)GLM-130B千亿模型CodeGeeX百亿模型VSCode/JetBrainsCodeGeeX插件20年11月22年8月21年5月mGLM十亿多语言ChatGLM-6B(SFT+RLHF)QAGLMWebGLM 14OpenAIGPT系列模型GPT-3davinci千亿基座读书受教育社会接轨清华&智谱GLM系列模型GLM-130B千亿模型数据神经网络预训练架构3000亿标识符2000亿中文2000亿英文GPT自回归生成GLM自回归填空Transformer(1750亿参数)Transformer(1300亿参数) 15ChatGLM(v0.8)15 16ChatGLM:JSON格式事件抽取 17ChatGLM:Cosplay聊天 18ChatGLM:创作剧本杀剧本写一个剧本杀大纲,关于古埃及神话,现代冒险,神秘组织。标题:古埃及神话的现代冒险简介:本剧本杀讲述了一群现代冒险家前往古埃及探险,无意中发现了神秘组织的阴谋,他们必须联手阻止这场危机。角色:1.亚历山大(Alexander):一位年轻的考古学家,对古埃及文化充满热情。2.艾米丽(Emily):一位聪明的女大学生,对古埃及神话和宗教充满兴趣。3.布鲁斯(Bruce):一位经验丰富的探险家,擅长挖掘古代文物和宝藏。4.珍妮(Jenny):一位神秘的女子,似乎知道很多关于神秘组织的事情。5.神秘人(Mysterious Man):一个神秘的陌生人,经常出现在冒险家们的身边。场景:本剧本杀的场景设定在古埃及,冒险家们将在古埃及的神庙、陵墓和城市中寻找线索和答案。他们也会遇到各种古埃及神灵和神话中的生物,如奥西里斯、伊西斯、托特和哈托尔等。剧情:亚历山大是一位年轻的考古学家,他在研究古埃及文化时,发现了一些神秘的线索。他听说古埃及神话中的神灵和神话中的生物与现代世界有着神秘的联系,于是决定前往古埃及探险。 19ChatGLM:创作剧本杀剧本写一个剧本杀大纲,关于古埃及神话,现代冒险,神秘组织。在古埃及,亚历山大遇到了艾米丽和布鲁斯,他们一起进入了一些古老的神庙和陵墓中寻找答案。他们发现了一些古代文物和宝藏,但也遇到了一些危险。在一次战斗中,他们无意中发现了神秘组织的阴谋。神秘组织是一个古老的组织,他们试图通过古埃及神话中的生物和神灵来掌控世界。他们计划利用这些生物和神灵来发动战争,并掌控整个世界。艾米丽和布鲁斯意识到他们的冒险家朋友已经成为了神秘组织的靶子,他们必须联手阻止这场危机。珍妮是一位神秘的女子,她似乎知道很多关于神秘组织的事情。她告诉冒险家们,神秘组织可以追溯到古埃及时期,他们一直在寻求掌控世界的力量。她告诉他们,只有找到神秘的“神器”,才能阻止神秘组织的阴谋。冒险家们踏上了寻找“神器”的旅程。他们来到了古埃及的城市,找到了一些线索。但他们很快发现,他们不仅要面对神秘组织的攻击,还要面对一些神秘的生物和神灵。他们必须利用自己的智慧和勇气,才能取得胜利。最终,冒险家们找到了“神器”,并成功地阻止了神秘组织的阴谋。但他们也明白了,神秘组织永远不会停止寻找掌控世界的力量,他们必须时刻保持警惕。结尾:本剧本杀以冒险家们成功阻止神秘组织的阴谋为背景,他们在古埃及的神庙和陵墓中冒险,寻找答案和线索。他们不仅面对着危险,还要应对一些神秘的生物和神灵。他们的胜利不仅代表着正义的胜利,也意味着古埃及神话与现代世界之间的神秘联系得到了维护。 20ChatGLM的不同用途替代搜索 21ChatGLM的不同用途21多任务 22ChatGLM的不同用途22合理性 23ChatGLM的不同用途2