您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[浙江大学]:大模型:从单词接龙到行业落地 - 发现报告

大模型:从单词接龙到行业落地

AI智能总结
查看更多
大模型:从单词接龙到行业落地

杨洋,浙江大学 教学用途声明:本PPT包含部分来源于网络的素材,仅供教学使用,非商业用途,版权归原作者所有 人工智能前夜:图灵测试 o图灵测试会在测试人在与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。 o问过一些问题后,如果超过30%的答复不能使测试人认出哪个是人、哪个是机器的回答,那么这台机器就通过了测试,并被认为具有人类智能。 人工智能前夜:图灵测试 o在提出图灵测试的《计算机器与智能》一文里,图灵描述了想象中未来的智能计算机测试可能的样子(人提出问题,计算机回答): Q:请给我写一首有关福思桥(ForthBridge)主题的十四行诗。A:这种事情别找我。我从来都不会写诗。文学 Q:34957+70764等于多少?A:(停顿了约30秒后再给出答案)105621。 数学 Q:在国际象棋中,我在K1处有一个王,除此之外没有棋子了。你在K6处有一个王且在R1处有一个车。现在你会怎么走? 逻辑 A:(15秒停顿后)将车移动到R8,然后将死。 大模型与图灵测试 数学 文学 逻辑 大语言模型:单词接龙 大语言模型:单词接龙 大语言模型:单词接龙 大语言模型:单词接龙 大语言模型:单词接龙 单词接龙:通过条件概率计算实现 o给定上下文(Context),计算下一个生成词(Token)的概率 o根据所计算的条件概率进行采样获得生成词,拼接至上下文末尾,并预测下一个生成词,直至生成一个结束符(End-of-Sequence,EOS) o利用Transformer计算条件概率 将各类下游任务转化为单词接龙 输入:景点(如断桥残雪)输出:该景点所在城市 传统机器学习模型 拆分成一连串的单词接龙 为什么单词接龙? 针对特定任务的端到端学习 训练数据:需要标注,成本高 <断桥残雪,杭州>,<长城,北京>,<故宫,北京>…标注输入数据 预训练-微调:机器学习新范式 预训练 杭州是中国浙江省的省会城市,是一座历史悠久且富有文化的城市,被誉为“人间天堂”。它位于中国东南沿海的长江三角洲经济区,拥有丰富的自然景观和人文遗产。杭州以西湖著称,西湖是中国著名的风景名胜,也被列入了世界文化遗产。除了西湖,杭州还有其他许多著名的景点,如京杭大运河、钱塘江、灵隐寺、断桥等。 采样很多句子做单词接龙 如何培育小火龙,成为宝可梦世界冠军? 如何培育小火龙,成为宝可梦世界冠军? 端到端学习(应试教育) 如何培育小火龙,成为宝可梦世界冠军? 1、多功能火恐龙2、灵活运用技能 预训练(素质教育) 预训练的优势:从训练的角度 预训练数据:网页、书籍、新闻、对话等多种类型的无标注数据 杭州是中国浙江省的省会城市,是一座历史悠久且富有文化的城市,被誉为“人间天堂”。它位于中国东南沿海的长江三角洲经济区,拥有丰富的自然景观和人文遗产。杭州以西湖著称,西湖是中国著名的风景名胜,也被列入了世界文化遗产。除了西湖,杭州还有其他许多著名的景点,如京杭大运河、钱塘江、灵隐寺、断桥等。 10月下旬,这则消息引发广泛关注。玛莎拉蒂母公司斯泰兰蒂斯集团15亿欧元入股浙江零跑科技股份有限公司,10月下旬,这则消息引发广泛关注。拥有自研智能动力、智能网联、智能驾驶三大核心技术,工厂预计年产可达70万辆……在零跑科技创始人朱江明看来,这次强强联合,将是企业欧洲布局的重要一步。 传统NLP任务鲜有超过1GB的标注数据用于模型训练GPT3使用45TB数据进行预训练 大模型从海量无标注数据中学习了物理世界的知识以及人类遣词造句的模式 预训练的优势:从应用的角度 大模型的训练 监督微调(SFT):通过经标注的[输入-输出]对数据调整模型部分参数,优化特定任务性能指令微调(InstructionTuning):通过[指令-输出]对使模型泛化到未见过的指令<5% 大模型的训练 监督微调(SFT):通过经标注的[输入-输出]对数据调整模型部分参数,优化特定任务性能指令微调(InstructionTuning):通过[指令-输出]对使模型泛化到未见过的指令强化学习(RLHF):通过人类对回答的评分训练奖励模型,再用强化学习对齐人类偏好(如安全性、流畅性等) 如何让大模型输出更好的结果? 如何让大模型输出更好的结果? 如何让大模型输出更好的结果? 如何让大模型输出更好的结果? 大模型的三大问题 幻觉 过时 “在一个黑暗的夜晚,古堡里的居民们聚在壁炉旁...” 2024年欧洲杯西班牙赢了几场比赛? “..突然,一群穿着未来科技装备的士兵从天而降,他们携带着激光枪,手中高举光剑,准备与古堡中的恐龙进行战斗。” 很抱歉,作为一个基于GPT-3.5的语言模型,我的知识截止时间是2021年无法提供2024年欧洲杯的最新情况 检索增强生成(RAG) 使用案例 RAG的优势 明确信息的来源,提升可解释性 幻觉 利用外部数据源补充长尾知识 偏见 利用互联网保持信息及时性 过时 实现轻量级的垂域私有化部署 思维链“咒语” 思维链背后的启示 “快思考”模型答案生成方式: “慢思考”模型答案生成方式: Pr(答案|问题)问题---->答案 Pr(答案|问题,思考)问题---->思考---->答案 推理时扩展(Test-timeScaling) o扩展大规模自监督预训练阶段的计算量→扩展推理时的计算资源以获得更好的结果 S1-32B(SFT+budgetforcing):通过接龙”wait”引导模型进行自我反思 模型准确率随着推理时token数的增加而提升 如何训练大模型自主生成思维链 监督学习Vs.强化学习 监督学习:通过标注数据学习输入到输出的映射,本质上是在模仿人类标注者的决策行为 挑战: o长思维链过程标注难度大、成本高;o能够正确解题的思维链并不唯一,人工标注的COT甚至不一定是最优解 监督学习Vs.强化学习 强化学习 如何学习策略 DeepSeekR1 o基于规则的奖励模型 o准确性奖励(Accuracyrewards):用于评估回答是否正确。例如,在数学题中验证模型解答的正确性;在LeetCode编程题中,使用编译器执行生成的代码,并基于测试用例生成反馈。 o格式奖励(Formatrewards):强制模型将推理过程置于<think>和</think>标签之间,以确保输出结构符合要求。 用于训练R1的模板 评审叮当:大模型赋能智慧评审 n基于LLM的智慧评审 n『评审叮当』平台基于大语言模型技术,提供多专业、多类别项目与多环节的智能评审助力,有效提升项目质量管理,缓解专家压力。 n提供:领域规范知识仓库问答、专业项目合规性预审、申报材料智慧评审、项目智能查重等多项技术支持。 时间序列数据 40过去 应用场景:癫痫预测 应用场景:癫痫预测 问题构建 传统的端到端学习 个体层面的泛化 任务层面的泛化 领域层面的泛化 有待深入研究 广泛的现有工作 脑信号的扩散 ❑脑信号的扩散:脑信号被认为在不同脑区之间传播。 –脑波活动的传播路径是统一建模脑信号的关键因素。 Brant:面相颅内脑信号的基础模型 •Brant1.0在一个1.01TB的颅内数据集上进行了预训练•能够捕捉长期时间依赖性和空间相关性•在个体水平和任务水平上都具有泛化能力 49•DaozeZhang*,ZhizhangYuan*,YangYang,JunruChen,andYafengLi.Brant:FoundationModelforIntracranialNeuralSignal.InNeurIPS,2023. 模型规模 •与现有脑信号模型的比较 实验结果 •下游任务:预测、插补、癫痫检测•基线:对脑信号/一般时间序列进行预训练 电力系统中的挑战 不同行业之间的差异 PowerPM:电力系统基础模型 通过捕捉行业之间的上下游关系,基于海量电力数据(电量、负荷、线损),训练电力领域的时序基础模型PowerPM,模型参数量为10亿。 54•ShihaoTu,YupengZhang,JingZhang,ZhendongFu,YinZhang,andYangYang.PowerPM:FoundationModelforPowerSystems.InNeurIPS,2024. 实验结果 •实验验证了统一模型在44个不同任务上的有效性,这些任务可以分为16个主要类别。 -面相(独占用户/不同地区/城市的公共用户)的电力负荷、电力消耗和太阳能发电进行预测/填补 -窃电检测-独居老人检测-高功率电器检测-用户性别分类-用户年龄分类-家庭结构分类