杨洋,浙江大学
教学用途声明:本PPT包含部分来源于网络的素材,仅供教学使用,非商业用途,版权归原作者所有
人工智能前夜:图灵测试
o图灵测试会在测试人在与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。
o问过一些问题后,如果超过30%的答复不能使测试人认出哪个是人、哪个是机器的回答,那么这台机器就通过了测试,并被认为具有人类智能。
人工智能前夜:图灵测试
o在提出图灵测试的《计算机器与智能》一文里,图灵描述了想象中未来的智能计算机测试可能的样子(人提出问题,计算机回答):
Q:请给我写一首有关福思桥(ForthBridge)主题的十四行诗。A:这种事情别找我。我从来都不会写诗。文学
Q:34957+70764等于多少?A:(停顿了约30秒后再给出答案)105621。
数学
Q:在国际象棋中,我在K1处有一个王,除此之外没有棋子了。你在K6处有一个王且在R1处有一个车。现在你会怎么走?
逻辑
A:(15秒停顿后)将车移动到R8,然后将死。
大模型与图灵测试
数学
文学
逻辑
大语言模型:单词接龙
大语言模型:单词接龙
大语言模型:单词接龙
大语言模型:单词接龙
大语言模型:单词接龙
单词接龙:通过条件概率计算实现
o给定上下文(Context),计算下一个生成词(Token)的概率
o根据所计算的条件概率进行采样获得生成词,拼接至上下文末尾,并预测下一个生成词,直至生成一个结束符(End-of-Sequence,EOS)
o利用Transformer计算条件概率
将各类下游任务转化为单词接龙
输入:景点(如断桥残雪)输出:该景点所在城市
传统机器学习模型
拆分成一连串的单词接龙
为什么单词接龙?
针对特定任务的端到端学习
训练数据:需要标注,成本高
<断桥残雪,杭州>,<长城,北京>,<故宫,北京>…标注输入数据
预训练-微调:机器学习新范式
预训练
杭州是中国浙江省的省会城市,是一座历史悠久且富有文化的城市,被誉为“人间天堂”。它位于中国东南沿海的长江三角洲经济区,拥有丰富的自然景观和人文遗产。杭州以西湖著称,西湖是中国著名的风景名胜,也被列入了世界文化遗产。除了西湖,杭州还有其他许多著名的景点,如京杭大运河、钱塘江、灵隐寺、断桥等。
采样很多句子做单词接龙
如何培育小火龙,成为宝可梦世界冠军?
如何培育小火龙,成为宝可梦世界冠军?
端到端学习(应试教育)
如何培育小火龙,成为宝可梦世界冠军?
1、多功能火恐龙2、灵活运用技能
预训练(素质教育)
预训练的优势:从训练的角度
预训练数据:网页、书籍、新闻、对话等多种类型的无标注数据
杭州是中国浙江省的省会城市,是一座历史悠久且富有文化的城市,被誉为“人间天堂”。它位于中国东南沿海的长江三角洲经济区,拥有丰富的自然景观和人文遗产。杭州以西湖著称,西湖是中国著名的风景名胜,也被列入了世界文化遗产。除了西湖,杭州还有其他许多著名的景点,如京杭大运河、钱塘江、灵隐寺、断桥等。
10月下旬,这则消息引发广泛关注。玛莎拉蒂母公司斯泰兰蒂斯集团15亿欧元入股浙江零跑科技股份有限公司,10月下旬,这则消息引发广泛关注。拥有自研智能动力、智能网联、智能驾驶三大核心技术,工厂预计年产可达70万辆……在零跑科技创始人朱江明看来,这次强强联合,将是企业欧洲布局的重要一步。
传统NLP任务鲜有超过1GB的标注数据用于模型训练GPT3使用45TB数据进行预训练
大模型从海量无标注数据中学习了物理世界的知识以及人类遣词造句的模式
预训练的优势:从应用的角度
大模型的训练
监督微调(SFT):通过经标注的[输入-输出]对数据调整模型部分参数,优化特定任务性能指令微调(InstructionTuning):通过[指令-输出]对使模型泛化到未见过的指令<5%
大模型的训练
监督微调(SFT):通过经标注的[输入-输出]对数据调整模型部分参数,优化特定任务性能指令微调(InstructionTuning):通过[指令-输出]对使模型泛化到未见过的指令强化学习(RLHF):通过人类对回答的评分训练奖励模型,再用强化学习对齐人类偏好(如安全性、流畅性等)
如何让大模型输出更好的结果?
如何让大模型输出更好的结果?
如何让大模型输出更好的结果?
如何让大模型输出更好的结果?
大模型的三大问题
幻觉
过时
“在一个黑暗的夜晚,古堡里的居民们聚在壁炉旁...”
2024年欧洲杯西班牙赢了几场比赛?
“..突然,一群穿着未来科技装备的士兵从天而降,他们携带着激光枪,手中高举光剑,准备与古堡中的恐龙进行战斗。”
很抱歉,作为一个基于GPT-3.5的语言模型,我的知识截止时间是2021年无法提供2024年欧洲杯的最新情况
检索增强生成(RAG)
使用案例
RAG的优势
明确信息的来源,提升可解释性
幻觉
利用外部数据源补充长尾知识
偏见
利用互联网保持信息及时性
过时
实现轻量级的垂域私有化部署
思维链“咒语”
思维链背后的启示
“快思考”模型答案生成方式:
“慢思考”模型答案生成方式:
Pr(答案|问题)问题---->答案
Pr(答案|问题,思考)问题---->思考---->答案
推理时扩展(Test-timeScaling)
o扩展大规模自监督预训练阶段的计算量→扩展推理时的计算资源以获得更好的结果
S1-32B(SFT+budgetforcing):通过接龙”wait”引导模型进行自我反思
模型准确率随着推理时token数的增加而提升
如何训练大模型自主生成思维链
监督学习Vs.强化学习
监督学习:通过标注数据学习输入到输出的映射,本质上是在模仿人类标注者的决策行为
挑战:
o长思维链过程标注难度大、成本高;o能够正确解题的思维链并不唯一,人工标注的COT甚至不一定是最优解
监督学习Vs.强化学习
强化学习
如何学习策略
DeepSeekR1
o基于规则的奖励模型
o准确性奖励(Accuracyrewards):用于评估回答是否正确。例如,在数学题中验证模型解答的正确性;在LeetCode编程题中,使用编译器执行生成的代码,并基于测试用例生成反馈。
o格式奖励(Formatrewards):强制模型将推理过程置于