AI智能总结
大 模 型 : 原 理 、 进 展 及 其 影 响 大 模 型 : 原 理 、 进 展 及 其 影 响 报 告 人 : 文 继 荣 中 国 人 民 大 学 信 息 学 院 院 长中 国 人 民 大 学 高 瓴 人 工 智 能 学 院 执 行 院 长国 家 高 层 次 人 才2 0 2 3年9月 一、大模型的背景和原理 目录 二、大模型的飞速发展及趋势 三、大模型的深刻影响 ChatGPT开启了大模型浪潮 •OpenAI公司开发的大型语言模型–通过从大规模语料库中学习语言规律,从而生成与人类语言相似的输出•表现为一个对话机器人,能够理解自然语言,进行高质量的多轮对话–拟人化程度惊人,被认为是人工智能里程碑式的突破 2022年11月30日发布,5天获得100万用户,今年1月份月活跃用户数达1亿 比尔盖茨:ChatGPT的重要性不亚于互联网的发明 ChatGPT的特点 理解人类语言是人类探索文明发展的重要目标 世界与语言 假 设 :世 界 知 识 和 人 类 认 知 能 力 蕴 含 在 人 类 语 言 中问 题 : •可以对人类语言建模吗?•语言模型是否能作为世界知识模型?•语言模型是否具有人类认知能力? 人脑(神经网络) 语言模型(人工神经网络) 高瓴人工智能学院是中国人民大学下属学院…… 高瓴人工智能学院是中国人民大学下属学院…… 语言智能的探索历程 语言模型的演进图 统计语言模型(Statistical Language Model) 困难 •组合爆炸,无法考虑较宽的上下文•泛化性差,字词之间没有关联•数据、算力不够 生成式语言模型(Generative Language Model) GPT l下一个词预测:文字接龙 lThe chef cooked the meal.lThe chef cooked the meal. 突破 •引入注意力机制解决长程上下文依赖问题•多层神经网络抽象解决泛化问题•海量数据训练、巨大算力支持 掩码语言模型(Masked Language Model) BERT l文本Mask:完形填空 lThe chef cooked the meal.lThe chef cooked the meal. ChatGPT的发展路径 ChatGPT的法宝之一:大!(自主学习) lChatGPT:大力出奇迹的典范,大数据、大模型、大算力lGPT-3:1750亿参数量,训练一次消耗1200万美元 ChatGPT的法宝之一:大!(自主学习) 涌现能力:书读百遍,其义自见 ChatGPT的法宝之二:思维链(逻辑训练) l思维链CoT(Chain of Thought):由Google于2022年提出 Ø大模型可能难以直接解决一个困难的大问题。Ø可以在提问时加入引导,将大问题拆分为多个简单的小问题,从而得到解答 ChatGPT的法宝之二:思维链(逻辑训练) l思维链CoT(Chain of Thought):由Google于2022年提出Ø或者只给一个提示,就可以对大模型进行引导,提示其逐步地解决问题ØLet’s think step by step. Codex 引入代码能力和思维链能力 ChatGPT的法宝之三:人在回路强化学习(价值观对齐) lRLHF(Reinforcement Learning with Human Feedback):Ø收集人类真实指令,并且聘用了专门的合同工写回答用于初始训练 ChatGPT的法宝之三:人在回路强化学习(价值观对齐) lRLHF(Reinforcement Learning with Human Feedback):Ø使用上述模型得到多个预测结果,请人按照回答质量排序,训练出一个打分模型 ChatGPT的法宝之三:人在回路强化学习(价值观对齐) lRLHF(Reinforcement Learning with Human Feedback): Ø进一步加速训练过程:使用上述训练模型生成结果,上述打分模型自动评估训练效果。 l传统强化学习:Agent根据反馈(rewards)选择策略lRLHF:Ø预测模型扮演Agent,进行策略选择Ø评分模型提供rewards ChatGPT的法宝之四:数据闭环+系统工程 OpenA1在2015年作为一个非盈利实验室运营,但为了吸引外部资金,已在2019年转向了有限利润(Capped-profit)模式 收集用户反馈,快速分析迭代:ChatGPT开放近一周,最初一些问题(例如常识问题,安全问题)均快速闭环。 OpenAI CEO Sam Altman说在OpenAl取得关注的背后,微软(尤其是Azure)做了大量出色的工作。 使用垂域数据或人类标注反馈数据持续训练,增强模型能力。• API收集数据:GPT-3通过API向个人和企业提供服务,基于Playground和商用场景收集用户真实使用数据(2.5年数据)。•寻找合作伙伴获取训练数据:面向对话场景,和Twitter合作每天有大量人与人交互的数据产生,从而可以更好模拟人类说话的方式。面向开发者场景,和微软合作基于Github5400万开源项目,获取包括159GB Python代码作为训练数据。•自建高质量finetune数据:面向问答场景,严格筛选40位高质量数据标员标注共约5万条prompt数据。 数据收集和标注工作是复杂的系统工程:1)严格选择数据标注员,确保其多样性。2)对标注员进行培训,确保和项目目标对齐,3)开发web标注页面,确保从多维度反馈信息(不仅是"好与不好”) 问:10公厅铁和10公后棉在哪个更重?12月2号的回答:是铁更重12月8号的回答:是一样重,但是棉花有可能吸收空气中的水分从而更重一些,不过重量的差异其实很小 ChatGPT优秀体验的原因:1)依托强大的基础模型能力,是长期技术积累的结果;2)重视数据:持续收集和构建高质量数据集(含人工标注)对模型持续训练和优化;3)快速迭代:快速速触达用户和商业场景,收集真实业务数据和用户反馈,分析理解问题,积累经验,迭代产品;4)系统工程:不仅是训练模型,是端到端复杂的系统工程;5)细节决定成败:以上工作不仅很系统,而且很细致到位 ChatGPT的不足 •无法实时纳入新知识•特别专业的知识还不足•推理计算能力仍不足,可能会一本正经地胡说八道•只支持文本生成•算力消耗巨大•…… 但是这些问题大都是工程问题,不存在不可逾越的理论障碍 一、大模型的背景和原理 目录 二、大模型的飞速发展及趋势 三、大模型的深刻影响 大模型仍在飞速发展演进 扩展知识和技能 •Toolformer: Language Models Can Teach Themselves to Use Tools. Meta AI Research.Feb 2023 •在生成文本的过程中,遇到特定的任务,Toolformer会直接调用所需工具的API•比如说,在执行这个任务:1400名参与者,有400人通过了测试,占多大比例?Toolformer直接“掏出”计算器,现场计算得出结果:29%。 连接物理世界 •ChatGPTfor Robotics: Design Principles and Model Abilities, MicrosoftResearch.Feb 2023•用ChatGPT的语言交互能力操纵机器人 2023年3月15日:GPT-4发布! 令人震撼的新能力 •图片识别理解•更强的推理和更高的准确性•文字输入限制提升至2.5万字•…… 多模态支持–看图推理 问:(看图)手套掉下去会怎样? 答:它会掉到木板上,并且球会被弹飞。 逻辑性和正确性–做物理题 GPT-4解巴黎综合理工学院的一道物理题,题目是法语,解答用英语。 2023年3月16日:GPT-4全面接入Office l3月16日,微软正式宣布推出Microsoft 365 Copilot,将GPT-4全面接入Office。 lCEO纳德拉在发布会上称:今天,进入人机交互的新时代,重新发明生产力。 GPT-4接入Excel •Copilot可以从Excel数据中直接生成战略分析 2023年3月23日:ChatGPT插件发布 •ChatGPT的应用商店来了!ØOpenAI开始建立应用生态 安装插件 在需要的地方用自然语言调用插件 我正在旧金山,这个周末想吃素食,能不能建议下,我周六去哪家餐馆,周日按什么食谱做菜?请用WolframAlpha计算出食谱的热量,最后在Instacart上订购食材。 找餐馆 计算热量 订购食材 2023年4月:自主智能体 “An autonomous agent is a system situated withinand a part of an environment that sensesthatenvironment and acts on it, over time, in pursuit ofits own agenda and so as to effectwhat it sensesin the future.” Franklin andGraesser(1997) 2023年3月22日:《暂停大型人工智能研究》公开信 2023年4月28日,政治局会议首提“通用人工智能” 中共中央政治局2023年4月28日召开会议,会议指出“要重视通用人工智能发展,营造创新生态,重视防范风险。” 一、大模型的背景和原理 目录 二、大模型的飞速发展及趋势 三、大模型的深刻影响 ChatGPT带来的虚假信息风险 •冒名问题(学术不端) •美国有9成的大学学生利用ChatGPT完成作业•一些公开发表的学术论文也将ChatGPT列为共同作者乃至第一作者•ChatGPT生成的文本与人类创作的文本极其相似,达到了足以以假乱真的程度 •虚假信息传播 •杭州一业主使用ChatGPT写了一篇杭州取消限行的新闻稿•根据NewsGuard(一家追踪网络虚假信息的公司)的调查,借助ChatGPT,人们可以以惊人的规模和频率编造虚假信息,并且这些信息显得越来越可信和有说服力;•虽然OpenAI声称其使用机器和人工来监控和过滤ChatGPT输入和生成的内容,但是从实际的效果来看,仍然存在着一些漏洞•ChatGPT有可能成为有史以来在互联网上传播虚假信息的最强大工具 ChatGPT带来的价值观风险 •ChatGPT的价值观倾向 •AI机器人是有倾向的,或者更加确切地说,即便希望避免政治倾向,恐怕也很难避免。 •有网友利用Political Compass(一套主流的政治倾向测试)对ChatGPT进行测试,发现针对其中的大多数问题,ChatGPT的回答更加接近于西方左翼的立场。 ChatGPT带来的价值观风险 •ChatGPT的价值观来源 •数据:ChatGPT训练数据本身可能就隐含着特定的价值倾向 •方法:ChatGPT模型所使用的训练方法也使得人们有机会将特定的价值观融入到模型当中,“微调”数据集是由人工审查员根据OpenAI提供的指南进行审查而生成的。这一过程实际上融入了OpenAI指南中所奉行的价值观,甚至有可能融入了人工审查员个人的价值倾向。 •用户:ChatGPT升级版允许用户个人来设定ChatGPT的价值观,如果这一功能可以实现,那么ChatGPT的价值观将随着用户的需求变得更加个性化。 ChatGPT带来的黑箱风险 •不确定性 •ChatGPT输出的结果具有一定的不确定性,可能会产生一些误导性回答、充满偏见的回答以及泄露敏感信息,造成一些不利后果。由于ChatGPT作答的具体过程是个“黑箱”,设计者无法在事前通过设计完全地杜绝这些风险的出现,只能通过不断改进数据和算法,减少不确定性带来的风险。 •操纵风险 •ChatGPT