您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:ChatGPT,究竟有多牛?20230205–20230206 - 发现报告
当前位置:首页/会议纪要/报告详情/

ChatGPT,究竟有多牛?20230205–20230206

2023-02-06未知机构听***
ChatGPT,究竟有多牛?20230205–20230206

主讲嘉宾:赵总,在H公司从事十多年的人工智能研究工作ChatGPT的前世今生:GPT(Generative Pre-training Transformer) 模型于2018 年由openAI 首次推出,名为GPT-1。经过2019年的GPT-2,2020年的GPT-3,2022年发展成为InstructGPT和ChatGPT。在将人类反馈整合到系统中之前,GPT模型进化的最大进步是由计算效率方面的成就驱动的,这使得GPT-3能够比GPT-2在更多的数据上进行训练,使其拥有更多样化的知识库和执行更广泛任务的能力。ChatGPT和GPT-3之间有几个关键的区别:首先,ChatGPT是专门为对话任务设计的,而GPT-3是一个更通用的模型,可以用于广泛的语言相关任务。其次,与GPT-3相比,ChatGPT在更少的数据上进行了训练,这可能会影响其生成多样化和微妙反应的能力。最后,GPT-3比ChatGPT更大更强大,有1750亿个参数,而ChatGPT只有15亿个参数。 ChatGPT方法论:我们使用来自人类反馈的强化学习(Reinforcement Learning from Human Feedback RLHF)来训练这个模型,使用与InstructGPT相同的方法,但在数据收集设置上略有不同。我们使用监督微调来训练一个初始模型:工智能训练师提供对话,在对话中他们扮演用户和人工智能助手。我们为培训师提供了模型编写的建议,以帮助他们编写自己的回答。我们将这个新的对话数据集与InstructGPT数据集混合,并将其转换为对话格式。为了创建一个用于强化学习的奖励模型,我们需要收集比较数据,其中包括两个或多个按质量排名的模型响应。为了收集这些数据,我们收集了人工智能训练师与聊天机器人的对话。我们随机选择了一条由模型编写的消息,抽取了几个备选的补全,并让人工智能训练师对它们进行排名。使用这些奖励模型,我们可以使用近端策略优化对模型进行微调。我们对这个过程进行了多次迭代。训练一个模型需要三个步骤:1、Step 1: Supervised Fine Tuning (SFT) Model 监督微调模型2、Step 2: Reward Model 奖励模型3、Step 3: Reinforcement Learning Model 深度学习模型ChatGPT是在GPT-3.5系列模型的基础上进行微调的,该模型于2022年初完成训练。ChatGPT和GPT 3.5是在Azure AI超级计算基础设施上训练的。 突破一亿用户数仅用两个月,现在是全球第一,无人能敌:两个月实现1亿用户注册数,遥遥领先。一起来看看它的表现:它会帮助程序员修改代码: 它会作出一些推理假设: 它会拒绝一些不合理的请求:作为投资界的大佬,是不是特别希望它来给大家预测明天哪个股票上涨?对不起,这个真的做不到,它无法挑战人类的贪嗔痴。如果它真的给大家推荐了,其实是害了大家^-^。别人以为它是万能的,其实它也有很多限制:1、ChatGPT有时会写出听起来有道理的但是是错误的或无意义的答案。解决这个问题很有挑战性,因为:(1)在RL训练期间,目前没有真相来源;(2)训练模型变得更加谨慎,导致它拒绝能够正确回答的问题;(3)监督训练会误导模型,因为理想答案取决于模型所知道的,而不是人类演示者所知道的。2、ChatGPT对输入措辞的调整或多次尝试相同的提示很敏感。例如,给定一个问题的一个短语,模型可以声称不知道答案,但只要稍微改变一下短语,就可以正确回答。3、该模型通常过于冗长,并过度使用某些短语,例如重申它是由OpenAI训练的语言模型。这些问题来自于训练数据的偏差(训练师更喜欢看起来更全面的更 长的答案)和众所周知的过度优化问题。4、理想情况下,当用户提供模棱两可的查询时,模型会提出澄清性的问题。相反,我们目前的模型通常猜测用户的意图。4、虽然我们已经努力让模型拒绝不适当的请求,但它有时会对有害的指令做出反应或表现出偏见的行为。我们正在使用审核API来警告或阻止某些类型的不安全内容,但我们预计它目前会有一些假阴性和阳性。我们渴望收集用户反馈,以帮助我们不断改进这个系统。我的运行成本很高,每天大概需要10万美金,一般公司玩不起:此前,OpenAI 联合创始人兼 CEO Sam Altman曾在推特上表示,ChatGPT 的运营费用高得“令人瞠目结舌”。在用户抛出问题之后,ChatGPT回应的每一个字,花的都是真金白银。根据马里兰大学副教授Goldstein的说法,单个NVIDIA A100 GPU能够在大约6毫秒内运行30 亿个参数模型。在这样的速度下,单个NVIDIA A100 GPU 在ChatGPT上打印一个单词可能需要350ms秒。鉴于ChatGPT的最新3.5版本拥有超过1750亿个参数,要获得单个查询的输出,它至少需要5个A100 gpu来加载模型和文本。ChatGPT能够每秒输出大约15-20个单词,因此,它需要一个至少有8个A100 GPU的服务器。ChatGPT是托管在微软云服务Azure上。据媒体分析,目前,微软对单个100 GPU的收费是每小时3美元,按照ChatGPT加载模型和文本的速度,生成一个单词的费用约为0.0003美元;而ChatGPT的回复通常至少有30个单词,因此,ChatGPT每回复一次,至少花Open AI 1美分。而摩根士丹利的分析甚至认为,ChatGPT的一次回复可能会花掉Open AI 2美分,大约是谷歌搜索查询平均成本的七倍。尤其考虑到ChatGPT面向全球大众用户,用的人越多,带宽消耗越大,服务器成本只会更高。每天至少要烧掉10万美元。而且,打造这样一个系统也极为昂贵。ChatGPT的界面只有一个聊天框,问答互动的形式看起来也非常简单。但实际上,一个训练有素的AI模型需要先从互联网上吸收海量的数据——比如文本、照片、艺术品等,涉及的参数和变量高达数百亿个。ChatGPT所基于的GPT-3系统拥有超1750亿个参数。 Forrester Research的分析师Rowan Curran认为,就算抛去专业工程师的人工成本,这一开发环节也需要花费数百万美元。微软给OpenAI既提供钱,又提供算力,完美搭档。AI界技术大佬如何评价我:在 AI 技术界的大拿们看来,ChatGPT 不是什么新鲜事。谷歌、Meta 、DeepMind、国内的百度等公司都有推出类似技术水平的“聊天机器人”服务。Meta 首席科学家、图灵奖获得者 Yann LeCun 就认为,就底层技术而言,ChatGPT 并不是多么了不得的创新。虽然在公众眼中,它是革命性的,但是它就是一个设计得很好、组合得很好的产品而已。在 Yann LeCun 看来,ChatGPT 使用的 Transformer 架构是以自监督的方式预训练的,自监督学习可以追溯到 OpenAI 出现之前,而 Transformer 是谷歌的发明,这是 GPT-3 等大型语言模型的基础。ChatGPT 使用的人类反馈强化学习(RLHF)的技术,也是由谷歌 DeepMind 实验室开创。谈到 ChatGPT,百度技术委员会主席吴华同样认为“ChatGPT 不是一种技术的颠覆式创新”,但是,吴华表示,“它是一种交互方式的革新。”吴华认为,ChatGPT 在展现方式上,让用户更容易去交互,能以自然语言的方式去交互,这对大家来说有一个“革新性”的认识。ChatGPT 在用户界面和交互上的创新模式,“对我们也有启发”。事实上,对一项新技术应用而言,与使用群体的交互方式的创新,也能带来领先优势。这在软硬件产品领域一直得到验证。硬件领域,例如从按键到触控、再到语音控制,交互形式的每一步革新都催生出新的行业竞争格局。软件领域更是如此,更好的交互体验更能轻松赢得用户青睐。国内科技大厂埋头研发 AIGC 技术多年,借着 ChatGPT 的东风,现在是时候加大力气研究一番如何让 AIGC 这项技术能飞入寻常百姓家,让普通用户用起来。