热门搜索：

ChatGPT，究竟有多牛？20230205–20230206

2023-02-06未知机构听***

主讲嘉宾：赵总，在H公司从事十多年的人工智能研究工作ChatGPT的前世今生：GPT(Generative Pre-training Transformer) 模型于2018 年由openAI 首次推出，名为GPT-1。经过2019年的GPT-2，2020年的GPT-3，2022年发展成为InstructGPT和ChatGPT。在将人类反馈整合到系统中之前，GPT模型进化的最大进步是由计算效率方面的成就驱动的，这使得GPT-3能够比GPT-2在更多的数据上进行训练，使其拥有更多样化的知识库和执行更广泛任务的能力。ChatGPT和GPT-3之间有几个关键的区别：首先，ChatGPT是专门为对话任务设计的，而GPT-3是一个更通用的模型，可以用于广泛的语言相关任务。其次，与GPT-3相比，ChatGPT在更少的数据上进行了训练，这可能会影响其生成多样化和微妙反应的能力。最后，GPT-3比ChatGPT更大更强大，有1750亿个参数，而ChatGPT只有15亿个参数。 ChatGPT方法论：我们使用来自人类反馈的强化学习(Reinforcement Learning from Human Feedback RLHF)来训练这个模型，使用与InstructGPT相同的方法，但在数据收集设置上略有不同。我们使用监督微调来训练一个初始模型：工智能训练师提供对话，在对话中他们扮演用户和人工智能助手。我们为培训师提供了模型编写的建议，以帮助他们编写自己的回答。我们将这个新的对话数据集与InstructGPT数据集混合，并将其转换为对话格式。为了创建一个用于强化学习的奖励模型，我们需要收集比较数据，其中包括两个或多个按质量排名的模型响应。为了收集这些数据，我们收集了人工智能训练师与聊天机器人的对话。我们随机选择了一条由模型编写的消息，抽取了几个备选的补全，并让人工智能训练师对它们进行排名。使用这些奖励模型，我们可以使用近端策略优化对模型进行微调。我们对这个过程进行了多次迭代。训练一个模型需要三个步骤：1、Step 1: Supervised Fine Tuning (SFT) Model 监督微调模型2、Step 2: Reward Model 奖励模型3、Step 3: Reinforcement Learning Model 深度学习模型ChatGPT是在GPT-3.5系列模型的基础上进行微调的，该模型于2022年初完成训练。ChatGPT和GPT 3.5是在Azure AI超级计算基础设施上训练的。突破一亿用户数仅用两个月，现在是全球第一，无人能敌：两个月实现1亿用户注册数，遥遥领先。一起来看看它的表现：它会帮助程序员修改代码：它会作出一些推理假设：它会拒绝一些不合理的请求：作为投资界的大佬，是不是特别希望它来给大家预测明天哪个股票上涨？对不起，这个真的做不到，它无法挑战人类的贪嗔痴。如果它真的给大家推荐了，其实是害了大家^-^。别人以为它是万能的，其实它也有很多限制：1、ChatGPT有时会写出听起来有道理的但是是错误的或无意义的答案。解决这个问题很有挑战性，因为:(1)在RL训练期间，目前没有真相来源;(2)训练模型变得更加谨慎，导致它拒绝能够正确回答的问题;(3)监督训练会误导模型，因为理想答案取决于模型所知道的，而不是人类演示者所知道的。2、ChatGPT对输入措辞的调整或多次尝试相同的提示很敏感。例如，给定一个问题的一个短语，模型可以声称不知道答案，但只要稍微改变一下短语，就可以正确回答。3、该模型通常过于冗长，并过度使用某些短语，例如重申它是由OpenAI训练的语言模型。这些问题来自于训练数据的偏差（训练师更喜欢看起来更全面的更长的答案）和众所周知的过度优化问题。4、理想情况下，当用户提供模棱两可的查询时，模型会提出澄清性的问题。相反，我们目前的模型通常猜测用户的意图。4、虽然我们已经努力让模型拒绝不适当的请求，但它有时会对有害的指令做出反应或表现出偏见的行为。我们正在使用审核API来警告或阻止某些类型的不安全内容，但我们预计它目前会有一些假阴性和阳性。我们渴望收集用户反馈，以帮助我们不断改进这个系统。我的运行成本很高，每天大概需要10万美金，一般公司玩不起：此前，OpenAI 联合创始人兼 CEO Sam Altman曾在推特上表示，ChatGPT 的运营费用高得“令人瞠目结舌”。在用户抛出问题之后，ChatGPT回应的每一个字，花的都是真金白银。根据马里兰大学副教授Goldstein的说法，单个NVIDIA A100 GPU能够在大约6毫秒内运行30 亿个参数模型。在这样的速度下，单个NVIDIA A100 GPU 在ChatGPT上打印一个单词可能需要350ms秒。鉴于ChatGPT的最新3.5版本拥有超过1750亿个参数，要获得单个查询的输出，它至少需要5个A100 gpu来加载模型和文本。ChatGPT能够每秒输出大约15-20个单词，因此，它需要一个至少有8个A100 GPU的服务器。ChatGPT是托管在微软云服务Azure上。据媒体分析，目前，微软对单个100 GPU的收费是每小时3美元，按照ChatGPT加载模型和文本的速度，生成一个单词的费用约为0.0003美元；而ChatGPT的回复通常至少有30个单词，因此，ChatGPT每回复一次，至少花Open AI 1美分。而摩根士丹利的分析甚至认为，ChatGPT的一次回复可能会花掉Open AI 2美分，大约是谷歌搜索查询平均成本的七倍。尤其考虑到ChatGPT面向全球大众用户，用的人越多，带宽消耗越大，服务器成本只会更高。每天至少要烧掉10万美元。而且，打造这样一个系统也极为昂贵。ChatGPT的界面只有一个聊天框，问答互动的形式看起来也非常简单。但实际上，一个训练有素的AI模型需要先从互联网上吸收海量的数据——比如文本、照片、艺术品等，涉及的参数和变量高达数百亿个。ChatGPT所基于的GPT-3系统拥有超1750亿个参数。 Forrester Research的分析师Rowan Curran认为，就算抛去专业工程师的人工成本，这一开发环节也需要花费数百万美元。微软给OpenAI既提供钱，又提供算力，完美搭档。AI界技术大佬如何评价我：在 AI 技术界的大拿们看来，ChatGPT 不是什么新鲜事。谷歌、Meta 、DeepMind、国内的百度等公司都有推出类似技术水平的“聊天机器人”服务。Meta 首席科学家、图灵奖获得者 Yann LeCun 就认为，就底层技术而言，ChatGPT 并不是多么了不得的创新。虽然在公众眼中，它是革命性的，但是它就是一个设计得很好、组合得很好的产品而已。在 Yann LeCun 看来，ChatGPT 使用的 Transformer 架构是以自监督的方式预训练的，自监督学习可以追溯到 OpenAI 出现之前，而 Transformer 是谷歌的发明，这是 GPT-3 等大型语言模型的基础。ChatGPT 使用的人类反馈强化学习（RLHF）的技术，也是由谷歌 DeepMind 实验室开创。谈到 ChatGPT，百度技术委员会主席吴华同样认为“ChatGPT 不是一种技术的颠覆式创新”，但是，吴华表示，“它是一种交互方式的革新。”吴华认为，ChatGPT 在展现方式上，让用户更容易去交互，能以自然语言的方式去交互，这对大家来说有一个“革新性”的认识。ChatGPT 在用户界面和交互上的创新模式，“对我们也有启发”。事实上，对一项新技术应用而言，与使用群体的交互方式的创新，也能带来领先优势。这在软硬件产品领域一直得到验证。硬件领域，例如从按键到触控、再到语音控制，交互形式的每一步革新都催生出新的行业竞争格局。软件领域更是如此，更好的交互体验更能轻松赢得用户青睐。国内科技大厂埋头研发 AIGC 技术多年，借着 ChatGPT 的东风，现在是时候加大力气研究一番如何让 AIGC 这项技术能飞入寻常百姓家，让普通用户用起来。

点击免费查看完整报告

你可能感兴趣

ChatGPT，究竟有多牛？20230205–20230206

你可能感兴趣

ChatGPT中美差距究竟有多大–20230203

ChatGPT中美差距究竟有多大1、一位百度资深人士：他“没有兴

计算机行业：电子病历带来的市场空间究竟有多大？

石油化工行业2017年日常报告：能源转型系列报告之一-替代燃料对石油需求的冲击究竟有多大？

策略：创业板之“痛”：商誉减值的影响究竟有多大？