您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[上海证券]:传媒行业GPT系列专题之二:GPT-4引领认知革命,Deep Speed加速行业发展 - 发现报告
当前位置:首页/行业研究/报告详情/

传媒行业GPT系列专题之二:GPT-4引领认知革命,Deep Speed加速行业发展

文化传媒2023-04-27上海证券劣***
传媒行业GPT系列专题之二:GPT-4引领认知革命,Deep Speed加速行业发展

证券研究报告2023年4月27日行业:传媒增持 (维持) GPT-4引领认知革命 Deep Speed加速行业发展——GPT系列专题之二 分析师:陈旻 SAC编号:S0870522020001 2主要观点我们将“AI+传媒”的研究框架体系定义为“通用大模型”+“行业小样本”的技术架构,“AI+传媒”在应用层表现效力优劣的关键取决于通用大模型对垂直应用的适配程度及迭代速度,1、适配程度是指:多模态的输入及输出是否匹配应用层的输入及输出。比如GPT-4属于“图+文”多模态输入+“文”单模态输出,因此输入模态为“图或文”且输出模态为“文”的垂直应用更适配GPT-4。2、迭代速度是指:应用层产生的“行业小样本”的数据量是否匹配大模型的迭代要求。根据我们对GPT模型的理解,比如Bing AI产生的“行业小样本”源自Bing的搜索结果,ChatGPT产生的“行业小样本”源自用户的反馈和互动。因此我们认为,对于超出GPT所使用的预训练数据库范围(2021年9月前)的事实性表述,Bing AI反馈的是搜索的结果,ChatGPT反馈的是用户主动的观点,Bing AI反馈的效果比ChatGPT更好。我们认为“行业小样本”的价值取决于数据数量及数据质量,数量大且质量高(多模态)的应用场景复用及迭代AI能力的效力更强,因此更进一步理解我们的研究框架,我们将“行业小样本”的结构分层(中层小模型+下层应用及内容),并将“行业小样本”的结合方式分类(调用+训练):1、“行业小样本”的数据集来自小模型或应用及内容:AI产业链包括上层大模型、中层小模型、下层应用及内容,包括应用及内容直接接入大模型或通过小模型接入大模型两种方式,即“大模型+应用及内容”或“大模型+小模型+应用或内容”,其中具备特定功能的AIGC软件产品及MaaS我们理解为“小模型”+“应用”的技术范式,本身具备较高质量的AI能力,若接入匹配的多模态大模型,有望实现能力上的质变突破。 3主要观点2、“行业小样本”的结合方式包括“能力调用”及“能力训练”两类:(1)“能力调用”是指下游垂类场景直接调用通用大模型的通用能力,并基于垂类场景内产生的特性化数据不断提升调用能力在垂类场景内的适配程度。我们认为现阶段下游应用及内容主要采取此类方式接入大模型能力,此类方式可高效快速调用大模型先进能力,在时间上及成本上具备优势。我们认为“能力调用”匹配“AI+传媒”的第一层利好,即通过AI降本增效,大幅提高数据及内容的供给量。内容产业本质由供给决定需求,因此内容供给量的明显提升将有效带动传媒基本面拐点及增量空间出现。(2)“能力训练”是指下游垂类场景将通用大模型针对特性化数据集进行再训练,从而形成垂类场景专属大模型。例如彭博社利用自身丰富的金融数据源,基于开源的GPT-3框架再训练,开发出了金融专属大模型BloombergGPT。我们认为“能力训练”匹配“AI+传媒”的第二层利好,即下游垂类场景本身的数据或内容反过来“再训练”通用大模型(或开源大模型),形成传媒内容场景专属大模型,形成更稳定且高质的内容输出。我们认为训练难度文本<图片<视频<影视<游戏,且内容数量逐步递减但内容质量逐步递增,即偏后端的影视、游戏在内容数量上训练量级不足,因此高质量的内容形态首先通过“能力调用”输出AIGC内容,再将AIGC内容“再训练”大模型以解决高质量内容数量不足的问题(合成数据“再训练”范畴)。 4主要观点从投资的角度,按照我们的研究框架,传媒对应垂类场景的“行业小样本”,其核心价值取决于数据与内容,第一层对应数据与内容的输入模态是否匹配大模型的输出模态;第二层对应数据与内容的数量及质量是否匹配大模型的能力再训练:1、按照“模态匹配”的逻辑,AI+文本/虚拟人预计率先兑现案例及业绩,其次AI+图片可通过“大模型”+“小模型”组合方式实现(如GPT+Stable Diffusion、GPT+Midjourney)。随着未来GPT-5提供更多模态的输入及输出,下游垂类场景的适配范围有望扩大,通过“能力调用”适配的应用及内容场景更为丰富,因此后续“AI+视频/影视/游戏”的案例兑现度存在新的催化空间。OpenAI最新发布的GPT-4核心特征包括:(1)多模态输入(图+文),单模态输出(文),可以阅读并总结论文内容、解答较高难度的物理题目、具备较强的OCR能力(如识别网页草稿并按要求反馈网页代码)、理解人类社会常识;(2)具备长文字处理及推理判断能力,GPT-4上下文上限约2.5万字,允许使用长格式内容创建、扩展对话以及文档搜索和分析等,能够阅读并记忆更多信息,且具备更高的推理判断能力;(3)可靠性大幅提升,分辨能力提高,有效减少“虚构”或“有害”信息输出。2、按照“能力再训练”的逻辑,AI+内容/IP预计空间及价值更大,其价值核心取决于数据与内容/IP的数量及质量的高低。微软本周发布的DeepSpeed-Chat大幅提升大模型预训练速度并大幅降低训练成本,我们认为最核心意义为大幅降低垂类场景专属大模型的训练门槛,小模型层及应用层有望明显受益。掌握数据及优质内容(多模态数据)的下游场景具备核心竞争力,因此内容及IP(版权)的价值有望重估。DeepSpeed-Chat集成预训练语言大模型完整三个步骤,其中针对第三步RLHF训练集成了高效且经济的DeepSpeed-RLHF系统,使复杂的RLHF训练变得快速、经济并且易于大规模推广(相比现有系统提速15倍以上,且大幅降低算力要求及成本)。风险提示:宏观经济风险,地缘政治风险;技术发展不及预期;AIGC行业发展不及预期。 SECTION一、GPT-4:多模态、高认知、更安全二、Deep Speed:更快速、更经济、更普及三、投资建议四、风险提示目录Content 61.1 GPT-4:多模态、高认知、更安全u深耕AIGC领域,AI渗透全方面、各领域。OPENAI致力于用AI改变工作和创意,除ChatGPT的语言模型外,还通过API平台向开发者提供最新模型和指南,不断提高应用性能和用户活跃度。uGPT-4是大型多模态模型。相较于只能接受文字/代码输入的GPT-3.5,GPT-4接受图片+文字的多模态输入+高认知的结合,并反馈文字输出。GPT-4是OpenAI新一代自然语言处理模型,继承了GPT-3.5的优点的同时改进了模型结构、训练数据量和算法优化,应用范围跨越数学、编码、视觉、医学、法律、心理学等领域,GPT-4模型多领域的广泛运用和超高任务表现力接近甚至超越人类水平,因此GPT-4是AGI的开创性研究,也是迈向AGI的重要一步。图1 ChatGPT3.5与4的主要区别资料来源: 信息元公众号, 上海证券研究所ChatGPT4和3.5的主要区别ChatGPT-3.5ChatGPT-4.01打字速度慢、高峰期更慢普遍说4.0更慢,但实际用起来差别不大2掉线频率基本上每隔几分钟不用就会出现红框、掉线。掉线后需要刷新网页基本不掉线3分段生成能力文本过长的时候,生成几百字就自动停止了,这时候回复:“继续”,3.5就可以继续生成,但3.5的生成往往不够连贯4.0基本是完美的连贯生成4使用频率限制1小时100次提问,基本够用,但是人多的时候,你即使用不到100次也会提示“当前提问人数太多,请一小时后再试”每3小时25次提问,不会受当前使用人数影响5回答质量和其他AI相比,chatgpt是公认的最强AI,基本能满足我们的日常工作需要。但是和4.0相比,差距还是有的,目测能力值相当于4.0的70%吧全球最顶尖的AI,没有之一。能解决的问题种类比3.5多一些,同一个问题,4.0的回复会更好一些。尤其是考试做题能力、逻辑推理能力、角色扮演能力更强6文字限制最多回复3000字,如果你要求回复4000字,它会说“超过限制”,这时候就得分段提问最多回复25000字7有害信息如果提问医疗建议、自我伤害、违反道德的问题,3.5有时会如实作答4.0拒绝回答有害信息的概率更高,不被允许的回答4.0则会直接拒绝8二次开发能力对于想利用ChatGPT来进行二次开发的程序员、运营者来说,3.5有很多不支持,以及调用接口次数限制支持更多次数的api调用,支持更多的调用场景9图片能力无支持图像输入、分析图像(例如拍照帮你做题)。支持图片输出,但是不是自己生成的,是网络上有的图10联网能力无,训练数据库到2021年无,训练数据库到2021年9月11防止被诱导一般更难被诱导,拒绝被训练成为坏坏的AI12连续对话能力能记住大约相当于8000个词之前的指令,但是再多,它就会忘记之前的话了能记住相当于大约64000个单词13理解不同语言水平支持24种语言26种语言,且语言水平普遍比3.5的更高,对中文的理解更是达到了和3.5对英语的理解一样的水平 7u根据OpenAI技术文档给出的案例,GPT-4,对于图片的理解能力极强。 1)同时识别多张图片内容。如图2,将3张图片拼凑成1张,GPT-4能够同时识别多张图片的内容。 2)根据图片进行算数运算。如图3,将题目发给GPT-4,它能根据图片信息进行算数运算。1.2 多模态:接受图片+文字形式输入图2 GPT-4可以同时识别多张图片内容资料来源:《GPT-4 Technical Report》,上海证券研究所图3 GPT-4可以根据图片信息进行推理运算资料来源: 《GPT-4 Technical Report》 ,上海证券研究所用户提问:这张图片有什么有趣的地方?分图片描述。成功识别出上图包含3张图片,并分别描述了图片内容。用户提问:格鲁吉亚和西亚平均每日肉类消费量的总和是多少?在回答之前,请提供逐步推理。GPT -4从图示3处地名识别出用户要求的2处,然后进行算数推演,并得到正确答案。 8u3)阅读并总结论文。如图4、图5,将论文中部分页面截图给GPT-4,即可阅读并总结主要内容并回答用户追加的相关问题。u4)解答高难度物理题目。如图6,将École Polytechnique(巴黎综合理工大学)物理考试题目传给GPT-4,并指定其解答某一问题,即可顺利识别任务并正确解答。1.2 多模态:接受图片+文字形式输入图4 GPT-4可以阅读和总结论文资料来源: 《GPT-4 Technical Report》 ,上海证券研究所资料来源: 《GPT-4 Technical Report》 ,上海证券研究所图5 GPT-4可以根据论文内容回答相关问题图6 GPT-4可以根据图片信息进行推理运算资料来源: 《GPT-4 Technical Report》 ,上海证券研究所用户提问:请按步骤解答第1小问正确回答了École Polytechnique(巴黎综合理工大学)物理考试中的题目,该考试主要面向数学和物理学科的顶尖本科和研究生。用户提问:请总结以下InstructGPT论文部分的内容GPT-4解释了论文中某一图表的推导步骤 9u5)识别手写网页草图,并根据草图写出网页前端代码。如图7,将手写 “My Joke Website”网页样式传给GPT-4,GPT-4将反馈相应的前端代码,该代码不但可以顺利运行,也完全符合手绘草稿要求的内容和样式,具有极强的OCR(文字识别)能力。u6)理解人类社会常识,可读懂“网络梗图”,具有更明显的“人性化”特征。如图8,用户提问“该图片中有什么特别之处?”GPT-4回答“男人在移动的出租车车顶烫衣服”是不符合人类社会常识之处,展示出惊人的理解力。如图9,用户请GPT-4回答图中的“梗”,GPT-4能够将“鸡块”和“世界地图”相联系,展示出强大的联想能力。1.2 多模态:接受图片+文字形式输入图7 GPT-4可以根据手绘图片返回网站代码资料来源:差评公众号,上海证券研究所资料来源: 《GPT-4 Technical Report》 ,上海证券研究所图8 GPT-4可以识别图片中不符合常理之处图9 GPT-4具有强联想能力资料来源: 《GPT-4 Technical Repo