您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国盛证券]:计算机行业点评:奇点之跃,ChatGPT即将推出图生文 - 发现报告

计算机行业点评:奇点之跃,ChatGPT即将推出图生文

信息技术 2023-09-26 国盛证券 车伟光
报告封面

计算机 奇点之跃:ChatGPT即将推出图生文 ChatGPT即将开放图生文及语音对话功能。9月25日,根据OpenAI官网信息,ChatGPT即将在两周内对Plus和Enterprise用户开放一系列新功能,包括图像读取与理解(即图生文),以及语音对话能力。其中与ChatGPT语音对话的能力 仅对ios及安卓客户端开放,而图生文能力对全平台开放。用户可以通过语音直 证券研究报告|行业点评 2023年09月26日 增持(维持) 行业走势 接对ChatGPT对话,而ChatGPT也可以直接以语音的方式回复用户,使用一种 新的文生语音模型,其中可选的�种声音由chatgpt向配音演员特别定制而来。 图像读取理解能力背后由GPT-3.5或GPT-4多模态模型支持,用户可以上传一张计算机沪深300 或者多张图片给系统,甚至可以用画笔标注重点内容。 图生文能力打开GPT广阔应用方向,并催生更大算力需求。1)语音对话能力使得用户可以更直接灵活地与ChatGPT互动,增强客户体验的便捷性,同时图生文能力也让智能助理能更好地与现实交互,有利于未来基于GPT的智能助理类产 品在手机、耳机、音箱等智能终端上落地。2)图生文能力也有望在AIGC方向打开更多应用。9月13日,Adobe发布新的Firefly生成式AI模型和Web应用程序为AI生成内容实施新的点数计费,AdobeCreativeCloud亦有提价,或主要彰 显了以Firefly为核心的AIGC能力。3)图生文及语音对话相比纯文本交互将催生更大算力需求。多模态数据复杂度远超纯文本数据,将不同模态的特征进行融合,找到不同模态间的内在关联和交互关系也需要更复杂的模型架构。同时下游应用用户增长将让应用厂商在模型推理侧需要更多算力,进一步催生算力需求。 三、大语言模型领军更新图生文能力有望加速机器人产业发展。大语言模型结合图生文能力是机器人能理解指令、完成任务规划并与世界交互的核心。7月28日,谷歌DeepMind发布的VLA模型RT-2使用预训练的PaLI-X和PaLM-E模型作为支柱,输出机器人控制指令,提高了机器人任务的泛化能力。9月24日,特 斯拉公布人形机器人Optimus最新进展,它的神经网络是完全端到端训练的,从 64% 48% 32% 16% 0% -16% -32% 2022-092023-012023-052023-09 作者 分析师刘高畅 执业证书编号:S0680518090001邮箱:liugaochang@gszq.com 相关研究 视频输入到控制输出。只靠视觉和关节位置编码器,Optimus就能在空间中精确 定位四肢,并有效地学习各种任务,比如在被干扰的情况下排序各种颜色块。我们认为本次ChatGPT教用户如何维修自行车的示例,展示了其强大的视觉理解与任务规划能力,如果结合硬件执行侧的控制输出就能实现具身智能,OpenAI早在3月投资了挪威人形机器人公司1XTechnologies。作为目前的领军大语言模型,ChatGPT此次更新展示的图生文能力有望大幅加速机器人产业发展,进而带动包扩软件算法、机械组件、机器人整机等在内的产业链共振。 建议关注: 1)多模态应用: 大华股份、海康威视、中科创达、千方科技、虹软科技、当虹科技等。 2)办公应用: 金山办公、万兴科技、福昕软件、科大讯飞等。 3)落地快&估值性价比: 大华股份、漫步者、传音控股、海康威视、新国都、赛意信息、紫天科技等。 4)算力侧: 英伟达、中科曙光、浪潮信息、中际旭创、工业富联、云赛智联、神州数码、拓维信息、四川长虹、烽火通信、海光信息、恒润股份、新易盛、恒为科技、易华录、阿尔特、润建股份、寒武纪、景嘉微、中贝通信、创业黑马等。 5)机器人: 硬件供应商:三花智控、拓普集团、鸣志电器、绿的谐波、峰岹科技等。 潜力方案厂商:大华股份、海康威视、千方科技、中科创达、中科信息、云从科技、亿嘉和、萤石网络、商汤科技等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 1、《计算机:AI代表应用时间表明确》2023-09-24 2、《计算机:OpenAI有望推出多模态GPT模型》2023- 09-20 3、《计算机:电力现货市场建设迎来里程碑,新兴商业模式有望加速验证》2023-09-19 请仔细阅读本报告末页声明 内容目录 一、ChatGPT即将开放图生文及语音对话功能3 二、多模态能力打开GPT广阔应用,并催生更大算力需求5 三、大语言模型领军ChatGPT更新图生文能力有望加速机器人产业发展6 四、投资建议8 风险提示8 图表目录 图表1:ChatGPT语音对话界面3 图表2:ChatGPT图生文示例4 图表3:adobefirefly采取点数收费5 图表4:RT-2通过预训练处理机器人数据中不存在的新兴机器人技能示例6 图表5:特斯拉Optimus排序各种颜色块7 一、ChatGPT即将开放图生文及语音对话功能 9月25日,根据OpenAI官网信息,ChatGPT即将在两周内对Plus和Enterprise用户开放一系列新功能,包括图像读取与理解(即图生文),以及语音对话能力。语音和图像为用户提供了更多在生活中使用ChatGPT的方式。在旅行时拍摄地标的照片,并 就其有趣的内容进行实时对话。当您在家时,拍摄冰箱和食品储藏室的照片,以确定晚餐的食物(并询问后续问题以获取分步食谱)。晚饭后,通过拍照、圈出问题集并让它与你们俩分享提示来帮助您的孩子解决数学问题。 与ChatGPT语音对话的能力仅对ios及安卓客户端开放,而图生文能力对全平台开放。用户可以通过语音直接对ChatGPT对话,使用OpenAI的开源语音识别系统Whisper将 用户的口语转录为文本,而ChatGPT也可以直接以语音的方式回复用户,使用一种新的文生语音模型,能够仅从文本和几秒钟的示例语音中生成类似人类的音频,其中可选的 �种声音由ChatGPT向配音演员特别定制而来。 图表1:ChatGPT语音对话界面 资料来源:OpenAI官网,国盛证券研究所 图像读取理解能力背后由GPT-3.5或GPT-4多模态模型支持。在OpenAI官方示例中,ChatGPT对用户上传的自行车图片以及调整座椅的需求做出了回应,并在后续的多轮对话中可以识别用户重点标注的部分,以及同时处理多张图片并结合上下文回应。 图表2:ChatGPT图生文示例 资料来源:OpenAI官网,国盛证券研究所 二、多模态能力打开GPT广阔应用,并催生更大算力需求 本次OpenAI更新语音对话能力使得用户可以更直接灵活地与ChatGPT互动,增强客户体验的便捷性,同时图生文能力也让智能助理能更好地与现实交互,OpenAI本次指 导用户维修自行车的示例就是非常典型的案例。有利于未来基于GPT的智能助理类产品在手机、耳机、音箱等智能终端上落地。 图生文能力使得ChatGPT可以与更丰富的视觉信息交互,有望在AIGC方向打开更多应用。9月13日,Adobe发布新的Firefly生成式AI模型和Web应用程序,支持100多种语言的文本提示,全面覆盖文生图、创意填充、文字渲染、重新着色、草图细化、3D 图像等多种创意功能。据Adobe官方页面显示,Adobe将开始为AI生成内容实施新的点数计费。AdobeCreativeCloud亦重新定价,包含AI、3D等新增功能,以及Web、Premium等 新程序版本,本次提价或主要彰显了以Firefly为核心的AIGC能力。 图表3:adobefirefly采取点数收费 资料来源:adobe官网,国盛证券研究所 我们认为,当前多模态的输入输出主要是文本、图像,应用场景包括智能办公和各类AIGC功能,1-5年内,随着多模态GPT的发展带来AI泛化能力提升,通用视觉、通用机械臂、行业服务机器人、真正的智能家居等会进入生活。在5-10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,带来通用机器人等千行百业的广阔应用。 图生文及语音对话相比纯文本交互将催生更大算力需求。多模态数据复杂度远超纯文本数据,同时将不同模态的特征进行融合,找到不同模态间的内在关联和交互关系也需要更复杂的模型架构,这也增加了计算负载,要发挥多模态模型的优势,必须有强大的算力支持。同时多模态发展打开广阔下游应用空间,用户增长将让应用厂商在模型推理侧需要更多算力,进一步 催生算力需求。 三、大语言模型领军更新图生文能力有望加速机器人产业发展 我们认为,大语言模型结合图生文能力是机器人能理解指令、完成任务规划并与世界交互的核心。7月28日,谷歌DeepMind发布的VLA(视觉-语言-动作)模型RT-2,使用预训练的VLM(视觉-语言)模型PaLI-X和PaLM-E模型作为支柱,输出机器人控制指 令。在所有任务中,与之前的基线(例如之前的RT-1模型和VisualCortex(VC-1)等模型)相比,RT-2的泛化性能提高了3倍以上。 图表4:RT-2通过预训练处理机器人数据中不存在的新兴机器人技能示例 资料来源:谷歌DeepMind官网,国盛证券研究所 9月24日,特斯拉公布人形机器人Optimus最新进展,它的神经网络是完全端到端训练的,从视频输入到控制输出。只靠视觉和关节位置编码器,Optimus就能在空间中精确定位四肢,并有效地学习各种任务,比如在被干扰的情况下排序各种颜色块。 图表5:特斯拉Optimus只靠视觉和关节位置编码器就能精确定位,并能排序各种颜色块 资料来源:TelsaOptimus推特,国盛证券研究所 我们认为本次ChatGPT教用户如何维修自行车的示例展示了其强大的视觉理解与任务规划能力,如果结合硬件执行侧的控制输出就能实现具身智能。OpenAI早在3月就投资了挪威初创公司1XTechnologies,在人形机器人方向布局。作为目前的领军大语言模 型,ChatGPT本次更新图生文能力,有望大幅加速机器人产业发展,进而带动包扩软件算法、机械组件、机器人整机等在内的产业链共振。 图表6:人形机器人公司1XTechonlogies得到OpenAI投资 资料来源:1XTechnologies官网,国盛证券研究所 四、投资建议 相关标的: 1)多模态应用: 大华股份、海康威视、中科创达、千方科技、虹软科技、当虹科技等。 2)办公应用: 金山办公、万兴科技、福昕软件、科大讯飞等。 3)落地快&估值性价比: 大华股份、漫步者、传音控股、海康威视、新国都、赛意信息、紫天科技等。 4)算力侧: 英伟达、中科曙光、浪潮信息、中际旭创、工业富联、云赛智联、神州数码、拓维信息、四川长虹、烽火通信、海光信息、恒润股份、新易盛、恒为科技、易华录、阿尔特、润建股份、寒武纪、景嘉微、中贝通信、创业黑马等。 5)机器人: 硬件供应商:三花智控、拓普集团、鸣志电器、绿的谐波、峰岹科技等。 潜力方案厂商:大华股份、海康威视、千方科技、中科创达、中科信息、云从科技、 亿嘉和、萤石网络、商汤科技等。 风险提示 AI技术迭代不及预期风险:若AI技术迭代不及预期,则对产业链相关公司会造成一定不利影响。 经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响。 行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。 免责声明 国盛证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。 本报告的信息均来源于本公司认为可信的公开资料,但本公司及其研究人员对该等信息的准确性及完整性不作任何保