您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[西部证券]:计算机行业人工智能系列报告(六):交互型多模态大模型有望带来应用的爆发起点 - 发现报告

计算机行业人工智能系列报告(六):交互型多模态大模型有望带来应用的爆发起点

信息技术2024-09-03西部证券李***
AI智能总结
查看更多
计算机行业人工智能系列报告(六):交互型多模态大模型有望带来应用的爆发起点

证券研究报告2024年09月03日 交互型多模态大模型有望带来应用的爆发起点 人工智能系列报告(六) 核心结论 交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频等模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟人无缝交流的大模型,目前最具代表性的是OpenAI的GPT-4o。特点如下:1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和输出都由同一神经网络处理。2)快速响应:能做到极低延迟,响应速度比肩人类,且可以做到对话随时打断。现在GPT-4o能在短至232毫秒、平均320毫秒的时间内响应音频输入,而过去GPT-3.5平均延时为2.8秒、GPT-4为5.4秒。3)情感表达:回复有“人味”,情绪饱满,会带来极强的交互沉浸感。4)记忆:能回忆并联系此前“看”到的信息做出回答,而不是仅仅依靠当前输入。 交互型多模态大模型成本将降至几何?大模型降本趋势显著。8月,OpenAI发布更强且更具性价比的GPT-4o新版本,相比5月版本价格下降超40%至$4/100万tokens。按照这个趋势,我们预计以GPT-4o为代表的交互型多模态大模型的成本将继续快速下降,每百万tokens的推理成本或将在两年内降至美分量级。 交互型多模态大模型进展如何?OpenAI与谷歌双巨头抢滩,分别发布GPT-4o和AI智能体项目Project Astra,Meta也于2024年5月发布具有原生多模态特性的Chameleon-34B。国内的大模型多处于语音交互阶段,商汤领衔发布流式多模态交互大模型“日日新5o”,智谱面向C端开放“视频通话”功能。 分析师 郑宏达S080052402000113918906471zhenghongda@research.xbmail.com.cn 为什么交互型多模态大模型有望带来应用的爆发?1)人类生活在一个由多种模态信息构成的世界,会同时收到多个互补的、融合的、不同模态的感官输入,多模态更符合人类感知周边、探索世界的方式。2)应用是连接人类意图与信息及技术实现的媒介,其本质是交互。我们认为从PC互联网时代,到移动互联网时代,再到现在的AI时代,应用发展的核心就是人机交互的不断进化与深化。所以在大模型迭代过程中,性能提高固然重要,但交互的升级也同样具有重大价值,交互型多模态大模型的出现有望推动人机交互变革——向更为简单的自然语言交互形式发展。 联系人 卢可欣16621642550lukexin@research.xbmail.com.cn 相关研究 计算机:科技自主的道路是星辰大海—计算机行业2024年9月研究观点2024-08-30计算机:美股软件股目前的估值和股价表现—计算机行业周观点第22期2024-08-25计算机:阿里腾讯加码AI决心坚定—计算机行业周观点第21期2024-08-17 交互型多模态大模型会带来怎样的应用?我们将交互型多模态大模型的应用分为:1)数字智能,大模型提供软件形式的服务,主要应用场景包括教育、编程、医疗健康、游戏、情感陪伴等。2)具身智能,需要硬件支持来实现三维空间内的运动行为,如人形机器人、智能家居、智能座舱等。 交互型多模态大模型商业模式展望:1)聊天助手APP。2)作为基础模型接入各类应用。3)与终端OS深度融合成为AI时代的“超级入口”。 相关标的梳理:1)交互型多模态大模型:商汤-W、云从科技-UW;2)数字智能应用:金山办公、科大讯飞、虹软科技、美图公司;3)具身智能应用:海康威视、大华股份;4)算力:寒武纪、软通动力、海光信息、浪潮信息、中科曙光、神州数码。 风险提示:AI技术突破不及预期、终端智能需求不及预期、宏观经济增长不及预期、国际环境变化。 内容目录 一、什么是交互型多模态大模型?.........................................................................................41.1交互型多模态大模型应具备什么特点?........................................................................41.2交互型多模态大模型成本将降至几何?........................................................................8二、交互型多模态大模型进展如何?....................................................................................102.1海外:OpenAI与谷歌双巨头抢滩..............................................................................102.2国内:大模型多处于语音交互阶段,商汤智谱领衔升级视频交互功能.......................11三、为什么交互型多模态大模型有望带来应用的爆发?.......................................................143.1视觉是获取外部信息最主要的途径,多模态更符合人类感知的方式..........................143.2应用发展的核心就是人机交互模式的升级..................................................................15四、交互型多模态大模型会带来怎样的应用?.....................................................................194.1交互型多模态大模型在“数字智能”中的应用...........................................................194.1.1教育....................................................................................................................194.1.2编程....................................................................................................................224.1.3医疗健康............................................................................................................234.1.4办公....................................................................................................................254.1.5游戏....................................................................................................................264.1.6情感陪伴............................................................................................................284.2交互型多模态大模型在“具身智能”领域应用...........................................................294.2.1人形机器人.........................................................................................................294.2.2智能座舱............................................................................................................304.2.3智能家居............................................................................................................32五、交互型多模态大模型未来形态.......................................................................................355.1交互先行,端侧AI发展有望加速...............................................................................355.2交互型多模态大模型商业模式....................................................................................36六、相关标的梳理.................................................................................................................38七、风险提示........................................................................................................................38 图表目录 图1:GPT-4o能听出用户呼吸急促,并将其形象比喻成吸尘器,然后给出建议....................4图2:用户写字表白,GPT-4o能快速识别字迹并高兴地感谢用户,输出时语气带着笑意.....4图3:过去ChatGPT实现语音互动的三个步骤.......................................................................5图4:谷歌Gemini具有原生多模态特性..................................................................................5图5:Gemini多模态能力使用案例..........................................................................................5图6:Chameleon的模型结构与训练方法...............................................................................6图7:GPT-4o响应速度提升....................................................................................................7图8:GPT-4o与人交流时会开一些合理的玩笑,如它会说“我今天要请客了”....................7图9:Project Astra记住了曾经“看”到过的眼镜和苹果....