您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[西部证券]:2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告 - 发现报告

2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告

信息技术2024-09-07-西部证券向***
AI智能总结
查看更多
2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告

内容目录 一、什么是交互型多模态大模型?.........................................................................................41.1交互型多模态大模型应具备什么特点?........................................................................41.2交互型多模态大模型成本将降至几何?........................................................................8二、交互型多模态大模型进展如何?....................................................................................102.1海外:OpenAI与谷歌双巨头抢滩..............................................................................102.2国内:大模型多处于语音交互阶段,商汤智谱领衔升级视频交互功能.......................11三、为什么交互型多模态大模型有望带来应用的爆发?.......................................................143.1视觉是获取外部信息最主要的途径,多模态更符合人类感知的方式..........................143.2应用发展的核心就是人机交互模式的升级..................................................................15四、交互型多模态大模型会带来怎样的应用?.....................................................................194.1交互型多模态大模型在“数字智能”中的应用...........................................................194.1.1教育....................................................................................................................194.1.2编程....................................................................................................................224.1.3医疗健康............................................................................................................234.1.4办公....................................................................................................................254.1.5游戏....................................................................................................................264.1.6情感陪伴............................................................................................................284.2交互型多模态大模型在“具身智能”领域应用...........................................................294.2.1人形机器人.........................................................................................................294.2.2智能座舱............................................................................................................304.2.3智能家居............................................................................................................32五、交互型多模态大模型未来形态.......................................................................................355.1交互先行,端侧AI发展有望加速...............................................................................355.2交互型多模态大模型商业模式....................................................................................36六、相关标的梳理.................................................................................................................38 图表目录 图1:GPT-4o能听出用户呼吸急促,并将其形象比喻成吸尘器,然后给出建议....................4图2:用户写字表白,GPT-4o能快速识别字迹并高兴地感谢用户,输出时语气带着笑意.....4图3:过去ChatGPT实现语音互动的三个步骤.......................................................................5图4:谷歌Gemini具有原生多模态特性..................................................................................5图5:Gemini多模态能力使用案例..........................................................................................5图6:Chameleon的模型结构与训练方法...............................................................................6图7:GPT-4o响应速度提升....................................................................................................7图8:GPT-4o与人交流时会开一些合理的玩笑,如它会说“我今天要请客了”....................7图9:Project Astra记住了曾经“看”到过的眼镜和苹果.......................................................8图10:OpenAI大模型的降本历程..........................................................................................9图11:GPT-4o mini在基准测试中表现较好............................................................................9图12:GPT-4o mini具有高性价比..........................................................................................9图13:GPT-4o新版本价格相比3个月前下降超40%..........................................................10图14:GPT-4o在多语言识别方面与Whisper-v3对比........................................................10 图15:GPT4o音频翻译基准测试表现.................................................................................10图16:GPT-4o发布后ChatGPT移动端APP的收入高增...................................................11图17:谷歌展示AI智能体项目Project Astra.......................................................................11图18:日日新5.5核心指标..................................................................................................12图19:日日新5o识别小狗玩偶............................................................................................12图20:日日新5o分析建筑环境及天气.................................................................................12图21:日日新5o识别书籍并提供更多信息..........................................................................13图22:日日新5o识别绘制的简笔画表情并分析情绪............................................................13图23:用户可以用清言APP视频通话功能和AI玩“你画我猜”的游戏.............................13图24:清言APP视频通话功能可以辅助用户读论文............................................................13图25:国内大模型聊天助手语音交互界面............................................................................14图26:多模态更符合人类与外界交互的方式.........................................................................15图27:人机交互过程...