您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[信达证券]:大模型进程焦点:OpenAI春季发布会及谷歌开发者大会要点归纳 - 发现报告
当前位置:首页/行业研究/报告详情/

大模型进程焦点:OpenAI春季发布会及谷歌开发者大会要点归纳

信息技术2024-05-16冯翠婷信达证券D***
大模型进程焦点:OpenAI春季发布会及谷歌开发者大会要点归纳

请阅读最后一页免责声明及信息披露 http://www.cindasc.com 1 证券研究报告 行业研究 [Table_ReportType] 行业事项点评 [Table_StockAndRank] 投资评级 上次评级 [Table_Author] 冯翠婷 传媒互联网及海外 首席分析师 执业编号:S1500522010001 联系电话:17317141123 邮 箱:fengcuiting@cindasc.com [Table_OtherReport] 信达证券股份有限公司 CINDA SECURITIES CO.,LTD 北京市西城区闹市口大街9号院1号楼 邮编:100031 [Table_Title] 大模型进程焦点:OpenAI春季发布会及谷歌开发者大会要点归纳 [Table_ReportDate] 2024年5月16日 [Table_Summary] 事件:北京时间5月14日凌晨,OpenAI发布了最新模型GPT-4o,GPT-4o(“o”代表“omni”)接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显著提高。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。 GPT-4o的文本和图像功能5月14日已经开始在ChatGPT中推出。OpenAI正在免费套餐中提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制,未来几周将在ChatGPT Plus中推出新版语音模式GPT-4o的alpha版。开发人员现在还可以在API中访问GPT-4o作为文本和视觉模型。与GPT-4 Turbo相比,GPT-4o速度提高2倍,价格降低一半,速率限制提高5倍。OpenAI计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。 在OpenAI发布会上,团队展示了GPT-4o的多个功能。包括实时语音交流能力,几乎无延迟,达到真人聊天的水平;可以识别用户的语音情绪,语音有情感;可以使用不同语言(英语、意大利语)和多人同时交互;在语音的同时可以与视频实时交互;实时交流,协助阅读代码,指导编程;实时视频聊天, 并识别情绪等。 北京时间5月15日凌晨,Google I/O 开发者大会正式开幕。公司更新了Gemini1.5Pro,引入了1.5Flash较小型号的Gemini版本,同时也增加了两个新的Gemma模型。Gemini 1.5 Pro:普通版本配备了100万token上下文窗口,而Gemini 1.5 Pro 将在Google AI Studio或适用于 Google Cloud 客户的Vertex AI中的候补名单中拥有 200 万个代币上下文窗口。在智能代理领域,谷歌展示了其最新的人工智能代理Google Astra项目,可与用户实现多模态交互。 多模态领域,谷歌推出全新视频生成模型Veo,可生成各种电影和视觉风格的高质量 1080p 分辨率视频,时间可以超过一分钟;升级了文生图新模型Imagen3,对图像细节的把控度更高;发布了人工智能音乐生成模型Lyria。以及在AI搜索功能、照片问询功能均实现了一定程度的升级迭代。 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 2 点评: ➢ OpenAI打造全新多模态融合、高拟人情感、实时低延迟交互的“个人超级AI语音助手”,推出GPT-4o全新旗舰人工智能模型。根据传统基准测试,GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出,输入输出均由同一神经网络处理。同时,在用户情绪感知和语义理解上,GPT-4o也展现得较为出色,用户可以在对话中随时打断,并且可以根据用户需要改变语音语调来满足用户的情绪变化,有望逐渐成为个人用户在终端设备上的具备强拟人化、可交互性高、高智商、高情商的私人助理管家。 图1:GPT-4o文本+图像输入 资料来源:OpenAI官网,信达证券研发中心 图2:GPT-4o文本+音频输入 资料来源:OpenAI官网,信达证券研发中心 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 3 图3:两个GPT-4o产品在自动对话并且唱歌 资料来源:OpenAI官网,信达证券研发中心 图4:GPT-4o文本评价 资料来源:OpenAI官网,信达证券研发中心 ➢ 免费提供给所有用户使用,付费用户享受5倍调用额度,大模型本身的技术迭代带来的成本降低有望使个人或企业用户深度受益。每周都有超过一亿人使用ChatGPT。OpenAI将在未来几周内开始向ChatGPT免费用户推出更多智能和高级工具。使用 GPT-4o 时,ChatGPT免费用户现在可以访问以下功能:体验GPT-4大模型的回答;获取来自模型和互联网的回复;分析数据并创建图表;聊聊用户拍摄的图片;上传 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 4 文件并提供帮助、总结、写作或分析;发现并使用GPT和GPT商店;使用Memory打造更有帮助的体验。 图5:上传数据文件,GPT-4o进行数据分析 资料来源:OpenAI官网,信达证券研发中心 图6:GPTs和GPTs有关应用推荐 资料来源:OpenAI官网,信达证券研发中心 ➢ OpenAI推出新的桌面应用程序,简化用户的工作流程。对于免费和付费用户,OpenAI推出了适用于macOS的新ChatGPT桌面应用程序,该应用程序旨在无缝集成到用户在计算机上执行的任何操作。通过简单的键盘快捷键(Option+Space),用户既可向ChatGPT提问,还可以直接在应用程序中截取屏幕截图并进行讨论。同时,用户可以直接从计算机与ChatGPT进行语音对话,目前暂时提供ChatGPT发布时提供的语音模式,新的音频和视频功能将在未来推出。同时,从发布会当日开始,OpenAI将向Plus用户推出适配于macOS的应用程序,并将在未来几周内更广泛地提供该应用程序,Windows 版本计划在今年晚些时候推出。应用程序简化了ChatGPT的界面外观,整体UI设计更加友好具备交互性。 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 5 图7:适用于macOS的新ChatGPT桌面应用程序 资料来源:OpenAI官网,信达证券研发中心 图8:应用程序简化了ChatGPT的界面外观,整体UI设计更加友好具备交互性 资料来源:OpenAI官网,信达证券研发中心 北京时间5月15日凌晨,Google I/O 开发者大会正式开幕,在生成式人工智能AI竞争中,从谷歌在本次开发者大会上发布的内容可以看出其在AI领域的积淀和步伐愈发稳健深厚。2023年12月,谷歌发布了Gemini1.0;2024年2月,谷歌发布了Gemini1.5 Pro,是第一个具有100万tokens的模型,同时也推出了轻量级的开源模型Gemma。在本次谷歌开发者大会上,公司更新了Gemini1.5Pro,引入了1.5Flash较小型号的Gemini版本,同时也增加了两个新的Gemma模型。 Gemini 1.5 Pro:普通版本配备了100万token上下文窗口,而Gemini 1.5 Pro 将在Google AI Studio或适用于 Google Cloud 客户的Vertex AI中的候补名单中拥有 200 万个代币上下文窗口。Gemini 1.5Flash 针对较窄或高频的任务进行了优化,达到较快的响应时间速度,更具备成本效益,同时上下文窗口也突破到了100万token。 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 6 图9:Gemini1.5 Pro升级到200万Tokens上下文窗口 资料来源:谷歌官网,信达证券研发中心 谷歌即将于2024年6月推出Gemma2大模型,模型参数量提高至270亿,其性能优于一些尺寸超过其两倍的模型,并且可以在 GPU 或 Vertex AI 中的单个 TPU 主机上高效运行。 图10:Gemma2附带27B参数 资料来源:谷歌官网,信达证券研发中心 人工智能代理Google Astra项目:作为智能体,需要像人类一样理解和响应复杂且动态的世界,并吸收并记住所看到和听到的内容,以了解上下文并采取行动。它还需要主动、可教和个性化,以便用户可以自然地与它交谈,没有滞后或延迟。2024年谷歌开发者大会上,DeepMind团队展示了多模态理解和实时对话的能力,希望构建一个在日常生活中有用的通用代理。和OpenAI刚发布的AI语音助手GPT-4o相比,Astra在相应的延时、语气情绪的感知以及可打断性来看还有提升空间。 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 7 图11:Google Astra Project通用代理 资料来源:谷歌官网,信达证券研发中心 谷歌推出全新视频生成模型Veo。可生成各种电影和视觉风格的高质量 1080p 分辨率视频,时间可以超过一分钟,在视频细节上更能清晰把握创作者的意图。提供了较强的创意控制水平,并理解“延时拍摄”或“风景空中拍摄”等电影术语。 Veo 创建一致且连贯的镜头,因此人物、动物和物体在整个镜头中移动逼真。Veo以谷歌多年的生成视频模型工作为基础,包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere — 结合架构、缩放法则和其他新颖技术来提高质量和输出分辨率。 图12:Google全新视频生成模型Veo 资料来源:谷歌官网,信达证券研发中心 谷歌升级了文生图新模型Imagen3。Imagen3在图像生成的细节、光照等方面表现较优,和之前的文生图模型相比,其分散注意力的视觉伪影要少很多,Imagen3可以更好理解自然语言、提示背后的意图并融合较长提示中的微小细节,同时更好控制图像一致性。 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 8 图13:Google升级了文生图模型Imagen 3 资料来源:谷歌官网,信达证券研发中心 谷歌发布了人工智能音乐生成模型Lyria。与YouTub以及一些出色的音乐家、歌曲作者和制作人合作去开发一套名为 Music AI Sandbox 的音乐 AI 工具。这些工具旨在为创造力开辟一个新的游乐场,让人们从头开始创建新的乐器部分,以新的方式改变声音等。 图14:Google发布AI音乐生成模型Lyria 资料来源:谷歌官网,信达证券研发中心 同时,谷歌针对谷歌搜索、Ask Photo等功能均做出了一定程度的升级更新。从发布会后开始,谷歌将在美国向用户推出经过全面改造的“AI概览”的搜索体验,即在搜索框下面单独展现出AI Overview的内容来给用户更好的服务响应,满足用户提出新类型的问题、更长、更复杂的查询,甚至使用照片进行搜索,并获得网络所提供的最佳信息。以及将在24年夏天推出“询问照片”功能,满足用户搜索照片信息的需求。 建议关注:1)AI陪伴+IP:汤姆猫、上海电影、奥飞娱乐、华策影视、中文在线;2)AI+搜索:昆仑万维、三六零等;3)AI+影视:华策影视、慈文传媒、上海电影;4)AI+IP(涉及版权、算料等):芒果超媒、中广天择、