行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

大模型进程焦点：OpenAI春季发布会及谷歌开发者大会要点归纳

信息技术 2024-05-16 冯翠婷信达证券 Derek.

大模型进程焦点：OpenAI春季发布会及谷歌开发者大会要点归纳

OpenAI GPT-4o发布及应用

GPT-4o发布：北京时间5月14日凌晨，OpenAI发布GPT-4o，该模型能接受文本、音频和图像任意组合输入，并生成相应的文本、音频和图像输出，响应速度接近人类水平。
功能升级：GPT-4o的文本和图像功能已应用于ChatGPT，免费用户享受额外调用额度，GPT-4o的API现已支持文本和视觉模型访问。
多模态交互：展示了一系列实时多模态交互能力，包括语音交流、情绪感知、多语言交互、视频实时交互以及代码协助等。

Google I/O大会亮点

Gemini系列更新：Google I/O大会上，Gemini系列模型得到升级，包括引入Gemini 1.5 Pro、新增Gemma模型，以及更新Gemini版本以适应更复杂任务。
AI代理项目：Google展示了AI代理项目Google Astra，旨在实现多模态交互，虽在实时性、情绪感知等方面与GPT-4o相比仍有提升空间。
视频生成模型Veo：推出高质量视频生成模型Veo，能生成电影级别的1080p视频，时间超过一分钟。
Imagen3升级：升级文生图模型Imagen3，增强图像细节把控能力，减少视觉伪影，更好地融合提示信息，保持图像一致性。
Lyria音乐生成模型：发布AI音乐生成模型Lyria，与音乐家合作开发音乐AI工具，为音乐创作提供新平台。
搜索与问照片功能：对谷歌搜索、问照片功能进行升级，提供AI概览搜索体验，满足复杂查询和照片搜索需求。

行业投资建议

关注AI陪伴+IP：汤姆猫、上海电影、奥飞娱乐、华策影视、中文在线等。
AI+搜索：昆仑万维、三六零等。
AI+影视：华策影视、慈文传媒、上海电影等。
AI+IP与版权：芒果超媒、中广天择、华数传媒、中文在线等。
AI+出版/教育：南方传媒、皖新传媒等。
AI+游戏：巨人网络、恺英网络、神州泰岳、三七互娱、姚记科技、盛天网络等。
特别提示：微软系/语音助手类标的，如紫天科技、易点云、万兴科技、视觉中国、科大讯飞、商汤（港股）等。

风险提示

生成式人工智能模型的迭代速度、AI应用的实际效果均存在不确定性，投资者需谨慎评估风险。

总结

此报告概述了OpenAI春季发布会和谷歌开发者大会的关键信息，重点关注了大模型技术的最新进展及其应用。OpenAI推出了GPT-4o，提升了多模态交互能力，增强了文本、音频和图像处理的实时性和拟人化情感互动。Google则通过Gemini系列模型的升级、AI代理项目的展示、视频生成模型Veo的推出、Imagen3的改进以及Lyria音乐生成模型的发布，展现了其在生成式AI领域的持续进步。报告还提供了对相关行业和公司的投资建议，强调了AI技术在各个领域的潜在影响，并提醒了投资者面临的风险。

证券研究报告行业研究 2024年5月16日投资评级上次评级 GPT-4o的文本和图像功能5月14日已经开始在ChatGPT中推出。OpenAI正在免费套餐中提供GPT-4o，并向Plus用户提供高达5倍的消息限制，未来几周将在ChatGPT Plus中推出新版语音模式GPT-4o的alpha版。开发人员现在还可以在API中访问GPT-4o作为文本和视觉模型。与GPT-4Turbo相比，GPT-4o速度提高2倍，价格降低一半，速率限制提高5倍。OpenAI计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。在OpenAI发布会上，团队展示了GPT-4o的多个功能。包括实时语音交流能力，几乎无延迟，达到真人聊天的水平；可以识别用户的语音情绪，语音有情感；可以使用不同语言（英语、意大利语）和多人同时交互；在语音的同时可以与视频实时交互；实时交流，协助阅读代码，指导编程；实时视频聊天,并识别情绪等。北京时间5月15日凌晨，Google I/O开发者大会正式开幕。公司更新了Gemini1.5Pro，引入了1.5Flash较小型号的Gemini版本，同时也增加了两个新的Gemma模型。Gemini 1.5 Pro：普通版本配备了100万token上下文窗口，而Gemini 1.5 Pro将在Google AI Studio或适用于Google Cloud客户的Vertex AI中的候补名单中拥有200万个代币上下文窗口。在智能代理领域，谷歌展示了其最新的人工智能代理Google Astra项目，可与用户实现多模态交互。多模态领域，谷歌推出全新视频生成模型Veo，可生成各种电影和视觉风格的高质量1080p分辨率视频，时间可以超过一分钟；升级了文生图新模型Imagen3，对图像细节的把控度更高；发布了人工智能音乐生成模型Lyria。以及在AI搜索功能、照片问询功能均实现了一定程度的升级迭代。信达证券股份有限公司CINDA SECURITIES CO.,LTD北京市西城区闹市口大街9号院1号楼邮编：100031 点评： ➢OpenAI打造全新多模态融合、高拟人情感、实时低延迟交互的“个人超级AI语音助手”，推出GPT-4o全新旗舰人工智能模型。根据传统基准测试，GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉功能上设置了新的高水位线。GPT-4o能够接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出，输入输出均由同一神经网络处理。同时，在用户情绪感知和语义理解上，GPT-4o也展现得较为出色，用户可以在对话中随时打断，并且可以根据用户需要改变语音语调来满足用户的情绪变化，有望逐渐成为个人用户在终端设备上的具备强拟人化、可交互性高、高智商、高情商的私人助理管家。资料来源：OpenAI官网，信达证券研发中心 ➢免费提供给所有用户使用，付费用户享受5倍调用额度，大模型本身的技术迭代带来的成本降低有望使个人或企业用户深度受益。每周都有超过一亿人使用ChatGPT。OpenAI将在未来几周内开始向ChatGPT免费用户推出更多智能和高级工具。使用GPT-4o时，ChatGPT免费用户现在可以访问以下功能：体验GPT-4大模型的回答；获取来自模型和互联网的回复；分析数据并创建图表；聊聊用户拍摄的图片；上传文件并提供帮助、总结、写作或分析；发现并使用GPT和GPT商店；使用Memory打造更有帮助的体验。资料来源：OpenAI官网，信达证券研发中心 ➢OpenAI推出新的桌面应用程序，简化用户的工作流程。对于免费和付费用户，OpenAI推出了适用于macOS的新ChatGPT桌面应用程序，该应用程序旨在无缝集成到用户在计算机上执行的任何操作。通过简单的键盘快捷键（Option+Space），用户既可向ChatGPT提问，还可以直接在应用程序中截取屏幕截图并进行讨论。同时，用户可以直接从计算机与ChatGPT进行语音对话，目前暂时提供ChatGPT发布时提供的语音模式，新的音频和视频功能将在未来推出。同时，从发布会当日开始，OpenAI将向Plus用户推出适配于macOS的应用程序，并将在未来几周内更广泛地提供该应用程序，Windows版本计划在今年晚些时候推出。应用程序简化了ChatGPT的界面外观，整体UI设计更加友好具备交互性。资料来源：OpenAI官网，信达证券研发中心北京时间5月15日凌晨，Google I/O开发者大会正式开幕，在生成式人工智能AI竞争中，从谷歌在本次开发者大会上发布的内容可以看出其在AI领域的积淀和步伐愈发稳健深厚。2023年12月，谷歌发布了Gemini1.0；2024年2月，谷歌发布了Gemini1.5 Pro，是第一个具有100万tokens的模型，同时也推出了轻量级的开源模型Gemma。在本次谷歌开发者大会上，公司更新了Gemini1.5Pro，引入了1.5Flash较小型号的Gemini版本，同时也增加了两个新的Gemma模型。 Gemini 1.5 Pro：普通版本配备了100万token上下文窗口，而Gemini 1.5Pro将在Google AI Studio或适用于Google Cloud客户的Vertex AI中的候补名单中拥有200万个代币上下文窗口。Gemini 1.5Flash针对较窄或高频的任务进行了优化，达到较快的响应时间速度，更具备成本效益，同时上下文窗口也突破到了100万token。资料来源：谷歌官网，信达证券研发中心谷歌即将于2024年6月推出Gemma2大模型，模型参数量提高至270亿，其性能优于一些尺寸超过其两倍的模型，并且可以在GPU或Vertex AI中的单个TPU主机上高效运行。人工智能代理Google Astra项目：作为智能体，需要像人类一样理解和响应复杂且动态的世界，并吸收并记住所看到和听到的内容，以了解上下文并采取行动。它还需要主动、可教和个性化，以便用户可以自然地与它交谈，没有滞后或延迟。2024年谷歌开发者大会上，DeepMind团队展示了多模态理解和实时对话的能力，希望构建一个在日常生活中有用的通用代理。和OpenAI刚发布的AI语音助手GPT-4o相比，Astra在相应的延时、语气情绪的感知以及可打断性来看还有提升空间。资料来源：谷歌官网，信达证券研发中心谷歌推出全新视频生成模型Veo。可生成各种电影和视觉风格的高质量1080p分辨率视频，时间可以超过一分钟，在视频细节上更能清晰把握创作者的意图。提供了较强的创意控制水平，并理解“延时拍摄”或“风景空中拍摄”等电影术语。Veo创建一致且连贯的镜头，因此人物、动物和物体在整个镜头中移动逼真。Veo以谷歌多年的生成视频模型工作为基础，包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere—结合架构、缩放法则和其他新颖技术来提高质量和输出分辨率。谷歌升级了文生图新模型Imagen3。Imagen3在图像生成的细节、光照等方面表现较优，和之前的文生图模型相比，其分散注意力的视觉伪影要少很多，Imagen3可以更好理解自然语言、提示背后的意图并融合较长提示中的微小细节，同时更好控制图像一致性。谷歌发布了人工智能音乐生成模型Lyria。与YouTub以及一些出色的音乐家、歌曲作者和制作人合作去开发一套名为Music AI Sandbox的音乐AI工具。这些工具旨在为创造力开辟一个新的游乐场，让人们从头开始创建新的乐器部分，以新的方式改变声音等。资料来源：谷歌官网，信达证券研发中心同时，谷歌针对谷歌搜索、Ask Photo等功能均做出了一定程度的升级更新。从发布会后开始，谷歌将在美国向用户推出经过全面改造的“AI概览”的搜索体验，即在搜索框下面单独展现出AI Overview的内容来给用户更好的服务响应，满足用户提出新类型的问题、更长、更复杂的查询，甚至使用照片进行搜索，并获得网络所提供的最佳信息。以及将在24年夏天推出“询问照片”功能，满足用户搜索照片信息的需求。建议关注：1）AI陪伴+IP：汤姆猫、上海电影、奥飞娱乐、华策影视、中文在线；2）AI+搜索：昆仑万维、三六零等；3）AI+影视：华策影视、慈文传媒、上海电影；4）AI+IP（涉及版权、算料等）：芒果超媒、中广天择、华数传媒、中文在线等；5）AI+出版/教育：南方传媒、皖新传媒等；6）AI+游戏：巨人网络、恺英网络、神州泰岳、三七互娱、姚记科技、盛天网络等；7）特别提示：微软系/语音助手类标的，紫天科技、易点云、万兴科技、视觉中国、科大讯飞、商汤（港股）等。风险提示：生成式人工智能模型进展迭代不及预期、AI应用进展不及预期研究团队简介冯翠婷，信达证券传媒互联网及海外首席分析师，北京大学管理学硕士，香港大学金融学硕士，中山大学管理学学士。2016-2021年任职于天风证券，覆盖互联网、游戏、广告、电商等多个板块，及元宇宙、体育二级市场研究先行者（首篇报告作者），曾获21年东方财富Choice金牌分析师第一、Wind金牌分析师第三、水晶球奖第六、金麒麟第七，20年Wind金牌分析师第一、第一财经第一、金麒麟新锐第三。凤超，信达证券传媒互联网及海外团队高级研究员，本科和研究生分别毕业于清华大学和法国马赛大学，曾在腾讯担任研发工程师，后任职于知名私募机构，担任互联网行业分析师。目前主要负责海外互联网行业的研究，拥有5年的行研经验，对港美股市场和互联网行业有长期的跟踪覆盖。主要关注电商、游戏、本地生活、短视频等领域。刘旺，信达证券传媒互联网及海外团队高级研究员。北京大学金融学硕士，北京邮电大学计算机硕士，北京邮电大学计算机学士，曾任职于腾讯，一级市场从业3年，创业5年（人工智能、虚拟数字人等），拥有人工智能、虚拟数字人、互联网等领域的产业经历。李依韩，信达证券传媒互联网及海外团队研究员。中国农业大学金融硕士，2022年加入信达证券研发中心，覆盖互联网板块。曾任职于华创证券，所在团队曾入围2021年新财富传播与文化类最佳分析师评比，2021年21世纪金牌分析师第四名，2021年金麒麟奖第五名，2021年水晶球评比入围。白云汉，信达证券传媒互联网及海外团队研究员。美国康涅狄格大学金融硕士，曾任职于腾讯系创业公司投资部，一级市场从业2年。后任职于私募基金担任研究员，二级市场从业3年，覆盖传媒互联网赛道。2023年加入信达证券研发中心，目前主要专注于美股研究以及结合海外映射对A股、港股的覆盖。分析师声明负责本报告全部或部分内容的每一位分析师在此申明，本人具有证券投资咨询执业资格，并在中国证券业协会注册登记为证券分析师,以勤勉的职业态度,独立、客观地出具本报告；本报告所表述的所有观点准确反映了分析师本人的研究观点；本人薪酬的任何组成部分不曾与，不与，也将不会与本报告中的具体分析意见或观点直接或间接相关。免责声明信达证券股份有限公司(以下简称“信达证券”)具有中国证监会批复的证券投资咨询业务资格。本报告由信达证券制作并发布。本报告是针对与信达证券签署服务协议的签约客户的专属研究产品，为该类客户进行投资决策时提供辅助和参考，双方对权利与义务均有严格约定。本报告仅提供给上述特定客户，并不面向公众发布。信达证券不会因接收人收到本报告而视其为本公司的当然客户。客户应当认识到有关本报告的电话、短信、邮件提示仅为研究观点的简要沟通，对本报告的参考使用须以本报告的完整版本为准。本报告是基于信达证券认为可靠的已公开信息编制，但信达证券不保证所载信息的准确性和完整性。本报告所载的意见、评估及预测仅为本报告最初出具日的观点和判断，本报告所指的证券或投资标的的价格、价值及投资收入可能会出现不同程度的波动，涉及证券或投资标的的历史表现不应作为日后表现

点击免费查看完整报告

大模型进程焦点：OpenAI春季发布会及谷歌开发者大会要点归纳

大模型进程焦点：OpenAI春季发布会及谷歌开发者大会要点归纳

OpenAI GPT-4o发布及应用

Google I/O大会亮点

行业投资建议

风险提示

总结

你可能感兴趣

人工智能周报（23年第45周）：OpenAI举行首次开发者大会，中国第二批大模型通过备案

【风口研报·洞察】OpenAI首届开发者大会11月6日在旧金山举行，分析师预计新功能可降低开发者API调用成本达95%，基于ChatGPT等大模型开发AI应用的公司有望受益;这轮行情的时空和结构

区块布局及投资展望：OpenAI开发者大会重塑B、C端发展格局及微软Copilot商业化进展测算

传媒行业周报：OpenAI及谷歌在大模型能力上持续突破，教育部出台首个校外培训管理行政法规

计算机行业周报：谷歌I/O开发者大会召开，强调AI优先

计算机：谷歌开发者大会：一场人工智能主导的盛宴

计算机行业2016年日常报告：科技巨头观察2：谷歌开发者大会深度解读，AI与VR成谷歌未来

10月游戏版号发放，关注OpenAI开发者大会

【东北数字经济冯浚瑒团队】#OpenAI首届开发者大会召开在即~预计ChatGPT功能更强大、调用更便宜

微软Excel、亚马逊推出新AI功能模块，openAI开发者大会将于下周召开