
股票研 究 海外行业专题 (香港 ) 证券研究报 告 2023.10.14 OpenAI引领多模态升级,AIGC产业迎新革命 ——海外科技行业专题报告 梁昭晋(分析师) 0755-23976666 liangzhaojin027677@gtjas.com 证书编号S0880523010002 本报告导读: OpenAI多模态全面升级,生成式AI由模型层向应用层发力,重构应用层推动AIGC 产业革命。 摘要: 投资建议:OpenAI多模态升级引领大模型竞赛,重构内容创作与交互推动AIGC产业全面爆发,推荐标的腾讯控股(0700.HK)、网易-S(9999.HK)、快手-W(1024.HK)、哔哩哔哩-W(9626.HK)、爱奇艺(IQ.O)、云音乐(9899.HK)、心动公司(2400.HK)。 OpenAI多模态全面升级,构架全新交互体验。OpenAI先后宣布推 出最新文生图模型“Dall·E3”及多模态模型“GPT-4V”,并将在未来两周时间里向ChatGPTPlus和Enterprise用户开放,语音功能结合语音识别、转录及音频生成实现语音双向对话,图生文功能升级支持多图像处理及聚焦分析,较其他模型实现简化Prompt精准成像,此外Dall·E3内容审核机制全面优化,多项缓解措施实现内容风险显著压降。随着Win11集成Copilot功能升级、Bing增加对Dall·E3模型支持,Copilot订阅有望更好落地,AI大模型商业化空间将逐步展现。 全球多模态竞争激烈,大模型能力加速革新。OpenAI深耕多模态领 域多时,GPT-4V、Dall·E3、Gobi、CLIP等引领竞赛,GoogleGemini已内部开放且算力将达到GPT-45倍,海外Meta、StabilityAI等及国内百度集团、阿里巴巴、腾讯等科技巨头争相布局,多模态发展趋势明确,大模型能力持续迭代下及生成式AI产业空间将加速打开。 多模态推动应用层爆发,AIGC产业迎来革命。Dealroom数据显示 过去5年全球生成式AI投资总额逾220亿美元,其中模型制造商、应用程序占比分别达到21%、8%;国内方面,艾瑞咨询数据显示2023年应用层融资占比达到14.4%,其中AIGC跨模态、多模态融资占比达到42.4%、16.4%,随着大模型生态培育、底层算力基础设施完善及应用生态构建下2030年中国AIGC产业规模有望达到1.14万亿。我们认为,多模态模型能力将全面革新应用层,一方面通过内容理解和内容生成重塑内容生产方式,推动UGC、PGC迈向AIGC内容时代,量子位预计2023年AIGC直接内容生产仍是AIGC最大市场,游戏、视频、视频、音乐等内容生产形式已开始变革,创作效率及内容品质双双提升;另一方面,通过重构交互形式构建全新内容形态并带来全新应用场景,NewBing重构搜索体验展现商业化潜力,腾讯混元接入50+业务和产品取得初步效果,AIGC产业链全面爆发可期。 风险提示:AI技术发展未及预期;AI投融资热度消退;AI应用创新 未及预期;AI应用用户接受度未及预期。 信息科技 评级:增持 交易数据 行业主要上市公司市值(亿港元)腾讯控股29,231 网易5,277 快手2,761 市值合计37,269 感谢秦和平对本报告的贡献 相关报告 目录 1.OpenAI多模态全面升级,构建全新交互体验3 2.全球多模态竞争白热化,大模型能力加速革新8 3.多模态推动应用层爆发,AIGC产业迎来革命12 4.投资建议18 5.风险提示18 1.OpenAI多模态全面升级,构建全新交互体验 OpenAI多模态能力升级,语音对话及图生文功能上线。9月21日,OpenAI宣布即将推出最新“文生图”模型——Dall·E3。相比于DALL·E2,DALL·E3拥有更加出色的图像渲染能力以及更加细腻的理解能力, 使用户能够轻松地将想法转化为准确的图像;同时,Dall·E3可集成在ChatGPT中使用并简化“提示工程”,大幅度降低人机沟通门槛,原生实现多模态输出。9月25日,OpenAI宣布推出多模态模型GPT-4V,并将在未来两周时间里向ChatGPTPlus和Enterprise用户开放新增的语音及图像交互功能。其中,语音功能将在移动端iOS和Android上提供,使用户可以与ChatGPT进行语音沟通,而图像功能将在所有平台上提供,使用户能够通过上传图片表达需求并提问。 图1OpenAI文生图模型DALL·E3即将开放使用 数据来源:OpenAI官网 集合语音识别、转录及音频生成,实现高效语音双向对话。本次升级中,更新后的语音功使用户能够与ChatGPT实现纯语音实时互动对话,并具备以下特点:1)精准语音识别:语音对话功能集合了Whisper开源语音识别系统,该系统已经接受了超过680,000小时的多语言、多任务监督 训练,对于不同口音、背景噪音、技术语言的识别具有优异的性能,提高了语音交互准确性及效率,并为用户提供了多达5种不同的语音选项;2)双向语音对话能力:输入端,基于OpenAI自研的开源语音识别模型 工具Whisper,将语音转换为文本实现语音输入,输出端,同时通过基于 文本到语音(TTS)模型支持,将文字和样本语音生成模拟音频实现语音输出;3)播客内容分享:OpenAi通过与Spotify合作,可以将播客音频在保留主持人音色的基础上翻译为其他语言,使播客内容能够被更广 泛的听众理解和共享。 图2ChatGPT语音输入显示界面图3ChatGPT完成语音转录后用户可以下载语音 数据来源:OpenAI官网数据来源:AIGC开放社区,OpenAI官网 支持多图像处理及聚焦分析,图生文应用场景再拓宽。本次更新后,图生文功能全面升级并具备以下特点:1)支持多张图像处理:用户可以同时将一张或多张相关图像上传至ChatGPT,ChatGPT能够同时理解和处理多个图像的信息并综合分析;2)具备聚焦理解能力:用户可以画笔工具圈出图中要点,帮助ChatGPT理解自身需求,获得更加精确的反馈;3)多模态理解能力:基于GPT-3.5及GPT-4的多模态技术支持,ChatGPT可以全面识别并综合分析图像中的文本及图案,包括照片、截图、文本 及图案等等,提供更具体的指导和建议,进而扩大其应用场景和实用性。在OpenAI官方应用案例中,用户使用绘图工具圈选自行车的特定零件后,ChatGPT综合用户的多轮提问及图片列示了调低自行车座椅的详细操作步骤,并且帮助用户在工具箱中挑选了合适的工具。 图4ChatGPT结合DALL·E3基于图片对话图5DALL·E3提供绘图工具强调特定部分 数据来源:OpenAI官网数据来源:OpenAI官网 图6ChatGPT根据用户输入图片反馈图7ChatGPT根据多个图片同时推理反馈 数据来源:OpenAI官网数据来源:OpenAI官网 简化Prompt精准成像,创作全新交互体验。现阶段,不论是闭源的 Midjourney还是开源的StableDiffusion,用户都需要向系统提交清晰且完整的Prompt才能得到自己想要的图片。随着DALL·E3融入ChatGPT后,ChatGPT将成为文生图提示词工程师,通过自身多回合对话的能力辅助用户通过自然语言表达自身需求并与DALL·E3沟通,最终生成图片,从而更加精准地控制DALL·E3生成的图片效果。从实测效果来看,DALL·E3能够更加精准地理解用户要求,较DALL·E2、Midjourney、SDXL等均有更加的成像效果,同时还能够在图片中标注文字、完善故事插画、生成贴纸等等,创造了全新的交互体验,有望推动内容产业链的创作效率进一步提升。 图8结合ChatGPT后DALL·E3能够在图像中标注文字 图9ChatGPT结合DALL·E3快速生成不同风格的图像 数据来源:OpenAI官网数据来源:OpenAI官网 图10Midjourney和DALL·E3成像效果对比图11SDXL和DALL·E3成像效果对比 数据来源:Midjourney,OpenAI官网,新智元数据来源:StableDiffusionXL,OpenAI官网,新智元 内容审核机制持续优化,多项缓解措施压降内容风险。另一方面,根据 DALL·E3技术报告,在ChatGPT的审核系统PromptTransformations检测的基础上,DALL·E3图生文功能增加了多项缓解措施,以提升其安全性及可靠性,降低生成式内容潜在风险。语音功能方面,新的语音技术能够仅通过几秒钟的真实语音创造出逼真的合成声音,为不法分子合成诈骗、诽谤、色情的虚假信息或盗用他人身份提供了可乘之机,因此OpenAI目前仅在“语音聊天”该特定场景中推出这项功能。图像功能方面,侵犯知识产权以及伦理挑战仍是AIGC共同面临的重大挑战,因此DALL·E3增加了敏感内容拒绝、提示输入分类器、屏蔽列表、提示改写、图像输出分类器等,检查并组织违规内容生成。以图像输出分类器为例,DALL·E3通过内置图像输出分类器对查询请求及输出内容进行了限制,一旦分类器被激活,将在输出之前阻止生成:1)暴力、仇恨、成人等内容的图像;2)偏见、歧视、丑化公众人物的图片;3)文化偏见的图像;4)虚假新闻、名人、公众人物图像;5)在世艺术家风格相似的图像;6)化学、生物学、物理学等存在谬误图像。根据OpenAI报告所示,DALL·E3能够把这种提示没有要求但生成裸体、或是令人反感的图像风险降低到了0.7%,未来将进一步加强图像水印、研发标记等领域,进一步确保版权内容及其他内容得以保护。 图12DALL·E3图像输出分类器实现图像去性化图13DALL·E3图像输出分类器令图像风格更保守 数据来源:《DALL·E3SystemCard》数据来源:《DALL·E3SystemCard》注:左图为DALL·E3发布前效果,右图为DALL·E3发布后效果 图14DALL·E3发布前会生成虚假公众人物图像图15DALL·E3对化学、生物学等进行勘误 数据来源:《DALL·E3SystemCard》数据来源:《DALL·E3SystemCard》 Win11集成Copilot多功能升级,DALL·E3融合Bing释放商业化价值。根据微软官网,9月26日,CopilotAI助手正式集成至Windows11 免费更新,为商业客户提供150多项AI辅助功能,涵盖画图、照片、剪贴板等应用程序,计划于11月1日面向企业客户全面推出Microsoft365Copilot,定价为30美元每月每用户。相较于目前微软长期提供的Microsoft365BusinessStandard、Premium、E3、E5四类SaaS服务,Copilot定价为每月每用户30美元,推动Microsoft原四类单位服务价格提升240%、136%、83%、53%,Copilot通过简化办公流程、提升办公效率等价值创造打开大模型应用商业化价值。 图16Win11更新后画图板能够实现文生图图17Copilot推动Microsoft365ARPU显著提升 Copilot订阅费用/$每月每用户原产品订阅费用/$每月每用户 +53% +83% +136% +240% 100 90 80 70 60 50 40 30 20 10 0 Microsoft365Microsoft365Microsoft365Microsoft365 Business Standard 数据来源:微软官网数据来源:微软官网 BusinessE3E5 Premium 与此同时,10月3日,微软宣布Bing将增加对OpenAI最新DALL·E3模型的支持,用户可以通过微软图像创作器及BingChat聊天界面两种途径使用最新的DALL·E3模型,能够根据用户的搜索历史更轻松地通过自然语言提示生成逼真且个性化的答案,此外Bing搜索引擎还将提供全新的人工智能购物体验。DALL·E3推动C端及B端用