AI智能总结
证券研究报告 行业研究 2024年10月16日 本期内容提要: ➢海外AI+音频代表性应用Duolingo股价历史新高,Duocon2024发布独特虚拟IP视频通话、虚拟世界探险学玩、扩展音乐课程等功能,订阅付费渗透率逐渐提升至8%以上。公司财务和经营数据均表现较为亮眼。24Q2公司实现营收1.78亿美元,比去年同期增长41%;调整后的EBITDA为4810万美元,去年同期为2090万美元,24Q2和23Q2调整后的EBITDA利润率分别为27.0%和16.5%;用户情况:24Q2 Duolingo月活超过1亿,季度末付费用户总数达到800万,比去年同期增长52%,即目前Max产品付费率超过8%,本次产品更新有望进一步加速Max产品付费渗透率。 ➢AI+视频迭代持续火热,Meta、字节发布新模型,美图MOKI一键成片产品正式上线,可灵、Pika迭代新版本。1)10月4日,Meta发布了Meta Movie Gen模型,是一项针对图像、视频和音频的突破性生成式AI研究,Movie Gen具有四种功能:视频生成、个性化视频生 成 、 精 确 视 频 编 辑 和 音 频 生 成。2) 字 节 豆 包 视 频 大 模 型PixelDance&Seaweed——主打时序性复杂动作指令和交互能力。字节跳动正式进军AI视频生成领域,其数据、技术和人才等储备深厚。9月25日,视频大模型赋能的字节C端产品——即梦正式开启内测邀请。3)2024年9月30日,快手可灵AI视频模型产品发布产品更新,产品重点新增「对口型」功能;4)Pika 1.5引入了一套创新效果,称为Pikaffects,允许用户轻松大幅改变视频元素,例如:膨胀、爆炸、压碎、融化、挤压和蛋糕化;5)美图MOKI一键成片正式上线开放。 ➢投资建议: AI音频方面:在语音实时对话效果不断提升的基础上,相比之前的虚拟陪伴、虚拟人物的语音互动,OpenAI Realtime API更有望催生一大批基于纯语音交互的AI应用,例如旅行规划、点餐、出游、语音学习、电商购物、教育等诸多方向。建议关注:盛天网络、中文在线、汤姆猫、昆仑万维等; 信达证券股份有限公司CINDA SECURITIES CO.,LTD北京市西城区宣武门西大街甲127号金隅大厦B座邮编:100053 AI视频方面:远不止于视频生成,从AI生成到AI工作流,一站式 AI视频生成+剪辑+故事创作有望成为产业核心发展方向。AI+视频时代来临,思考哪类公司存在商业化变现的可能性?我们认为,1)一站式平台型公司,如Adobe、美图公司;2)AI+视频技术头部服务商转型产品类公司,如Runway、商汤科技;3)视频剪辑类公司,如快手;4)广告营销类公司,如易点天下、蓝色光标、因赛集团、利欧股份;5)UGC社区类公司,如Bilibili;6)视频数据类公司,如捷成股份、华策影视、视觉中国、中广天择;7)IP类公司,如上海电影、阅文集团、汤姆猫、中文在线、果麦文化;8)探索AI视频工作流及其他创作方向类公司,如博纳影业、超讯通信、柠萌影视。9)其他建议关注猫眼娱乐、光线传媒、芒果超媒、万达电影等。 ➢风险因素:AI大模型发展不及预期、AI视频产品付费率提升不及预期; 目录 一、AI+视频持续火热:Meta、字节发布新模型,可灵、Pika、美图迭代版本..........................5二、OpenAI DevDay AI音频更新亮眼,有望催化AI语音交互应用成熟..................................10三、投资建议.....................................................................................................................................15四、风险因素.....................................................................................................................................16 表目录 表1:OpenAI Realtime音频API价格和其他模型文本价格比较.........................................................15表2:相关上市公司估值表(截至2024.10.15)........................................................................................16 图目录 图1:Meta Movie Gen基础架构.........................................................................................................................5图2:Meta Movie Gen视频模型和其他模型量化指标比较.....................................................................6图3:Meta Movie Gen视频模型生成效果比较.............................................................................................6图4:Meta Movie Gen模型视频编辑原理......................................................................................................7图5:Meta Movie Gen模型可生成带有音频的视频...................................................................................7图6:字节PixelDance视频模型复杂prompt时序性指令生成..............................................................8图7:可灵AI 0930更新“对口型”功能..........................................................................................................9图8:Pika 1.5官网更新视频效果.........................................................................................................................9图9:美图MOKI一键成片功能展示................................................................................................................10图10:Speak接入OpenAI Realtime API支持其角色扮演进行新语言联系功能............................11图11:Duolingo 2024 Duocon更新功能(video call with Lily, Adventures, Math,Music).......12图12:20Q3-24Q2Duolingo日活和月活用户数........................................................................................12图13:20Q1-24Q2Duolingo付费订阅用户数.............................................................................................13图15:西湖心辰Lingo AI语音交互演示........................................................................................................13图16:盛天网络给麦AI功能迭代.....................................................................................................................14图17:昆仑万维Mureka创作页面...................................................................................................................15 一、AI+视频持续火热:Meta、字节发布新模型,可灵、Pika、美图迭代版本 (一)Meta Movie Gen——主打精确视频编辑和音视频同步生成 2024年10月4日,Meta发布了Meta Movie Gen模型,是一项针对图像、视频和音频的突破性生成式AI研究,Movie Gen具有四种功能:视频生成、个性化视频生成、精确视频编辑和音频生成。1)视频生成:该30B参数转换器模型能够以每秒16帧的速度生成长达16秒的视频。2)个性化视频生成:将一个人的图像作为输入,并将其与文本提示相结合,以生成包含参考人物和文本提示所告知的丰富视觉细节的视频。3)视频编辑:同一基础模型的编辑变体以视频和文本提示作为输入,精确执行任务以生成所需的输出。它将视频生成与高级图像编辑相结合,执行局部编辑(例如添加、删除或替换元素)以及全局更改(例如背景或样式修改)。4)音频生成:13B参数音频生成模型,该模型可以接收视频和可选的文本提示,生成长达45秒的高质量高保真音频,包括环境声音、音效(Foley)和乐器背景音乐,所有这些都与视频内容同步,在音频质量、视频到音频对齐和文本到音频对齐方面总体上实现了一流的性能。 Meta首先通过一个时间自动编码器模型(TAE)训练了一个时空压缩的隐空间,然后再基于此训练了一个生成模型。模型架构上,Meta采用了Transformer,整体位于Llama 3的设计空间中。推理阶段,Meta的一个创新思路是首先使用Llama 3对用户输入的提示词进行重写,将其扩展成更加详细的版本。实践表明该方法确实有助于提升生成结果的质量。 个性化视频生成:基于Meta发布的30B Movie Gen视频模型,公司拓展到了个性化视频的生成,用户只需提供人物图像输入和对应的文本提示词,就能生成包含该人物以及文本描述的细节的视频。Meta表示Movie Gen生成的个性化视频在保留人类身份和运动方面做到了SOTA。训练过程先是进行预训练(分为身份注入、长视频生成、提升自然度三个阶段),然后执行监督式微调。 视频精确编辑:给定一段视频和文本提示词,模型可以生成符合要求的经过修改的输出,其中包括一些非常高阶的编辑功能,比如添加、移除和替换元素,修改背景和风格等全局要素。Meta团队同样采用了一种多阶段方法: 首先执行单帧编辑,然后进行多帧编辑,之后再整体编辑视频,效果图中展示较好。 音频同步生成:Meta训练了一个13B参数的音频生成模型Movie Gen Audio。该模型可以基于视频和可选的文本提示词生成长达45