行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

传媒互联网及海外行业：AI音频软硬结合声动未来，AI视频扬帆起航

文化传媒 2024-10-16 冯翠婷信达证券静心悟动

一、AI+视频持续火热

Meta Movie Gen: 发布突破性生成式AI研究模型，具备视频生成、个性化视频生成、精确视频编辑和音频生成四大功能，在视频编辑和音视频同步生成方面取得显著进展。
字节跳动豆包视频大模型: 发布PixelDance和Seaweed两款大模型，分别支持文生视频和图生视频，具备时序性复杂动作指令和交互能力，赋能影视创作、广告传媒等多个场景。
可灵AI: 更新“对口型”功能，支持用户为生成的AI人物视频添加配音，实现口型与音频同步。
Pika 1.5: 引入“Pikaffects”效果，允许用户轻松改变视频元素，并推出Big Screen Shots功能，提升视频专业品质。
美图MOKI: 上线一键成片功能，专注于AI短片创作，覆盖动画短片、网文短剧等多种类型，提供一站式成片能力。

二、OpenAI DevDay AI音频更新亮眼

OpenAI Realtime API: 推出实时API，支持近乎实时的“语音转语音”体验，并可选择六种声音，同时引入音频输入和输出功能。
应用案例: Healthify应用使用Realtime API实现与AI教练的自然对话，Speak应用则利用该API支持角色扮演功能。
Duolingo: 发布Duocon 2024，推出虚拟IP视频通话、虚拟世界探险学玩、扩展音乐和数学课程等功能，订阅付费渗透率提升至8%以上，财务和经营数据表现亮眼。

三、AI+音频应用主要上市公司

汤姆猫: 投资西湖心辰，其心辰Lingo端到端语音大模型在拟人语音交互方向领先，应用于AI销售、AI心理咨询、AI儿童陪伴等领域。
盛天网络: 推出“给麦”APP，结合AI科技与娱乐场景，提供AI音乐创作和社交互动功能，在iOS音乐类排行榜上取得佳绩。
昆仑万维: 发布AI流媒体音乐平台Melodio和AI音乐商用创作平台Mureka，搭载自研DiT架构音乐大模型Skymusic 2.0，支持持续稳定生成特定风格歌曲。

四、投资建议

AI音频: 建议关注盛天网络、中文在线、汤姆猫、昆仑万维等。
AI视频: 建议关注一站式平台型公司（如Adobe、美图）、AI+视频技术头部服务商（如Runway、商汤科技）、视频剪辑类公司（如快手）、广告营销类公司（如易点天下、蓝色光标）、UGC社区类公司（如Bilibili）、视频数据类公司（如捷成股份）、IP类公司（如上海电影、阅文集团）、探索AI视频工作流及其他创作方向类公司（如博纳影业、超讯通信、柠萌影视）等。

五、风险因素

AI大模型发展不及预期。
AI视频产品付费率提升不及预期。

证券研究报告行业研究 2024年10月16日本期内容提要: ➢海外AI+音频代表性应用Duolingo股价历史新高，Duocon2024发布独特虚拟IP视频通话、虚拟世界探险学玩、扩展音乐课程等功能，订阅付费渗透率逐渐提升至8%以上。公司财务和经营数据均表现较为亮眼。24Q2公司实现营收1.78亿美元，比去年同期增长41%；调整后的EBITDA为4810万美元，去年同期为2090万美元，24Q2和23Q2调整后的EBITDA利润率分别为27.0%和16.5%；用户情况：24Q2 Duolingo月活超过1亿，季度末付费用户总数达到800万，比去年同期增长52%，即目前Max产品付费率超过8%，本次产品更新有望进一步加速Max产品付费渗透率。 ➢AI+视频迭代持续火热，Meta、字节发布新模型，美图MOKI一键成片产品正式上线，可灵、Pika迭代新版本。1）10月4日，Meta发布了Meta Movie Gen模型，是一项针对图像、视频和音频的突破性生成式AI研究，Movie Gen具有四种功能：视频生成、个性化视频生成、精确视频编辑和音频生成。2）字节豆包视频大模型PixelDance&Seaweed——主打时序性复杂动作指令和交互能力。字节跳动正式进军AI视频生成领域，其数据、技术和人才等储备深厚。9月25日，视频大模型赋能的字节C端产品——即梦正式开启内测邀请。3）2024年9月30日，快手可灵AI视频模型产品发布产品更新，产品重点新增「对口型」功能；4）Pika 1.5引入了一套创新效果，称为Pikaffects，允许用户轻松大幅改变视频元素，例如：膨胀、爆炸、压碎、融化、挤压和蛋糕化；5）美图MOKI一键成片正式上线开放。 ➢投资建议： AI音频方面：在语音实时对话效果不断提升的基础上，相比之前的虚拟陪伴、虚拟人物的语音互动，OpenAI Realtime API更有望催生一大批基于纯语音交互的AI应用，例如旅行规划、点餐、出游、语音学习、电商购物、教育等诸多方向。建议关注：盛天网络、中文在线、汤姆猫、昆仑万维等；信达证券股份有限公司CINDA SECURITIES CO.,LTD北京市西城区宣武门西大街甲127号金隅大厦B座邮编：100053 AI视频方面：远不止于视频生成，从AI生成到AI工作流，一站式 AI视频生成+剪辑+故事创作有望成为产业核心发展方向。AI+视频时代来临，思考哪类公司存在商业化变现的可能性？我们认为，1）一站式平台型公司，如Adobe、美图公司；2）AI+视频技术头部服务商转型产品类公司，如Runway、商汤科技；3）视频剪辑类公司，如快手；4）广告营销类公司，如易点天下、蓝色光标、因赛集团、利欧股份；5）UGC社区类公司，如Bilibili；6）视频数据类公司，如捷成股份、华策影视、视觉中国、中广天择；7）IP类公司，如上海电影、阅文集团、汤姆猫、中文在线、果麦文化；8）探索AI视频工作流及其他创作方向类公司，如博纳影业、超讯通信、柠萌影视。9）其他建议关注猫眼娱乐、光线传媒、芒果超媒、万达电影等。 ➢风险因素：AI大模型发展不及预期、AI视频产品付费率提升不及预期；目录一、AI+视频持续火热：Meta、字节发布新模型，可灵、Pika、美图迭代版本..........................5二、OpenAI DevDay AI音频更新亮眼，有望催化AI语音交互应用成熟..................................10三、投资建议.....................................................................................................................................15四、风险因素.....................................................................................................................................16 表目录表1：OpenAI Realtime音频API价格和其他模型文本价格比较.........................................................15表2：相关上市公司估值表（截至2024.10.15）........................................................................................16 图目录图1：Meta Movie Gen基础架构.........................................................................................................................5图2：Meta Movie Gen视频模型和其他模型量化指标比较.....................................................................6图3：Meta Movie Gen视频模型生成效果比较.............................................................................................6图4：Meta Movie Gen模型视频编辑原理......................................................................................................7图5：Meta Movie Gen模型可生成带有音频的视频...................................................................................7图6：字节PixelDance视频模型复杂prompt时序性指令生成..............................................................8图7：可灵AI 0930更新“对口型”功能..........................................................................................................9图8：Pika 1.5官网更新视频效果.........................................................................................................................9图9：美图MOKI一键成片功能展示................................................................................................................10图10：Speak接入OpenAI Realtime API支持其角色扮演进行新语言联系功能............................11图11：Duolingo 2024 Duocon更新功能（video call with Lily, Adventures, Math,Music）.......12图12：20Q3-24Q2Duolingo日活和月活用户数........................................................................................12图13：20Q1-24Q2Duolingo付费订阅用户数.............................................................................................13图15：西湖心辰Lingo AI语音交互演示........................................................................................................13图16：盛天网络给麦AI功能迭代.....................................................................................................................14图17：昆仑万维Mureka创作页面...................................................................................................................15 一、AI+视频持续火热：Meta、字节发布新模型，可灵、Pika、美图迭代版本（一）Meta Movie Gen——主打精确视频编辑和音视频同步生成 2024年10月4日，Meta发布了Meta Movie Gen模型，是一项针对图像、视频和音频的突破性生成式AI研究，Movie Gen具有四种功能：视频生成、个性化视频生成、精确视频编辑和音频生成。1）视频生成：该30B参数转换器模型能够以每秒16帧的速度生成长达16秒的视频。2）个性化视频生成：将一个人的图像作为输入，并将其与文本提示相结合，以生成包含参考人物和文本提示所告知的丰富视觉细节的视频。3）视频编辑：同一基础模型的编辑变体以视频和文本提示作为输入，精确执行任务以生成所需的输出。它将视频生成与高级图像编辑相结合，执行局部编辑（例如添加、删除或替换元素）以及全局更改（例如背景或样式修改）。4）音频生成：13B参数音频生成模型，该模型可以接收视频和可选的文本提示，生成长达45秒的高质量高保真音频，包括环境声音、音效(Foley)和乐器背景音乐，所有这些都与视频内容同步，在音频质量、视频到音频对齐和文本到音频对齐方面总体上实现了一流的性能。 Meta首先通过一个时间自动编码器模型（TAE）训练了一个时空压缩的隐空间，然后再基于此训练了一个生成模型。模型架构上，Meta采用了Transformer，整体位于Llama 3的设计空间中。推理阶段，Meta的一个创新思路是首先使用Llama 3对用户输入的提示词进行重写，将其扩展成更加详细的版本。实践表明该方法确实有助于提升生成结果的质量。个性化视频生成：基于Meta发布的30B Movie Gen视频模型，公司拓展到了个性化视频的生成，用户只需提供人物图像输入和对应的文本提示词，就能生成包含该人物以及文本描述的细节的视频。Meta表示Movie Gen生成的个性化视频在保留人类身份和运动方面做到了SOTA。训练过程先是进行预训练（分为身份注入、长视频生成、提升自然度三个阶段），然后执行监督式微调。视频精确编辑：给定一段视频和文本提示词，模型可以生成符合要求的经过修改的输出，其中包括一些非常高阶的编辑功能，比如添加、移除和替换元素，修改背景和风格等全局要素。Meta团队同样采用了一种多阶段方法：首先执行单帧编辑，然后进行多帧编辑，之后再整体编辑视频，效果图中展示较好。音频同步生成：Meta训练了一个13B参数的音频生成模型Movie Gen Audio。该模型可以基于视频和可选的文本提示词生成长达45

点击免费查看完整报告