您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:通信行业深度:AI文生视频,多模态应用的下一站 - 发现报告
当前位置:首页/行业研究/报告详情/

通信行业深度:AI文生视频,多模态应用的下一站

信息技术2023-10-09国盛证券匡***
通信行业深度:AI文生视频,多模态应用的下一站

请仔细阅读本报告末页声明 证券研究报告|行业深度 2023年10月09日 通信 AI文生视频:多模态应用的下一站 市场认为,AI应用已经逐渐步入成熟期,但未见杀手级应用。本篇报告中,我们谨以“文生视频”这一多模态应用为例,阐述AI应用的发展尚处于早期,相对应地,算力需求远未见顶。 文生视频是多模态AIGC圣杯,优化迭代速度慢。视频是多帧图像的组合,然而文生视频在文生图的基础上增加了时间维度,技术实现更困难。即便是Meta和Google这样的硅谷人工智能巨头,在文生视频上进展缓慢,它们分别推出的Make-A-Video和Phenaki均尚未公测。 文生视频底层模型及技术仍在优化,未筛选出最优模型。文生视频技术主要发展过程经历了基于GAN和VAE、基于Transformer模型、基于扩散模型三个阶段。目前主流的文生视频模型主要依托Transformer模型和扩散模型。1)基于Transformer的代表Phenaki突破了视频生成时长限制,但效果相对粗糙缺少细节。2)基于扩散模型的代表Make-A-Video重在提升视频质量,但其视频时长均在4s以内。 文生视频效果各异,总体质量较低。当前文生视频可公测应用较少,仅有RunwayGen-2、ZeroScope及Pika Labs等少数几个,它们有如下共同问题:1)复杂人物动作生成帧连续效果较差;2)非日常场景的视频架构能力连续能力一般;3)多主体视频生成缺乏逻辑连续性等。 文生视频当前商用化程度较低,可从图片生成看其商业前景。1)根据七麦数据,图片生成类应用在多模态大模型中,表现出较强的收费能力,应用数量上占比最高。2)当前唯一收费的文生视频应用(Runway Gen-2),商业模式与图片生成趋同,即主要按照生成量定价。 看好人像生成细分领域,但营收持续增长能力仍待验证。1)Lensa AI推出人像生成功能后,去年12月前12日内创收2930万美元,但2023年7月全球收入已回落为100万美元;2)妙鸭相机上线即火爆,半月营收估计超过29万美元,后续须上线新模板、新玩法维持营收增长。 看好算力储备大厂在多模态生成领域的发展。1)文生图应用Midjourney日活达1500万,年收入超1亿美元,它推出的多版无限量套餐、高速GPU服务反映出市场对算力的巨大需求。2)目前国内文生图多为计次付费,尚未出现无限量套餐,或因算力受限,我们认为,具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。 看好业务协同向发展,看好文生视频与文生图、图生视频的联动。AI对产品价值的拉动表现为:1)促活、拉新:Adobe、Microsoft 365 Copilot分别在软件原有基础上推出AI工具;2)提升产品价格:Office Copilot是基于GPT-4 API的应用,Copilot加入后Office当前四种商业版整体订阅价格涨幅达53-240%。我们看好文生视频能与原有产品产生协同,降本增效的公司,例如游戏、影视制作等领域的公司。 投资建议:1)算力:AIGC蓬勃发展的基石,建议关注光通信,包括中际旭创、天孚通信、新易盛、太辰光、德科立;算力设备:盛科通信、恒为科技、锐捷网络、寒武纪、美格智能、紫光股份、工业富联、中兴通讯等;算力租赁:中贝通信、云赛智联等;2)模型层:建议关注金山办公、万兴科技、科大讯飞等;3)应用层:看好游戏的迭代创新,建议关注恺英网络、神州泰岳、盛天网络、游族网络等。 风险提示:伦理风险、知识产权及版权风险、计算资源限制。 增持(维持) 行业走势 作者 分析师宋嘉吉 执业证书编号:S0680519010002 邮箱:songjiaji@gszq.com 分析师孙爽 执业证书编号:S0680521050001 邮箱:sunshuang@gszq.com 相关研究 1、《通信:亚马逊重金投资Anthropic,AI战场的合纵连横》2023-09-26 2、《通信:AI算力再起,开启全球共振》2023-09-24 3、《通信:“文生游戏”诞生,Roblox开启游戏AIGC革命》2023-09-18 -16%0%16%32%48%64%80%2022-102023-022023-062023-09通信沪深300 2023年10月09日 P.2 请仔细阅读本报告末页声明 内容目录 1 文生视频,多模态AIGC圣杯 ............................................................................................................................... 4 1.1 相较于文字和图片,视频能承载的信息量更大 ............................................................................................. 4 1.2 当前公测的文生视频应用数量较少 .............................................................................................................. 4 1.3 文生视频,难在哪里? ............................................................................................................................... 5 2 技术路线沿革:文生视频,哪种技术更强? .......................................................................................................... 6 2.1 阶段一:基于GAN和VAE,以Text2Filter为代表......................................................................................... 6 2.2 阶段二:基于Transformer,以Phenaki为代表 ............................................................................................ 6 2.3 阶段三:基于扩散模型,以Make-A-Video和阿里通义为代表 ........................................................................ 7 2.3.1 Meta:Make-A-Video ........................................................................................................................ 8 2.3.2 阿里达摩院:通义文生视频大模型 ..................................................................................................... 9 2.3.3 Zeroscope:由阿里达摩院Modelscope文生视频模型优化得出 ............................................................ 9 3 实测:文生视频模型当前风格各异,总体质量较低 ............................................................................................... 10 3.1 复杂人物动作生成帧连续效果较差 ............................................................................................................. 10 3.2 非日常场景的视频架构能力连续能力一般 ................................................................................................... 11 3.3 多主体视频生成缺乏逻辑连续性 ................................................................................................................ 12 4 从图片生成看文生视频的商业前景 ....................................................................................................................... 13 4.1 为什么选择图片生成作为对标对象? .......................................................................................................... 13 4.1.1 图片生成相对成熟 ........................................................................................................................... 13 4.1.2 已经收费的视频生成应用,商业模式与图片生成趋同 ......................................................................... 13 4.2 细分领域:看好人像生成,短期内变现较快 ................................................................................................ 14 4.2.1 Lensa AI:人像生成功能推出后用户付费意愿高 ................................................................................ 14 4.2.2 妙鸭相机:国内首个“破圈”应用,写真生成引起社交裂变 ............................................................... 15 4.3 竞争优势:看好有算力储备的公司 ............................................................................................................. 16 4.3.1 Midjourney:“无限量”套餐拢获用户,映射市场对算力的高需求 ....................................................... 16 4.3.2 腾讯云:云服务厂商加紧多模态生成布局 ..........................................................................