行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI产品测评体验系列报告快手可灵：开启视频生成2.0时代，全球用户数已突破2200万

文化传媒 2025-04-17 - 华创证券小酒窝大门牙

核心观点：可灵AI发布2.0模型，升级视频生成及图像生成能力，定位为快手AGI时代视频创作基础设施，旨在改造升级现有业务，创造新内容生产赛道，保持短视频领先地位。
关键数据：
- 可灵AI自2024年6月发布以来累计完成超20次迭代，截至2025年4月15日全球用户规模突破2200万，超1.5万开发者和企业客户使用其API。
- 可灵2.0基础模型架构及训练推理策略全新升级，包括DiT架构、重新设计的视觉VAE等。
- 可灵2.0（大师版）视频生成模型语义响应、动态质量、画面美感大幅提升。
- 可图2.0图像模型大幅提升语义遵循能力，支持近60种风格，画面更具电影质感。
- 可灵2.0新增多模态编辑功能，支持视频和图片的灵活修改和再创作。
- 可灵作为国内首个C端付费AI视频工具，率先跑通商业化，24Q4季报显示AIGC营销素材和虚拟数字人直播日均消耗超3000万元。
- 可灵1.6pro登顶图生视频赛道，全球用户月活量增长25倍，累计生成超过1.68亿个视频及3.44亿张图片。
- 可灵1.6版本生成单个5秒视频花费1-2元，2.0版本对应花费5-7元。
研究结论：
- 可灵商业化跑通，有望成为快手长期收入增量引擎，24年累计收入超1亿元人民币，中长期占比有望提升。
- 技术迭代和场景扩展（如数字人直播）将驱动付费率提升和企业客户ARPU增长。
- 快手主营业务增速放缓，AI发展迭代更迫切，可灵未来有望成为增收新引擎。
风险提示：
- 政策监管趋严。
- AI技术迭代发展不及预期。
- AI产品商业化不及预期。

2025年4月15日，可灵AI在北京中关村国际创新中心举行「灵感成真」2.0模型发布会，宣布基座模型再次升级，面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。可灵AI定位为快手AGI时代视频创作的新基础设施。可灵是快手AI视频生产的入口，旨在改造升级现有业务，创造新的视频内容生产赛道，保持和升级快手在短视频生产和消费社区的领先地位。根据快手科技公众号，自2024年6月发布以来，可灵AI已累计完成超20次迭代，截至2025年4月15日，全球用户规模突破2200万。来自世界各地的超1.5万开发者和企业客户，将可灵的API应用于不同的行业场景中。更新亮点1：基础模型重磅更新。从基础模型角度看，可灵2.0在基础模型架构以及训练和推理策略上全新升级。1）全新设计DiT架构，使得可灵2.0视觉模态和文本模态的融合更加对齐；2）重新设计视觉VAE，使得在复杂场景下的动态的过渡更加自然；3）进一步对齐了人类偏好，让模型更懂常识和审美。更新亮点2：多模态编辑全新上线。支持基于“视频+文字图片”进行多种灵活修改和再创作。1）可灵使用统一的上下文表征技术，把文本模态、图像模态和视觉模态进行了统一表征；2）并使用超长的上下文进行训练，通过高效的图片压缩算法，可以支持长序列的训练和推理；3）在推理环节可灵使用了带有COT(思维链多模态推理能力)的技术来理解用户输入的多模态信息，在一定程度上实现了基于多模态理解的多模态推理。从商业化视角来看，可灵作为国内首个C端付费的AI视频工具，率先跑通商业化，后续有望成为增收新引擎。1）赋能原有业务：在商业化场景中引入AIGC营销素材、数字人直播等。经济观察报表示，快手内部曾有测算，预计AI大模型可以把客户的短视频营销素材制作成本降低60%~70%或更高。2）通过可灵创造全新的AI视频内容赛道，带来用户及流量增量和AI生态入口。风险提示：政策监管趋严；AI技术迭代发展不及预期；AI产品商业化不及预期等。一、产品简介：可灵2.0发布，AGI时代视频创作的新基础设施 2025年4月15日，可灵AI在北京中关村国际创新中心举行「灵感成真」2.0模型发布会，宣布基座模型再次升级，面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。可灵AI定位为快手AGI时代视频创作的新基础设施。可灵是快手AI视频生产的入口，旨在改造升级现有业务，创造新的视频内容生产赛道，保持和升级快手在短视频生产和消费社区的领先地位。根据快手科技公众号，自2024年6月发布以来，可灵AI已累计完成超20次迭代，截至2025年4月15日，全球用户规模突破2,200万。来自世界各地的超1.5万开发者和企业客户，将可灵的API应用于不同的行业场景中。图表1可灵AI重要版本迭代/事件梳理二、更新亮点：基础模型重磅更新，多模态编辑全新上线此次发布，可灵AI全面迈入2.0时代，包括基础模型更新和多模态全新上线两大要点。（一）基础模型重磅更新：可灵+可图，从图片生成到视频生成全系更新根据快手可灵官网，可灵团队在基础模型架构以及训练和推理策略上全新升级。1）全新设计DiT架构，使得可灵2.0视觉模态和文本模态的融合更加对齐；2）重新设计视觉VAE，使得在复杂场景下的动态的过渡更加自然；3）进一步对齐了人类偏好，让模型更懂常识和审美。可灵2.0（大师版) 视频生成全新推出可灵20（大师版）模型，拥有比可灵1.6模型更强的语义响应、更优的动态质量、更美的画面质感。 1）语义响应大幅提升：动作、表情、运镜响应更佳，支持描述时序更复杂的镜头。动作响应能力。对于动作的描述和肢体的动作的生成，1.6版本完成度较好，但仍有一些细节错误影响整体观感。2.0版本对每个细节动作阐述更优秀。运镜响应能力。2.0版本不仅支持专业运镜术语，还支持用户直接用提示词激活运镜。并且生成镜头的视觉张力更好，更有表现力。持续响应能力。在同一个提示框里面，用户按照时间顺序进行分段描述，相较于1.6的版本的难以精确响应，2.0版本的模型能够按照严格的时间生成。图表2语义响应大幅提升，动作、表情、运镜响应更佳 2）动态质量大幅提升：角色/主体的动作幅度更大，速度更流畅，复杂动作也更加细腻、更自然、更合理，让用户身临其境，充分感授视频画面的灵动活力。复杂动作的完成度更高。如跑酷复杂动作，可灵新版本可以做很好响应。模型的运动幅度更加合理。可灵进一步优化模型的运动幅度，使其幅度更合理。例如，官方恐龙追逐镜头case，具备更大、更合理的运动幅度。运动速度更加合理。可灵对于运动的速度做了进一步的优化，重点优化了历史版本中有可能出现慢动作的问题，可以看到更优秀更合理的运动速度。图表3动态质量大幅提升：速度更流畅，复杂动作更合理。 3）画面美感大幅提升：可灵延续1.0核心架构优势，持续提升数字内容创作效率与艺术表现力。视频生成技术实现三大核心突破。在影像品质方面，角色呈现更真实自然，动作与表情细腻，画面细节可精准响应描述，呈现电影质感与丰富细节；在风格延续方面，优化后的图生视频技术能高度保持原图艺术风格，尤其针对首帧关键画面进行强化处理，确保艺术调性稳定统一；在人物演绎方面，通过学习专项优化表情管理与肢体动作美学，使角色表现更为生动鲜活，适用于高质量动态内容创作。图表4画面美感大幅提升：角色更真，画面更细，风格更美 1、可图2.0 可图2.0图像模型全新发布。大幅度提升语义遵循能力，能响应近60+种风格，画面更具电影质感，让创意更生动、具象。 1）指令遵循大幅提升：可图20对多种元素、复杂指令、颜色位置等响应有大幅度提升，画面细节真实感强，生图结果更具异质性，提升可用率。图表5指令遵循大幅提升，画面细节真实感强 2）电影质感提升：电影大片的氛围和层次，能够生成有质感的大场面和分镜照。可图2.0画面的构图更有高级感，光影色彩为画面带来独特的美学调性。图表6电影质感提升，构图更有高级感 3）多风格拓响应：可图2.0能支持60+种风格，涵盖特殊材质、数字艺术和绘画技法等。图表7多风格拓响应，能支持60+种风格（二）多模态编辑全新上线：支持基于“视频+文字图片”进行灵活修改和再创作视频生成新增多模态编辑，支持基于“视频+文字图片”进行多种灵活修改和再创作。可灵在多模态控制技术上迎来突破，如，可灵使用统一的上下文表征技术，把文本模态、图像模态和视觉模态进行了统一表征；并使用超长的上下文进行训练，通过高效的图片压缩算法，可以支持长序列的训练和推理；在推理环节可灵使用了带有COT（思维链多模态推理能力）的技术来理解用户输入的多模态信息，在一定程度上实现了基于多模态理解的多模态推理。 1、视频多模态编辑可灵2.0模型多模态编辑功能上线，用户可以上传一段1-5s的视频，基于视频+文字图片，对视频替换元素、增加元素、删除元素，让用户能灵活对视频修改、再创作，获得更好更具创意的视频表现。替换元素：在多个关键帧上，指定视频中连续的内容选区，然后可用1张参考图对选择的庄体、背景内容进行替换，例如模特换衣、人物修改。删除元素：在多个关键帧上，指定视频中连续的内容选区，可以对选区的主体、背景内容进行删除，例如删除误入镜头的路人。增加元素：可以输入1-2张参考图，或者通过文字描述的方式，对视频进行主体内容增加，例如让一艘太空飞船降临城市上空。图表8视频多模态编辑功能示意 2、图片编辑图片生成新增图片编辑功能，用户可以对生成的图片进行局部重绘或扩图，灵活修改图片细节，随意修改图片尺寸，同时也支持用户上传自己的图片进行编辑，效果自然，与原图高度融合。局部重绘：通过指定重绘区域，并提供目标内容的提示词描述，可对图片进行元素增加、元素修改等操作，生成内容与原图的融合自然度和真实感位于行业水平。更好地满足图片素材二改的创作诉求（如修复残图、调整图片细节、创意case等），补齐创作流程，提升全链路抽卡率。扩图：扩图比例及尺寸更加自由，支持用户随意拖拽原图位置，改变原图大小，可自由扩充图片内容，放大画面视野；生成内容极具想象力，与原图融合度较高，为用户在图片创作阶段提供尺寸“调节”工具，一键获得多尺寸图片，丰富创作素材。图表9图片编辑功能示意 3、风格转绘可图2.0全新功能风格转绘同步上线，上传图片输入风格描述提示词，即可一键召唤出用户想要的风格效果，无论是日漫电影的治愈美学，还是盲盒手办的Q萌形象，只需要一句文字指令，用户即可切换风格。图表10风格转绘功能示意三、可灵商业化跑通，AI有望为快手带来长期收入增量快手AI能力不断迭代升级或为公司带来两个显著变化：1）赋能原有业务：在商业化场景中引入AIGC营销素材、数字人直播等。经济观察报表示，快手内部曾有测算，预计AI大模型可以把客户的短视频营销素材制作成本降低60%~70%或更高。快手24Q4季报也显示，快手平台上的AIGC营销素材和虚拟数字人直播解决方案的日均消耗超3000万元。2）通过可灵创造全新的AI视频内容赛道，带来用户及流量增量和AI生态入口。首先，技术能力全球领先是最硬的入场证。根据快手科技公众号，25年3月27日，全球知名AI基准测试机构Artificial Analysis榜单显示，快手可灵1.6pro登顶图生视频赛道，Google Veo 2、Pika Art位居第二、三名。根据极客公园公众号，快手盖坤也在4月15日的可灵AI发布会表示，截至目前，可灵AI全球用户规模突破2200万；过去的10个月，其月活用户量增长25倍，累计生成超过1.68亿个视频及3.44亿张图片。可灵作为国内首个C端付费的AI视频工具，率先跑通商业化。根据可灵会员付费体系测算，可灵1.6版本生成单个标准品质的5秒视频需要消耗20灵感值，对应花费在1~2元/条（非会员/黄金/铂金/钻石会员对应约2元/条；1.39元/条；1.24元/条；1.17元/条）。而升级后的可灵2.0版本生成单个5秒视频需要消耗100灵感值，对应花费在5~7元/条（黄金/铂金/钻石会员对应约6.97元/条；6.20元/条；5.83元/条）。我们认为后续可灵商业化的增长引擎为：1）技术迭代驱动付费率提升——可灵版本不断迭代升级；2）场景扩展：数字人直播等新场景API服务拉动企业客户ARPU。图表11 Artificial Analysis的盲测排名，可灵1.6pro排榜首图表12可灵AI会员付费体系后续可灵有望成为增收新引擎。在24Q4的财报中，公司首次公布了可灵AI收入细节——截至2025年2月，可灵AI累计收入超过了1亿元人民币。24年可灵相对于公司收入体量占比很小，中长期有望贡献收入弹性。过往快手的增长引擎主要是电商和广告，随着主营业务的增速放缓，快手对AI的发展和迭代也更加迫切，随着可灵商业化跑通以及长期维度在视频内容制作产业链的渗透，未来有望成为增收新引擎。四、风险提示 1、政策监管趋严； 2、AI技术迭代发展不及预期； 3、AI产品商业化不及预期。

点击免费查看完整报告

AI产品测评体验系列报告快手可灵：开启视频生成2.0时代，全球用户数已突破2200万

你可能感兴趣

AI 产品测评体验系列报告：PixVerse：国内AI视频生成工具先锋

看好快手可灵卡位，多模态视频生成全球领先

快手发布可灵AI视频O1模型期待技术突破驱动流水增长东吴传媒互联网张良卫团队

长江传媒高超团队AI系列跟踪45可灵AI视频生成技术再进化OpenA

快手可灵视频生成大模型web版上线，Claude3.5“工坊模式”再次升级

东证传媒持续推荐快手可灵视频生成技术领先AIoption贡献估值弹性

快手“可灵”视频生成大模型上线，苹果WWDC24召开在即

全球科技行业周报：可灵AI全系模型进入2.0时代，关注算力相关反弹性机会

开源传媒互联网方光照团队快手更新可灵AI生成毛绒玩具特效持续出圈

可灵视频生成领域领先，AI有望推动广告效率提升