您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [华创证券]:AI产品测评体验系列报告快手可灵:开启视频生成2.0时代,全球用户数已突破2200万 - 发现报告

AI产品测评体验系列报告快手可灵:开启视频生成2.0时代,全球用户数已突破2200万

文化传媒 2025-04-17 - 华创证券 小酒窝大门牙
报告封面

2025年4月15日,可灵AI在北京中关村国际创新中心举行「灵感成真」2.0模型发布会,宣布基座模型再次升级,面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。 可灵AI定位为快手AGI时代视频创作的新基础设施。可灵是快手AI视频生产的入口,旨在改造升级现有业务,创造新的视频内容生产赛道,保持和升级快手在短视频生产和消费社区的领先地位。根据快手科技公众号,自2024年6月发布以来,可灵AI已累计完成超20次迭代,截至2025年4月15日,全球用户规模突破2200万。来自世界各地的超1.5万开发者和企业客户,将可灵的API应用于不同的行业场景中。 更新亮点1:基础模型重磅更新。从基础模型角度看,可灵2.0在基础模型架构以及训练和推理策略上全新升级。1)全新设计DiT架构,使得可灵2.0视觉模态和文本模态的融合更加对齐;2)重新设计视觉VAE,使得在复杂场景下的动态的过渡更加自然;3)进一步对齐了人类偏好,让模型更懂常识和审美。 更新亮点2:多模态编辑全新上线。支持基于“视频+文字图片”进行多种灵活修改和再创作。1)可灵使用统一的上下文表征技术,把文本模态、图像模态和视觉模态进行了统一表征;2)并使用超长的上下文进行训练,通过高效的图片压缩算法,可以支持长序列的训练和推理;3)在推理环节可灵使用了带有COT(思维链多模态推理能力)的技术来理解用户输入的多模态信息,在一定程度上实现了基于多模态理解的多模态推理。 从商业化视角来看,可灵作为国内首个C端付费的AI视频工具,率先跑通商业化,后续有望成为增收新引擎。1)赋能原有业务:在商业化场景中引入AIGC营销素材、数字人直播等。经济观察报表示,快手内部曾有测算,预计AI大模型可以把客户的短视频营销素材制作成本降低60%~70%或更高。2)通过可灵创造全新的AI视频内容赛道,带来用户及流量增量和AI生态入口。 风险提示:政策监管趋严;AI技术迭代发展不及预期;AI产品商业化不及预期等。 一、产品简介:可灵2.0发布,AGI时代视频创作的新基础设施 2025年4月15日,可灵AI在北京中关村国际创新中心举行「灵感成真」2.0模型发布会,宣布基座模型再次升级,面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。 可灵AI定位为快手AGI时代视频创作的新基础设施。可灵是快手AI视频生产的入口,旨在改造升级现有业务,创造新的视频内容生产赛道,保持和升级快手在短视频生产和消费社区的领先地位。根据快手科技公众号,自2024年6月发布以来,可灵AI已累计完成超20次迭代,截至2025年4月15日,全球用户规模突破2,200万。来自世界各地的超1.5万开发者和企业客户,将可灵的API应用于不同的行业场景中。 图表1可灵AI重要版本迭代/事件梳理 二、更新亮点:基础模型重磅更新,多模态编辑全新上线 此次发布,可灵AI全面迈入2.0时代,包括基础模型更新和多模态全新上线两大要点。 (一)基础模型重磅更新:可灵+可图,从图片生成到视频生成全系更新 根据快手可灵官网,可灵团队在基础模型架构以及训练和推理策略上全新升级。1)全新设计DiT架构,使得可灵2.0视觉模态和文本模态的融合更加对齐;2)重新设计视觉VAE,使得在复杂场景下的动态的过渡更加自然;3)进一步对齐了人类偏好,让模型更懂常识和审美。可灵2.0(大师版) 视频生成全新推出可灵20(大师版)模型,拥有比可灵1.6模型更强的语义响应、更优的动态质量、更美的画面质感。 1)语义响应大幅提升:动作、表情、运镜响应更佳,支持描述时序更复杂的镜头。 动作响应能力。对于动作的描述和肢体的动作的生成,1.6版本完成度较好,但仍有一些细节错误影响整体观感。2.0版本对每个细节动作阐述更优秀。 运镜响应能力。2.0版本不仅支持专业运镜术语,还支持用户直接用提示词激活运镜。 并且生成镜头的视觉张力更好,更有表现力。 持续响应能力。在同一个提示框里面,用户按照时间顺序进行分段描述,相较于1.6的版本的难以精确响应,2.0版本的模型能够按照严格的时间生成。 图表2语义响应大幅提升,动作、表情、运镜响应更佳 2)动态质量大幅提升:角色/主体的动作幅度更大,速度更流畅,复杂动作也更加细腻、更自然、更合理,让用户身临其境,充分感授视频画面的灵动活力。 复杂动作的完成度更高。如跑酷复杂动作,可灵新版本可以做很好响应。 模型的运动幅度更加合理。可灵进一步优化模型的运动幅度,使其幅度更合理。例如,官方恐龙追逐镜头case,具备更大、更合理的运动幅度。 运动速度更加合理。可灵对于运动的速度做了进一步的优化,重点优化了历史版本中有可能出现慢动作的问题,可以看到更优秀更合理的运动速度。 图表3动态质量大幅提升:速度更流畅,复杂动作更合理。 3)画面美感大幅提升:可灵延续1.0核心架构优势,持续提升数字内容创作效率与艺术表现力。视频生成技术实现三大核心突破。在影像品质方面,角色呈现更真实自然,动作与表情细腻,画面细节可精准响应描述,呈现电影质感与丰富细节;在风格延续方面,优化后的图生视频技术能高度保持原图艺术风格,尤其针对首帧关键画面进行强化处理,确保艺术调性稳定统一;在人物演绎方面,通过学习专项优化表情管理与肢体动作美学,使角色表现更为生动鲜活,适用于高质量动态内容创作。 图表4画面美感大幅提升:角色更真,画面更细,风格更美 1、可图2.0 可图2.0图像模型全新发布。大幅度提升语义遵循能力,能响应近60+种风格,画面更具电影质感,让创意更生动、具象。 1)指令遵循大幅提升:可图20对多种元素、复杂指令、颜色位置等响应有大幅度提升,画面细节真实感强,生图结果更具异质性,提升可用率。 图表5指令遵循大幅提升,画面细节真实感强 2)电影质感提升:电影大片的氛围和层次,能够生成有质感的大场面和分镜照。可图2.0画面的构图更有高级感,光影色彩为画面带来独特的美学调性。 图表6电影质感提升,构图更有高级感 3)多风格拓响应:可图2.0能支持60+种风格,涵盖特殊材质、数字艺术和绘画技法等。 图表7多风格拓响应,能支持60+种风格 (二)多模态编辑全新上线:支持基于“视频+文字图片”进行灵活修改和再创作 视频生成新增多模态编辑,支持基于“视频+文字图片”进行多种灵活修改和再创作。可灵在多模态控制技术上迎来突破,如,可灵使用统一的上下文表征技术,把文本模态、图像模态和视觉模态进行了统一表征;并使用超长的上下文进行训练,通过高效的图片压缩算法,可以支持长序列的训练和推理;在推理环节可灵使用了带有COT(思维链多模态推理能力)的技术来理解用户输入的多模态信息,在一定程度上实现了基于多模态理解的多模态推理。 1、视频多模态编辑 可灵2.0模型多模态编辑功能上线,用户可以上传一段1-5s的视频,基于视频+文字图片,对视频替换元素、增加元素、删除元素,让用户能灵活对视频修改、再创作,获得更好更具创意的视频表现。 替换元素:在多个关键帧上,指定视频中连续的内容选区,然后可用1张参考图对选择的庄体、背景内容进行替换,例如模特换衣、人物修改。 删除元素:在多个关键帧上,指定视频中连续的内容选区,可以对选区的主体、背景内容进行删除,例如删除误入镜头的路人。 增加元素:可以输入1-2张参考图,或者通过文字描述的方式,对视频进行主体内容增加,例如让一艘太空飞船降临城市上空。 图表8视频多模态编辑功能示意 2、图片编辑 图片生成新增图片编辑功能,用户可以对生成的图片进行局部重绘或扩图,灵活修改图片细节,随意修改图片尺寸,同时也支持用户上传自己的图片进行编辑,效果自然,与原图高度融合。 局部重绘:通过指定重绘区域,并提供目标内容的提示词描述,可对图片进行元素增加、元素修改等操作,生成内容与原图的融合自然度和真实感位于行业水平。更好地满足图片素材二改的创作诉求(如修复残图、调整图片细节、创意case等),补齐创作流程,提升全链路抽卡率。 扩图:扩图比例及尺寸更加自由,支持用户随意拖拽原图位置,改变原图大小,可自由扩充图片内容,放大画面视野;生成内容极具想象力,与原图融合度较高,为用户在图片创作阶段提供尺寸“调节”工具,一键获得多尺寸图片,丰富创作素材。 图表9图片编辑功能示意 3、风格转绘 可图2.0全新功能风格转绘同步上线,上传图片输入风格描述提示词,即可一键召唤出用户想要的风格效果,无论是日漫电影的治愈美学,还是盲盒手办的Q萌形象,只需要一句文字指令,用户即可切换风格。 图表10风格转绘功能示意 三、可灵商业化跑通,AI有望为快手带来长期收入增量 快手AI能力不断迭代升级或为公司带来两个显著变化:1)赋能原有业务:在商业化场景中引入AIGC营销素材、数字人直播等。经济观察报表示,快手内部曾有测算,预计AI大模型可以把客户的短视频营销素材制作成本降低60%~70%或更高。快手24Q4季报也显示,快手平台上的AIGC营销素材和虚拟数字人直播解决方案的日均消耗超3000万元。2)通过可灵创造全新的AI视频内容赛道,带来用户及流量增量和AI生态入口。首先,技术能力全球领先是最硬的入场证。根据快手科技公众号,25年3月27日,全球知名AI基准测试机构Artificial Analysis榜单显示,快手可灵1.6pro登顶图生视频赛道,Google Veo 2、Pika Art位居第二、三名。根据极客公园公众号,快手盖坤也在4月15日的可灵AI发布会表示,截至目前,可灵AI全球用户规模突破2200万;过去的10个月,其月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片。 可灵作为国内首个C端付费的AI视频工具,率先跑通商业化。根据可灵会员付费体系测算,可灵1.6版本生成单个标准品质的5秒视频需要消耗20灵感值,对应花费在1~2元/条(非会员/黄金/铂金/钻石会员对应约2元/条;1.39元/条;1.24元/条;1.17元/条)。 而升级后的可灵2.0版本生成单个5秒视频需要消耗100灵感值,对应花费在5~7元/条(黄金/铂金/钻石会员对应约6.97元/条;6.20元/条;5.83元/条)。我们认为后续可灵商业化的增长引擎为:1)技术迭代驱动付费率提升——可灵版本不断迭代升级;2)场景扩展:数字人直播等新场景API服务拉动企业客户ARPU。 图表11 Artificial Analysis的盲测排名,可灵1.6pro排榜首 图表12可灵AI会员付费体系 后续可灵有望成为增收新引擎。在24Q4的财报中,公司首次公布了可灵AI收入细节——截至2025年2月,可灵AI累计收入超过了1亿元人民币。24年可灵相对于公司收入体量占比很小,中长期有望贡献收入弹性。过往快手的增长引擎主要是电商和广告,随着主营业务的增速放缓,快手对AI的发展和迭代也更加迫切,随着可灵商业化跑通以及长期维度在视频内容制作产业链的渗透,未来有望成为增收新引擎。 四、风险提示 1、政策监管趋严; 2、AI技术迭代发展不及预期; 3、AI产品商业化不及预期。