您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:Seedance20解读字节AI春节展望20260210 - 发现报告

Seedance20解读字节AI春节展望20260210

2026-02-10未知机构邵***
Seedance20解读字节AI春节展望20260210

2026年02月11日10:59 关键词 文生视频多模态音画同声画质生成剧情连贯性联网查询agent化算力算法分镜能力物理环境创新项目导演系短视频泛生活类泛娱乐类大语言模型快手字节AI化 全文摘要 当前人工智能领域发展迅速,模型在面部特写、转景连续性和画面完善度上取得显著进步,并支持区域性文字显示,提升了展示效果。国内AI模型主要分为两类,高端模型如可零千问、万象等与创业项目在技术功能上存在明显差异,海外模型发展强调技术与内容的融合。未来,AI模型的发展将关注技术迭代、算力需求增长,以及在C端与B端应用的差异。 Seedance2.0解读&字节AI春节展望-20260210_导读 2026年02月11日10:59 关键词 文生视频多模态音画同声画质生成剧情连贯性联网查询agent化算力算法分镜能力物理环境创新项目导演系短视频泛生活类泛娱乐类大语言模型快手字节AI化 全文摘要 当前人工智能领域发展迅速,模型在面部特写、转景连续性和画面完善度上取得显著进步,并支持区域性文字显示,提升了展示效果。国内AI模型主要分为两类,高端模型如可零千问、万象等与创业项目在技术功能上存在明显差异,海外模型发展强调技术与内容的融合。未来,AI模型的发展将关注技术迭代、算力需求增长,以及在C端与B端应用的差异。腾讯、字节跳动、阿里巴巴等企业通过不同战略推动AI模型的商业化进程,竞争与合作并存,共同促进AI技术的革新与应用拓展。 章节速览 00:00国内图像模型技术进展与分类分析 对话深入探讨了国内主流图像模型的技术水平,将其分为两类。第一类包括阿里万象等,强调音画同声和多模态素材参考,以及画质生成与剧情连贯性。第二类为创新项目公司,剧情和画面效果优秀,但技术功能与第一类有差距。整体分析了国内与国外模型的差距及未来预期,指出国内模型在展示效果上有显著提升,但仍需在技术功能上持续优化。 06:25国内外视频生成模型对比与特色分析 对话深入探讨了国内外视频生成模型的分类与特点,指出国内模型在画质生成、剧情连续性等方面不逊于北美模型,尤其在某些benchmark测试中表现更优。同时,提及了国内新模型的两个特色功能,即主体元素干预与连续扩写,尽管这些功能在海外模型中已有体现。整体对比显示,国内最新模型在多个技术指标上处于领先地位,尤其是在分镜能力和剧情连贯性方面表现突出。 09:29文生视频模型未来迭代方向解析 对话探讨了文生视频模型的未来改进方向,包括音画同声技术的提升、联网查询能力的增强以及视频agent化的发展。音画同声在输入和输出侧均有较大改进空间,联网查询能力将从基础查询升级至资料补充,而视频agent化将通过分镜能力大幅提升生产力。预计这些迭代将在一年内完成,随后模型将向更高清晰度和帧率方向发展。 15:21大模型迭代与文生视频技术挑战 讨论了大模型迭代过程中可能遇到的技术难题,如算力、存储需求及工程实力的重要性。以快手和字节跳动为例,分析了自研大模型对关键场景实践的必要性,以及音画同声、材质质感处理等细节的技术实现。强调了文生视频领域虽迭代周期短,但对模型综合实力要求高,涉及算法、数据准备及存储成本等多方面挑战。 19:43算力需求与资源短缺:高端视频模型推理的挑战 高端旗舰视频模型在推理阶段对算力有极高需求,尤其是多用户集群推理时,内存和SSD资源成为瓶颈。随着用户生成视频的存储需求增加,下半年资源短缺问题将更加严峻,影响模型的商业应用和用户服务。 22:09大厂春节AI布局与运营策略分析 对话讨论了春节期间各大公司在AI相关活动的布局,以元宝为例,分析了腾讯擅长的数据处理能力及其在运营活动中的应用。提到实际操作中GPU参与环节较少,建议将这些场景与抖音对比分析,以更合理评估效果。 24:20抖音春节运营策略与技术亮点 对话围绕抖音春节期间的运营活动展开,包括豆包的抽奖、红包发放限制、春晚互动技术应用等。重点介绍了火山引擎作为技术服务方在春晚现场的AIGC素材和3D投影尝试,以及豆包大语言模型2.0的更新计划。此外,提及豆包将集成春晚彩排数据,推出视觉理解、视频生成等功能,鼓励用户参与互动投稿。 28:25大厂Agent技术落地与社会责任探讨 讨论了国内大厂如字节跳动和阿里在Agent技术落地方面的做法,指出其在C端场景应用局限及社会责任缺失的问题。提及了扣子2.0和云上cloud boat等产品,强调了收费模式和生态构建策略,反映了国内大厂对Agent技术产品观的差异。 32:22 C端商业化路径与流量互动策略 对话围绕C端商业化探索展开,强调了扣子2.0收费及豆包应用的引流作用。宏观层面,通过各业务间流量互动实现变现,如豆包与吉梦、飞书C端等的联动;微观层面,豆包部门内多应用直接收费,豆包自身则发展成购物助手,结合电商、小说、听书等功能提升流量变现能力。2027年,随着基础大模型更新,部分高级功能将开始收费。 37:48大厂AI更新与Agent应用场景分析 讨论了大厂AI更新主线围绕多模态,Agent在B端应用潜力巨大,如分析广告效果等,而C端应用面临虚假繁荣。国内软件公司因数据壁垒暂不受冲击,但垂类大模型可能借助政策优势冲击传统软件行业。强调了AI在替代非核心业务功能上的可能性,以及国内政策对数据服务公司成立的推动作用。 45:06大厂AI产品布局与竞争分析 讨论了字节、腾讯、阿里在AI产品布局上的差异,指出字节以农村包围城市策略布局,腾讯则双线发力争夺智能体市场,阿里则依靠本地生活资源和阿里云独立营收能力推进AI发展,强调C端对各大厂的重要性。 49:36腾讯自研模型能力对云业务影响分析 讨论了腾讯自研模型能力较弱对云业务的影响,指出自研模型对提升利润和延展能力的重要性,以字节为例说明业务与模型的匹配性,强调大公司需建立自研模型矩阵以提升可控性和净利。 发言总结 发言人1 首先强调了提示词和模板在人工智能领域中的重要性,并指出随着技术进步,AI在处理面部细节、画面流畅性、声音质量等方面的能力有了显著提升。他提到了国内与海外模型在画质生成和剧情连贯性上的竞争力,并特别表扬了阿里、腾讯等公司在模型研究方面的努力及其在视频、文本生成等领域的应用潜力。进一步地,他讨论了AIGC的商业化应用,强调了通过大模型技能和API来提升用户体验和商业价值的重要性,特别是在C端和B端市场。他提倡负责任的AI发展,确保技术进步的同时兼顾社会伦理和人类福祉。综上所述,他的发言全面覆盖了人工智能技术的发展、应用及其社会影响,展现了对AI未来发展的乐观态度。 发言人2 首先关注了国内主流厂商在图像模型领域的技术水平及其与国外的差距,询问了未来模型改进的方向和需突破的关键点。他探讨了AI功能迭代中的技术瓶颈问题,并询问了会议专家对春节期间大厂AI布局的见解及未来更新的预期。此外,他还涉及了投资者对AI商业化变现的探索疑问,以及腾讯模型进展与竞争对手差距的讨论。他还提到了各公司AI产品布局的差异,并探讨了模型能力对云业务的潜在影响。最后,他表明会议结束前会继续接收投资者的问题,并对专家和参与者的贡献表示感谢。 问答回顾 问:国内目前主流厂商在图像模型方面的水平如何?与国外差距以及今年发布的预期是怎样的? 发言人2 发言人1答:国内图像模型大致可以分为两类,以阿里系的多模态模型(如可伶、万象系列)为例。这些模型在生成式多模态、素材参考真实性和画质生成等方面有一定的优势,但要注意的是,纹身视频模型的每个阶段天花 板较低,容易达到并突破到下一个阶段,并非像某些表述那样存在明显的“deep take时刻”。此外,新模型的表现应优于前辈或同领域的其他竞争者才合理。 发言人1问:可伶、万象和C2.0、C3.0模型为何归为一类? 发言人1答:这类模型在三个角度上有优势:一是支持音画同声,即生成文字内容可正确显示,尽管用户不能完全指定文字位置和内容;二是能提供真实有效的各模态素材参考,遵循度较高;三是具备较好的画质生成能力和转镜、剧情连贯性等技术功能。 发言人1问:国内创新项目mini max、牲畜爱诗等的模型表现如何? 发言人1答:这些创新项目虽然财力可能不如大厂,但其模型在剧情和画面效果上表现出色,甚至不逊色于北美大厂的模型,但在技术功能上与前一类模型存在差距。 发言人1问:海外的纹身视频模型分类情况是怎样的? 发言人1答:海外的纹身视频模型主要有两个派系。一类是追求大片艺术效果,注重导演系风格,每秒24帧,如3.0和C2.0版本;另一类是节奏快,支持720P及更高画质,每秒30帧以上,特别适合短视频和泛娱乐类内容,属于sora two派系。 发言人1问:国内的视频生成模型在画质和剧情连续性等方面的性能如何,是否优于北美模型?Vivo视频生成模型有哪些独特功能? 发言人1答:目前国内的优秀视频生成模型在画质生成和基本的剧情连续性处理上与北美模型相比并无明显差距,甚至在某些基准测试中表现更优。Vivo视频生成模型有两个特色功能:一是支持主体元素干预,最多可对三个主体进行影响,改变视频内容结构;二是能够自动进行连续八次扩写。 发言人2问:在视频生成模型未来改进的方向以及需要突破的关键点是什么? 发言人1答:当前模型进展的主线已经明确,首要任务是提升音画同声的生成质量,包括但不限于不同语言发音、数学公式朗读、中英结合等。此外,输入侧的声音理解与处理也有较大改进空间,比如转码过程中对噪音和多人对话场景的准确识别。而在输出侧,音画同声技术因其早期性和复杂性,有很大的提升潜力。 发言人1问:为什么强调声音方面的改进? 发言人1答:因为音画同声是入门级技术,具有较大的发展空间;同时,模型对声音输入参考的理解不够深入,尤其是在转码阶段,所以声音方向的改进是必要的。 发言人1问:纹身视频模型在联网查询能力上的进步体现在哪里? 发言人1答:进步在于模型现在能够进行更强大的联网查找,比如根据用户描述搜索多张图片或视频素材来合成理想内容,不再局限于仅能找到一张合适的图片作为背景。 发言人1问:视频模型在未来的发展趋势还有哪些方面?在视频生成模型功能迭代过程中,可能会遇到哪些挑战? 发言人1答:视频模型将向agent化发展,即具有分镜能力的视频模型可以大幅提升生产力,通过指定前一个镜头和描述后续内容的方式生成连续视频。目前各家技术在迭代过程中尚未遇到特别大的问题,但在内容清晰度、帧率支持(如从24帧提升至30帧甚至60帧)等方面仍有挑战,等待下一个周期去突破。 发言人1问:快手为什么在2023年11期间加班研发一个大语言模型,以及自研大语言模型的重要性是什么? 发言人1答:快手自研大语言模型是为了实践理论知识并探索其中的关键结构,就像人做事情需要通过实践来发现和理解核心问题。虽然快手没有主动推广这个大语言模型,但在整个生态中并未看到明显的AI化应用,这与字节跳动的做法形成对比,字节跳动会广泛应用其自研的大模型。 发言人1问:Sora two和C bas等模型在处理音画同声和材质质感时是如何工作的? 发言人1答:Sora two通过蒸馏GPT5的知识直接处理音画同声等细节,而C bas模型则在采集信息时干预模型,重点检索视频中主体的材质信息,并结合基本资料融入视频训练过程。即使没有达到直接蒸馏的能力,视频模型在训练时仍能检索相关知识以增强生成信息的质量。 发言人1问:快手在音画重生、公式识别等功能上的更新以及背后的技术要求是什么? 发言人1答:快手在十一之后通过大语言模型的基础,推出了音画蓬松等功能,并在12月2.6日的大系列更新中包 含这些功能。这表明背后对大语言模型有较高要求,虽然文生视频领域的迭代周期较短且天花板不高,但对模型综合实力、工程实力和财力等方面都有现实挑战。 发言人1问:为什么像“牲畜”这样的视频模型后期更新节奏不如字节跳动、快手、阿里等公司,并涉及哪些相关问题? 发言人1答:随着技术发展,“牲畜”等视频模型在后期更新节奏放缓,尤其在五