AI智能总结
打造“豆包同款”新范式 卷首语 FOREWORD 2025 年,当豆包大模型与视频云基础设施深度耦合,生成式 AI 的 “对话交互” 基因注入音视频全链路,我们正从“智能视频世界”迈入 “视频智能交互新时代”—— 视频不再是“内容载体”,而是能 “听、看、理解、共创”的智能伙伴,用户体验的重构也随之走向更深层的融合: 首先,内容生产从 “AIGC 工具辅助” 升级为 “AI 协作创作”:火山引擎的 AI 媒体处理引擎,以语义抽帧、多模态对齐能力重塑内容流水线,让 AI 成为创作者的“原生助手”,从拍摄到生成的全链路效率呈指数级提升; 同时,音视频不再是“信息媒介”,而是“通用交互语言”:音视频互动智能体以长期记忆、人声检测等能力,让视频懂表情、听语气、会回应,交互如面对面般自然;随着全终端 AI 应用的铺开,交互场景从“单一设备”拓展至“全端协同”:从手机的拍摄端,到 PC、汽车、AlOT 等终端的计算端,以“创意想象 + 对话交互”为核心,视频完成了从“被拍摄”到“被计算”的进化; 最后,技术的价值从 “体验优化” 转向 “全球生态共建”:智能视频云出海方案,以领先的多模态传输、AI 处理能力,助力中国 AI 应用在全球市场构建竞争优势。 技术的进化从来不是独行,它在融合中寻找共生的可能 —— 当豆包大模型遇见视频云,每一次链路的打通、每一个能力的落地,都是在为智能交互的未来铺就基石。 火山引擎视频云,承继抖音集团技术沉淀,在 AI 时代,以 “豆包同款智能视频云” 为内核,通过 AIGC 传输、AI 媒体处理、AI 智能互动等能力,为企业提供 AI 时代的视频基建,实现体验跃升与业务增长的双向奔赴。 特别推出《火山引擎智能视频与边缘实践精选集》2025 版,收录全年音视频专家的深度实践期待与同仁们一同探索 “LLM× 视频云” 的融合边界,共赴智能交互的新征程。 精选集内容将围绕火山引擎视频与边缘在过去一年的 AI /大模型&音视频技术实践, 包括: AIGC 画质大模型、自由视角视频直播、AI 音视频编码、AI + 增强视频质量等全球前沿的论文精选 媒体智能工具、音视频交互、智能剪辑、智能 3D 视频等 AI + 技术的落地实践AI + 设计、智能硬件、短剧出海、VR 大空间等行业场景的最佳实践 CONTENTS目录 1. 国际认可 火山引擎多媒体实验室多项成果入选 SIGGRAPH ASIA 2025火山引擎多媒体实验室AIGC视频画质理解大模型 VQ-Insight 入选 AAAI 2025 Oral火山引擎多媒体实验室画质理解大模型 Q-Insight 入选 NeurIPS 2025 Spotlight火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军CVPR 2025 | 火山引擎获得 NTIRE 视频质量评价挑战赛全球第一火山引擎蝉联全国人工智能大赛 — AI + 增强视频质量评价冠军01091319243034 2. 技术探索 当一朵云,打出「豆包同款」的旗从“抖音同款”到“豆包同款”:AI 时代,视频云正在有了新表达从“抖音同款”到“豆包同款”:视频云正在进入 Agent 时代火山引擎智能 3D 视频启动商业化,计划落地直播应用云端协同构建 VR 院线,加速 LBE 产业化与规模化发展火山 HTTPDNS Cache2.0:网段级精准调度驱动核心业务收益基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案,助力短剧出海大模型帮你剪视频 —— 基于 MCP 打造火山引擎 VOD 智能剪辑火山引擎推出 veimagex-mcp Server,打造专属您的图片智能助理火山引擎 OS Agent 解决方案、豆包 1.5·UI-TARS 模型发布10 + 芯片和模组商集体适配!让智能硬件能听会看还会唠重构智能设备管理范式:火山引擎端智能解决方案上新,多重 AI 服务即刻享用!384351576477889599107109112 实时通信的下一站,H.266 作为破局关键画质之外,直播编码还应当关注哪些技术优化点H.266 解码“困局”,被这个解码器解决了重回 AI 战场!H.266 / VVC 的时代才刚刚开始在 AI 应用爆发前夜,H.266 成熟了NeurIPS 2025|火山引擎多媒体实验室联合南开大学推出 TempSamp-R1 强化学习新框架仅三步,开启 DeepSeek 语音畅聊模式!喜大普奔!设计师再也不用熬夜找素材了揭秘豆包音视频通话幕后技术,自己开发产品也能用你给豆包打的这通视频背后,藏着 AI 实时交互的体验密码多模态需求井喷,智能视频云如何靠分布式处理破局?从 “可用” 迈向 “好用”:详解火山引擎智能视频云的三层架构升级破解 AI 硬件落地困局,火山引擎 RTC 重塑智能交互生态重新定义离线编码,H.266 为何能让视频更高清?166170175181186189117121131137143150158162 助力视频理解大模型高效提升时序理解能力! 直击 3D 内容创作痛点 - 火山引擎多媒体实验室首次主持 SIGGRAPH Workshop用前沿技术降低沉浸式内容生成门槛197 3. 最佳实践 探秘史前海洋,火山引擎 x 北京天卓视创带你沉浸式“摸鱼”!央视点赞!凌云光·元客视界×火山引擎:打造数字人光场重建方案沉浸式文旅新玩法 - 基于 4D GS 技术的真人数字人赋能 VR 体验升级沉浸式 LBE 大空间互动体验!火山引擎支持《转折·从头越》北京 VR 巡展中央美院×火山引擎:AI + VR 构建艺术展新形态火山引擎赋能微短剧出海:从市场验证到规模化复制的AI实践路径火山引擎 RTC 联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级详解 veImageX 助力卓特视觉智能、高效生成设计素材图虫×火山引擎:AIGC 创意工具链,让设计灵感高效实现209216221223227233237247251 01国际认可 火山引擎多媒体实验室多项成果入选SIGGRAPH ASIA 2025 12 月 14-18 日,计算机图形学顶会 Siggraph Asia 2025 在香港召开。火山引擎多媒体实验室有多项工作入选,包括了拓扑变换的自适应建模、动态人体重建、人体重打光的三项成果进行汇报和展出。 TAOGS:突破传统模板依赖的限制进行自由建模!拥有拓扑变换的自适应能力 多媒体实验室研究人员与来自德国马克思普朗克研究所、上海科技大学的团队进行深入合作,提出了应对体积视频中拓扑变换的自适应解决方案 TAOGS,针对视频制作过程中频繁出现的拓扑变化问题进行了长时序跟踪与自适应建模,在极具调整性的场景下也能进行高保真的渲染。 为了解决这个问题,研究人员提出了一种双层的动态高斯表示方法,利用运动高斯去自适应地处理新观测的出现与过时观测的消失,以及利用外观高斯来进行复杂纹理的表征。其核心思想是利用稀疏的拓扑感知高斯来表示底层场景运动,并在时空跟踪器与光度线索的引导下捕捉新出现的观测,融合这些观测,并持续更新局部形变图。在其生命周期内,每个运动高斯可以派生并激活多个高斯,以建模细粒度的视觉细节。该方法在保持训练高效与压缩友好的同时,支持稳健的跟踪与拓扑自适应。 该方案生成的拓扑感知的高斯表示,可以自然适配基于标准视频编解码的体积视频格式,支持在移动端进行快速的传输和推理,进行自由视点的高清渲染,呈现与真实世界相融合的沉浸式体验。 EvolvingGS:告别基于关键帧的 GoP 切分能够应对任意复杂动作的可进化 4D 高斯表征 动态 3D 重建技术正面临一个核心矛盾:序列越长、动作越复杂,重建质量越难保持。现有方法要么因误差累积而失真,要么因关键帧切换而产生画面闪烁。 火山引擎多媒体实验室最新提出的 《EvolvingGS: Stable Volumetric Video via High-Fi-delity Evolving 3D Guassian Reconstruction》,通过一种“先对齐,后生长修复”的两阶段协同范式,首次实现了在单个连续时间段内,对任意时长与复杂运动的鲁棒 4D 高斯重建,无需关键帧切换,彻底避免闪烁。 方法核心:让模型学会“动态生长” 形变场粗对齐 引入光流一致性损失指导形变场学习,确保高斯模型的运动趋势与实际场景严格一致,即使应对快速运动也保持稳定。 修复阶段 在形变对齐的基础上,允许模型在拟合不足的区域智能增减少量高斯点: 保留的“参考高斯点”维持外观不变,保障时序连贯性;新增的“拓展高斯点”自由优化,赋予模型强大的细节拟合能力;提出基于贡献度的删点策略,解耦删点策略对不透明度下降的依赖,防止模型无限膨胀。 这一设计使模型能自适应物体的出现/消失、服装剧烈飘动、拓扑结构变化等极端情况。 EvolvingGS 不只是一个技术方案,更是一种建模理念的进化:我们让模型具备结构性对齐能力(形变阶段)与局部生长能力(修复阶段),使其像生命系统一样,在保持整体一致的前提下,灵活适应局部变化。这意味着,无论是复杂舞蹈、服装飘动、还是场景中物体的突然出现或消失,EvolvingGS 都能应对自如,为动态 3D 重建打开了“无限时长”的大门。 Disentangled3DGS:画质与几何质量的双重飞跃基于解耦 3D 高斯表征的可打光体积视频 在 3D 高斯场建模中,几何与外观的深度纠缠,长久以来是一个被默认却充满代价的设定。当颜色与形状被迫共享同一套不透明度分布时,其结果往往是渲染质量与几何精度互相妥协,真实感重光照更是难以企及。 火山引擎多媒体实验室的最新研究 《Disentangled Gaussian Splatting:High-FidelityRelightable Volumetric Video through Geometry-Appearance Decoupling》 ,提出一种几何-外观解耦式高斯表征。它如同为 3D 重建赋予了“双重身份”:让几何结构精准独立,让外观细节自由表达,最终在渲染质量与几何精度上同时实现显著提升,为高保真、可重光照的容积视频开辟了新路径。 核心思路:为每个高斯点赋予“双重松耦合的不透明度” 传统 3DGS 将颜色与几何属性捆绑优化,如同用同一把刻刀同时雕刻形状与上色。我们的方法进行了根本性革新: 双分支独立渲染: 我们为每个高斯基元同时引入几何不透明度场与外观不透明度场。在渲染时,两者通过可学习的解耦因子β进行加权融合,实现像素级的精准对齐与独立控制 协同优化与独立规制: 几何分支专注于法向量、深度与可见性的重建;外观分支则负责建模视点相关的色彩与光照。两个分支通过 β 因子动态协作,既能互相促进优化,又允许我们对各自施加针对性的约束(如法向平滑、深度一致),最小化相互干扰 智能生长策略: 基于两个分支的梯度信息独立判断局部区域的欠拟合情况。当一处需要“生长”更多高斯点来细化几何时,另一分支会以最小化干扰的方式协同初始化,确保模型紧凑高效 可以轻松与 EvolvingGS 结合,将其优点拓展到 4D 重建领域 全息通信方案 12 月 18-19 日,在火山引擎 FORCE 原动力大会上,多媒体实验室也展示了全息通信的商业化技术。该项技术由实验室研发的实时 4D GS 重建及压缩技术驱动,能够在消费级带宽(<10mbps)下高清高保真实现全息通信,支持远程面对面互动。与行业内全息通信(e.g.,Google Starline/Beam)方案相比,该技术不仅支持普通摄像头实时生成 6DoF 视频,更将设备成本与带宽需求降低了一个数量级,降低了全息通信的门槛,将促进该技术的规模化应用。 该项技术通过创新性地采用前馈神经网络架构,仅使用少量相机采集画面,极大的降低了采集成本,同时在保证画质的前提下将计