行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

广电视听科技动态2025年第17期(总第58期)

2025-09-02 - 国家广播电视总局广播电视规划院记忆待续

摘要

AI 生成内容 (AIGC)

昆仑万维 上线 AI 音乐模型 Mureka V7.5 和语音模型 MoE-TTS。
- Mureka V7.5 擅长处理中文歌曲，覆盖多类音乐风格，提升人声清晰度、呼吸感与情感真实性。
- MoE-TTS 解决描述性语音合成难题，加速数字人、虚拟助手和沉浸式内容创作体验升级。
Runway 发布新动捕模型 Act-Two，无需穿戴设备，通过手机拍摄视频及参考图即可高精度捕捉面部、肢体及手势动作，解决 AI 生成角色表情僵硬问题，推动 AI 视频创作从“描述驱动”迈向“示范驱动”。

扩展现实 (XR)

谷歌发布新一代交互式世界模型 Genie 3，以 24 帧/秒生成 720P 高分辨率交互式 3D 环境，支持文本指令动态交互，自主学习物理规律，生成环境兼具高度一致性与逼真效果。
昆仑万维 发布开源实时长序列交互式世界模型 Matrix-Game 2.0，以 25 帧/秒生成分钟级连续视频内容，采用视觉驱动交互建模方案，在游戏内容创作、虚拟现实和智能交互系统等领域展现广泛应用潜力。
5G-A 超高清 VR 业务演示 在 ChinaJoy 完成，中兴 5G-A 极简专网方案结合 MR 一体机，实现单用户下行速率近 200Mbps、90 FPS 及 8K VR 低延迟传输。
Rezzil 携手伯恩利足球俱乐部推出英超首次 VR 直播，用户佩戴 Meta Quest 设备即可选择虚拟看台座位，享受球场全景视角、球员实时动态渲染及现场解说音效。

广电网络

江苏有线 打造“5G+ 工业互联网”规模化应用标杆，“5G 智能工厂”项目依托 5G 专网与物联网，融合数字孪生技术，实现设备互联与闭环管理，助力企业降本增效，推动广电行业从“内容传输”向“产业赋能”转型。
广东广电网络 发布“U 系列”智慧产品矩阵，涵盖智能交互、居家上网、科技助老、生活服务及酒店观影服务，致力从数字化普及迈向智慧化普惠，通过技术赋能与服务创新实现体验升级。

终端

天马微电子 推出全球首创显示技术 Pixel Multiplex，通过光学像素位移及精准叠加，实现像素数量翻倍，显著提升屏幕分辨率，大幅降低设备制造成本，推动显示设备向更高性价比、更优质视觉体验的方向发展。
《百吋电视选购白皮书》 正式发布，提出八大黄金标准：0 距贴墙、可靠耐用、消除光干扰、护眼健康、MiniLED 技术、AI 智能体验、沉浸式声场和开机无广告。

研究结论

AI 技术在音乐、语音、动捕、交互式世界模型等领域取得显著进展，推动内容创作和用户体验升级。
XR 技术与 5G-A 网络结合，在 VR 直播、智能工厂等领域展现广泛应用潜力。
广电网络通过 5G 和物联网技术赋能产业升级，实现从“内容传输者”向“产业赋能者”转型。
终端显示技术不断创新，推动设备向更高性价比、更优质视觉体验的方向发展。

昆仑万维上线 AI 音乐模型与语音模型.........................................................5Runway 发布新动捕模型：表情与复杂动作精准可控...............................5 XR 谷歌与昆仑万维相继发布新一代交互式世界模型.....................................65G-A 超高清 VR 业务演示在 ChinaJoy 完成.................................................7Rezzil 携手伯恩利足球俱乐部推出英超首次 VR 直播................................7 广电网络 Radio and Television Network 江苏有线打造“5G+ 工业互联网”规模化应用标杆.................................8广东广电网络发布“U 系列”智慧产品矩阵..............................................8 终端Tterminal 天马微电子推出全球首创显示技术提升分辨率......................................9《百吋电视选购白皮书》正式发布，提出八大黄金标准.......................10 摘要 A IGCArtificial Intelligence Generated Content 昆仑万维上线 AI 音乐模型与语音模型昆仑万维上线 AI 音乐模型与语音模型 P5 AI 音乐模型 Mureka V7.5 擅长处理中文歌曲并覆盖多类音乐风格，显著提升了生成音乐中人声清晰度、呼吸感与情感真实性，使 AI 演绎的歌曲更贴近真人演唱。语音模型 MoE-TTS 则有望解决描述性语音合成难题，加速数字人、虚拟助手和沉浸式内容创作的体验升级。 Runway 发布新动捕模型：表情与复杂动作精准可控Runway 发布新动捕模型：表情与复杂动作精准可控 P5 该模型无需穿戴设备，仅凭手机拍摄视频及参考图即可高精度捕捉并迁移面部、肢体及手势动作，解决了 AI 生成角色表情僵硬难控问题，也推动 AI 视频创作从“描述驱动”迈向“示范驱动”。 Extended Reality XR 谷歌与昆仑万维相继发布新一代交互式世界模型谷歌与昆仑万维相继发布新一代交互式世界模型 P6 谷歌 Genie 3 可以 24 帧 / 秒生成 720P 高分辨率的交互式 3D 环境，并支持文本指令动态交互。通过自主学习物理规律，生成环境兼具高度一致性与逼真效果。昆仑万维 Matrix-Game 2.0 是业内首个开源实时长序列交互式世界模型，创新地采用视觉驱动交互建模方案，可以 25 帧 / 秒生成分钟级连续视频内容。两款模型在 AI 智能体训练、游戏开发与虚拟现实等领域展现出广泛应用潜力。 5G-A 超高清 VR 业务演示在 ChinaJoy 完成5G-A 超高清 VR 业务演示在 ChinaJoy 完成 P7 现场部署的中兴 5G-A 极简专网方案通过 AI 波束智能跟踪和无死角覆盖技术，结合 MR 一体机，实现了单用户下行速率近200Mbps、90 FPS 及 8K VR 低延迟传输，为 5G-A 网络在 XR、具身智能等领域应用提供了可复制的技术样本。 Rezzil 携手伯恩利足球俱乐部推出英超首次 VR 直播Rezzil 携手伯恩利足球俱乐部推出英超首次 VR 直播用户佩戴 Meta Quest 设备通过官方应用即可选择虚拟看台座位，享受球场全景视角、球员实时动态渲染及现场解说音效。该直播专为单人沉浸式设计，旨在提供专注、不受干扰的观赛体验。 P7 摘要广电网络Radio and Television Network 江苏有线打造“5G+ 工业互联网”规模化应用标杆江苏有线打造“5G+ 工业互联网”规模化应用标杆 P8 “5G 智能工厂”项目依托 5G 专网与物联网，有效解决传统工业网络布线复杂、数据传输滞后的痛点。同时融合数字孪生技术，实现设备互联与闭环管理，不仅助力企业降本增效，更推动广电行业从“内容传输”向“产业赋能”战略转型。广东广电网络发布“U 系列”智慧产品矩阵广东广电网络发布“U 系列”智慧产品矩阵 P8 “U 互动、U 智选、U 悦兑、U 乐住”四大智慧产品涵盖智能交互、居家上网、科技助老、生活服务及酒店观影服务。广东广电网络将以此为契机，致力从数字化普及迈向智慧化普惠，通过技术赋能与服务创新实现体验升级。终端Terminal 天马微电子推出全球首创显示技术提升分辨率天马微电子推出全球首创显示技术提升分辨率 P9 全球首创的显示技术 Pixel Multiplex，通过光学像素位移及精准叠加，即可实现像素数量翻倍，显著提升屏幕分辨率。该技术通用性强，可大幅降低设备制造成本，推动显示设备向更高性价比、更优质视觉体验的方向发展。《百吋电视选购白皮书》正式发布，提出八大黄金标准《百吋电视选购白皮书》正式发布，提出八大黄金标准 P10 该白皮书由中国电子商会与电子技术标准化研究院联合发布，针对用户痛点，提出了新一代百吋电视八大黄金标准，涵盖 0 距贴墙、可靠耐用、消除光干扰、护眼健康、MiniLED 技术、AI 智能体验、沉浸式声场和开机无广告等。 A I GC 1昆仑万维上线 AI 音乐模型与语音模型 2025 年 8 月 15 日，昆仑万维集团在其 SkyWork AI 技术发布周宣布正式上线 Mureka V7.5 模型。该模型在中文歌曲创作方面展现出了卓越能力，为 AI 音乐创作领域带来了新的突破。 Mureka V7.5 不仅在音色和演奏技法上实现了大幅提升，还在咬字和情感表现上取得了显著进步。凭借对中文曲风和元素的深刻理解，该模型能够精准地传达中文音乐的艺术神韵和情感色彩。它涵盖了传统民歌、戏曲、经典华语流行金曲以及当代民谣音乐等多种风格，展现了中文音乐的多样性与文化特性。Mureka V7.5 优化了自动语音识别（ASR）技术，深入到演唱的微观层面，精准识别唱词，并分析真实演唱中的气息运用、情感起伏和唱法细节，进一步提升了人声表现的真实性与情感深度。通过智能划分乐句、确定自然的换气与停顿位置，Mureka V7.5 显著提升了生成人声的段落清晰度与结构真实感。这些细节的捕捉反馈给生成模型后，极大地增强了人声的自然度、呼吸感以及情感表达的真实性，有效削弱了机械感，使 AI 演绎的歌曲在流畅性上更贴近真人演唱，尤其在处理中文歌曲特有的韵律和气息时表现出色。与此同时，昆仑万维语音团队还推出了首个基于 Mixture of Experts（MOE，混合专家模型）的角色描述语音合成框架 MoE-TTS，有望解决描述性语音合成领域长期存在的难题（例如在面对比喻、类比等复杂修辞时，生成的语音往往偏离用户预期），推动行业从“封闭标签式控制”走向“自然语言自由控制”的新范式，加速数字人、虚拟助手和沉浸式内容创作的体验升级。目前，MoE-TTS 仍在迭代中，团队后续计划将其集成至Mureka-Speech 平台，作为角色配音的基座模型，为全球开发者和创作者提供开放、高效、可定制的描述性语音合成能力。（信息来源：AI 基地网 news.aibase.com） 2Runway 发布新动捕模型：表情与复杂动作精准可控美国 Runway 公司继去年推出 Act-One 后，近日再发升级版 Act-Two，解决了 AI 生成角色表情僵硬难控问题。Act-Two 操作简单、效果逼真，可实现口唇同步，进行微表情、肢体与手指运动等复杂动作捕捉，生成的动画细节实现了大幅提升。 Act-Two 的核心优势突出：一是零硬件依赖，无需动捕服、红外摄像头等专业设备及场地，仅用手机拍摄的单一视角半身视频，就能精准捕捉细微表情与大幅肢体动作，高效生成高质量动画；二是精准动作控制与全维度迁移，可捕捉面部微表情、肢体动作、手势等，精准复刻至 AI 角色，甚至还原背景动态，在角色动画的细节上也有了大幅提升，避免了模糊或不一致问题；三是高度风格适应力，适配人类、卡通等各类角色，兼容不同环境与艺术风格，同时保留视频原味与表演者动作特征，规避“恐怖谷效应”。此次 Act-Two 的升级，精准解决了 AI 视频创作的核心痛点。过去，用户仅能通过模糊的文字描述引导 AI 实现预期动作；如今，只需向 AI 直接演示，其便能精准学习并复现动作。这标志着 AI 视频创作从“描述驱动”向“示范驱动”实现了质的跨越。（信息来源：影视制作公众号 mp.weixin.qq.com） XR 3谷歌与昆仑万维相继发布新一代交互式世界模型谷歌 DeepMind 于 8 月 5 日发布了新一代世界模型 Genie 3，随后昆仑万维在 8 月 12 日的 SkyWork AI 技术发布周上正式推出自研交互式世界模型 Matrix-Game 2.0。这两款模型的发布标志着交互式虚拟环境生成技术迈入新的发展阶段。 Genie 3 是谷歌 DeepMind 的最新研究成果，能够以 24 帧 / 秒的速度生成 720P 高分辨率的交互式 3D 环境，在生成时长、分辨率和物理一致性方面相比之前模型均有显著提升。该模型采用自回归方式逐帧生成虚拟世界，能维持数分钟的环境一致性，视觉记忆能力达到一分钟。其创新的“可提示世界事件”功能，允许用户通过文本指令动态修改虚拟世界，这为 AI 智能体训练、游戏开发和教育等领域带来新的可能性。值得一提的是，Genie不依赖传统物理引擎，而是通过大规模视频数据集自主学习物理规律，能够逼真呈现火星车颠簸、水花喷射以及风吹草动等效果，能为 AI 智能体提供丰富的训练场景。昆仑万维发布的 Matrix-Game 2.0 作为业内首个在通用场景下实现实时长序列生成的开源世界模型，展现了令人瞩目的技术实力。该模型支持以25 帧 / 秒的速度生成分钟级连续视频内容。其创新的视觉驱动交互建模方案，摒弃了传统依赖语言提示的生成模式，基于 3D 因果变分自编码器与多模态扩散 Transformer 架构，能够根据用户动作指令逐帧生成符合物理逻辑的动态视觉序列。Matrix-Game 2.0 在游戏内容创作、虚拟现实和智能交互系统等领域展现出广泛应用潜力。在 GTA 和 Minecraft 等游戏场景测试中，该模型展现了卓越的交互能力，能够生成符合物理逻辑的可交互视频。昆仑万维表示，这一突破代表了中国在空间智能研究领域的新里程碑。两款世界模型的相继发布，展示了 AI 技术在虚拟环境生成方面的最新进展，为 AI 智能体训练、游戏开发、虚拟现实等应用领域开辟了新的可能性。（信息来源 1：DeepMind 官网 deepmind.google）（信息来源 2：AI 基地网 www.aibase.com） 45G-A 超高清 VR 业务演示在 ChinaJoy 完成在 8 月 1 日开幕的第二十二届中国国际数码互动娱乐展览会 ChinaJoy上，上海电信、中兴通讯与高通技术公司联合完成了基于 5G-A 的超高清虚拟现实 VR 业务演示。在高通骁龙主题馆内，三方展示了支持超 8K 分辨率和低延迟的 VR 游戏体验，提升了多用户并发下的终端性能表现。其中“骁龙 XR 奇幻之旅”作为展馆重点项目，采用搭载第二代骁龙 XR2 平台的 PICO4 Ultra 混合现实（MR）头显，并配合定制交互座椅，实现了沉浸式多感官互动。为应对场馆内智能设备密集接入、4K/8K 视频高并发传输和实时交互等业务挑战，中兴通讯部署了 5G-A EasyOn·Meta 极简专网方案。

点击免费查看完整报告