您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国家广播电视总局广播电视规划院]:广电视听科技动态2025年第24期(总第65期) - 发现报告

广电视听科技动态2025年第24期(总第65期)

AI智能总结
查看更多
广电视听科技动态2025年第24期(总第65期)

AIGC 谷歌发布新一代图像生成模型 Nano Banana Pro.........................................5Meta 发布能识别 1600 种语言的 ASR 系统...................................................5 AI 本地化部署Local deployment of AI MDT 发布无需联网开箱即用 AI 智能体一体机..........................................6博通探索端侧 AI 翻译芯片,提升家庭终端体验........................................7腾讯发布最新视频生成模型,大幅降低部署门槛.....................................7 数字人与超高清Digital humans and ultra-high definition 我国发布虚拟数字人领域首项国家标准......................................................8HDR Vivid 获 DVB 会议通过,将提交为 ETSI 标准...................................8 传输Transmission 江苏台联合紫金山实验室完成苏超 6G 直播试验.......................................9西班牙国家广播电台将停播 AM 广播........................................................10 摘 要 A IGCArtificial Intelligence 谷歌发布新一代图像生成模型 Nano Banana Pro谷歌发布新一代图像生成模型 Nano Banana Pro P5 该模型处理复杂信息表现出色、文本渲染能力突出、具备强大的多元素合成能力和更高级的创意控制选项,可生成 4K 分辨率的高清图像。由其生成或编辑的图像都将嵌入 C2PA 元数据,帮助用户识别 AI 生成内容与深度伪造。 Meta 发布能识别 1600 种语言的 ASR 系统Meta 发布能识别 1600 种语言的 ASR 系统 P5 这是首次实现对 1600 种语言高精度语音识别的系统。Meta 完全开源此模型与工具链,用户只需提供少量带标注的音频 - 文本对,系统即可快速适配新语种,让“可用语音技术”覆盖到少数族裔等长期被忽视的群体,标志着 AI 从“技术中心主义”走向“文化包容主义”。 A I 本地化部署Local deployment of AI MDT 发布无需联网开箱即用 AI 智能体一体机MDT 发布无需联网开箱即用 AI 智能体一体机 P6 近日,中国人工智能计算设备提供商 MDT 在第二十七届高交会上发布 AIImmerse 智能体一体机,该设备主打本地化、高隐私与强算力,预装多种大模型、支持 2D 实时转 3D、3A 游戏 VR 化及私有知识库构建等,解决云端 AI 高成本与隐私风险。 博通探索端侧 AI 翻译芯片,提升家庭终端体验博通探索端侧 AI 翻译芯片,提升家庭终端体验 P7 近日,美国博通公司将 CAMB.AI 研发的多语言语音及翻译模型集成至博通的片上系统,为智能电视、机顶盒等家庭终端赋予了本地化多语言交互能力。该方案支持超 150 种语言输出,保障了弱网环境下功能稳定,兼顾隐私安全与响应效率,奠定了端侧 AI翻译芯片在家电设备中进一步应用的基础。 腾讯发布最新视频生成模型,大幅降低部署门槛腾讯发布最新视频生成模型,大幅降低部署门槛 P7 该模型基于 Diffusion Transformer 架构,参数量 8.3B,能生成5 至 10 秒高清视频,支持多种生成方式。其采用创新机制提升推理效率,在关键维度达商用水平,且仅需 14G 显存显卡即可运行,大幅降低了部署门槛。目前模型已开源,有望推动创作行业变革。 摘 要 数字人与超高清Digital humans and ultra-high definition 我国发布虚拟数字人领域首项国家标准我国发布虚拟数字人领域首项国家标准 P8 近日,商汤科技牵头完成了《信息技术客服型虚拟数字人通用技术要求》(GB/T 46483-2025)的起草制定。该标准明确规定了客服型数字人的功能与性能要求。其颁布实施为影视领域相关标准制定提供了参考,标志着我国虚拟数字人产业迈入规范化、高质量发展阶段。 HDR Vivid 获 DVB 会议通过,将提交为 ETSI 标准HDR Vivid 获 DVB 会议通过,将提交为 ETSI 标准 UWA 联盟制定的 HDR Vivid 视频标准获国际产业组织认可,为成为全球通用标准奠定了基础。该标准采用智能计算技术,能动态优化画面亮度和色彩,其生态已具规模。此次获 DVB 会议通过印证了其技术先进性与产业可行性,下一步将进入 ETSI 标准制定流程,预计 2026 年 5 月正式发布。 P8 传输Transmission 江苏台联合紫金山实验室完成苏超 6G 直播试验江苏台联合紫金山实验室完成苏超 6G 直播试验 该试验采用 6G 无蜂窝网络传输视频,团队优化了图传设备的传输协议,并建立专属通信链路,实现信号直连回传。在比赛现场,该技术方案用于记者采访视频的实时无线传输,并作为主传输链路的应急备份,提升了直播的可靠性。 P9 西班牙国家广播电台将停播 AM 广播西班牙国家广播电台将停播 AM 广播 近日,西班牙广播电视公司 RTVE 宣布,西班牙国家广播电台(RNE)及 Radio 5 网络的 AM 广播将于 12 月 31 日前停播,以推动向数字广播 DAB+ 转型。数据显示,近十年来 RNE 的 AM 广播听众锐减,听众流失与能源成本上升或是停播主因。 P10 AIGC 1谷歌发布新一代图像生成模型 Nano Banana Pro 谷 歌 于 近 日 正 式 推 出 全 新 图 像 生 成 与 编 辑 模 型 NanoBananaPro(Gemini 3 Pro Image)。该模型基于 Gemini 3 Pro 架构构建,号称能以“前所未有的控制力、精准的文字渲染效果以及丰富的世界知识储备”,将用户的想法转化为“工作室级(studio-quality)”的设计作品。自 11月 20 日起,Nano Banana Pro 面向全球用户开放免费试用。 据谷歌介绍,Nano Banana Pro 擅长处理复杂信息,能生成包含丰富信息的图,直观呈现天气、体育赛事等实时数据。该模型的一大突破在于其文字渲染能力,不仅能生成细节更丰富、文字更准确的图像,还能以不同风格、字体及语言把文字画在图中。无论是简短的标语还是长段落文本,Nano Banana Pro 都能清晰、准确地将其直接渲染在图像中,这使其极具实用性,非常适合制作多种语言版本的海报或邀请函。此外,模型还具备强大的合成能力,支持在一个画面中融合最多 14 张图像素材和多达 5 个人物主体。在编辑功能上,Nano Banana Pro 引入了更高级的创意控制选项,用户不仅可以对图像进行局部选择与编辑,还能调整摄像机角度、添加背景虚化(Bokeh)效果、改变焦点、进行专业色彩分级(ColorGrading),甚至自由切换日夜光照效果。在输出规格方面,模型支持多种长宽比,最高可生成 4K 分辨率的高清图像。 值得注意的是,所有经由 Nano Banana Pro 生成或编辑的图像都将嵌入 C2PA 元数据,帮助用户在搜索或社交平台上识别 AI 内容或深度伪造(Deepfakes)内容。目前图像验证仅基于谷歌自研的隐形 AI 水印技术SynthID,未来扩展至 C2PA 标准后,还能识别更多 AI 工具及创意软件(包括 OpenAI 的 Sora)所生成内容的来源。用户可以使用 Gemini 应用来判断图片是否由谷歌的 AI 工具创作或编辑。不过,谷歌也提到,尽管图像质量显著提升,Nano Banana Pro 的生成速度有所下降,使用成本亦更高。目前,该模型正逐步集成至谷歌旗下多款主流 AI 工具中。 (信息来源 :IT 之家 www.ithome.com) 2Meta 发布能识别 1600 种语言的 ASR 系统 传 统 语 音 技 术 聚 焦 英 语、 中 文、 西 班 牙 语 等 主 流 语 种, 全 球 7000多种语言中,超过 95% 长期被 AI 语音技术忽视,而 Meta 最新发布的Omnilingual ASR(自动语音识别)系统,打破了语言技术的“精英垄断”,首次实现对 1600 种语言的高精度语音识别,并引入革命性的“上下文学习” 机制,仅需几段音频样本,即可让 AI 快速掌握一门全新语言。 这一开源系统不仅技术领先,更承载着数字平权的使命,让濒危语种与小语种首次站上 AI 时代的舞台中央。测试显示,在其支持的 1600 种语言中,78% 的语种词错率(WER)低于 10%,即使在数据极度稀缺的小语种中,仍有 36% 实现低于 10% 的词错率,这一表现远超此前任何多语言 ASR 系统,真正让“可用语音技术”覆盖到非洲部落、南美原住民、东南亚少数民族等长期被忽视的群体。 Omnilingual ASR 的核心突破在于其上下文少样本学习能力。用户只需提供少量带标注的音频 - 文本对(如 3 至 5 句),系统即可通过元学习机制快速适配新语种,无需海量数据或专业训练流程。这一设计使模型理论支持语言数量跃升至 5400 种以上,几乎涵盖所有拥有文字记录的语言,为全球语言多样性保护提供技术基石。 报道称,Meta 完全开源模型与工具链,并联合全球数十个语言保护组织、本土社区共同采集语音数据,确保发音、语调与文化语境的真实还原。OmnilingualASR 标志着 AI 从“服务主流”转向“赋能边缘”,从 4“技术中心主义”走向“文化包容主义”。 (信息来源:AI 基地网 www.aibase.com) AI 本地化部署 3MDT 发布无需联网开箱即用 AI 智能体一体机 11 月 15 日,在第二十七届中国国际高新技术成果交易会(高交会)福田科技展团活动上,中国人工智能计算设备提供商 MDT 正式展出全球首款MDTAIImmerse 智能体一体机。展会期间,MDT 展位吸引了大量国际观展者、渠道商及潜在合作伙伴,他们对 MDTAIImmerse 的本地化、高隐私、强算力 AI 解决方案表现出浓厚兴趣,展现出全球市场潜力。 这款一体机的核心亮点显著:一是“开箱即用”,预装多种主流大语言模型、AIGC 模型及自研 AI 中间件,无需复杂配置与联网,开机即拥有 AI 私人助理,解决云端 AI 高成本与隐私风险;二是性能强悍,仅重 1 公斤、厚 3.6 厘米,搭载 AMD AI Max 395 芯片与 8060SGPU,提供 126 TOPS(万亿次操作 / 秒)的 AI 算力,128G 统一内存可动态分配最高 96GB 显存,还支持万兆网口与 Wi-Fi 7;三是技术突破,自研“智能隧道技术”实现算力随行,使用户在任何有网络连接的地方都能远程调用家中或办公室 AIImmerse 主机的全 部算力,转译 CUDA 并优化 PyTorch 框架打造 AI 中间件,适配 AMD 芯片 ,使得 AI 大模型能在非英伟达生态芯片上流畅运行,为构建自主可控的国产AI 算力生态探索了可行道路;四是体验革新,支持 2D 实时转 3D、本地运行千亿参数大模型,可将 3A 游戏转为 VR 模式,还能本地化完成智能办公、内容创作及构建私有知识库。 该产品采用“一次投入,终身使用”模式,用户可拥有数据永不泄露的边缘侧私有算力中心。 (信息来源:通信网 www.c11