AI智能总结
A I 应用 半年 200+ 专利,“爱优腾芒 B”AI 应用深度赋能.................................5 A I 工具AI Tools 阿里云开源音画同步级 AI 音频生成模型....................................................6Lightricks 实现 AI 生成 60 秒实时流式传输视频..........................................6首个直播视频场景实时转换 AI 模型 MirageLSD 发布...............................7 A I 治理AI Governance 英国通信管理局发布深度伪造识别新建议..................................................8全球首个单智能体运行安全测试标准发布..................................................8 超高清 Ultra high definition 首个全链路 HDR Vivid 4K 超高清直播频道上线........................................9创维主导的超高清与 VR 融合机顶盒 ITU 标准发布................................10华为 AI 存储方案破解 4K 超高清制播瓶颈................................................10 摘 要 A I 应用AI Application 半年 200+ 专利,“爱优腾芒 B”AI 应用深度赋能半年 200+ 专利,“爱优腾芒 B”AI 应用深度赋能 P5 AIGC 作为近半年来“爱优腾芒 B”五大视频平台申请专利的核心关键词,其技术应用覆盖用户交互、内容生产、商业变现的全流程,彰显 AI 已成为驱动内容生产、优化用户体验及创新商业模式的核心引擎。 A I 工具AI Tools 阿里云开源音画同步级 AI 音频生成模型阿里云开源音画同步级 AI 音频生成模型 P6 阿里巴巴通义实验室开源首个音频生成模型 ThinkSound,该模型采用多模态 AI 架构和链式推理技术,能够根据视频、文本或音频输入,生成与视频高度匹配的音效,实现音画帧级的高保真同步,为影视和游戏创作领域带来革命性突破。 Lightricks 实现 AI 生成 60 秒实时流式传输视频Lightricks 实现 AI 生成 60 秒实时流式传输视频 P6 以色列 Lightricks 公司推出 AI 视频生成模型 LTXV 更新版,采用自回归流式处理架构,新增动态场景控制功能,能基于图像生成60 秒视频,成为首个可实时流式传输长时长 AI 视频的开源模型,有望加速行业技术创新。 首个直播视频场景实时转换 AI 模型 MirageLSD 发布首个直播视频场景实时转换 AI 模型 MirageLSD 发布 P7 该模型能在 40 毫秒内将任意视频流转换至目标场景,每秒能运行 24 帧,还支持无限时长视频流的实时处理,突破了传统视频生成模型在延迟与时长上的瓶颈,在直播、游戏、动画、电商等领域均有应用价值。 AI 治理AI Governance 英国通信管理局发布深度伪造识别新建议英国通信管理局发布深度伪造识别新建议 P8 英国通信管理局发布新文件探讨识别深度伪造内容的工具和技术,分析了数字水印、溯源元数据、AI 标签和上下文标注这四种溯源技术措施的优劣,并总结了八大关键结论,强调需共建动态防御体系,多维度协同应对深度伪造挑战。 摘 要 全球首个单智能体运行安全测试标准发布全球首个单智能体运行安全测试标准发布 P8 世界数字科学院发布《AI 智能体运行安全测试标准》,该标准构建了全链路风险分析框架,创新推出了多种测试方法,填补了智能体安全测试技术标准的空白,部分标准测评认证已在多领域落地应用。 超高清Ultra high definition 首个全链路 HDR Vivid 4K 超高清直播频道上线首个全链路 HDR Vivid 4K 超高清直播频道上线 P9 作为全国首个全链路应用 HDR Vivid 技术标准的 4K 超高清直播频道,深圳卫视 4K 超高清直播频道采用“双轨并行、智能适配”的端到端方案,在保障新终端顶级体验的同时,确保海量存量终端的服务连续性,为 HDR Vivid 的规模化推广提供了可行技术路径。 创维主导的超高清与 VR 融合机顶盒 ITU 标准发布创维主导的超高清与 VR 融合机顶盒 ITU 标准发布 P10 深圳创维主导的 ITU 标准《支持超高清视频和虚拟现实服务的有线机顶盒功能要求》正式发布,首创性地将 VR 主要计算负载置于机顶盒处理,让头显轻量化,填补了国际上利用现有通信网、广电网基础设施(尤其是通过机顶盒)承载分发 VR 服务并实现与超高清视频服务融合的标准空白。 华为 AI 存储方案破解 4K 超高清制播瓶颈华为 AI 存储方案破解 4K 超高清制播瓶颈 P10 华为推出以 OceanStor Pacific 分布式存储为核心的媒资数据湖解决方案,可解决传统制播流程“存、取、管”难题,满足 4K超高清制作需求。该方案与此前华为发布的 DCSAI、AI 存储推理加速、AI 数据湖等三大 AI 方案一道,共同助力广电行业突破制播瓶颈,支撑智能化升级。 A I 应用 1半年 200+ 专利,“爱优腾芒 B”AI 应用深度赋能 2024 年 11 月至 2025 年 6 月,爱奇艺、优酷、腾讯视频、芒果 TV 与哔哩哔哩(简称:爱优腾芒 B)申请的专利中,AIGC 成为核心关键词,其技术应用已覆盖用户交互、内容生产到商业变现的全流程。在用户交互层面,各平台通过个性化交互强化粘性及沉浸体验以延长用户停留时长。爱奇艺依据用户快进、回看等行为数据生成标签,优化推荐准确性;腾讯在视频搜索中综合文本与画面特征计算匹配度,提升结果相关性;芒果 TV 通过提取内容微观特征、结合片段热度与用户偏好,精准推送内容。互动形式上,爱奇艺“跳看”功能基于用户离开比例分析提供浓缩内容;芒果“弹幕对战”将弹幕与节目竞技关联;B 站通过情绪匹配触发弹幕特效,这些技术让用户从观看者变为参与者,从而助力平台会员收入增长。 在内容生产环节,“降本增效”是 AIGC 技术的核心目标。音视频制作中,爱奇艺配音补录技术解决情绪不连贯问题,腾讯“年龄滤镜”消除声音年龄差异,B 站音频节奏剪辑功能大幅缩短制作时间。针对内容出海,优酷自动替换字幕适配多语言,腾讯双语对照 2 技术提升翻译准确性。动画制作上,爱奇艺穿模检测专利减少人工检查,优酷网页端三维动画功能优化渲染效率,全面优化制作流程。 在商业化方面,智能技术推动广告投放向精准化、场景化升级,广告端的投放形式亦从打扰式推送转向服务式融入。爱奇艺根据用户画像与内容特性生成差异化广告素材,覆盖长短视频场景;优酷通过用户点击、滑动等互动行为触发广告追投;腾讯结合用户地理位置推送弹幕形式的关联广告;芒果 TV 关注广告主 KPI,筛选需要曝光 N 次的广告素材并根据已触达的设备数动态调整投放策略。 五大视频平台近半年的 200 多条专利,揭示出 AI 已成为驱动内容生产、优化用户体验、创新商业模式的核心引擎。从单纯的版权采购,转向技术、生态和商业模式的全面对抗,平台之间竞争迭代也意味着未来 1-2 年内,由智能专利技术催生的更多新功能、新玩法将会陆续落地。 (信息来源 :微信网 mp.weixin.qq.com) A I 工具 2阿里云开源音画同步级 AI 音频生成模型 近日,阿里巴巴通义实验室正式开源首个音频生成模型 ThinkSound。该模型能够根据视频、文本或音频输入,自动生成高保真的音效和环境音,与视觉内容实现完美适配,为影视和游戏创作领域带来革命性突破。阿里云的开源举措降低了创作门槛,让更多创作者能够受益于先进的音频生成技术。 ThinkSound 是一款具有创新性的音频生成模型,它采用多模态 AI 架构,融合了计算机视觉、自然语言处理和音频生成技术,并使用先进的链式推理(CoT,Chain-of-Thought)技术,能够深入分析视频画面中的场景、动作和情感,理解物体之间的交互、环境背景以及人物的行为,可生成与视频高度匹配的音效,实现音画帧级的高保真同步。例如,在自然场景中,它可以生成潺潺的流水声或清脆的鸟鸣声;在都市场景中,能够精确还原车辆的鸣笛声和人群的喧闹声。 ThinkSound 支持视频、文本、音频等多种输入模态,并且可以接受这些模态的组合输入,有效地拓宽了应用场景。同时支持 MP4、MOV、AVI和 MKV 等多种视频格式,并且兼容从标清到 4K 的分辨率,能够满足不同类别的创作需求。此外,该模型还支持用户通过语言指令对生成的音效进行精准的编辑和优化。 ThinkSound 的应用潜力广泛,覆盖了影视后期制作、游戏音效设计、 互 动 媒 体 以 及 教 育 内 容 创 作 等 多 4 个 领 域。 在 影 视 后 期 制 作 中,ThinkSound 能够快速为无声视频添加环境音效、角色对话或背景音乐,大幅提升制作效率;游戏开发者可以利用 ThinkSound 生成动态音效,增强虚拟场景的沉浸感。此外,ThinkSound 语音合成技术支持多语言对话生成,结合精准的唇部同步和情感表达,能够为虚拟角色赋予更真实的生命力。 (信息来源:AI 基地网 news.aibase.com) 3Lightricks 实现 AI 生成 60 秒实时流式传输视频 近日,以色列 Lightricks 宣布完成 AI 视频生成模型 LTX-Video(简称LTXV)的更新。更新后,该模型能够支持基于图像生成 60 秒的视频内容。这一突破打破了行业标准的 8 秒限制,使 LTXV 成为首个能够实时流式传输 长时长 AI 视频的开源模型。最新版本的 LTXV 采用自回归流式处理架构,能从单张图像生成 60 秒的高质量视频。与传统模型短时长的输出模式不同,该模型在生成过程中可实时流式传输视频:首秒内容几乎即时呈现,后续场景则持续递进构建。这项技术不仅实现了更长时长的视频生成,还保障了动作的流畅性与叙事的连贯性。用户通过输入详细的文本提示,并结合初始图像,便能生成分辨率在 768×512 及以上(如 1216×704)、帧速率为 24FPS 的视频。此次更新还新增了动态场景控制功能,支持用户在视频生成过程中实时调整姿势、深度及样式等元素。借助 Lightricks 研发的IC-LoRA 技术,创作者可以持续应用控制信号,如姿势检测、边缘检测等,实现对视频细节的精准调控。此外,LTXV 支持文本转视频、图像转视频、关键帧动画及视频扩展等多种生成模式,还能接收多图像或短视频片段作为条件输入,进而生成复杂的视频内容。 LTXV 的版本更新重新界定了 AI 视频创作的技术边界,其开源特性与高效性能有望进一步加速行业的技术创新。 (信息来源:AI 基地网 www.aibase.com) 4首个直播视频场景实时转换 AI 模型 MirageLSD 发布 近日,全球首款人工智能直播流扩散(LSD,Live-Stream Diffusion)模型 MirageLSD 正式发布。该模型能在 40 毫秒内,将任意视频流转换到目标场景,为直播、游戏开发、动画制作及虚拟试衣等领域开拓了新应用空间。 与传统视频流扩散模型需数秒到数分钟处理时长不同,MirageLSD 每秒能运行 24 帧,响应延迟低于 406 毫秒,还支持无限时长视频流的实时处理。这些性能优势得益于 CUDA Megakernel 优化及抗漂移训练方面的技术创新,突破了传统视频生成模型在延迟与时长上的