AI智能总结
编者按ᎄᏨો人类接收的外界信息,90%以上来自视、听。媒体技术围绕媒体信息采集生成、编辑处理、存储传输、呈现与感知,让数字世界变得丰富而生动。人们对于生产生活与社交领域极致媒体体验及感知的需求推动媒体技术向智能化、互联化、沉浸式、全景化、虚实结合以及交互式发展。本期《华为研究》针对媒体领域在图形图像、空间音视频、媒体压缩传输等领域的最新算法、系统和应用情况,进行了系统的阐述。图形图像领域,《计算摄影:移动影像技术的兴起》梳理了移动影像技术的发展历程和趋势,深入阐述了计算摄影如何通过数字计算,将图像处理、计算机视觉、人工智能等技术相结合,克服并突破了传统摄影的局限性,使得智能手机在某些方面可以媲美,甚至优于单反相机。《全新光栅化可微渲染系统及其应用》介绍了一种新的可微渲染架构。经验证,该架构在速度、鲁棒性和精度方面均优于SOTA方案。《自动骨骼绑定预训练及应用》提出了一种基于预训练和小样本微调的新型自动绑定范式,充分利用现有数据,实现高质量、高鲁棒性、高运行效率的角色自动绑定。该方法可适应非标准姿态的类人角色模型,对提升3D内容制作效率、降低制作门槛有着重要意义。《M3F:面向自动驾驶的多模态融合感知与预测技术》针对自动驾驶多模态数据设计了一种自适应融合架构Media Multimodal Fusion(M3目标检测、语义分割、轨迹预测等模块任务的实验,展示了不同层次的融合方式对提升自动驾驶效果的重要性。《媒体通用感知预训练框架》介绍了一种视觉领域的通用感知预训练框架,解决大规模多域多任务联合训练中的冲突难题,使得视觉预训练可以高效地使用不同标注格式、不同采集设备以及不同任务类型的数据进行联合训练。《专家协作(CoE):基于100M FLOP在ImageNet上实现80%的Top-1精度》通过多个分工合作的轻量级专家模型来逼近一个大模型的拟合能力,同时每次运行仅动态激活单个轻量级专家模型,显著降低计算开销。空间音视频领域,《多传感器融合的SLAM稠密建图和鲁棒定位》针对传统视觉SLAM算法存在弱纹理环境下跟踪失效、长时轨迹估计有累计误差、全局地图不一致等常见问题,提出引入多传感器融合相关信息联合优化,增强其鲁棒性与全局地图一致性。《FGCNet用于匹配大视角图像的高效图卷积网络,可快速、准确匹配两组图像中的稀疏特征。《基于图像块学习融合多层次信息的特征点匹配方法》提出一种基于图像块的特征点匹配网络,确保特征点局部、邻接和全局信息一致性,在视觉定位和三维重建等视觉任务中表现出稳定的性能提升。《应用于空间音频的几何声学仿真方法》介绍了一种基于声线追踪和镜像声源的混合几何声学仿真方法,能较好地平衡计算消耗和结果精度,为用户提供高质量的空间声学信息,实现符合虚拟环境声学特征的空间音频渲染。媒体压缩传输领域,《轻量化AI图像编码技术》提出了一种轻量化深度学习图像压缩方法,通过改进非线性变换单元、熵编码和上下文模型,提升了压缩效率和主观质量,同时降低了计算复杂度。该方法在相同码率下的编码性能超越了多功能视频编码标准测试模型VTM。《实时媒体通信中的智能拥塞控制算法探索》介绍了实时媒体通信中的拥塞控制技术,提出基于强化学习的端到端学习框架,并结合多维度网络特征,在传输吞吐和时延方面获得显著提升。 F)。基于该框架,文章开展了3D:基于图卷积网络的快速特征匹配方法》介绍了一种李瑞华华为媒体首席科学家 目录 02 |华为研究 Ꭺ ᰾媒体技术:构建万物互联的智能化数字世界李瑞华1,王铭学1,白博1,周建同1,范泛1,雷兆恒2,杨怡1,周雷1,付轶帆1,宋巍1,蔡康颖1,赵寅1,蔡佳3,杨长久1,田晶铎1,孙本元1,张纮博1,冯多多1,肖朝蕾11中央媒体技术院2亚太研究院3智能汽车解决方案研究部 华为研究|2025 年 6 月图2媒体技术2万物互联的智能化数字世界的原动力随着社会的发展与数字化变革的不断推进,人类对万物互联的智能化数字世界的需求日益强烈。一方面,影像的留存与传播、音乐鉴赏、文旅、社交、协作办公、购物、生产制造等主要场景对媒体技术不断提出新的需求,也正是这些需求促进媒体技术持续高速发展(图2)。另一方面,媒体技术的持续演进,特别是AI、AI生成内容(ArtificialIntelligenceGeneratedContent,AIGC)在媒体领域的应用日益成熟,给人们的生产生活带来了新的活力与便捷,也让人们对极致媒体体验的想象力和需求不断刷新。从而推动媒体技术在交互体验、内容创造、安全性、媒体流实时性等方向持续进步。2.1影像的留存、传播与娱乐过去两个世纪以来,随着人们对极致影像的追求,影像采集设备持续发展。一方面为了满足专业级的摄影体验,催生出更大画幅、更高质量的专业单反和微单设备;另一方面从使用便利性及多功能性上,又衍生出轻量化的智能拍摄终端。以智能手机为例,用户对于便携化及智能化的影像记录需求,促使手机厂商不断为手机升级影像系统,手机成像模组设备上从单摄向多摄发展,技术上结合创新性的影像技术打造具有卓越影像功能的便携式设备,并且在追求极致的道路上持续创新突破,越走越远。对于3D沉浸式的影像体验的追求,使得具有3D影像的设备也持续发展。在影像采集上,业界从单目采集逐渐演进到双目、多目以及光场技术,利用多视角来重构真实世界中的3D光影信息,并通过3D显示、增强现实(AugmentedReality,AR)、虚拟现实(VirtualReality,VR)等显示设备,带给用户身临其境的沉浸式全息影像体验。然而,从古至今,人类对于影像的制作以及传播的感情总是多元而对立的。一方面,人类对于影像留存和传播的初衷依然忠于对物质世界以及“光”的真实感知。因此如何精确且高效地采集到更加丰富的光信号,成为了当代图像采媒体技术……影像留存与传播音乐鉴赏文旅社交协作办公购物生产制造 1引言人类社会的进步往往来源于人们对于社会发展变革的需求。当今时代,人们对于生产生活与社交领域的极致媒体体验及感知的需求使得媒体技术往智能化、互联化、沉浸式、全景化、虚实结合以及交互式等方向发展。人类通过身体感官入口感受外界信息,通过大脑的分析处理达成对外界的感知和认知,并做出相应的反应(图1)。其中90% 以上的感官信息源自视听,与人类感知相对应,主流媒体技术也主要围绕视听领域。未来,万物互联的智能化数字世界有望将文旅、社交、协作办公、购物与服务、生产制造、未来出行等场景纳入数字生态,不同的空间与时间、虚拟与现实世界有望无缝连接。而如何构建数字世界则对与之相关的媒体视听技术提出了更高的述求。构建万物互联的智能化数字世界,本质是对人、物、场的数字化融合,让万物可计算、可显示,并在此基础上通过多种技术叠加,衍生出一个不受空间、位置限制、与 现 实 无 缝 连 接 的 数 字 世 界。5G、 人 工 智 能(ArtificialIntelligence,AI)、区块链、云计算、扩展现实(ExtendedReality,XR)等“平台型技术”是数字世界的技术基石,而媒体则将整个数字世界有机组合起来。媒体技术围绕媒体信息采集生成、编辑处理、存储传输、呈现与感知,赋予了数字世界“数字生命”。AI与媒体的结合为媒体技术的迭代带来强大动能,利用AI提升媒体采集与生成的效率,基于用户喜好进行个性化的音视频编辑,打造极致音视频体验,用于低码率、高效率多媒体实时编码与传输,达成沉浸及交互的影音呈现与感知。推动着媒体技术往更智能,更高效和更富吸引力的方向发展。本文愿与读者携手,共同开启一段探索与想象的旅程,激发无尽的创造力。让我们用历史的眼光来验证想象,让历史洪流融入未来展望,一同见证这个万物互联的数字世界如何不断突破学科、思维和认知的界限,绽放无限精彩。视觉83%图1人类通过身体感官媒介获取外界环境信息, 听觉11%触觉3.5%嗅觉1.5%味觉1%通过大脑进行处理并做出反应 以及沉浸式空间音频带来了音乐服务付费率、及音视频多模态服务的用户数持续增长。为现有音乐生态内的高端用户提供更优质的体验,成音乐产业的其中一个未来发展趋势。另一方面,快消群体对音乐的娱乐属性需求亦持续增加。在传统音乐生态里,音乐鉴赏体验是单向及单模态的。但这对个人用户而言缺乏内容丰富度,对社群用户而言亦缺乏互动体验。而用户对于视听一体的体验需求在逐渐扩大。从《2022年中国数字音乐行业洞察报告》可见,大量音乐用户已从传统音乐平台迁移至短视频平台。短视频平台用户留存率(47.3%)明显高于传统音乐平台(28.1%)。视听一体的多模态体验,是未来的大势所趋。对音乐的多模态体验的想象与需求驱动技术的升级迭代。通过高维度的音乐理解技术,可以在用户欣赏音乐产生相关的可视化信息。AI作曲技术,可用于电脑游戏场景,按照用户的游戏状态生成游戏背景音乐;也可应用于直播、短视频、电影等场景,以互动配乐增强用户体验;在睡眠、冥想、运动、驾驶等场景,按用户的身体反馈实时生成匹配用户活动状态的功能性音乐。在K歌场景,可通过音乐理解及评价技术,以虚拟立体形式,对用户的唱功技巧提出具像化的改善建议。对社群用户来说,沉浸式的空间音效技术、声音合成技术配合虚拟环境,能让用户享受更真实的音乐鉴赏体验,例如与虚拟歌星合唱,亲自指挥虚拟的世界一流交响乐团,以虚拟身份穿插于音乐舞台现场等。音乐内容生产者通过音频理解及可视化技术,可以快速挑选合适音频素材进行创作,毋须逐一试听成千上万的音频素材。 04 |华为研究 Ꭺ ᰾集系统的原动力。另一方面,人类也有极大的需求去编辑、制作超现实的影像,并通过作品承载、传播自己的感情。这也成为了影像编辑、生成技术的原动力。未来,持续发展的影像采集和生成技术将会让人类对世界的记录更加精细,影视所保存的内容将能够被更加栩栩如生地呈现。空间视频、数字人等技术也让人与影视作品的交互变为可能,使人能够身临其境地观看影片,并探索影像在不同视角、空间、时间下的内容。同时,AIGC技术的发展也会让更多的人有能力参与到更高级复杂的影像制作中,构筑独立的作品故事,反应独特的个人情感,传播不同文化思想,连接生活在地球村里的每一个人,极大地丰富影像世界的多样性。2.2音乐鉴赏与大众消费与影像一样,人类对音乐的追求和鉴赏几乎是出于本能的,能够追溯到人类任何文明之前。早期的音乐只能够通过口口相传、曲谱记录和音乐会等方式进行传播。如今,数字拾音、分频、传输、存储等技术的发展让音乐已经完全进入了数字化世界。而大众对于高品质音乐品鉴的想象及期待则是音频技术不断发展的原动力。在当前的数字音乐时代,全球音乐产业发展迅速,用户规模增长庞大。高端群体对音乐品质的要求持续提升,针对付费会员专享的192kHz/24bit规格的无损音质母带级音乐, 未来,个人及社群用户对更丰富、更有互动性的音乐鉴赏体验需求,音乐创作者对自动化音频种类及品质的便捷创作工具的需求,成为驱动音乐理解、生成及评价技术不断升级的原动力。2.3文旅根据中国旅游研究院预测,2025年我国文旅市场有望突破12万亿元。消费者群体对于线上服务、智能科技等新兴文旅体验的需求在不断增长。2020年,国家文化和旅游部曾发文鼓励加强文旅板块沉浸式内容体验,提升数字化水平。目前,文旅板块的虚拟化主要集中在三个方面:●虚拟景区,即在虚拟世界中重建真实景区的数字孪生体;●虚实融合,在真实物理世界的基础上叠加数字内容;●虚拟藏品,即基于真实物品打造数字藏品,推动纪念收藏和文化再创。数字虚拟化文旅以数字孪生、AI、虚拟引擎、AR/VR、区块链为底层技术,依托现实中的自然、人文及空间资源为创意模板,将虚拟数字元素融入实景,为游客和消费者创造全新的体验和互动方式。目前,数字文旅已经涵盖演艺、夜游、展览展示及主题街区四大新业态,涉及旅游景区、休闲街区、文博场馆、主题公园、度假区和产业园区六类新空间。图6影像采集设备的发展历史1403年明永乐年间“民信局”1837年第一台电报机美国莫尔斯1875年第一支电话美国贝尔1992年第一条短信英国沃达丰1999年第一个大规模即时通讯软件 华为