AI智能总结
(2024年) 发布单位:中移智库编制单位:中国移动通信研究院 编制说明 参编单位及人员 中国移动通信研究院:喻炜、杨蕾、郭勐、赵丽丽 北京大学:马思伟、贾川民中兴通讯股份有限公司:黄成、李秋婷 前言 随着5G和人工智能技术的发展,视频编码技术迎来了新的机遇。同时,新型视频内容(VR视频、全景视频、自由视点视频等)相继涌现,给数据的存储和传输带来了全新挑战。新机遇带来新挑战,从而引发新型技术需求。在此背景下,视频语义编码技术将基于视频内容和语义特征进行编码,同时追求信号保真度、感知自然性和语义质量,有望突破传统视频编码方法的性能瓶颈,成为助推视频产业高质量发展的新动能。 本白皮书旨在提出视频语义编码技术架构,介绍了视频语义编码技术背景、典型应用场景和相关技术方案,总结梳理了标准化进展,并对未来技术发展趋势进行展望。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。 目录 1.视频编码技术总体发展态势...............................................................................................22.视频编码技术发展概述.......................................................................................................52.1视频编码.....................................................................................................................52.2基于语义通信的编码传输.........................................................................................73.视频语义编码传输关键技术.............................................................................................103.1视觉感知编码...........................................................................................................113.1.1JND编码...................................................................................................123.1.2ROI编码...................................................................................................123.2生成式编码...............................................................................................................133.3跨模态编码...............................................................................................................153.4机器视觉编码...........................................................................................................163.5编码数据传输...........................................................................................................163.5.1媒体封装...................................................................................................173.5.2流媒体传输...............................................................................................184.标准化进展及建议.............................................................................................................204.1AI视频编码................................................................................................................214.2VR视频编码..............................................................................................................224.3多视点视频编码.........................................................................................................234.4面向机器的视频编码.................................................................................................235.总结与展望.........................................................................................................................25缩略语列表..............................................................................................................................26参考文献..................................................................................................................................28 1.视频编码技术总体发展态势 近年来,随着5G、5G-A和人工智能技术的发展,多媒体通信呈现巨大革新,进而催生了大量以视频为主要媒介的应用场景,比如短视频、视频直播、视频通话、视频会议等。视频编解码技术作为视频产业的基础底层技术,无疑将成为未来产业中的重要一环。尽管视频编解码技术每十年可提升约50%的压缩率,但已然无法跟上当下视频信息量迅速膨胀的步伐。海量的新型视频数据和创新应用场景的迸发涌现,促使视频编码技术不断迭代并呈现多元化发展趋势。因此,亟需发展更为高效智能的视频编码技术,来迎接全新的大视频时代。 l多元视觉指标升级,引发超高清视频编码技术需求 随着采集设备和视频技术的升级,视频数据逐渐呈现高分辨率(UHD)、高帧率(HFR)、宽色域(WCG)、高动态范围(HDR)的特点。超高清视频集上述特点于一身,在各应用场景中愈发普及,更为海量的数据使得存储传输压力激增。如何满足高质量、低延迟、少失真、低码率,成为编码技术所需要面临的新挑战。 l从“看得清”向“看得真”转变,催生编码技术升级 人眼开始追求更宽的视角、更大的范围、更沉浸的体验,VR/AR视频、自由视点视频相继涌现。基于技术成熟度,目前的VR视频泛指3DoF或3DoF+ VR视频,如水平360°×垂直360°全景视频、水平180°×垂直180°全景视频等,在拍摄端由不同方向的多个照相机拍摄多路视频并将其拼接融合而成,主要的关键技术包含2D视频拼接、视频编解码、存储和传输。而自由视点视频是一种新型 视频内容,能够让观众自由选择观看位置和角度,从而提供更加沉浸式的观看体验,该技术已成功应用于现场体育赛事、直播表演、在线教育等领域。目前成熟的解决方案是几十台相机组成U型环绕,并采集多个视角的2D视频,然后传输到云端通过深度计算后生成虚拟视角,填补各相机之间的间隔空缺,而后通过2D图像/视频编码传输至用户端解码显示。因此,面向VR和自由视点视频编码压缩主要是针对多相机采集的多路2D视频数据,催生出大数据量视频的高效编码、多视点视频数据间的去冗余编码等升级的编码技术。 l视频编码不只追求人眼视觉质量,还要高效地服务于机器视觉处理任务 理想的编码需要同时满足人类视觉系统和机器视觉系统的需求。然而,压缩失真会导致机器视觉性能下降,而质量损失的类型、程度与机器视觉系统能力的变化之间存在不同的关系。随着安防监控、物流仓储管理、智慧交通、智慧工厂等应用场景的相继涌现,面向多元机器视觉分析的视频编码技术需求日渐迫切。 l新应用引发新需求,语义编码技术“呼之欲出” 视频编码作为底层基础技术,应用广泛,从传统广电传媒可扩展覆盖至金融、互联网、工业、教育、新零售、医疗健康、交通物流、政务等行业。表1-2介绍了常见的应用场景。 综上所述,行业应用逐步扩大,业务场景愈发复杂,视频内容和类型越发丰富,视频数据量爆发式增长,视频编码技术无疑面临着巨大的挑战。在此背景下,视频语义编码技术应运而生。视频语义编码,即基于视频内容和语义特征(图1-1)进行编码,同时追求信号保真度、感知自然性和语义质量,有望突破传统视频编码方法的性能瓶颈,为视频产业注入新的活力,进一步提升产业势能,成为助推视频产业高质量发展的新动能。 2.视频编码技术发展概述 2.1视频编码 视频编码技术历经几十年的发展,国内外视频编码标准更新迭代,如图2-2所示,基于块的混合编码框架成为主流的基本架构。目前,国内外基于混合编码框架制定的视频编码标准包括:MPEG-1/2/4, H.261/2/3, H.264/AVC (AdvancedVideo Coding), AVS (Audio and Video Coding Standard in China), H.265/HEVC (HighEfficiency Video Coding)和H.266/VVC (Versatile Video Coding)等[1]。 虽然各种视频编码标准之间各有区别,但它们的编码架构都是类似的,混合编码框架基本结构如图2-2所示。 新一代的视频编码标准如VVC、AVS3和AV1在编码框架方面虽然仍属于基于预测/变换和熵编码的混合编码框架,但其诸多编码工具和环节与前代视频编码标准相比,具备更细粒度的处理能力和自适应性,带来了显著的编码性能提升。然而,在带来显著编码性能提升的同时,编解码的复杂度也显著增加,这对实时编码提出了巨大的挑战,同时压缩效率的进一步提升遭遇瓶颈。 而人工智能的兴起,尤其是深度学习的发展,促使研究人员开始尝试在图像视频编码领域引入神经网络,以期利用其数据驱动和对机器视觉友好的特质,实现更智能化、更高效的图像视频编码,以期突破传统视频编码方法的瓶颈。 图2-3详细总结了神经