
技术白皮书 引言/ 01 AI与视频的碰撞/ 05 2.1发展趋势........................................................................................................................ 052.2典型场景........................................................................................................................ 07 AI视频介绍/ 09 3.1参考架构.......................................................................................................................... 093.2行业视频管理服务(IVM)........................................................................................113.3视频智能分析服务(VIAS)......................................................................................133.4盘古CV大模型................................................................................................................153.5盘古视频解译大模型...................................................................................................21 AI视频应用案例/ 23 4.1华为门店.......................................................................................................................... 234.2物流................................................................................................................................... 254.3铁路................................................................................................................................... 264.4矿山................................................................................................................................... 284.5电力................................................................................................................................... 30 展望未来,从感知到生成/ 31 引言 用摄像机拍摄,记录并播放视频可以回溯到19世纪,大家公认的第一部电影是法国影片《工厂的大门》,1895年由路易斯•卢米埃尔摄影。表现当时法国里昂卢米埃尔工厂放工时的情景,片长仅一分多钟。从这以后,摄影技术持续发展,从模拟技术到数字技术,从电影摄像机到家用摄像机,直到电脑,手机等便携终端内置摄像头,摄像已经成为当今社会人们记录信息并传播交流的最重要工具和手段,也是大众百姓所需要和掌握的一项基本生活技能。 摄像技术应用也从电影,广播电视发展到生活中的方方面面,包括城市治理、安全防护、工业质检等等。每个城市,每个企业都有大量的摄像机,不断在记录发生的一切。海量的视频数据,在方便大众的生活的同时,也带来了很多管理上的困扰。数据如何有效存储,如何能够感知并记录关键事件,如何能够将屏幕面前的工作人员解放出来或者减轻他们工作的强度,已经成为视频使用者最关心的问题。与此同时,AI技术虽然起步较晚,但随着其快速的发展,已经在诸多方面与视频技术产生了深度的融合。 1950年,艾伦•图灵(Alan Turing)在论文《计算机器与智能(Computing Machinery and Intelligence)》中提出了著名的“图灵测试”,给出了判定机器是否有“智能”的试验方法。1956年夏,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(ArtificialIntelligence,简称AI)”这一概念,标志着人工智能学科的诞生。 人工智能从诞生之初,就希望让机器理解这个世界,将人类从繁琐,重复性的事务中脱离出来。从符号主义、专家系统、神经网络、深度学习、强化学习到预训练大模型,一个又一个技术的突破,让人类看到了通用人工智能的希望。自然而然,用人工智能识别视频数据,甚至生成视频数据成为了技术路线的必然选择。华为公司在视频技术和人工智能技术上都有深厚的积累和丰富的实践,华为云AI视频产品正是将AI和视频技术相结合的优秀典范。此篇《华为云AI视频白皮书》,是我们团队研究和实践经验的总结,希望能够更好地促进产业的发展,让摄像机“看得懂、会说话”。 AI与视频的碰撞 没有孤立的技术,融合才能发展。视频技术和AI技术虽然起步时间不同,但在发展中却交相辉映,在最需要彼此的时候相遇。如下图所示,人工智能和视频编解码,都经历了漫长的摸索期,并先后于21世纪取得突破式发展。深度学习将人工智能带入千行百业的生产流程,H.264编码技术将视频业务带入移动互联网,成为每个消费者日常的必需品。两条平行发展的技术踩着同样的步点,在视频数据爆发增长,预训练大模型横空出世的时代相遇。AI和视频的结合是趋势和必然,给所有人,所有行业无限的想象空间和发展潜力。两个超万亿产值的行业相乘,将带来无法估量的产业价值。 趋势1:视频流云上集中管理 大量的摄像机安装完成后,面临的问题是如何集中式管理。摄像机分散在不同的地方,管理者需要在一个平台上,跨区域、大范围集中管理,通过完善的分权分域能力保护隐私安全。同时,各摄像机采集的视频需要集中存储,因为本地化分散存储会造成信息碎片化,无法形成多个视频流之间的联动,且本地存储易丢失、管理成本高。统一的云上存储,则可以有效解决以上问题。咨询报告指出,2023年到2027年,视频流上云和云存储的年复合增长率超过27%。在云化的趋势下,视频流云上管理、存储越来越成为业界趋势,企业的主流选择。 趋势2:用预训练的大模型生成场景模型 AI技术中,处理视频的相关技术一般被称为计算机视觉(Computing Vision)。计算机视觉是一种利用计算机和数学算法来模拟和自动化人类视觉的过程。它涉及到从数字图像或视频中提取信息,如对象识别、场景理解、运动跟踪、三维重建等。计算机视觉技术在许多领域都有应用,如自动驾驶、医学影像分析、机器人视觉等。 计算机视频分析视频流或者图片时采用计算机视觉模型。计算机视觉模型是指使用深度学习技术训练的神经网络模型,用于解决计算机视觉领域的各种问题。这些模型通常由数百万或更多个参数组成,可以对图像、视频等视觉数据进行高级别的理解和分析,例如图像分类、目标检测、语义分割、人脸识别等任务。 随着大数据和AI算力的发展,模型参数越来越大,大模型应运而生。大模型指网络规模巨大的深度学习模型,具体表现为模型的参数量规模较大,其规模通常在百亿以上级别。研究发现,模型的性能(指精度)通常与模型的参数规模息息相关。模型参数规模越大,模型的学习能力越强,最终的精度也将更高,泛化性也越强。 用大模型可以有效提升场景模型的准确率和泛化性,加上预训练的海量数据,用少量样本,甚至零样本就可以生成场景模型,解决视频算法长尾的问题。 趋势3:用视频解译大模型理解视频内容 视频场景模型可以用确定的规则对视频流进行分析,识别关键事件,辅助人工进行判别并给出决策建议。但现实世界纷繁复杂,花鸟鱼虫,春夏秋冬,都在表达着自己的个性和不同,规则是无法穷尽的,判别式算法不断遇到新的需求和挑战。如何能够用泛化性强的模型理解视频,并通过自然语言的方式进行交互和报告,真正让人类从繁琐、重复性的事务中脱离出来是行业内普遍的需求。 视频解译大模型融合了视觉大模型、多模态大模型、自然语言大模型多种模型,可以实现对视频、图片、声音、文本多种模态组合分析,感知视频流发生的各种事件,实现让摄像机开口说话,实现真正的智能分析、智能交互、智能决策。 城市日常管理 在城市治理场景中,往往建设有庞大复杂的城市事件类别体系,包含了繁多细碎的事项类别,如垃圾暴露、道路破损、围栏破损等等,一个城市一般有几百种事件类别。同时,不同城市可能还有不同的标准,可能某城市关注某一些特定事件类别,另一个城市又关注另一些特定事件类别。因此,城市政务场景面临着众多碎片化AI需求场景。城市事件的类别数量众多,同时绝大多数的城市事件又难以采集到大量数据来训练AI模型,这种问题我们称为“碎片化长尾需求场景”。 “碎片化长尾需求”一直是AI开发面临的难题,传统的AI开发模式需要对每种目标类别单独采集数据、训练模型,依赖专家经验进行算法参数调优,最后才能上线应用,每种算法的开发周期耗费几周至几个月,低下的效率难以满足当前高速的城市建设发展。华为AI视频方案,基于AI开发工作流,将数据标注、模型训练、部署上线等繁杂的流程固化为一个流水线的步骤,无需编写代码,任何人只要有准备数据,都可以通过流水线交互步骤快速地完成一个AI应用的开发和上线。每个AI算法的开发周期缩短至几天便可完成。同时基于预训练CV大模型的能力,依托于海量的大规模数据预训练,即便只有少量样本,也可以达到良好的模型泛化性和鲁棒性,解决碎片化长尾需求的问题。 由此可见,AI视频方案中的预训练CV大模型+AI开发工作流,可以更好地契合城市治理的痛点需求,解决碎片化长尾需求场景的问题,更好地将AI落地到智慧城市的建设发展中。 城市应急处置 在城市建设过程中,除了事先设定好的事件类别,还经常有突发性的临时需求。比如突发暴雨,很多地方会临时地希望检测各地是否有积水内涝的情况,以便及时预防与救援;或者某地突发交通事故,相关部门也想快速地排查周边受影响交通拥堵的路段,以及时安排人力疏通车流。这些突发性的临时需求,可能根据天气、地点、时间等不同因素千变万化,这在城市政务的场景十分常见,也对于保障城市正常运转有着非常重要的作用。 然而,这种临时性的需求对于传统AI开发来说是灾难性的。传统的AI开发需要对每种待识别的事件采集数据、训练模型,而训练出来的模型也仅能解决这一特定的任务。当一个临时性的AI需求来临时,既往训练出来的模型肯定是无法适应这个新的任务的,那又要基于这个新的需求采集对应数据、训练模型,这一流程走下来即便有AI开发工作流支撑,少说也要几天的时间开发上线。但是临时性的需求往往是紧急的,比如对于积水内涝的场景,时间就是生命,业务往往要求算法立刻就能发挥作用、识别事件。因此传统的AI开发模式面对这种紧急的临时性需求就显得捉襟见肘了。华为AI视频方案,基于业界最新的多模态大模型技术,构建了开放式的目标检测和分割模型。该算法