您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:视频大模型快速突破,有望打开视频分析行业天花板 - 发现报告

视频大模型快速突破,有望打开视频分析行业天花板

电子设备2023-12-18蒯剑、李庭旭、韩潇锐东方证券大***
AI智能总结
查看更多
视频大模型快速突破,有望打开视频分析行业天花板

核心观点 ⚫视频大模型近期进展多。近日,谷歌发布AI大模型Gemini,包括适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano三个版本。GeminiUltra展现出强大的自然语言水平和多模态理解能力,在MMLU(大规模多任务语言理解)测评上首次超过人类专家,在32个多模态基准中取得30个SOTA(当前最优效果);Gemini Pro和Nano版本已发布,加速AI赋能谷歌产品。李飞飞的斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。英伟达高级科学家Jim Fan评论:2022年是影像之年,2023是声波之年,而2024是视频之年! 蒯剑021-63325888*8514kuaijian@orientsec.com.cn执业证书编号:S0860514050005香港证监会牌照:BPT856李庭旭litingxu@orientsec.com.cn执业证书编号:S0860522090002韩潇锐hanxiaorui@orientsec.com.cn执业证书编号:S0860523080004 ⚫首个原生多模态模型Gemini展示出强大视频理解能力。人工智能的发展从单一视觉或语言任务向多模态自监督学习迈进,而原生多模态大模型具有原生多模态和跨模态理解能力,与既往基于大语言模型的多模态模型存在显著不同。Gemini模型在多模态基准测试上表现突出,展示了处理复杂图像、推理序列和生成交替文本和图像回应等新能力,这些新能力有望为视频分析等领域开启全新应用途径。 ⚫原生多模态技术有望打开视频分析行业天花板。视频分析行业目前在数据处理规模、速度和深度等方面存在亟待解决的问题,原生多模态大模型有望解决行业痛点,打开行业天花板。原生多模态大模型可充分利用安防厂商积累的大量多模态视频数据,具有多模态输入的原生处理能力、跨模态推理和理解能力、高级分析推理能力,能提高大规模数据处理的准确性和鲁棒性,易于模型蒸馏和小型化部署,有望推动视频分析系统功能的跨步迭代升级。 杨宇轩yangyuxuan@orientsec.com.cn薛宏伟xuehongwei@orientsec.com.cn ⚫领先厂商已入局,多模态模型将是视频监控行业新机遇与挑战。海康威视、大华股份等视频分析行业领先厂商纷纷投入到多模态大模型研究和行业应用落地进程中去。多模态大模型对算力部署、算法改进、硬件升级提出了新的挑战和新的机遇,有望推动视频分析系统功能迭代升级和多维感知技术商业化步伐加快。 高阶智驾将近,终端销售回暖2023-12-18华为与整车厂成立合资公司,有望加速汽车智能化2023-12-11 特斯拉推进FSD落地中国,政策清晰划分事故责任主体2023-11-26 投资建议与投资标 ⚫我们认为以Gemini为代表的原生多模态大模型有望打开视频分析行业天花板,推动智慧安防和智慧物联产品和解决方案升级,智慧安防和智慧物联行业有望从中受益。建议关注国内智慧安防和智慧物联公司:海康威视、大华股份和萤石网络。 风险提示 ⚫原生多模态大模型进展不及预期;下游需求不及预期;行业景气度不及预期。 目录 1.近期视频大模型进展多,谷歌发布Gemini.................................................4 1.1近期视频大模型进展较多............................................................................................41.2 Gemini MMLU测试得分首超人类专家........................................................................41.3Gemini Pro和Nano版本已发布,加速AI赋能谷歌产品............................................5 2.首个原生多模态模型Gemini展示出了强大的视频理解能力........................6 2.1人工智能从单模态有监督迈向多模态自监督学习.........................................................62.2 Gemini是首个发布的原生多模态模型.........................................................................62.3 Gemini模型具有强大的视频理解分析能力..................................................................82.4更多原生多模态大模型有望快速涌现...........................................................................9 3.原生多模态模型有望解决视频分析行业痛点,打开行业天花板.................10 3.1视频分析行业在数据处理规模、速度和深度上存在亟待解决的痛点..........................103.2原生多模态模型在视频监控和分析领域价值凸显.......................................................113.3原生多模态模型加持后,视频分析系统有望跨步功能迭代........................................12 4.领先厂商已入局,多模态模型将是视频监控行业新机遇与挑战..................12 4.1视频监控行业领先厂商已投入多模态大模型研究中...................................................124.2多模态模型带来新机遇与挑战...................................................................................134.3多模态技术加速多维感知的商用................................................................................14 投资建议与投资标的....................................................................................18 风险提示......................................................................................................18 图表目录 图1:Gemini MMLU测试得分首超人类专家................................................................................4图2:Gemini通过不确定性思维链方法较ChatGPT理解能力显著提升.......................................5图3:Gemini1.0包含复杂度不同的三个版本...............................................................................5图4:Gemini Nano可支持Pixel *多项功能.................................................................................5图5:多模态融合和自监督学习将是大模型的未来发展方向.........................................................6图6:Gemini多模态大模型框架..................................................................................................6图7:示例展示了Gemini模型处理文本、视觉和音频交错序列的能力及跨模式推理的能力........8图8:Gemini在多个多语言视频测试基准中均取得SOTA...........................................................8图9:Gemini模型被用于分析足球运动员击球视频并帮助提高他们的竞技水平...........................9图10:谷歌公布的Gemini技术文档..........................................................................................10图11:百度智能云提出的安防监控行业痛点..............................................................................10图12:大模型将重新赋能安防行业............................................................................................11图13:大华“星汉大模型”通过输入“鸟巢”图文提示,并实现自动巡检和鸟巢识别.......................12图14:大华“星汉大模型”架构....................................................................................................13图15:大华“星汉大模型”具有五大优势......................................................................................13图16:原生多模态大模型的应用是视频监控行业迎来的新机遇与挑战.......................................13图17:智能物联网多维感知.......................................................................................................14图18:视觉、空间、时间、多频谱全感知.................................................................................15图19:海康威视和华新合作研发毫米波雷达产品应用于骨料堆料情况感知...............................16图20:大华的多传感器布局.......................................................................................................16图21:萤石云AI数字人用于迎宾服务.......................................................................................17图22:原生多模态大模型有望重塑视频分析系统工作流程.....................................