行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

视频大模型快速突破，有望打开视频分析行业天花板

电子设备 2023-12-18 蒯剑,李庭旭,韩潇锐东方证券大王雪

电子行业动态跟踪 —— 视频大模型快速突破，有望打开视频分析行业天花板

近期视频大模型进展多，谷歌发布Gemini

近期，视频大模型领域的创新活动频繁，其中谷歌发布了一款名为Gemini的AI大模型，该模型包括Gemini Ultra、Gemini Pro和Gemini Nano三个版本，分别针对高度复杂任务、多任务适用性和端侧设备应用进行了优化。

Gemini MMLU测试得分首超人类专家：Gemini Ultra在大规模多任务语言理解（MMLU）测试中得分首次超越人类专家，展现了在32个多模态基准中的30个最佳表现。
Gemini Pro和Nano版本发布：Gemini Pro已集成至谷歌的聊天机器人Bard，并将于明年初在Pixel手机上集成Bard功能。Gemini Nano则已搭载在Pixel 8 Pro上，支持多项AI功能。

首个原生多模态模型Gemini展示出强大视频理解能力

从单模态有监督迈向多模态自监督学习：Gemini是首个原生多模态模型，具备原生多模态理解和跨模态推理能力，不同于基于大语言模型的多模态模型。
Gemini模型表现突出：Gemini在多模态基准测试中表现出色，尤其是在处理复杂图像、序列推理和生成交替文本与图像响应方面，展现了在教育、问题解决、多语言交流、信息摘要和创造等领域的潜力。

原生多模态技术有望解决视频分析行业痛点

行业现状：视频分析行业面临数据处理规模、速度和深度的挑战。
Gemini技术价值：Gemini模型通过其原生多模态处理能力、跨模态推理和高级分析推理能力，有望解决行业痛点，推动视频分析系统的功能迭代升级。

领先厂商已入局，多模态模型为行业带来新机遇与挑战

行业领头羊：海康威视、大华股份等公司已开始探索多模态大模型的研究和应用。
机遇与挑战：多模态模型对算力部署、算法改进和硬件升级提出新要求，但同时也加速了视频分析技术的商业化进程。

投资建议与关注公司

市场趋势：预计以Gemini为代表的原生多模态大模型将推动视频分析行业的进步，特别是智慧安防和智慧物联领域。
推荐公司：建议关注海康威视、大华股份和萤石网络等公司在智慧安防和智慧物联方面的投资机会。

风险提示

进展不及预期：原生多模态大模型的技术发展可能低于预期。
需求不足：下游市场需求可能未达到预期水平。
行业景气度：整个电子行业或视频分析行业的发展可能低于预期。

核心观点 ⚫视频大模型近期进展多。近日，谷歌发布AI大模型Gemini，包括适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano三个版本。GeminiUltra展现出强大的自然语言水平和多模态理解能力，在MMLU（大规模多任务语言理解）测评上首次超过人类专家，在32个多模态基准中取得30个SOTA（当前最优效果）；Gemini Pro和Nano版本已发布，加速AI赋能谷歌产品。李飞飞的斯坦福团队同谷歌合作，推出了用于生成逼真视频的扩散模型W.A.L.T。英伟达高级科学家Jim Fan评论：2022年是影像之年，2023是声波之年，而2024是视频之年！蒯剑021-63325888*8514kuaijian@orientsec.com.cn执业证书编号：S0860514050005香港证监会牌照：BPT856李庭旭litingxu@orientsec.com.cn执业证书编号：S0860522090002韩潇锐hanxiaorui@orientsec.com.cn执业证书编号：S0860523080004 ⚫首个原生多模态模型Gemini展示出强大视频理解能力。人工智能的发展从单一视觉或语言任务向多模态自监督学习迈进，而原生多模态大模型具有原生多模态和跨模态理解能力，与既往基于大语言模型的多模态模型存在显著不同。Gemini模型在多模态基准测试上表现突出，展示了处理复杂图像、推理序列和生成交替文本和图像回应等新能力，这些新能力有望为视频分析等领域开启全新应用途径。 ⚫原生多模态技术有望打开视频分析行业天花板。视频分析行业目前在数据处理规模、速度和深度等方面存在亟待解决的问题，原生多模态大模型有望解决行业痛点，打开行业天花板。原生多模态大模型可充分利用安防厂商积累的大量多模态视频数据，具有多模态输入的原生处理能力、跨模态推理和理解能力、高级分析推理能力，能提高大规模数据处理的准确性和鲁棒性，易于模型蒸馏和小型化部署，有望推动视频分析系统功能的跨步迭代升级。杨宇轩yangyuxuan@orientsec.com.cn薛宏伟xuehongwei@orientsec.com.cn ⚫领先厂商已入局，多模态模型将是视频监控行业新机遇与挑战。海康威视、大华股份等视频分析行业领先厂商纷纷投入到多模态大模型研究和行业应用落地进程中去。多模态大模型对算力部署、算法改进、硬件升级提出了新的挑战和新的机遇，有望推动视频分析系统功能迭代升级和多维感知技术商业化步伐加快。高阶智驾将近，终端销售回暖2023-12-18华为与整车厂成立合资公司，有望加速汽车智能化2023-12-11 特斯拉推进FSD落地中国，政策清晰划分事故责任主体2023-11-26 投资建议与投资标 ⚫我们认为以Gemini为代表的原生多模态大模型有望打开视频分析行业天花板，推动智慧安防和智慧物联产品和解决方案升级，智慧安防和智慧物联行业有望从中受益。建议关注国内智慧安防和智慧物联公司：海康威视、大华股份和萤石网络。风险提示 ⚫原生多模态大模型进展不及预期；下游需求不及预期；行业景气度不及预期。目录 1.近期视频大模型进展多，谷歌发布Gemini.................................................4 1.1近期视频大模型进展较多............................................................................................41.2 Gemini MMLU测试得分首超人类专家........................................................................41.3Gemini Pro和Nano版本已发布，加速AI赋能谷歌产品............................................5 2.首个原生多模态模型Gemini展示出了强大的视频理解能力........................6 2.1人工智能从单模态有监督迈向多模态自监督学习.........................................................62.2 Gemini是首个发布的原生多模态模型.........................................................................62.3 Gemini模型具有强大的视频理解分析能力..................................................................82.4更多原生多模态大模型有望快速涌现...........................................................................9 3.原生多模态模型有望解决视频分析行业痛点，打开行业天花板.................10 3.1视频分析行业在数据处理规模、速度和深度上存在亟待解决的痛点..........................103.2原生多模态模型在视频监控和分析领域价值凸显.......................................................113.3原生多模态模型加持后，视频分析系统有望跨步功能迭代........................................12 4.领先厂商已入局，多模态模型将是视频监控行业新机遇与挑战..................12 4.1视频监控行业领先厂商已投入多模态大模型研究中...................................................124.2多模态模型带来新机遇与挑战...................................................................................134.3多模态技术加速多维感知的商用................................................................................14 投资建议与投资标的....................................................................................18 风险提示......................................................................................................18 图表目录图1：Gemini MMLU测试得分首超人类专家................................................................................4图2：Gemini通过不确定性思维链方法较ChatGPT理解能力显著提升.......................................5图3：Gemini1.0包含复杂度不同的三个版本...............................................................................5图4：Gemini Nano可支持Pixel *多项功能.................................................................................5图5：多模态融合和自监督学习将是大模型的未来发展方向.........................................................6图6：Gemini多模态大模型框架..................................................................................................6图7：示例展示了Gemini模型处理文本、视觉和音频交错序列的能力及跨模式推理的能力........8图8：Gemini在多个多语言视频测试基准中均取得SOTA...........................................................8图9：Gemini模型被用于分析足球运动员击球视频并帮助提高他们的竞技水平...........................9图10：谷歌公布的Gemini技术文档..........................................................................................10图11：百度智能云提出的安防监控行业痛点..............................................................................10图12：大模型将重新赋能安防行业............................................................................................11图13：大华“星汉大模型”通过输入“鸟巢”图文提示，并实现自动巡检和鸟巢识别.......................12图14：大华“星汉大模型”架构....................................................................................................13图15：大华“星汉大模型”具有五大优势......................................................................................13图16：原生多模态大模型的应用是视频监控行业迎来的新机遇与挑战.......................................13图17：智能物联网多维感知.......................................................................................................14图18：视觉、空间、时间、多频谱全感知.................................................................................15图19：海康威视和华新合作研发毫米波雷达产品应用于骨料堆料情况感知...............................16图20：大华的多传感器布局.......................................................................................................16图21：萤石云AI数字人用于迎宾服务.......................................................................................17图22：原生多模态大模型有望重塑视频分析系统工作流程.....................................

点击免费查看完整报告

视频大模型快速突破，有望打开视频分析行业天花板

电子行业动态跟踪 —— 视频大模型快速突破，有望打开视频分析行业天花板

近期视频大模型进展多，谷歌发布Gemini

首个原生多模态模型Gemini展示出强大视频理解能力

原生多模态技术有望解决视频分析行业痛点

领先厂商已入局，多模态模型为行业带来新机遇与挑战

投资建议与关注公司

风险提示

你可能感兴趣

【风口研报·公司】从Kimi到阶跃星辰，优质正版数据许可或成国产大模型跃迁关键，公司手握大量教材教辅相关数据，并持续推进AI教育，有望打开收入与估值天花板;另有一行业头部公司扩店仍有2-4倍空间

【风口研报·公司】50万吨大单打开潜在百吨级市场天花板，这家公司在提镍领域实现从0到1突破、目前产能已达11万吨匹配供货快速上量需求

【财联社早知道】谷歌Gemini AI新计划曝光，多模态不断突破或推动AI应用打开商业化空间，这家公司的多媒体大模型涵盖语言、音频、图像、视频等多模态能力

【风口研报·公司】4大一线城市“认房不认贷‘助力销售端企稳，这家公司突破细分家居类天花板、净利率已经恢复至2019年水平，同事快速切入新品类打开成长空间

北美电驱市场实现突破，成长天花板有望打开

公司动态点评：高研发投入突破先进领域，投资上海睿励、昂坤视觉有望打开成长天花板

【电报解读】Figure首发OpenAI大模型加持的机器人视频，机构称AI技术快速选代有望推动人形机器人产业化提速，这家公司自研产晶用于机器人关节模组中-20240314

LPU专题报告一：架构创新突破大模型推理延迟瓶颈，广阔市场空间有望快速放量

汽车轻量化及一体化压铸件行业分析：汽车轻量化及一体化压铸渗透率将快速提升，相关零部件公司有望打开成长空间

开普云拓展AI大模型算力业务主业增长天花板全面打开东北计算机