6-3 游戏视频的多模态与细粒度理解分析技术 - 姚⽂韬腾讯游戏

游戏视频理解技术主要应用于以下方面：

画面元素检测识别：
- 采用多尺度模板匹配、特征点匹配+Homography对应等目标检测方法。
- 基于YOLO的目标检测，支持形变目标检测和视角变换。
通用游戏目标检测框架：
- 框架功能包括模板匹配、特征匹配、滤波器等。
- 支持单张图片推理、调参、视频调参等模式。
游戏场景OCR框架：
- 包含图像合成、文本&字符检测、文本识别等功能。
- 采用交错监督的一阶段目标检测算法和随机森林文本识别模型。
- 业务价值：王者荣耀时间识别准确率97%，外部OCR准确率90%。
信息流短视频理解：
- 针对短视频场景的挑战，如画面裁剪、视频特效、目标遮挡等。
- 使用深度目标检测模型解决这些挑战，提升标签召回率至68.5%。
视频游戏画面识别：
- 识别视频中包含的特定游戏片段，通过图像识别、OCR、目标检测等方法。
- 预处理包括旋转识别与校正、位置识别与裁剪等。

多标签任务需求：游戏视频分类和打标对内容描述要求准确全面。
多模态理解优势：融合图像、视频、音频、文本等模态信息，提升语义理解。
多模态预训练模型：
- 采用Swin、Video-Swin、Wav2Vec、AST等模型提取特征。
优化视频抽帧：采用稀疏抽帧和密集抽帧结合的方式处理视频数据。
优化Loss函数：使用Focal Loss和ASYLoss解决正负样本不平衡问题。
优化多模态融合：
- 采用Transformer融合模块和MBT融合方法，提高融合性能。
业务应用：
- 多模态标签辅助人工打标，提升打标效率，覆盖43个高频标签，准确率80%。
- 多模态模型提升游戏分类效果，支持更多应用场景。
- 多模态embedding帮助推荐提效，提升召回效率和效果。