游戏视频理解分析技术
游戏视频理解简介
游戏视频理解技术主要应用于以下方面:
- 游戏内容个性化推荐:通过自动打标、事件检测进行基于内容的推荐。
- 游戏高光时刻自动剪辑:自动提取精彩事件及高光片段。
- 辅助创作者进行二次创作:提供自动剪辑、配乐、表情包添加、解说等功能。
- 打击版权侵权行为:识别未经授权的游戏内容。
游戏视频事件检测框架
- 事件层次定义:包括画面元素(Element)、动作(Action)、剧本事件(Event)。
- 通用性:该定义适用于多种游戏,如王者荣耀、和平精英、CFM、LOL等。
- 多层次与细粒度:标签体系与事件层次对应,精确到元素级别。
游戏视频细粒度理解技术
- 画面元素检测识别:
- 采用多尺度模板匹配、特征点匹配+Homography对应等目标检测方法。
- 基于YOLO的目标检测,支持形变目标检测和视角变换。
- 通用游戏目标检测框架:
- 框架功能包括模板匹配、特征匹配、滤波器等。
- 支持单张图片推理、调参、视频调参等模式。
- 游戏场景OCR框架:
- 包含图像合成、文本&字符检测、文本识别等功能。
- 采用交错监督的一阶段目标检测算法和随机森林文本识别模型。
- 业务价值:王者荣耀时间识别准确率97%,外部OCR准确率90%。
- 信息流短视频理解:
- 针对短视频场景的挑战,如画面裁剪、视频特效、目标遮挡等。
- 使用深度目标检测模型解决这些挑战,提升标签召回率至68.5%。
- 视频游戏画面识别:
- 识别视频中包含的特定游戏片段,通过图像识别、OCR、目标检测等方法。
- 预处理包括旋转识别与校正、位置识别与裁剪等。
游戏视频多模态理解技术
- 多标签任务需求:游戏视频分类和打标对内容描述要求准确全面。
- 多模态理解优势:融合图像、视频、音频、文本等模态信息,提升语义理解。
- 多模态预训练模型:
- 采用Swin、Video-Swin、Wav2Vec、AST等模型提取特征。
- 优化视频抽帧:采用稀疏抽帧和密集抽帧结合的方式处理视频数据。
- 优化Loss函数:使用Focal Loss和ASYLoss解决正负样本不平衡问题。
- 优化多模态融合:
- 采用Transformer融合模块和MBT融合方法,提高融合性能。
- 业务应用:
- 多模态标签辅助人工打标,提升打标效率,覆盖43个高频标签,准确率80%。
- 多模态模型提升游戏分类效果,支持更多应用场景。
- 多模态embedding帮助推荐提效,提升召回效率和效果。