登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
6-3 游戏视频的多模态与细粒度理解分析技术 - 姚⽂韬 腾讯游戏
文化传媒
2022-06-13
DataFunSummit2022:数据科学在线峰会
静***
AI智能总结
查看更多
游戏视频理解分析技术
游戏视频理解简介
游戏视频理解技术主要应用于以下方面:
游戏内容个性化推荐
:通过自动打标、事件检测进行基于内容的推荐。
游戏高光时刻自动剪辑
:自动提取精彩事件及高光片段。
辅助创作者进行二次创作
:提供自动剪辑、配乐、表情包添加、解说等功能。
打击版权侵权行为
:识别未经授权的游戏内容。
游戏视频事件检测框架
事件层次定义
:包括画面元素(Element)、动作(Action)、剧本事件(Event)。
通用性
:该定义适用于多种游戏,如王者荣耀、和平精英、CFM、LOL等。
多层次与细粒度
:标签体系与事件层次对应,精确到元素级别。
游戏视频细粒度理解技术
画面元素检测识别
:
采用多尺度模板匹配、特征点匹配+Homography对应等目标检测方法。
基于YOLO的目标检测,支持形变目标检测和视角变换。
通用游戏目标检测框架
:
框架功能包括模板匹配、特征匹配、滤波器等。
支持单张图片推理、调参、视频调参等模式。
游戏场景OCR框架
:
包含图像合成、文本&字符检测、文本识别等功能。
采用交错监督的一阶段目标检测算法和随机森林文本识别模型。
业务价值:王者荣耀时间识别准确率97%,外部OCR准确率90%。
信息流短视频理解
:
针对短视频场景的挑战,如画面裁剪、视频特效、目标遮挡等。
使用深度目标检测模型解决这些挑战,提升标签召回率至68.5%。
视频游戏画面识别
:
识别视频中包含的特定游戏片段,通过图像识别、OCR、目标检测等方法。
预处理包括旋转识别与校正、位置识别与裁剪等。
游戏视频多模态理解技术
多标签任务需求
:游戏视频分类和打标对内容描述要求准确全面。
多模态理解优势
:融合图像、视频、音频、文本等模态信息,提升语义理解。
多模态预训练模型
:
采用Swin、Video-Swin、Wav2Vec、AST等模型提取特征。
优化视频抽帧
:采用稀疏抽帧和密集抽帧结合的方式处理视频数据。
优化Loss函数
:使用Focal Loss和ASYLoss解决正负样本不平衡问题。
优化多模态融合
:
采用Transformer融合模块和MBT融合方法,提高融合性能。
业务应用
:
多模态标签辅助人工打标,提升打标效率,覆盖43个高频标签,准确率80%。
多模态模型提升游戏分类效果,支持更多应用场景。
多模态embedding帮助推荐提效,提升召回效率和效果。
你可能感兴趣
AGI 通用人工智能专题之五:互动游戏、AI视频双现爆款,多模态技术潜力陆续释放
文化传媒
华西证券
2023-11-06
【掘金行业龙头】多模态短剧,与抖音合作布局精品微短剧市场,开发了AIGC视频自动拆条技术,中国移动位居第二大股东,这家公司2023年净利同比增9成
未知机构
2024-03-20
【财联社早知道】腾讯游戏将有大动作!机构看好行业估值修复,这家公司首款正版IP游戏已于上月获得版号;我国编制首部脑机接口研究伦理指引,这家公司参与脑机接口技术临床应用的基础应用和探索-20240208
未知机构
2024-02-08
【财联社早知道】刷屏! OpenAI发布首个文生视频模型 这家公司拥有以视频创意类AI技术为核心的多模态大模型;这家公司拟收购英伟达中国区精英级合作伙伴 ··-20240219
未知机构
2024-02-19
基于多模态智能交互技术的视频银行服务
金融科技创新应用声明书
2024-10-15