AI智能总结
人机协作万物有灵 2023/06/18 主要内容大纲 ■从AIGC到AIGA ■游戏AI Bot拟人化和风格化研究进展 ■RLHF微调游戏AI Bot模型 从AIGC到AIGA AIGC时代AIGC AIGC:AI Generated Content AIGC于游戏:原画,服装,人脸,表情,三维模型,对话,关卡,剧情,道具,数值,… AIGC于游戏:原画,服装,人脸,表情,三维模型,对话,关卡,剧情,道具,数值,… AIGC于游戏:原画,服装,人脸,表情,三维模型,对话,关卡,剧情,道具,数值,… 武器生成(From Galactic Arm Race Game) AIGC时代AIGA AIGA? 游戏AIBot拟人化、风格化 拟人化AI、风格化AI 研究价值和现状 拟人化:让游戏中的AI Bot具有玩家行为特征,去机器人化 (多)风格化:生成行为风格丰富多样的游戏AI Bot 极大影响玩家游戏体验和心流,但还没有形成方法论 但调Reward的过程耗时耗力 多联盟训练+Reward Shaping、进化算法+多目标优化 拟人化AI、风格化AI 研究内容 AIBot拟人化、(多)风格化研究 ■效果评估都有较强主观性 ■难以量化拟人、多风格的评价标准->提出标准■炼丹问题,casebycase,现有技术成本高->更实用、自动化的通用技术方案■提升业务效果 拟人化 拟人化AI、风格化AI 拟人化指标 拟人化指标设计方案 结合主客观特性,设计五类评判指标 拟人化AI、风格化AI 拟人化指标 拟人化指标可视化效果 •通过雷达图方式进行可视化展示•可以清晰的区分出不同算法的差异(BC、RL)•Behavior Cloning(BC)vs Reinforcement Learning(RL) 拟人化AI、风格化AI 拟人化技术方案 方案动机 •拟人化要保证Bot的行为与人类相一致->BC(模仿学习)•只采用BC算法容易造成Bot强度受限->RL(强化学习)•BC和RL联合优化方案,同时兼顾拟人性和AIBot强度��=�푅 +��퐵 方案实现 拟人化AI、风格化AI 拟人化技术方案 方案实现:BC+RL联合优化 •优化目标: 训练过程中胜率变化情况,并不会被BC带着往下掉 •�超参数如何设置? •解决办法: •自动化�参数优化 •基于规则进行参数优化•低于目标胜率时降低BC权重,更多优化强度•高于目标胜率时增大BC权重,更多优化拟人性 拟人化AI、风格化AI 拟人化效果 拟人化AI、风格化AI 拟人化效果 拟人化AI、风格化AI 拟人化效果 拟人化AI、风格化AI 拟人化效果 可视化效果展示 问题(Question&Problem):主观上经常并不能够看出来哪里变好了,客观指标和主观感觉有时候差异比较大,怎么办? 多风格化 拟人化AI、风格化AI 行为风格评估 行为风格的量化评估能够体现Bot行为风格的变量有哪些? 拟人化AI、风格化AI 多风格技术方案 逆水寒血河-Bot行为风格描述雷达图 逆水寒血河-Bot行为风格多样性 想要同时提升多个风格维度上的多样性比较难 游戏AI Bot多风格化,重点在“风格化”,而不是“多” 拟人化AI、风格化AI 多风格技术方案 模型策略往往在风格维度上呈现某种分布,并不会单一取某个值 可根据需求,规定lazy风格(移动>10次)和active风格(移动<25次)的指标标准 算法自动筛选出lazy和active风格的样本,用self-imitation learning将风格极致化 多风格技术方案 同拟人化方案类似,只用self-imitation learning会使得Bot的强度受限,因此还需引入RL 方案流程 •预训练:RL训练,保证一定的模型强度和样本多样性•风格认定:根据需求确认目标风格和指标标准•风格极化:self-imitation learning(SIL)•强度优化:SIL的同时用RL保证强度 拟人化AI、风格化AI 多风格技术方案 三分风格AIBot 拟人化AI、风格化AI 多风格技术方案 两分风格AI Bot 拟人化AI、风格化AI 多风格技术方案 挡拆风格AI Bot RLHF微调游戏AI Bot模型 拟人化AI、风格化AI 现有方案不足 绝大部分客观指标,无法直接用于模型优化客观指标,无法完全反映拟人化(风格化)程度 拟人化AI、风格化AI 现有方案不足 现有方案不足之处: •BC+RL(SIL+RL)是在宏观的数据分布层面进行优化•人对于拟人化(风格化)的判定并非是统计意义上的ProbablyApproximately Correct,而是纠错(挑刺)•10000次决策里9999都对了,但有1次不对就会导致模型负面判定•直接从主观反馈中学习? 让模型从人的纠错或反馈中去学习:Reinforcement Learning from Human Feedback (RLHF) 拟人化AI、风格化AI RLHF拟人化实验 AIBot的跟防距离优化 •采用标注工具对不同行为序列片段进行pair-wise比较 •选择跟防更好的片段,给以正向的信号反馈 RLHF训练过程中Bot跟防距离变化情况 拟人化AI、风格化AI RLHF拟人化实验 拟人化AI、风格化AI 游戏AI Bot通用生产pipeline 一旦全流程闭环,AI工程师可以做到零介入或少介入 THANK YOU 人工智能,点亮游戏未来