决策智能:任务与技术概览
决策智能的任务类型
决策智能任务分为预测型任务和决策型任务。预测型任务包括有监督学习(根据数据预测输出)和无监督学习(生成数据实例),而决策型任务包括在静态环境中优化目标(运筹优化)和在动态环境中采取行动(强化学习)。
决策智能的技术分类
根据决策环境的动态性和透明性,决策任务可分为以下四类:
- 运筹优化:适用于白盒、静态环境,如混合整数规划问题。
- 黑盒优化:适用于白盒、动态环境,输入输出关系未知,如工业制造中的参数优化。
- 序贯决策:适用于黑盒、动态环境,智能体在动态环境中序贯决策,如机器狗越障任务。
- 强化学习:适用于黑盒、动态环境,通过交互学习实现目标。
强化学习基础概念
强化学习是通过智能体与环境的交互中学习实现目标的计算方法。核心要素包括:
- 历史(History):观察、行动和奖励的序列。
- 状态(State):确定接下来会发生什么的信息,是历史的函数。
- 策略(Policy):智能体在特定状态下的动作决策,分为确定性和随机策略。
- 奖励(Reward):定义强化学习目标的标量。
- 环境(Environment):预测下一个状态和奖励。
强化学习方法
- 价值-策略的动态规划求解:适用于白盒动态环境,通过贝尔曼等式更新价值函数和策略。
- SARSA强化学习方法:适用于黑盒动态环境,通过状态-动作-奖励-状态-动作元组更新状态-动作值函数。
- 深度强化学习:利用深度神经网络进行价值函数和策略近似,实现端到端解决复杂问题。
深度强化学习的发展
- 兴起:2012年AlexNet在ImageNet比赛中获胜,2013年首篇深度强化学习论文发表。
- 关键变化:将深度学习与强化学习结合,使算法能以端到端方式解决复杂问题。
- 实验结果:在Atari环境中实现人类水平的控制性能。
深度强化学习的研究前沿
- 多智能体强化学习:分散式、去中心化的人工智能。
- 模仿学习:无奖励信号下跟随专家策略学习。
- 目标策动的层次化强化学习:长程任务的中间目标。
- 基于模拟模型的强化学习:模拟器的重要性。
- 强化学习大模型:基于序列建模完成序贯决策任务。
- 离线强化学习:训练过程中智能体不能与环境交互。
强化学习大模型
- 决策Transformer:使用Transformer架构进行序列建模。
- MADT(多智能体强化大模型):使用GPT模型完成多个星际争霸对战任务。
- Gato(通用决策大模型):使用GPT网络同时完成约600个任务。
强化学习的落地场景
- 无人驾驶
- 游戏AI
- 交通灯调度
- 网约车派单
- 组合优化
- 推荐搜索系统
- 数据中心节能优化
- 对话系统
- 机器人控制
- 路由选路
- 工业互联网场景
强化学习技术落地的挑战
- 人对于AI的更高要求:强化学习要求机器做出决策,对算法要求更高。
- 决策场景千变万化:任务多种多样,需要算法团队对具体场景了解。
- 算力的极大需求:Trial-and-error学习机制导致数据量和算力需求更大。
- 统一的计算平台:需要高效的计算平台支持强化学习。