该研报探讨了多智能体强化学习(MARL)中通信的重要性,并提出了两种新型通信模型以提升 MARL 方法在合作场景中的性能。
核心观点:
- 通信在多智能体系统中对于实现合作至关重要,学习有效的通信协议是 MARL 的关键挑战。
- 现有 MARL 方法在处理部分可观察环境和非平稳性时面临困难,需要新的通信机制来增强协作能力。
研究贡献:
-
基于内存的通信(MD-MADDPG):
- 提出了一种使用共享内存设备进行通信的框架,智能体通过可学习的读写操作交换信息。
- 实验结果表明,MD-MADDPG 在需要高度协作的小规模任务中取得了优于基线方法(如 MADDPG 和 MA-MADDPG)的性能。
- 通过分析内存内容的变化,揭示了智能体在不同任务阶段学习到的不同通信模式。
-
基于连接性的通信(CDC):
- 提出了一种基于图的通信方法,智能体通过交换成对消息并使用基于热核的注意力机制生成 agent 特定的编码。
- 实验结果表明,CDC 在合作导航任务中能够学习有效的协作策略,并优于其他基线方法。
- 通过可视化通信网络,分析了智能体在不同环境中的通信模式,并展示了热核在信息传播中的作用。
-
无人机合作任务基准测试:
- 提出了一个模拟无人机在真实环境中导航的无人机环境,其中包含风、电池寿命、部分可观察性和移动目标等现实约束。
- 对比了多种 MARL 方法在无人机合作任务中的性能,结果表明没有一种方法是万能的,每种方法都有其优缺点。
- MD-MADDPG 和 CDC 在大多数任务中都表现出良好的性能,证明了通信在解决复杂合作任务中的重要性。
研究结论:
- 通信是提升 MARL 方法性能的关键工具,能够帮助智能体克服部分可观察环境和非平稳性的挑战。
- 基于内存和基于连接性的通信模型都能够有效地提升智能体的协作能力。
- 需要进一步研究以解决 MARL 中面临的挑战,例如可扩展性、异构智能体和生成式语言模型的应用。