ICML 2022 不求甚解阅读笔记--强化学习类（1）

1. Individual Reward Assisted Multi-Agent Reinforcement Learning

Li Wang, Yupeng Zhang, Yujing Hu, Weixun Wang, Chongjie Zhang, Yang Gao, Jianye Hao, Tangjie Lv, Changjie Fan
Proceedings of the 39th International Conference on Machine Learning, PMLR 162:23417-23432, 2022

针对MARL场景下team奖励稀疏问题，通过引入较为稠密的individual奖励来协调多智能体间合作是一种常用的方法，然而，这种方法比较引入了额外的individual奖励，可能会引起适得其反的效果。本文提出了Individual Reward Assisted Team Policy Learning (IRAT)算法，其核心思想是分别构建individual policy和team policy，二者同时进行学习更新，为了保障individual policy往team policy逼近，在进行individual policy学习时，引入Cliff方法和KL散度，约束其与team policy的差异。

20220901

2. PMIC: Improving Multi-Agent Reinforcement Learning with Progressive Mutual Information Collaboration

Pengyi Li 1 Hongyao Tang 1 Tianpei Yang 1 2 Xiaotian Hao 1 Tong Sang 1 Yan Zheng 1 Jianye Hao 1 Matthew E.Taylor 2 Wenyuan Tao 1 Zhen Wang 3
1 College of Intelligence and Computing, Tianjin University, China
2 University of Alberta, Canada
3 Northwestern Polytechnical University, China.

更多推荐

ICML 2022 不求甚解阅读笔记--强化学习类（1）