信科院刘璇教授团队在多智能体强化学习领域取得重要进展

近期，信息科学与工程学院刘璇教授团队在多智能体强化学习领域取得了重要进展，提出了一种利用经验回溯与轨迹筛选提升样本效率的多智能体选择性学习方法。

尽管多智能体强化学习已经在游戏、自动驾驶等领域有广泛应用和实践，但稀疏奖励问题仍制约着多智能体强化学习算法在复杂协作任务中的样本效率。在稀疏奖励的多智能体环境中，智能体同时面临着探索效率低下、环境非平稳等多个挑战，难以从巨大的联合状态空间中学习到有效的合作策略。现有的多智能体强化学习算法仍缺乏有效的探索机制，来应对多智能体环境下的稀疏奖励问题。

该研究聚焦稀疏奖励环境下高价值经验的筛选与高效利用，提出了多智能体选择性学习方法（简称MASL）。针对探索效率低的问题，提出一种基于后退的高价值轨迹选择机制，并通过回溯机制从稀少的高价值轨迹，生成更多有效导向目标的回溯轨迹，有效提升智能体的探索效率。同时，针对集中式训练所带来的维度灾难问题，设计了一种经验选择机制。基于智能体间的相关性度量有选择性地考虑K个智能体信息，从而平衡算法的稳定性与学习效率。实验结果表明，算法能够有效应用于大规模的多智能体稀疏奖励环境。在20个智能体的环境中，与现有算法相比样本效率可提升30.2%。

回溯机制示意图多智能体选择性学习框架图

MASL算法在稀疏奖励环境具有高样本效率 MASL算法具备良好的可扩展性

相关研究成果“Selective Learning for Sample-Efficient Training in Multi-Agent Sparse Reward Tasks”已被第26届欧洲人工智能会议ECAI2023 (26th European Conference on Artificial Intelligence)录用，并荣获ECAI杰出论文奖（ECAI 2023 Outstanding Paper）。 ECAI是中国计算机学会推荐的B类会议，是欧洲地区最具影响力的人工智能领域国际会议之一，在相关领域享有很高的学术声誉。本届会议共录用论文391篇，仅有2篇被评选为ECAI 2023 Outstanding Paper。

相关研究获评ECAI2023杰出论文，第一作者湖南大学博士生陈莘宁代表领奖

湖南大学信息科学与工程学院为该工作的第一单位，信科院刘璇教授指导的博士生陈莘宁为第一作者，刘璇教授为通讯作者。该工作得到了国家重点研发计划、国家自然科学基金、湖南省自然科学基金等项目支持。

来源：信科院

责任编辑：周丹