Acadwrite Logoacadwrite Research

多智能体强化学习的信息论基础

引言

多智能体强化学习 (Multi-Agent Reinforcement Learning, MARL) 作为人工智能领域的前沿方向,近年来受到了广泛关注。它旨在解决多个智能体在共享环境中,通过交互学习协同完成复杂任务的问题。然而,MARL 同时也面临着诸多挑战,例如环境的非平稳性、信用分配的困难、以及探索-利用的复杂性等。这些挑战使得设计高效、鲁棒的 MARL 算法变得异常困难。信息论作为一门研究信息度量、传输和处理的学科,为理解和解决 MARL 中的关键问题提供了新的视角和工具。它能够帮助我们量化智能体之间的信息交互,优化通信策略,并指导智能体进行有效的探索。

本文献综述旨在探讨信息论在多智能体强化学习中的应用,并分析其在解决 MARL 关键问题中的作用。我们将从信息论在多智能体探索与利用、多智能体通信以及多智能体合作与竞争三个方面展开讨论。首先,我们将探讨信息论在多智能体探索与利用中的应用,重点关注基于互信息的内在奖励塑造、信息瓶颈原理、最大熵策略优化以及信息增益在好奇心驱动探索中的作用,这些方法旨在鼓励智能体更有效地探索未知状态空间,并提升泛化能力。其次,我们将深入研究信息论在多智能体通信中的应用,包括基于信息论的多智能体通信协议设计、利用信息瓶颈方法学习通信信道、基于博弈论和信息论的通信策略演化以及信息共享机制对系统性能的影响,这些研究致力于优化通信带宽和信息传递效率,从而促进智能体之间的有效协作。最后,我们将分析信息论在多智能体合作与竞争中的应用,包括基于信息论的合作奖励塑造、利用信息论度量智能体之间的依赖关系以及基于信息论的竞争策略分析,这些方法旨在帮助智能体设计更有效的合作策略,并在竞争环境中战胜对手。通过对这些方面的深入分析,本文旨在全面阐述信息论在多智能体强化学习中的应用现状和未来发展趋势,并展望其在解决 MARL 中复杂问题方面的潜力。

信息论在多智能体探索与利用中的应用

信息论在多智能体强化学习中扮演着日益重要的角色,尤其是在探索与利用的平衡方面。不同的信息论概念被巧妙地应用于设计内在奖励、压缩状态表示、优化策略以及驱动好奇心,从而提升多智能体系统的学习效率和性能。

基于互信息的内在奖励塑造方法旨在鼓励智能体探索未知的状态空间,进而提高探索效率和学习性能。这类方法的核心在于,通过计算智能体行为与环境状态之间的互信息,设计内在奖励信号,引导智能体主动探索那些能够提供更多信息增益的状态。这种机制有效地克服了稀疏奖励环境下的探索难题,并促使智能体发现更有价值的行为模式。例如,Mutual Information Oriented Deep Skill Chaining (MioDSC) 方法通过引入基于互信息的内在奖励来优化合作策略,鼓励智能体参与能够增加其行为与环境状态之间互信息的行动,从而学习多样化的行为模式。MioDSC还利用options框架生成合作策略,允许智能体学习和重用复杂的动作序列,加速多智能体学习的收敛。类似地,变分最大互信息多智能体actor-critic算法(VM3-AC)通过最大化智能体行为之间的互信息来学习协调行为,并在需要高度协调的任务中表现出色。此外,预测其他智能体信念的能力也被用作内在奖励信号,鼓励智能体更好地理解其他智能体的行为。这些方法共同展示了互信息在引导智能体探索和学习复杂协作策略方面的潜力。

信息瓶颈(Information Bottleneck, IB)原理也被应用于多智能体强化学习中,用于压缩智能体的状态表示,提升泛化能力和探索效率。该原理通过在保留关键信息的同时,尽可能地减少状态表示的维度,从而避免过拟合和提高学习效率。例如,IBORM (Information-Bottleneck-based Other agents’ behavior Representation learning for Multi-agent reinforcement learning) 利用信息瓶颈原理来压缩观察信息,同时保留与其它智能体行为相关的信息,用于合作决策。MAGI (Multi-Agent communication mechanism via Graph Information bottleneck) 则通过最大化消息表示和所选动作之间的互信息,并同时约束消息表示和智能体特征之间的互信息,学习智能体的最小充分消息表示,在保证鲁棒性的同时提升了通信效率 。此外,基于信息瓶颈的无监督方法也被用于在多智能体强化学习中捕获参考复杂度和任务特定效用,从而充分探索稀疏的社会通信场景 。这些研究表明,信息瓶颈原理能够有效地提取关键信息,提高多智能体系统的泛化能力和通信效率。

基于最大熵的多智能体策略优化是提高策略鲁棒性和探索随机性的有效途径。最大熵强化学习的目标是在保证策略能够完成任务的同时,尽可能地提高策略的熵,鼓励智能体探索不同的行为,从而避免陷入局部最优解,并提高策略的泛化能力 。在多智能体系统中,环境的非平稳性使得智能体需要不断适应其他智能体的行为变化,因此这种方法尤为重要。例如,基于多智能体最大熵强化学习 (MASAC) 的算法被用于解决灾后应急通信服务快速恢复的问题,通过优化无人机的飞行轨迹,减少通信中断,提高网络频谱效率 。Deep Multi-Agent Hybrid Soft Actor-Critic (MAHSAC) 算法则基于最大熵,扩展了 Soft Actor-Critic 算法 (SAC),以处理多智能体环境中混合动作空间问题 。此外,最大熵强化学习框架也被应用于电压-无功控制 (VVC) 问题,通过智能体间的协同,实现了对电压调节器、有载分接开关和电容器的优化调度,提高了配电网络的稳定性和效率 。这些应用案例充分证明了最大熵方法在提高多智能体系统鲁棒性和探索能力方面的有效性。

信息增益在多智能体好奇心驱动探索中扮演着关键角色,它量化了新状态对智能体知识的提升,从而引导智能体探索那些能够最大程度增加其认知的信息。在多智能体系统中,每个智能体都可以利用信息增益来评估其行为对环境的改变程度以及对自身知识的贡献。例如,cMarlTest 通过好奇心驱动的多智能体强化学习(MARL)来测试3D游戏,部署多个智能体协同工作以实现测试目标,通过最大化信息增益来鼓励智能体探索游戏的不同区域和状态,从而发现潜在的bug和问题。这表明,信息增益能够有效地引导多智能体系统进行高效的探索,并发现潜在的未知信息。

信息论在多智能体通信中的应用

信息论为多智能体通信协议的设计提供了理论基础,旨在优化通信带宽和信息传递效率。在多智能体系统中,智能体间的有效通信是实现协同合作的关键,然而,通信资源的限制使得如何在有限带宽下传递尽可能多的有用信息成为核心挑战。例如,Wang等研究了基于熵的多边际最优传输(MOT)的信息论等价性,并将其应用于具有不同信念的智能体之间的通信,证明了熵最优传输在信息论上的最优性,并将其推广到多智能体场景,为多智能体团队系统中的通信问题提供了新的视角。此外,信息瓶颈方法也被应用于学习通信信道,在保证信息传递效率的同时降低通信成本,从而提取关键信息并减少噪声干扰。

信息瓶颈(IB)方法在多智能体通信中扮演着关键角色,它帮助智能体学习高效的通信策略,提取关键信息并减少噪声干扰。IB方法的核心思想是在信息压缩和信息保留之间进行权衡,即在限制通信带宽的同时,最大化保留与任务相关的信息。Shao等人提出了一种基于学习的通信方案,该方案联合优化了特征提取、源编码和信道编码,以面向下游推理任务,并利用IB框架来形式化编码特征的信息性和推理性能之间的速率失真权衡。为了降低通信开销,他们采用了一种稀疏诱导分布作为VIB框架的变分先验,以稀疏化编码的特征向量。Xie等人则针对信道变化带来的鲁棒性问题,提出了一种带有数字调制的面向任务的通信方案,称为离散面向任务的JSCC(DT-JSCC),并开发了一个鲁棒的编码框架,称为鲁棒信息瓶颈(RIB),以提高通信对信道变化的鲁棒性。此外,Lewandowsky等人从信息论的角度设计接收机链,通过最大化互信息来简化信号处理,同时通过量化减少比特数,降低复杂度。

基于博弈论和信息论的通信策略演化是多智能体强化学习中一个重要的研究方向,其核心在于研究智能体如何通过通信达成合作。在信息交换的过程中,智能体需要学习何时通信、与谁通信以及传递什么信息,以此来提高协作效率和整体性能。Gou and Deng 通过演化博弈论(EGT)研究了多智能体系统中不同角色(领导者、追随者和独行者)之间的演化决策和稳定策略,强调了领导者在信息交换中的关键作用,以及信息传递对整个系统的积极影响。他们建立了一个3D演化模型,分析了影响策略的主要因素和演化稳定策略(ESS),并通过MATLAB仿真验证了领导者在信息交换中的重要性,以及信息反馈对追随者的积极作用。Inujima等人则将目标跟踪问题建模为多智能体系统,并利用博弈论实现协调的动作决策,他们提出了一种在非合作纳什均衡和半合作Stackelberg均衡之间切换的方法,以提高控制性能。博弈论为多智能体通信策略的建模和分析提供了理论基础,而信息论则为通信内容的优化和效率的提升提供了手段。

信息共享机制在多智能体系统中扮演着至关重要的角色,直接影响着系统的整体性能。根据信息共享程度的不同,可以分为完全共享、部分共享和不共享等情况。完全共享是指所有智能体都可以访问彼此的状态、策略或其他相关信息。例如,在无人机(UAV)网络部署中,Xu等提出了一种多智能体强化学习方法MAEN,该方法通过分组和信息共享机制,能够有效地扩展无人机的数量,解决策略均衡问题。然而,完全共享也存在通信开销大、隐私泄露风险高等问题。部分共享则是一种折衷方案,智能体只共享部分信息,例如策略信息或部分状态信息。Wilk等人提出了一个局部策略驱动的多智能体深度确定性策略梯度(LSD-MADDPG)方法,用于智能社区的需求侧能源管理系统(EMS)。该方法限制了集中训练期间的数据共享,仅共享离散化的策略信息,从而解决了通信延迟、单点故障、可扩展性和非平稳环境等问题。与完全共享相比,部分共享可以降低通信开销,并提高隐私保护能力。不共享是指智能体完全独立地进行学习和决策,彼此之间没有任何信息交互。虽然这种方式可以最大限度地保护隐私,但可能导致智能体之间缺乏协调,从而影响系统的整体性能。

信息论在多智能体合作与竞争中的应用

信息论在多智能体系统中扮演着日益重要的角色,尤其体现在其对合作与竞争策略的优化方面。一方面,信息论为设计有效的合作奖励塑造方法提供了理论基础,旨在通过鼓励智能体之间的互助行为来提升整体性能。这类方法常常借助互信息等概念,量化智能体间的依赖关系和合作程度,并以此为基础构建奖励函数。例如,在多无人机协同搜索目标的问题中,奖励函数的设计不仅考虑个体发现目标的奖励,也包含因其他智能体发现目标而产生的奖励。这种机制鼓励信息共享,从而提高整体搜索效率。Ali Louati等人提出的MA2C算法,应用于混合交通场景中的多智能体自动驾驶车辆变道,也体现了信息论在合作奖励塑造方面的应用。该算法通过结合效率、安全性和乘客舒适度的局部奖励系统,以及鼓励智能体间协作的参数共享机制,优化自动驾驶车辆的变道决策,促使智能体之间进行合作,实现更流畅的交通,减少拥堵和排放。

另一方面,信息论能够精确度量智能体之间的依赖关系,从而为设计更有效的合作策略提供支持。互信息、条件熵等信息论指标可以量化智能体行为之间的关联性。通过分析这些指标,可以识别出对其他智能体影响最大的个体,并在合作策略设计中优先考虑这些智能体的协调。例如,在智能交通系统中,智能体之间的合作可以显著提高效率和乘客满意度。然而,Kai-Fung Chu等人的研究表明,恶意智能体可以通过伪造乘客信息攻击智能交通系统,降低系统的盈利能力和乘客满意度。这种攻击的成功依赖于恶意智能体对系统内其他智能体(如协调器)依赖关系的理解和利用。因此,通过分析智能体间的信息依赖关系,可以设计更鲁棒的防御机制,例如检测异常信息流或行为模式,从而有效应对恶意攻击。

此外,信息论还在多智能体竞争策略分析中发挥关键作用,帮助研究智能体如何通过信息获取、利用和隐藏来战胜对手。信息不对称是竞争的核心要素,智能体通过收集对手的信息,预测其行为,从而制定更有效的策略。在无人机对抗场景中,Xin Deng等人提出了一种半静态深度确定性策略梯度算法,通过动态调整训练强度,使得弱势一方能够不断学习并提升策略,最终实现双方策略的共同进步。这种“以战养战”的机制本质上是信息驱动的,失败方通过分析胜者的策略,获取信息增益,从而优化自身行为。实验结果表明,该算法能够显著提高胜负关系转换率,并减少训练时间。反之,智能体也可以通过隐藏自身信息、误导对手来获得竞争优势。在合作式自适应巡航控制(CACC)中,Dong Chen等人提出了一种基于量化的通信方案,通过随机舍入数字来量化通信信息,并仅通信非零分量,从而减少通信开销,同时避免过多信息泄露给潜在的竞争者。这种方法在保证控制性能的同时,也提高了信息安全性,为智能体在竞争环境中生存提供了保障。

结论

综上所述,信息论已成为多智能体强化学习中不可或缺的理论工具,它不仅为探索与利用的平衡、通信协议的设计、以及合作与竞争策略的优化提供了新的视角和方法,还为解决MARL中环境非平稳性、信用分配困难等核心挑战带来了曙光。从基于互信息的内在奖励塑造到信息瓶颈原理的应用,再到最大熵策略优化和信息增益在好奇心驱动探索中的作用,信息论的各种概念和方法正不断地被应用于提升多智能体系统的学习效率、泛化能力和鲁棒性。同时,信息论也为多智能体通信提供了理论指导,通过优化通信带宽、提取关键信息和减少噪声干扰,促进了智能体之间的有效协作。在合作与竞争方面,信息论帮助智能体设计更有效的合作策略,并在竞争环境中更好地理解和战胜对手。

展望未来,信息论在多智能体强化学习领域仍有巨大的发展潜力。随着多智能体系统日益复杂,如何有效地利用信息论来解决非平稳环境下的学习、大规模智能体之间的协调、以及复杂交互场景下的策略演化等问题将是未来的研究重点。例如,如何将信息论与深度学习相结合,设计更智能、更高效的MARL算法?如何利用信息论来构建更安全、更可靠的多智能体系统,以应对恶意攻击和不确定性?如何将信息论应用于更广泛的领域,例如智能交通、机器人协作和金融市场等?这些问题的探索将进一步推动多智能体强化学习的发展,并为人工智能的未来开辟新的道路。我们有理由相信,信息论将继续在多智能体强化学习中发挥关键作用,并为构建更加智能、协作和高效的多智能体系统做出重要贡献。

References

[1] Zaipeng Xie, Cheng Ji, Chentai Qiao, Wenzhan Song, Zewen Li, Yufeng Zhang, Yujing Zhang, Mutual information oriented deep skill chaining for multi-agent reinforcement learning, CAAI Trans. Intell. Technol., 2024, 9, 1014-1030.

[2] Woojun Kim, Whiyoung Jung, Myungsik Cho, Young-Jin Sung, A Variational Approach to Mutual Information-Based Coordination for Multi-Agent Reinforcement Learning, null, 2023, 40-48.

[3] Ini Oguntola, Joseph Campbell, Simon Stepputtis, K. Sycara, Theory of Mind as Intrinsic Motivation for Multi-Agent Reinforcement Learning, ArXiv, 2023, abs/2307.01158.

[4] Yue Jin, Shuangqing Wei, Jian Yuan, Xudong Zhang, Information-Bottleneck-Based Behavior Representation Learning for Multi-Agent Reinforcement Learning, 2021 IEEE International Conference on Autonomous Systems (ICAS), 2021, 1-5.

[5] Shifei Ding, Wei Du, Ling Ding, Lili Guo, Jian Zhang, Learning Efficient and Robust Multi-Agent Communication via Graph Information Bottleneck, null, 2024, 17346-17353.

[6] Seth Karten, Siva Kailas, Huao Li, K. Sycara, On the Role of Emergent Communication for Social Learning in Multi-Agent Reinforcement Learning, ArXiv, 2023, abs/2302.14276.

[7] D. Rother, Thomas H. Weisswange, Jan Peters, Disentangling Interaction Using Maximum Entropy Reinforcement Learning in Multi-Agent Systems, null, 2023, 1994-2001.

[8] Rahul Sharma, Shakti Raj Chopra, Akhil Gupta, Rupendeep Kaur, Sudeep Tanwar, Giovanni Pau, Gulshan Sharma, Fayez Alqahtani, Amr Tolba, Deployment of Unmanned Aerial Vehicles in Next-Generation Wireless Communication Network Using Multi-Agent Reinforcement Learning, IEEE Access, 2024, 12, 69517-69538.

[9] Hongzhi Hua, Kaigui Wu, Guixuan Wen, Deep Multi-Agent Reinforcement Learning with Hybrid Action Spaces based on Maximum Entropy, ArXiv, 2022, abs/2206.05108.

[10] Yuanqi Gao, Wei Wang, N. Yu, Consensus Multi-Agent Reinforcement Learning for Volt-VAR Control in Power Distribution Networks, IEEE Transactions on Smart Grid, 2020, 12, 3594-3604.

[11] Raihana Ferdous, Fitsum Meshesha Kifetew, Davide Prandi, Angelo Susi, Curiosity Driven Multi-agent Reinforcement Learning for 3D Game Testing, 2025 IEEE International Conference on Software Testing, Verification and Validation Workshops (ICSTW), 2025, 121-129.

[12] Shuchan Wang, Information-Theoretic Equivalence of Entropic Multi-Marginal Optimal Transport: A Theory for Multi-Agent Communication, ArXiv, 2022, abs/2208.10256.

[13] Jiawei Shao, Yuyi Mao, Jun Zhang, Learning Task-Oriented Communication for Edge Inference: An Information Bottleneck Approach, IEEE Journal on Selected Areas in Communications, 2021, 40, 197-211.

[14] Songjie Xie, Shuaijie Ma, Ming Ding, Yuanming Shi, Ming-Fu Tang, Youlong Wu, Robust Information Bottleneck for Task-Oriented Communication With Digital Modulation, IEEE Journal on Selected Areas in Communications, 2022, 41, 2577-2591.

[15] J. Lewandowsky, G. Bauch, Maximilian Stark, Information Bottleneck Signal Processing and Learning to Maximize Relevant Information for Communication Receivers, Entropy, 2022, 24.

[16] Zhuozhuo Gou, Yansong Deng, Dynamic Model of Collaboration in Multi-Agent System Based on Evolutionary Game Theory, Games, 2021, 12, 75.

[17] Wataru Inujima, K. Nakano, S. Hosokawa, Multi-robot coordination using switching of methods for deriving equilibrium in game theory, 2013 10th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology, 2013, 1-6.

[18] Yanggang Xu, Jirong Zha, Jiyuan Ren, Xintao Jiang, Hongfei Zhang, Xinlei Chen, Scalable Multi-Agent Reinforcement Learning for Effective UAV Scheduling in Multi-Hop Emergency Networks, Proceedings of the 30th Annual International Conference on Mobile Computing and Networking, 2024.

[19] Patrick Wilk, Ning Wang, Jie Li, Multi-Agent Reinforcement Learning for Smart Community Energy Management, Energies, 2024.

[20] Yan Lin, Jinming Bao, Yijin Zhang, Jun Li, Feng Shu, L. Hanzo, Privacy-Preserving Joint Edge Association and Power Optimization for the Internet of Vehicles via Federated Multi-Agent Reinforcement Learning, IEEE Transactions on Vehicular Technology, 2023, 72, 8256-8261.

[21] Kai Su, Feng Qian, Multi-UAV Cooperative Searching and Tracking for Moving Targets Based on Multi-Agent Reinforcement Learning, Applied Sciences, 2023.

[22] Ali Louati, Hassen Louati, Elham Kariri, Wafa Neifar, Mohamed K. Hassan, M. H. Khairi, Mohammed A. Farahat, Heba M. El-Hoseny, Sustainable Smart Cities through Multi-Agent Reinforcement Learning-Based Cooperative Autonomous Vehicles, Sustainability, 2024.

[23] Kai-Fung Chu, Weisi Guo, Multi-Agent Reinforcement Learning-Based Passenger Spoofing Attack on Mobility-as-a-Service, IEEE Transactions on Dependable and Secure Computing, 2024, 21, 5565-5581.

[24] Xin Deng, Zhaoqi Dong, Jishiyu Ding, UAV Confrontation and Evolutionary Upgrade Based on Multi-Agent Reinforcement Learning, Drones, 2024.

[25] Dong Chen, Kaixiang Zhang, Yongqiang Wang, Xunyuan Yin, Zhaojian Li, Dimitar Filev, Communication-Efficient Decentralized Multi-Agent Reinforcement Learning for Cooperative Adaptive Cruise Control, IEEE Transactions on Intelligent Vehicles, 2023, 9, 6436-6449.