Багатоагентне навчання з підкріпленням (БАНП, Multi-agent reinforcement learning, MARL) — це підгалузь навчання з підкріпленням. Вона зосереджена на вивченні поведінки декількох агентів навчання, які перебувають у спільному середовищі[1]. Кожен агент мотивується власною винагородою і виконує дії для просування власних інтересів; в деяких середовищах ці інтереси протилежні інтересам інших агентів, що призводить до виникнення складної групової динаміки.
Багатоагентне навчання з підкріпленням тісно пов'язане з теорією ігор, особливо з повторюваними іграми[en], а також з багатоагентними системами. Метою дослідження є пошук ідеальних алгоритмів, які максимізують винагороду, з використанням більш соціологічного набору концепцій. У той час як дослідження в одноагентному навчанні з підкріпленням стосуються пошуку алгоритму, який отримує найбільшу кількість балів для одного агента, дослідження в багатоагентному навчанні з підкріпленням оцінюють і кількісно визначають соціальні показники, такі як співпраця[2], взаємність[3], рівність[4], соціальний вплив[5], мова[6], та дискримінація[7].
— це ймовірність переходу (в момент часу ) від стану в стан при спільній дії .
— це миттєва спільна винагорода після переходу з до зі спільними діями .
В умовах гри з повною інформацією, таких як ігри в шахи та Го, МППР був би повністю доступним для спостереження. В умовах недосконалої інформації, особливо в реальних застосунках, таких як безпілотні автомобілі, кожен агент має доступ до спостереження, яке містить лише частину інформації про поточний стан. В умовах часткового спостереження основною моделлю є частково спостережувана стохастична гра в загальному випадку і децентралізований частково спостережуваний марковський процес вирішування[en] в кооперативному випадку.
Співпраця та конкуренція
Коли кілька агентів діють у спільному середовищі, їхні інтереси можуть як збігатися, так і не співпадати. БАНП дозволяє дослідити всі можливі варіанти узгодження інтересів і те, як вони впливають на поведінку агентів:
В умовах чистої конкуренції винагороди агентів прямо протилежні одна одній, і тому вони грають один проти одного.
Чиста співпраця — це інша крайність, у якій агенти отримують абсолютно однакові винагороди, а отже, вони співпрацюють один з одним.
Умови зі змішаною сумою охоплюють усі ігри, які поєднують елементи як співпраці, так і конкуренції.
В умовах чистої конкуренції
Коли два агенти грають у гру з нульовою сумою, вони змагаються один з одним. Багато традиційних ігор, таких як шахи та го, підпадають під цю категорію, як і варіанти сучасних ігор для двох гравців, як-от StarCraft. Оскільки кожен агент може виграти лише за рахунок іншого агента, багато ускладнень, які потрібно враховувати, наприклад, при співправці, усувається. Немає шансів на взаємодію чи виникнення соціальних дилем, оскільки жоден з агентів не зацікавлений у діях, які приносять користь його опоненту.
Проекти Deep Blue[8] і AlphaGo демонструють, як оптимізувати продуктивність агентів в умовах чистої конкуренції.
Однією зі складностей, яку не можна усунути в умовах чистої конкуренції, є самонавчання. В міру того, як стратегії агентів вдосконалюються за допомогою гри проти себе[en], може утворитися багато рівнів навчання.
В умовах чистої співпраці
БАНП використовується для дослідження того, як окремі агенти з ідентичними інтересами можуть спілкуватися і працювати разом. Чисті умови співпраці досліджуються в розважальних кооперативних іграх, таких як Overcooked[9], а також у сценаріях реального світу в робототехніці.[10]
В умовах чистої співпраці всі агенти отримують ідентичні винагороди, що означає, що соціальних дилем не виникає.
В умовах чистої співпраці часто існує довільна кількість стратегій координації, і агенти приходять до певних «конвенцій», узгоджуючи свої дії один з одним. Поняття конвенцій вивчалося в лінгвістиці[11], а також згадувалося в більш загальних завданнях спільної роботи декількох агентів.[12][13][14][15]
В умовах змішаної суми
Більшість реальних сценаріїв із залученням кількох агентів мають елементи як співпраці, так і конкуренції. Наприклад, коли кілька безпілотних автомобілів планують свій маршрут, у кожного з них є інтереси, які відрізняються, але не виключають один одного: кожен автомобіль намагається мінімізувати час, який йому потрібен, щоб дістатися до пункту призначення, але всі автомобілі мають спільний інтерес — уникнути зіткнення на дорозі.[17]
Моделі з нульовою сумою з трьома або більше агентами часто демонструють властивості, подібні до моделей зі змішаною сумою, оскільки кожна пара агентів може мати ненульову суму їхніх спільних вигод.
У той час як дослідження теорії ігор можуть фокусуватися на рівновазі Неша та на тому, якою була б ідеальна стратегія для агента, дослідження МАНП зосереджені на тому, як агенти вивчали б ці ідеальні стратегії за допомогою процесу спроб і помилок. Алгоритми навчання з підкріпленням, які використовуються для навчання агентів, максимізують власну винагороду агента; конфлікт між потребами агентів і потребами групи є предметом активного дослідження.[24]
Були досліджені різні методи, щоб спонукати агентів до співпраці: зміна правил середовища,[25] додавання внутрішніх винагород[4] тощо.
Послідовні соціальні дилеми
Соціальні дилеми, такі як дилема ув'язненого, полювання на оленя та яструби і голуби, є «матричними іграми». Кожен агент виконує лише одну дію з двох можливих дій, а для опису винагороди, яку отримає кожен агент, враховуючи дії, які він здійснив, використовується проста матриця 2х2.
У людей та інших живих істот соціальні дилеми, як правило, складніші. Агенти здійснюють кілька дій протягом певного часу, і різниця між співпрацею та порушенням не така чітка, як у матричних іграх. Концепція послідовної соціальної дилеми (ПСД) була введена в 2017 році[26] як спроба змоделювати цю складність. Наразі тривають дослідження, спрямовані на визначення різних типів ПСД та демонстрацію кооперативної поведінки агентів, які в них діють.[27]
Самонавчальні програми
Самонавчання (autocurriculum)[28] — це концепція навчання з підкріпленням, яка є ключовою в багатоагентних експериментах. Коли агенти покращують свої показники, вони змінюють середовище в якому перебувають; ці зміни в середовищі впливають на них самих та інших агентів. Цикл зворотного зв'язку призводить до кількох окремих фаз навчання, кожна з яких залежить від попередньої. Накладені шари навчання називаються самонавчанням. Самонавчання особливо помітне в умовах суперництва[29], коли кожна група агентів намагається протидіяти поточній стратегії протилежної групи.
Гра «Хованки» є зрозумілим прикладом самонавчання в умовах змагання. У цьому експерименті команда шукачів змагається з командою тих, хто ховається. Щоразу, коли одна з команд вивчає нову стратегію, команда суперника адаптує свою стратегію, щоб протидіяти їй у найкращій спосіб. Коли ті, хто ховається, вчаться використовувати ящики для будівництва схованки, шукачі відповідають тим, що навчаються використовувати рампу, щоб проникнути у цю схованку. У відповідь ті, хто ховається, блокують пандуси, роблячи їх недоступними для використання шукачами. Тоді шукачі відповідають «серфінгом по ящику», використовуючи збій у грі, щоб проникнути у схованку. Кожен «рівень» навчання є явищем, передумовою якого є попередній рівень. Це призводить до появи цілої низки моделей поведінки, кожна з яких залежить від попередньої.
Автонавчання в експериментах з підкріплювального навчання порівнюють з етапами еволюції життя на Землі та розвитку людської культури. Основний етап еволюції стався 2-3 мільярди років тому, коли фотосинтезуючі форми життя почали виробляти величезну кількість кисню, чим змінили баланс газів в атмосфері[30]. На наступних етапах еволюції розвинулися форми життя, здатні дихати киснем, що врешті-решт призвело до появи наземних ссавців і людини. Ці пізніші етапи могли відбутися лиш після того, як етап фотосинтезу зробив кисень широко доступним. Так само людська культура не змогла б пережити промислову революцію у 18 столітті без ресурсів і знань, отриманих в результаті сільськогосподарської революції близько 10 000 років до нашої ери[31].
Застосування
Багатоагентне навчання з підкріпленням було застосовується в різних сферах в науці та промисловості:
Багатоагентне навчання з підкріпленням використовується в дослідженнях з контролю ШІ[en]. Взаємодію між різними агентами в середовищі БАНП можна порівняти з відносинами між людиною і агентом зі ШІ. Дослідницькі зусилля на перетині цих двох областей намагаються змоделювати можливі конфлікти між намірами людини і діями агента зі ШІ, а потім дослідити, які змінні потрібно відкоригувати, щоб запобігти цим конфліктам.[45][46]
Stefano V. Albrecht, Filippos Christianos, Lukas Schäfer. Multi-Agent Reinforcement Learning: Foundations and Modern Approaches. MIT Press, 2024. https://www.marl-book.com
Kaiqing Zhang, Zhuoran Yang, Tamer Basar. Multi-agent reinforcement learning: A selective overview of theories and algorithms. Studies in Systems, Decision and Control, Handbook on RL and Control, 2021. [1]
Yang, Yaodong; Wang, Jun (2020). An Overview of Multi-Agent Reinforcement Learning from Game Theoretical Perspective. arXiv:2011.00583 [cs.MA].
Примітки
↑Stefano V. Albrecht, Filippos Christianos, Lukas Schäfer. Multi-Agent Reinforcement Learning: Foundations and Modern Approaches. MIT Press, 2024. https://www.marl-book.com/
↑Lowe, Ryan; Wu, Yi (2020). Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments. arXiv:1706.02275v4 [cs.LG].
↑Baker, Bowen (2020). Emergent Reciprocity and Team Formation from Randomized Uncertain Social Preferences. NeurIPS 2020 proceedings. arXiv:2011.05373.
↑ абHughes, Edward; Leibo, Joel Z. та ін. (2018). Inequity aversion improves cooperation in intertemporal social dilemmas. NeurIPS 2018 proceedings. arXiv:1803.08884.
↑Jaques, Natasha; Lazaridou, Angeliki; Hughes, Edward та ін. (2019). Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning. Proceedings of the 35th International Conference on Machine Learning. arXiv:1810.08647.
↑Lazaridou, Angeliki (2017). Multi-Agent Cooperation and The Emergence of (Natural) Language. ICLR 2017. arXiv:1612.07182.
↑Duéñez-Guzmán, Edgar (2021). Statistical discrimination in learning agents. arXiv:2110.11404v1 [cs.LG].
↑Foerster, Jakob N.; Song, H. Francis; Hughes, Edward; Burch, Neil; Dunning, Iain; Whiteson, Shimon; Botvinick, Matthew M; Bowling, Michael H. Bayesian action decoder for deep multi-agent reinforcement learning. ICML 2019. arXiv:1811.01458.
↑Shih, Andy; Sawhney, Arjun; Kondic, Jovana; Ermon, Stefano; Sadigh, Dorsa. On the Critical Role of Conventions in Adaptive Human-AI Collaboration. ICLR 2021. arXiv:2104.02871.
↑Bettini, Matteo; Kortvelesy, Ryan; Blumenkamp, Jan; Prorok, Amanda (2022). VMAS: A Vectorized Multi-Agent Simulator for Collective Robot Learning. The 16th International Symposium on Distributed Autonomous Robotic Systems. Springer. arXiv:2207.03530.
↑Kopparapu, Kavya; Duéñez-Guzmán, Edgar A.; Matyas, Jayd; Vezhnevets, Alexander Sasha; Agapiou, John P.; McKee, Kevin R.; Everett, Richard; Marecki, Janusz; Leibo, Joel Z.; Graepel, Thore (2022). Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria. arXiv:2201.01816 [cs.AI].
↑Samvelyan, Mikayel; Rashid, Tabish; de Witt, Christian Schroeder; Farquhar, Gregory; Nardelli, Nantas; Rudner, Tim G. J.; Hung, Chia-Man; Torr, Philip H. S.; Foerster, Jakob; Whiteson, Shimon (2019). The StarCraft Multi-Agent Challenge. arXiv:1902.04043 [cs.LG].
↑Ellis, Benjamin; Moalla, Skander; Samvelyan, Mikayel; Sun, Mingfei; Mahajan, Anuj; Foerster, Jakob N.; Whiteson, Shimon (2022). SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning. arXiv:2212.07489 [cs.LG].
↑Sandholm, Toumas W.; Crites, Robert H. (1996). Multiagent reinforcement learning in the Iterated Prisoner's Dilemma. Biosystems. 37 (1–2): 147—166. doi:10.1016/0303-2647(95)01551-5. PMID8924633.
↑Peysakhovich, Alexander; Lerer, Adam (2018). Prosocial Learning Agents Solve Generalized Stag Hunts Better than Selfish Ones. AAMAS 2018. arXiv:1709.02865.
↑Dafoe, Allan; Hughes, Edward; Bachrach, Yoram та ін. (2020). Open Problems in Cooperative AI. NeurIPS 2020. arXiv:2012.08630.
↑Köster, Raphael; Hadfield-Menell, Dylan; Hadfield, Gillian K.; Leibo, Joel Z. Silly rules improve the capacity of agents to learn stable enforcement and compliance behaviors. AAMAS 2020. arXiv:2001.09318.
↑Leibo, Joel Z.; Zambaldi, Vinicius; Lanctot, Marc; Marecki, Janusz; Graepel, Thore (2017). Multi-agent Reinforcement Learning in Sequential Social Dilemmas. AAMAS 2017. arXiv:1702.03037.
↑Badjatiya, Pinkesh; Sarkar, Mausoom (2020). Inducing Cooperative behaviour in Sequential-Social dilemmas through Multi-Agent Reinforcement Learning using Status-Quo Loss. arXiv:2001.05458.
↑Leibo, Joel Z.; Hughes, Edward та ін. (2019). Autocurricula and the Emergence of Innovation from Social Interaction: A Manifesto for Multi-Agent Intelligence Research. arXiv:1903.00742v2 [cs.AI].
↑Baker, Bowen та ін. (2020). Emergent Tool Use From Multi-Agent Autocurricula. ICLR 2020. arXiv:1909.07528.
↑ абвгдежиLi, Tianxu; Zhu, Kun; Luong, Nguyen Cong; Niyato, Dusit; Wu, Qihui; Zhang, Yang; Chen, Bing (2021). Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey. arXiv:2110.13484 [cs.AI].
↑Le, Ngan; Rathour, Vidhiwar Singh; Yamazaki, Kashu; Luu, Khoa; Savvides, Marios (2021). Deep Reinforcement Learning in Computer Vision: A Comprehensive Survey. arXiv:2108.11510 [cs.CV].
↑Moulin-Frier, Clément; Oudeyer, Pierre-Yves (2020). Multi-Agent Reinforcement Learning as a Computational Tool for Language Evolution Research: Historical Context and Future Challenges. arXiv:2002.08878 [cs.MA].
↑Killian, Jackson; Xu, Lily; Biswas, Arpita; Verma, Shresth та ін. (2023). Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program. AAAI.
↑Krishnan, Srivatsan; Jaques, Natasha; Omidshafiei, Shayegan; Zhang, Dan; Gur, Izzeddin; Reddi, Vijay Janapa; Faust, Aleksandra (2022). Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration. arXiv:2211.16385 [cs.AR].
↑Li, Yuanzheng; He, Shangyang; Li, Yang; Shi, Yang; Zeng, Zhigang (2023). Federated Multiagent Deep Reinforcement Learning Approach via Physics-Informed Reward for Multimicrogrid Energy Management. IEEE Transactions on Neural Networks and Learning Systems. PP: 1—13. arXiv:2301.00641. doi:10.1109/TNNLS.2022.3232630. PMID37018258. S2CID255372287.
↑Tuyls, Karl; Omidshafiei, Shayegan; Muller, Paul; Wang, Zhe; Connor, Jerome; Hennes, Daniel; Graham, Ian; Spearman, William; Waskett, Tim; Steele, Dafydd; Luc, Pauline; Recasens, Adria; Galashov, Alexandre; Thornton, Gregory; Elie, Romuald; Sprechmann, Pablo; Moreno, Pol; Cao, Kris; Garnelo, Marta; Dutta, Praneet; Valko, Michal; Heess, Nicolas; Bridgland, Alex; Perolat, Julien; De Vylder, Bart; Eslami, Ali; Rowland, Mark; Jaegle, Andrew; Munos, Remi; Back, Trevor; Ahamed, Razia; Bouton, Simon; Beauguerlange, Nathalie; Broshear, Jackson; Graepel, Thore; Hassabis, Demis (2020). Game Plan: What AI can do for Football, and What Football can do for AI. arXiv:2011.09192 [cs.AI].
↑Chu, Tianshu; Wang, Jie; Codec├á, Lara; Li, Zhaojian (2019). Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control. arXiv:1903.04527 [cs.LG].
↑Belletti, Francois; Haziza, Daniel; Gomes, Gabriel; Bayen, Alexandre M. (2017). Expert Level control of Ramp Metering based on Multi-task Deep Reinforcement Learning. arXiv:1701.08832 [cs.AI].
↑Ding, Yahao; Yang, Zhaohui; Pham, Quoc-Viet; Zhang, Zhaoyang; Shikh-Bahaei, Mohammad (2023). Distributed Machine Learning for UAV Swarms: Computing, Sensing, and Semantics. arXiv:2301.00912 [cs.LG].
↑Xu, Lily; Perrault, Andrew; Fang, Fei; Chen, Haipeng; Tambe, Milind (2021). Robust Reinforcement Learning Under Minimax Regret for Green Security. arXiv:2106.08413 [cs.LG].
↑Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (2016). The Off-Switch Game. arXiv:1611.08219 [cs.AI].
↑Hernandez-Leal, Pablo; Kartal, Bilal; Taylor, Matthew E. (1 листопада 2019). A survey and critique of multiagent deep reinforcement learning. Autonomous Agents and Multi-Agent Systems(англ.). 33 (6): 750—797. arXiv:1810.05587. doi:10.1007/s10458-019-09421-1. ISSN1573-7454.