Лучший алгоритм для многоагентного поиска непрерывного пространства с использованием обучения с подкреплением - PullRequest
0 голосов
/ 24 июня 2019

Я работаю над проектом, в котором мне нужно найти оптимальный оптимизированный путь от 1 точки к другой в непрерывном пространстве в сценарии с несколькими агентами. Я ищу лучший алгоритм, который подходит для этой проблемы с использованием обучения подкрепления. Я пробовал «Актер-критик с несколькими агентами для смешанной кооперативно-конкурентной среды», но, похоже, он не достигает цели в 10000 эпизодических эпизодов. Как я могу улучшить этот алгоритм или есть какой-нибудь другой алгоритм, который может помочь мне в этом.

1 Ответ

0 голосов
/ 26 июня 2019

Мультиагентное обучение подкреплению довольно сложно освоить, но оно еще не доказало свою эффективность в общих случаях.

Проблема заключается в том, что в мультиагенте среда становится нестационарной с точки зрения каждого отдельного агента. Это означает, что действие агентов не может быть отображено непосредственно в состояние, потому что другие агенты выполняют действие отдельно, что «запутывает» всех агентов. Здесь собрана всесторонняя коллекция мультиагентных исследований: https://github.com/LantaoYu/MARL-Papers

Если вы хотите, чтобы вы использовали упомянутый вами метод критики-актера, я рекомендую вам провести дальнейшее исследование: https://arxiv.org/pdf/1706.02275.pdf, если вы хотите усовершенствовать Критик с участием нескольких агентов ( MADDPG)

...