Question

Я работаю над проектом, в котором мне нужно найти оптимальный оптимизированный путь от 1 точки к другой в непрерывном пространстве в сценарии с несколькими агентами. Я ищу лучший алгоритм, который подходит для этой проблемы с использованием обучения подкрепления. Я пробовал «Актер-критик с несколькими агентами для смешанной кооперативно-конкурентной среды», но, похоже, он не достигает цели в 10000 эпизодических эпизодов. Как я могу улучшить этот алгоритм или есть какой-нибудь другой алгоритм, который может помочь мне в этом.

Per Arne Andersen · Answer 1 · 26 июня 2019

Мультиагентное обучение подкреплению довольно сложно освоить, но оно еще не доказало свою эффективность в общих случаях.

Проблема заключается в том, что в мультиагенте среда становится нестационарной с точки зрения каждого отдельного агента. Это означает, что действие агентов не может быть отображено непосредственно в состояние, потому что другие агенты выполняют действие отдельно, что «запутывает» всех агентов. Здесь собрана всесторонняя коллекция мультиагентных исследований: https://github.com/LantaoYu/MARL-Papers

Если вы хотите, чтобы вы использовали упомянутый вами метод критики-актера, я рекомендую вам провести дальнейшее исследование: https://arxiv.org/pdf/1706.02275.pdf, если вы хотите усовершенствовать Критик с участием нескольких агентов ( MADDPG)

Лучший алгоритм для многоагентного поиска непрерывного пространства с использованием обучения с подкреплением

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лучший алгоритм для многоагентного поиска непрерывного пространства с использованием обучения с подкреплением

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы