Мультиагентное обучение подкреплению довольно сложно освоить, но оно еще не доказало свою эффективность в общих случаях.
Проблема заключается в том, что в мультиагенте среда становится нестационарной с точки зрения каждого отдельного агента. Это означает, что действие агентов не может быть отображено непосредственно в состояние, потому что другие агенты выполняют действие отдельно, что «запутывает» всех агентов.
Здесь собрана всесторонняя коллекция мультиагентных исследований: https://github.com/LantaoYu/MARL-Papers
Если вы хотите, чтобы вы использовали упомянутый вами метод критики-актера, я рекомендую вам провести дальнейшее исследование: https://arxiv.org/pdf/1706.02275.pdf, если вы хотите усовершенствовать Критик с участием нескольких агентов ( MADDPG)