Я пытаюсь научить агента наносить на карту территорию дома и стремиться к кратчайшему пути для этого.
Если честно, это моя первая работа в области армирования
Первое состояние - это пустое поле, и каждый шаг открывает новую область и обновляет состояние.
Моя функция вознаграждения наказывает за столкновение в стене и шаг без какой-либо открытой области.
Модель не сходится и мне не удается научить агента не сталкиваться со стенами.
Хотелось бы рекомендаций по топи c типа похожих работ / рекомендованных пакетов на минимизировать ошибки (в настоящее время работает с пользовательской средой спортзала и самореализующимся агентом с тензорными керасами)