Работа с большим и переменным пространством действия - PullRequest
1 голос
/ 05 июля 2019

Я пытаюсь реализовать простой алгоритм q-обучения.Для каждого состояния у меня есть функция, которая определяет пространство действия, которое является дискретным.Я осознал, что пространство действий варьируется для каждого состояния, некоторые пространства действий равны 2000 элементам возможных действий, а другие - 10 возможных действий.Является ли эта широкая вариация узким местом для тренировок?2000 возможных действий в государстве слишком велики?Или мне просто нужно убедиться, что число итераций максимально, чтобы охватить широкое пространство действий?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...