Question

Я пытаюсь реализовать простой алгоритм q-обучения.Для каждого состояния у меня есть функция, которая определяет пространство действия, которое является дискретным.Я осознал, что пространство действий варьируется для каждого состояния, некоторые пространства действий равны 2000 элементам возможных действий, а другие - 10 возможных действий.Является ли эта широкая вариация узким местом для тренировок?2000 возможных действий в государстве слишком велики?Или мне просто нужно убедиться, что число итераций максимально, чтобы охватить широкое пространство действий?

Работа с большим и переменным пространством действия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Работа с большим и переменным пространством действия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы