Генерация состояний в обучении с подкреплением для задачи классификации с использованием OpenAI gym - PullRequest
0 голосов
/ 09 мая 2020

Я пытаюсь создать среду для задачи классификации нескольких классов, используя обучение с подкреплением. Насколько я понимаю, в случае обучения с подкреплением состояния должны быть связаны друг с другом. Вроде состояние (S+1) должно быть сгенерировано из состояния (S). Однако в случае проблемы классификации состояния - это наблюдения в кадре данных pandas. Необязательно, чтобы все наблюдения были связаны друг с другом. Поскольку в задаче классификации каждое наблюдение является независимым. В этом случае я использую следующий код для генерации начального состояния:

def _initial_state():
    random_num = random.randint(0,df.shape[0])
    state = X_df.iloc[random_num:random_num+1,0:41]
    return state

Мой вопрос в том, как мне получить следующее состояние. Могу ли я использовать ту же функцию для генерации нового случайного числа и возврата этой строки из фрейма данных для моего следующего состояния? Или я должен делать что-нибудь еще. Я новичок в этой области. Любая помощь очень ценится.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...