Я пытаюсь создать среду для задачи классификации нескольких классов, используя обучение с подкреплением. Насколько я понимаю, в случае обучения с подкреплением состояния должны быть связаны друг с другом. Вроде состояние (S+1)
должно быть сгенерировано из состояния (S)
. Однако в случае проблемы классификации состояния - это наблюдения в кадре данных pandas. Необязательно, чтобы все наблюдения были связаны друг с другом. Поскольку в задаче классификации каждое наблюдение является независимым. В этом случае я использую следующий код для генерации начального состояния:
def _initial_state():
random_num = random.randint(0,df.shape[0])
state = X_df.iloc[random_num:random_num+1,0:41]
return state
Мой вопрос в том, как мне получить следующее состояние. Могу ли я использовать ту же функцию для генерации нового случайного числа и возврата этой строки из фрейма данных для моего следующего состояния? Или я должен делать что-нибудь еще. Я новичок в этой области. Любая помощь очень ценится.