В настоящее время я пытаюсь провести Q обучение для Игры и хотел бы создать таблицу Q обучения.По сути, я хотел бы иметь двухмерную хэш-таблицу, один массив из четырех длин, содержащий действия («Прыжок», «Влево», «Вправо» и «Утка»), и другой, который можно расширить в зависимости от необходимости.Например, в классе использовались бы два состояния «Стена» и «Разрыв», в то время как другой использовал бы три состояния «Стена», «Разрыв» и «Враг» в качестве своих состояний.
Вопрос заключается в следующем: какне могли бы вы создать хэш-таблицу, чтобы иметь два ключа, которые позволят вам найти в таблице действие и состояние и увидеть вознаграждение за их комбинацию.Например, действие [Прыжок] и состояние [Стена] или действие [Слева] и состояние [Враг]?