погружаюсь в машинное обучение и python и не могу понять, как сформировать мою q_table.
Я сделал простую игру ti c -ta c -toe с 3 на 3 доска. Для простоты я понял, что, вероятно, разумнее использовать плоский массив размером 9 для представления платы. Теперь для моего q_table я хочу, чтобы он был индексируемым по состоянию платы, которое представляет собой плоский массив размером 9.
Итак, скажем, доска выглядит так (все пустое, кроме центральной ячейки, имеет 0):
>>> board = [-1,-1,-1,-1,0,-1,-1,-1,-1]
Теперь я хочу получить доступ к моей q_table примерно так и получить еще один массив размером 9 с действиями:
>>> q_table[board]
array([-0.2,-0.3,-0.1,-0.5,0,-0.7,-0.2,-0.4,0.9])
Итак, при инициализации q_table есть ли способ сделать индекс массив размером 9?
>>> q_table = np.random.uniform(low=-1, high=0, size=([9],[9]))
С трудом справляются с кортежами, списками, массивами в python.
Любая помощь приветствуется!