Я изучаю алгоритм Q-обучения (это учебник, которому я следую: https://blog.floydhub.com/an-introduction-to-q-learning-reinforcement-learning/). По сути, у нас есть некоторый набор состояний (и несколько стен между ними), и мы должны быть в состоянии найти необязательный путь между любыми двумя состояниями. В матрице наград M
, M[i, j] = 1
<=> есть прямой путь между i и j, и между ними нет стен, в противном случае это 0. Мой вопрос, учитывая некоторый лабиринт (набор состояний, как показано в ссылке), как создать матрицу наград, вместо того, чтобы делать это вручную, как показано в учебнике? Заранее спасибо :)