Ранее я занимался в тренажерном зале, где в центре мира грид есть что-то вроде пула, где я не хотел, чтобы агент go.
Итак, я представлял мир сетки в виде матрицы, и пул имел разные глубины, в которые агент может попасть, поэтому значения в этих местах имели отрицательное значение, пропорциональное глубине лужи.
При обучении агентов это отрицательное вознаграждение не давало агенту попасть в лужу.
Код для вышеуказанной среды: здесь и его использование здесь
Надеюсь, это поможет