Цель игры состоит в том, чтобы кролик за одну минуту нашел капусту на очень большом поле и съел ее. Пространство действия дискретно (вверх / вниз / вправо / влево), пространство состояний непрерывно (очень большое поле). Эпизод заканчивается после 100 прыжков, когда кролик находит капусту или уходит с поля (что произойдет раньше). Одна из переменных состояния - расстояние до капусты. Поскольку поле очень большое, я использую форму вознаграждения (небольшое положительное / отрицательное вознаграждение за приближение к капусте или дальше от нее). Чтобы добраться до капусты за минимальное время, награда должна быть 0 за каждый прыжок и 1, когда капуста найдена. Однако формирование награды нарушает схему. Есть ли в этой игре элегантный способ использовать формирование наград и как? Спасибо за любой совет.