Как обрабатывать награды за эпизоды переменной длины с вознаграждением в состоянии терминала - PullRequest
0 голосов
/ 17 января 2020

Цель игры состоит в том, чтобы кролик за одну минуту нашел капусту на очень большом поле и съел ее. Пространство действия дискретно (вверх / вниз / вправо / влево), пространство состояний непрерывно (очень большое поле). Эпизод заканчивается после 100 прыжков, когда кролик находит капусту или уходит с поля (что произойдет раньше). Одна из переменных состояния - расстояние до капусты. Поскольку поле очень большое, я использую форму вознаграждения (небольшое положительное / отрицательное вознаграждение за приближение к капусте или дальше от нее). Чтобы добраться до капусты за минимальное время, награда должна быть 0 за каждый прыжок и 1, когда капуста найдена. Однако формирование награды нарушает схему. Есть ли в этой игре элегантный способ использовать формирование наград и как? Спасибо за любой совет.

1 Ответ

0 голосов
/ 18 января 2020

После некоторых исследований я обнаружил, что потенциальная функция формирования может быть решением. В этом случае потенциал F каждого состояния s - это расстояние до капусты. Исходное вознаграждение R равно 0 для нетерминального состояния, -1, если кролик выходит из поля, 1 раз / T, если кролик находит капусту, где T - продолжительность эпизода. Терминальные штаты находят капусту и уходят с поля. Новая награда R '= R + (F (s') - F (s)) / maxDist. Буду признателен за любые идеи.

...