Очарование эпсилон-жадной разведки: исправление эпсилон-распада X - PullRequest
0 голосов
/ 09 ноября 2019

Я учу агента выйти из лабиринта, собирая все яблоки на своем пути, используя Qlearning.

Я читал, что можно оставить фиксированный эпсилон или выбрать эпсилон и распадаться с течением времени.

Я не могу найти преимущества или недостатки каждого подхода, я хотел бы услышать больше, если вы поможете мне понять, что я должен использовать.

Спасибо!

1 Ответ

1 голос
/ 10 ноября 2019

Я собираюсь предположить, что вы имеете в виду эпсилон как в «эпсилон-зеленом исследовании». Цель этого параметра - контролировать, насколько ваш агент верит в свою текущую политику. При большом значении эпсилона ваш агент будет игнорировать свою политику и выбирать случайные действия. Это исследование часто является хорошей идеей, когда ваша политика довольно слаба, особенно в начале обучения. Иногда люди затухают эпсилон с течением времени, чтобы отразить, что их политика становится все лучше и лучше, и они хотят использовать, а не исследовать.

Не существует правильного способа выбрать эпсилон или его скорость распада для каждогопроблема. Лучше всего попробовать разные значения.

...