Question

Я учу агента выйти из лабиринта, собирая все яблоки на своем пути, используя Qlearning.

Я читал, что можно оставить фиксированный эпсилон или выбрать эпсилон и распадаться с течением времени.

Я не могу найти преимущества или недостатки каждого подхода, я хотел бы услышать больше, если вы поможете мне понять, что я должен использовать.

Спасибо!

francoisr · Answer 1 · 10 ноября 2019

Я собираюсь предположить, что вы имеете в виду эпсилон как в «эпсилон-зеленом исследовании». Цель этого параметра - контролировать, насколько ваш агент верит в свою текущую политику. При большом значении эпсилона ваш агент будет игнорировать свою политику и выбирать случайные действия. Это исследование часто является хорошей идеей, когда ваша политика довольно слаба, особенно в начале обучения. Иногда люди затухают эпсилон с течением времени, чтобы отразить, что их политика становится все лучше и лучше, и они хотят использовать, а не исследовать.

Не существует правильного способа выбрать эпсилон или его скорость распада для каждогопроблема. Лучше всего попробовать разные значения.

Очарование эпсилон-жадной разведки: исправление эпсилон-распада X

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Очарование эпсилон-жадной разведки: исправление эпсилон-распада X

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы