Шаг по времени в обучении подкреплению - PullRequest
0 голосов
/ 03 февраля 2020

В своем первом проекте по обучению подкреплению я пытаюсь обучить агента играть в игру в реальном времени. Это означает, что среда постоянно движется и вносит изменения, поэтому агент должен быть точным в отношении своего времени. Чтобы иметь правильную последовательность, я подумал, что агент должен работать с определенной частотой. Под этим я подразумеваю, что если агент имеет частоту 10 Гц, он должен будет принимать входные данные каждые 0,1 секунды и принимать решение. Тем не менее, я не смог найти никаких источников по этой проблеме / вопросу, но это, вероятно, из-за неправильной терминологии в моих поисках. Это правильный способ подойти к этому вопросу? Если так, что я могу использовать? Я работаю с python3 в windows (игра запускается только в windows), есть ли библиотеки, которые можно использовать? Я предполагаю, что time.sleep() не является жизнеспособным выходом, так как он не очень точен (при использовании высоких частот) и просто замораживает агента.

РЕДАКТИРОВАТЬ: Итак, мои основные вопросы:

a) Должен ли я использовать определенную частоту, является ли это нормальным способом работы обучающего агента подкрепления?

б) Если да, то какие библиотеки вы предлагаете?

1 Ответ

2 голосов
/ 03 февраля 2020

На этот вопрос нет однозначного ответа, так как на него влияют различные факторы, такие как время вывода для вашей модели, максимально допустимая скорость контроля со стороны среды и требуемая скорость управления для решения этой среды.

Поскольку вы пытаетесь играть в игру, я предполагаю, что ваша конечная цель может состоять в том, чтобы сравнить производительность агента с производительностью человека. Если это так, хорошим подходом было бы выбрать контрольную частоту, аналогичную той, которую люди могут использовать в одной и той же игре, которая, скорее всего, ниже 10 герц.

Вы можете попытаться измерить, сколько действий вы используйте при игре, чтобы получить хорошую оценку,

Однако любая разумная частота, такая как предложенная вами 10 Гц, должна стать хорошей отправной точкой для начала работы с вашим агентом.

...