Я пытаюсь понять код пони Карпати в Python, объясненный здесь: Пон Карпати # forward the policy...
Я проходил этот учебник и увидел следующий фрагмент кода: # Calculate score to determine when the...
Я получаю следующую ошибку в терминале: Traceback (most recent call last): File...
Я пытаюсь реализовать собственную реализацию алгоритма Advantage Actor Critic, используя тензор...
Я пытаюсь реализовать бумагу DeepMimic, но застрял на настройке.Как изменить последнюю часть...
базовый вопрос скорее относится к математике и реализации, поэтому приведенная ниже часть обучения...
Я использую многопроцессорный модуль pytorch для генерации опыта и сохранения его в объекте manager
Я планирую обучить агента Mario играть самостоятельно, используя DQN.Но я также хочу иметь...
Я создал простую нейронную сеть с pytorch, предназначенную для расчета движений юнитов внутри сетки
У меня есть несколько вопросов об обучении нейронной сети с использованием обучения с подкреплением...
Я внедряю PPO с GAE в качестве преимуществ.В следующем коде я вычисляю GAE и возвращаю его в...
Я потратил недели на то, чтобы заставить модель обучения подкрепления актера-критика работать в...
Мой вопрос следует за моим исследованием кода в учебнике по PyTorch DQN, но затем относится к...
Я использую тренажерный зал Open AI и марио-код Кристиана Каутена, чтобы научить его играть самому
Я разработал небольшое упражнение для обучения.Проблема в том, что после возобновления тренировки...
Я пытаюсь настроить проект обучения с подкреплением, используя Gym & kears_rl. Описание: Учитывая...
В играх atari по умолчанию используется «периодическая политика» в A2C?Я обнаружил, что трудно...
Я изучал tenorflow и rl в течение нескольких месяцев, и в течение последних нескольких дней я...
Я нахожусь в процессе реализации модели DQN с нуля в PyTorch с целевой средой Atari Pong.После...
Учитывая, что среда OpenAI Gym MountainCar-v0 ВСЕГДА возвращает -1.0 в качестве награды (даже когда...
Я реализую и основываюсь на воспроизведении опыта на жестких дисках (Reinforcement Learning) в...
Я перебираю эту статью: Оптимизация размещения устройства с обучением усилению , и я проверяю...
Я пытаюсь реализовать A2C с Lasagne + Theano (Python), чтобы решить стандартные проблемы с...
Я пытаюсь реализовать градиент политики для проблемы контекстного бандита (https://medium
Таким образом, последний поток, который я написал о Reinforcement Learning, был отмечен как слишком...