Вопросы с тегом армирование обучение

0 голосов

1 ответ

Karpathy Pong объяснение кросс-энтропии / потери логарифма для y - aprob

Я пытаюсь понять код пони Карпати в Python, объясненный здесь: Пон Карпати # forward the policy...

mLstudent33 / 19 февраля 2019

0 голосов

2 ответов

Как определить, когда среда CartPole была решена?

Я проходил этот учебник и увидел следующий фрагмент кода: # Calculate score to determine when the...

Pinocchio / 18 февраля 2019

0 голосов

1 ответ

Почему я вижу TypeError, когда функция Pytorch mul () используется в сочетании с numpy?

Я получаю следующую ошибку в терминале: Traceback (most recent call last): File...

thunde47 / 17 февраля 2019

0 голосов

0 ответов

A2C не работает из-за потери критика не сходится

Я пытаюсь реализовать собственную реализацию алгоритма Advantage Actor Critic, используя тензор...

White blue rabbit / 16 февраля 2019

0 голосов

0 ответов

Как найти каталог python lib?

Я пытаюсь реализовать бумагу DeepMimic, но застрял на настройке.Как изменить последнюю часть...

Littleredridinghood / 15 февраля 2019

0 голосов

0 ответов

Построение ковариационной матрицы в многоуровневом обучении армированию

базовый вопрос скорее относится к математике и реализации, поэтому приведенная ниже часть обучения...

Hendrik / 14 февраля 2019

0 голосов

0 ответов

использовать многопроцессорность pytorch, manager.list получил неверную ошибку указателя устройства

Я использую многопроцессорный модуль pytorch для генерации опыта и сохранения его в объекте manager

Han Zheng / 13 февраля 2019

0 голосов

0 ответов

Как включить человеческий контроль в DQN

Я планирую обучить агента Mario играть самостоятельно, используя DQN.Но я также хочу иметь...

omnidevio / 12 февраля 2019

0 голосов

0 ответов

Как применить вознаграждение / рассчитать потери на этапе обучения в режиме подкрепления?

Я создал простую нейронную сеть с pytorch, предназначенную для расчета движений юнитов внутри сетки

Appleshell / 09 февраля 2019

0 голосов

1 ответ

Настройка нейронной сети и мониторинг в обучении армированию

У меня есть несколько вопросов об обучении нейронной сети с использованием обучения с подкреплением...

Meysam Ghorbani / 06 февраля 2019

0 голосов

1 ответ

GAE: почему GAE работает хуже, чем нормализованный доход и преимущества

Я внедряю PPO с GAE в качестве преимуществ.В следующем коде я вычисляю GAE и возвращаю его в...

Sherwin Chen / 05 февраля 2019

0 голосов

0 ответов

Почему мои средние и дисперсионные переменные повсюду в A2C?

Я потратил недели на то, чтобы заставить модель обучения подкрепления актера-критика работать в...

Sam Peterson / 05 февраля 2019

0 голосов

1 ответ

Лучшие практики для разведки / эксплуатации в обучении подкрепления

Мой вопрос следует за моим исследованием кода в учебнике по PyTorch DQN, но затем относится к...

Dark_Voyager / 04 февраля 2019

0 голосов

0 ответов

Ожидаемый тип 'int', вместо него получен 'ndarray [int]'

Я использую тренажерный зал Open AI и марио-код Кристиана Каутена, чтобы научить его играть самому

omnidevio / 04 февраля 2019

0 голосов

0 ответов

Усиленное обучение: почему точность обучения падает после возобновления обучения?

Я разработал небольшое упражнение для обучения.Проблема в том, что после возобновления тренировки...

user898160 / 31 января 2019

0 голосов

0 ответов

keras_rl DQN agent - все политики select_action () возвращают значение 0 или 1

Я пытаюсь настроить проект обучения с подкреплением, используя Gym & kears_rl. Описание: Учитывая...

Yaniv Sheffer / 30 января 2019

0 голосов

1 ответ

Используется ли текущая политика по умолчанию в базовых показателях A2C OpenAI?

В играх atari по умолчанию используется «периодическая политика» в A2C?Я обнаружил, что трудно...

Yunqiu Xu / 29 января 2019

0 голосов

1 ответ

Tensorflow DQN не может решить OpenAI Cartpole

Я изучал tenorflow и rl в течение нескольких месяцев, и в течение последних нескольких дней я...

Sam Peterson / 27 января 2019

0 голосов

0 ответов

DQN застрял на неоптимальной политике в задаче Atari Pong

Я нахожусь в процессе реализации модели DQN с нуля в PyTorch с целевой средой Atari Pong.После...

Mink / 25 января 2019

0 голосов

1 ответ

Как DQN работает в среде, где вознаграждение всегда равно -1

Учитывая, что среда OpenAI Gym MountainCar-v0 ВСЕГДА возвращает -1.0 в качестве награды (даже когда...

keith gould / 25 января 2019

0 голосов

0 ответов

Воспроизведение опыта: доступ к диску замедляется по мере роста базы данных

Я реализую и основываюсь на воспроизведении опыта на жестких дисках (Reinforcement Learning) в...

Kenzo / 22 января 2019

0 голосов

0 ответов

Расположение алгоритма градиента политики в python / grappler для размещения устройства в источнике Tensorflow?

Я перебираю эту статью: Оптимизация размещения устройства с обучением усилению , и я проверяю...

Andrew Nguyen Ashew / 19 января 2019

0 голосов

0 ответов

Критик никогда не сходится в A2C

Я пытаюсь реализовать A2C с Lasagne + Theano (Python), чтобы решить стандартные проблемы с...

Miguel A. Friginal / 18 января 2019

0 голосов

1 ответ

Несоответствия между tf.contrib.layer.fully_connected, tf.layers.dense, tf.contrib.slim.fully_connected, tf.keras.layers.Dense

Я пытаюсь реализовать градиент политики для проблемы контекстного бандита (https://medium

Alex Van de Kleut / 16 января 2019

0 голосов

0 ответов

Q-обучение для оптимального размещения заказа

Таким образом, последний поток, который я написал о Reinforcement Learning, был отмечен как слишком...

Sergio / 16 января 2019