Вопросы с тегом армирование-обучение

0 голосов

1 ответ

RL Environment - OpenAI Gym Taxi-v2 против Такси-v3

u2gilles / 31 января 2020

0 голосов

0 ответов

Определить функцию потерь episodi c dqn памяти в Керасе

Mika / 30 января 2020

0 голосов

0 ответов

Как сэмплировать логиты и вероятности из модели трансформатора seq2seq для обучения с подкреплением?

Andrei Ungureanu / 29 января 2020

0 голосов

1 ответ

Вектор Env с пользовательской моделью

Makis Kans / 28 января 2020

0 голосов

1 ответ

Каков пример непрерывного пространства состояний и непрерывного пространства действий в обучении подкреплению с математической нотацией?

keshav thosar / 28 января 2020

0 голосов

1 ответ

Расчет градиента в A2C

Jon / 28 января 2020

0 голосов

1 ответ

Обновление актера DDPG (Tensroflow 2)

Roberto Aureli / 23 января 2020

0 голосов

0 ответов

TFLite для микроконтроллеров: проблемы компиляции для операторов на голое железо

David Wright / 22 января 2020

0 голосов

1 ответ

Что означает добавление указанного значения c к «None +» в заполнителе тензорного потока?

Raghu Ram / 22 января 2020

0 голосов

1 ответ

DOUBLE DQN не имеет никакого смысла

F0urAt / 21 января 2020

0 голосов

0 ответов

Актер Крити c пример из серебра в python коде

Mat / 21 января 2020

0 голосов

0 ответов

Как генерировать последовательности, используя Q-Learning?

nar-007 / 21 января 2020

0 голосов

2 ответов

Сеть LSTM для космических захватчиков RL (Keras)

JaimeRomero / 20 января 2020

0 голосов

0 ответов

Шипы в бревнах Tensorboard - стабильные базовые показатели PPO2

Simone Salvucci / 18 января 2020

0 голосов

1 ответ

Действительно ли ограничение градиента PPO предотвращает превышение r (θ) на 1 ± эпсилон?

Leonardo Barazza / 16 января 2020

0 голосов

1 ответ

Существует ли какая-либо реализация интерфейса, совместимая с OpenAI Gym, для пространств непрерывных действий?

r.suwa / 13 января 2020

1 голос

2 ответов

Критерии конвергенции в Q-Learning

drtamakloe / 13 января 2020

10 голосов

1 ответ

Ошибка типа: len не определено для символов c Тензор. (Activation_3 / Identity: 0) Пожалуйста, вызовите `x.shape` вместо` len (x) `для информации о форме

vivekpadia70 / 10 января 2020

0 голосов

1 ответ

Что делает запись self (x)?

Full.Of.Life / 09 января 2020

0 голосов

0 ответов

Как я должен смоделировать время ожидания повторной передачи TCP (RTO) как проблему обучения с подкреплением или контекстную проблему бандита?

Я хочу смоделировать TCP RTO как контекстную проблему бандита;если это невозможно, то проблема...

Hunnam / 11 ноября 2019

0 голосов

0 ответов

Обучение усилению, когда действие не определено в ранее обновленном состоянии

В настоящее время я работаю над проблемой, в которой я последовательно выполняю действия для разных...

Robberto / 08 ноября 2019

0 голосов

0 ответов

Как создать пользовательскую среду для масштабирования облака VM? с использованием Openai тренажерный зал

Я новичок в изучении подкрепления. Я хочу создать собственную облачную среду, используя тренажерный...

ramu / 06 ноября 2019

0 голосов

0 ответов

Почему выходной слой сигмоидной функции получает значение 0 или 1 {0,1} вместо получения значения в [0,1]

Я реализую глубокий детерминированный градиент политики (DDPG), чтобы решить мою проблему, следуя...

kivegun / 06 ноября 2019

0 голосов

1 ответ

Почему keras SGD не оптимизируется должным образом?

Я занимаюсь разработкой обучающего агента для подкрепления. У меня уже есть структура и алгоритм. В...

Juan David / 04 ноября 2019

0 голосов

0 ответов

Оценка Atari против награды в реализации RQLIB DQN

Я пытаюсь повторить оценки DQN для Breakout, используя RLLib. После 5M шагов среднее вознаграждение...

Shital Shah / 03 ноября 2019