Вопросы с тегом армирование-обучение

0 голосов

0 ответов

Обучение усилению градиента политики: Как удалить элемент из образца действия?

Shad Dimitri / 09 марта 2020

0 голосов

0 ответов

как справляться с несколькими действиями, предпринимаемыми на каждом этапе, дающем только одно вознаграждение в обучении для усиления градиента политики

Shad Dimitri / 08 марта 2020

1 голос

1 ответ

Максимальные значения Q в практическом сценарии?

neel g / 06 марта 2020

1 голос

0 ответов

Оценка параметров с использованием обучения с подкреплением

Himanshu / 04 марта 2020

0 голосов

1 ответ

Внедрение A3 C на TensorFlow 2

jh1783 / 03 марта 2020

0 голосов

2 ответов

Ошибка типа: __init __ () отсутствует 1 обязательный позиционный аргумент: «единицы» при использовании класса NoisyDense

Raj Shah / 03 марта 2020

1 голос

1 ответ

Реализация дуэли DQN на TensorFlow 2.0

jh1783 / 28 февраля 2020

1 голос

0 ответов

Вызовите Model.fit с тензорами / Выполнение операции на ЦП, а не ЦП / Tensorflow 2.1

NicMaq / 23 февраля 2020

0 голосов

0 ответов

Почему мой 2d автомобиль придерживается того же действия после обучения?

Martin Krybus / 23 февраля 2020

0 голосов

0 ответов

Не удается установить пользовательские среды OpenAI GYM

Pablo Barros / 21 февраля 2020

3 голосов

1 ответ

Версии уравнения Беллмана

bluekaterpillar / 21 февраля 2020

1 голос

0 ответов

Q-Learning алгоритм генерации наград

Petur Ulev / 18 февраля 2020

2 голосов

1 ответ

Gym's box 2d (openAI) не устанавливается успешно (ошибка в pip)

jed1 / 17 февраля 2020

0 голосов

0 ответов

В примере Tensorflow JS Snake-DQN почему обновляемый оптимизатор вообще не связан с сетевой сетью, как это предлагается?

mrpetem / 16 февраля 2020

0 голосов

0 ответов

Что означает мульти-бинарные действия в Gym Retro Airstriker-Genesis?

Medhavi Monish / 16 февраля 2020

0 голосов

0 ответов

Двойное Q-обучение сразу после переключения возвращается к Q-learning

Feng Liu / 13 февраля 2020

0 голосов

0 ответов

Каков правильный подход к сохранению состояния в DQN-HER данных временных рядов для CNN?

mrpetem / 12 февраля 2020

4 голосов

1 ответ

Обновление альфа- и бета-параметров для бета-дистрибуции с большим количеством отзывов

Raman Bhatia / 12 февраля 2020

0 голосов

0 ответов

NotFoundError: Создание серверной функции keras для оптимизации функции

Кирилл Усенко / 10 февраля 2020

0 голосов

0 ответов

Реализация Deep Deterministi c градиента политики с использованием Keras & Tensorflow 2

ASH / 10 февраля 2020

0 голосов

0 ответов

Политический градиент вознаграждений до go и обратное распространение тензорного потока

sg1 / 09 февраля 2020

0 голосов

0 ответов

tf_agents: conv_layer_params и правильная размерность

Luke Polson / 07 февраля 2020

0 голосов

0 ответов

Happy / 03 февраля 2020

0 голосов

1 ответ

Стабильные базовые показатели сохраняют модель PPO и переподготовку

Visgean Skeloru / 02 февраля 2020

3 голосов

1 ответ

Связь между оптимальным уравнением Беллмана и Q-обучением

HSKim / 02 февраля 2020