Вопросы с тегом д-обучения

0 голосов

0 ответов

Учебные материалы по усилению для получения награды после выхода из многокомнатной игры

Lily Su / 28 апреля 2020

0 голосов

0 ответов

Выполнение OpenAI Gym LunarLander значительно замедлилось по неизвестной причине

Max Michel / 22 апреля 2020

0 голосов

0 ответов

Как loss.backward () работает для пакетов?

spadel / 16 апреля 2020

0 голосов

0 ответов

Как работает Монте-Карло «Изучение старта»?

BG10 / 15 апреля 2020

0 голосов

1 ответ

Q-значения становятся слишком высокими, значения становятся NaN, Q-Learning Tensorflow

Lukas Nießen / 09 апреля 2020

1 голос

1 ответ

Создать специфицированный c тензор из другого тензорного

jgauth / 29 марта 2020

4 голосов

0 ответов

Почему мой агент всегда выполняет одно и то же действие в DQN - Укрепление

Я обучил агента RL, используя алгоритм DQN. После 20000 эпизодов мои награды сходятся. Теперь,...

cvg / 09 октября 2019

0 голосов

0 ответов

Вне политики MC Control Q (s, a) только равен -1, пример Racecar

В свободное время я изучаю «Обучение усилению» через книгу «Введение в обучение усилению - второе...

Adam Olsson / 04 октября 2019

0 голосов

0 ответов

tf.train.AdamOptimizer (). minimal () проблема

Ситуация: Я использую q-learning, и в обновлении значений Q есть что-то, чего я не понимаю: у меня...

Xeyes / 30 апреля 2019

0 голосов

1 ответ

Как вставить R-таблицу из (15, 15) в (255 состояний, 4 действия)

Я настраиваю R-таблицу с (255 состояний, 4 действия).Как мне ввести его из R-таблицы (15, 15)? Я...

user109442 / 28 апреля 2019

1 голос

1 ответ

Алгоритм разделения трехмерных поверхностей

Фон У меня есть 3D-сцена, и я хочу дискретизировать ее пространство так, чтобы каждая координата (x...

maurocomi / 16 апреля 2019

1 голос

2 ответов

Построить матрицу доступных действий для Q-Learning

Я моделирую систему управления запасами для розничного магазина; следовательно, у меня есть (15,15)...

Alessandro Ceccarelli / 19 марта 2019

0 голосов

2 ответов

Как реализовать Q-learning, чтобы приблизить оптимальное управление?

Я заинтересован во внедрении Q-обучения (или некоторой формы обучения с подкреплением), чтобы найти...

tooty44 / 09 сентября 2018

0 голосов

1 ответ

Является ли метод поиска по методу Монте-Карло или итерация значения (или что-то еще)?

Я беру урок Reinforcement Learning, и я не понимал, как совместить концепции итерации / итерации...

Johan / 07 мая 2018