Вопросы с тегом армирование-обучения

0 голосов

0 ответов

Как проверить правильность обучения env?

maddy23 / 02 мая 2020

0 голосов

0 ответов

Какие существующие рамки существуют для автоматической навигации по координатам?

thisguy123 / 08 апреля 2020

0 голосов

1 ответ

Время эффективный способ реализации Multi-Armed-Bandits?

D. B. / 23 марта 2020

1 голос

1 ответ

Модель Keras: ошибка измерения формы ввода для агента RL

maxwell_1992 / 19 марта 2020

0 голосов

0 ответов

Не знаете, как приступить к созданию состояния наблюдения из данных, которые у меня есть для Deep Q Learning in Gym

Tayyab Hussain / 18 февраля 2020

1 голос

1 ответ

Может ли кто-нибудь объяснить частично наблюдаемый марковский процесс принятия решений (POMDP) примером?

vaibhav / 12 февраля 2020

0 голосов

1 ответ

Усиление обучения: Actor-Criti c всегда лучше, чем метод градиента политики?

Eddous / 10 февраля 2020

1 голос

1 ответ

Каковы состояния и награды в матрице наград?

blue-sky / 09 февраля 2020

0 голосов

0 ответов

Глубокое усиленное обучение для обучения конфигурации с задержкой по времени

clotodex / 23 января 2020

0 голосов

0 ответов

Агент ЛР не предпринимает правильных действий, даже если есть возможность предпринять лучшие действия

cvg / 21 января 2020

1 голос

0 ответов

AlphaZero: какие узлы посещали во время самостоятельной игры?

Jonas De Schouwer / 11 января 2020

0 голосов

0 ответов

Как создать плотное вознаграждение в задаче RL? Какие-нибудь примеры, где это вообще невозможно?

Учитывая, например, проблему с RL, робот поднимает объект. Как мы должны создавать плотные награды....

Ankit Samal / 11 ноября 2019

0 голосов

1 ответ

Как вы оцениваете обученного агента по подкреплению, обучен он или нет?

Я новичок в обучении для подкрепления. Я прочитал об алгоритме PPO и использовал стабильную базовую...

cvg / 30 октября 2019

0 голосов

1 ответ

Шаг установки в Deep Q Network

Меня смущает, почему dqn с алгоритмом воспроизведения опыта будет выполнять шаг градиентного спуска...

Mika / 29 октября 2019

4 голосов

0 ответов

Почему мой агент всегда выполняет одно и то же действие в DQN - Укрепление

Я обучил агента RL, используя алгоритм DQN. После 20000 эпизодов мои награды сходятся. Теперь,...

cvg / 09 октября 2019