Вопросы с тегом д-обучение

0 голосов

1 ответ

Обновление табличных значений в прямом эфире с Dash и Plotly

Я пытаюсь создать приложение на приборной панели в Python, чтобы имитировать проблему Q-Learning....

Pablo Ruiz Ruiz / 07 сентября 2018

0 голосов

1 ответ

Невозможно изучить MountainCar, используя Q-Learning с функцией приближения

Я пытаюсь реализовать приближение линейной функции для решения MountainCar с использованием...

ivallesp / 31 августа 2018

0 голосов

2 ответов

Глубокое подкрепление обучения - как бороться с границами в пространстве действий

Я создал пользовательское подкрепление обучения environment и agent, которое похоже на игру в...

Kevin Fang / 02 июля 2018

0 голосов

1 ответ

Глубокое обучение метод Replay Memory Vanishing

В алгоритме Q-learning, используемом в Reinforcement Learning с воспроизведением, можно...

codroneci / 27 июня 2018

0 голосов

1 ответ

человеческие следы данных для оценки подкрепления обучения агента, играющего Atari?

В недавних исследованиях по подкреплению знаний об играх Atari производительность агентов...

keisuke / 26 июня 2018

0 голосов

0 ответов

Усиленное обучение с функцией приближения и отслеживания соответствия

В настоящее время я думаю о создании TD (λ) для сети DQN.Я знаю, как реализовать, если это таблица...

Andy Wei / 12 июня 2018

0 голосов

2 ответов

Q-learning, как насчет выбора действия, которое на самом деле дает наибольшее вознаграждение?

Таким образом, в процессе обучения Q вы обновляете функцию Q следующим образом: Qnew (s, a) = Q (s,...

Andy Wei / 08 июня 2018

0 голосов

2 ответов

Уравнение Q-Learning в Deep Q Network

Я совсем новичок в обучении с подкреплением, поэтому могу ошибаться. Мои вопросы: Это уравнение...

anx199 / 29 мая 2018

0 голосов

3 ответов

В чем разница между подкрепляющим обучением, глубоким обучением и глубоким подкрепляющим обучением?

В чем разница между обучением с подкреплением, глубоким обучением и обучением с глубоким...

Miguel A. Friginal / 26 мая 2018

0 голосов

2 ответов

Почему и когда необходимо глубокое обучение с подкреплением вместо q-обучения?

Я изучал подкрепляющее обучение и понимаю концепции итерации «ценность / политика», TD (1) / TD (0)...

Davia DeNisco / 25 мая 2018

0 голосов

1 ответ

Q-learning R имеет нулевую длину

Я пытаюсь дополнить симулятор упрощенной игры в блэкджек, который вернет лучшую политику в каждом...

Lucien Ledune / 18 мая 2018

0 голосов

1 ответ

Как обучить нейронную сеть с помощью Q-Learning

Я только что внедрил Q-Learning без нейронных сетей, но я застрял в реализации их с помощью...

Finn Eggers / 17 мая 2018

0 голосов

1 ответ

создание моей многоагентной среды путем глубокого обучения

Я должен создать свою собственную среду и применить алгоритм dqn в многоагентной среде. У меня 4...

Sa Na / 08 мая 2018

0 голосов

1 ответ

В чем разница между методами градиента политики и нейросетевыми методами действия-ценности?

В чем разница между методами градиента политики и методами действия-ценности на основе нейронной...

Fcoder / 05 мая 2018

0 голосов

1 ответ

Как инвариантное вознаграждение помогает обучению?

Я новичок в машинном обучении и пытаюсь решить MountainCar-v0, используя Q-learning. Я могу решить...

Jiahao Cai / 30 апреля 2018

0 голосов

3 ответов

Зависимое от государства действие, установленное в обучении с подкреплением

Как люди справляются с проблемами, когда юридические действия в разных штатах различны?В моем...

Edmonds Karp / 25 апреля 2018

22 голосов

6 ответов

Как я могу применить усиленное обучение к пространствам непрерывных действий?

Я пытаюсь заставить агента учить движения мыши, необходимые для наилучшего выполнения какой-либо...

zergylord / 17 августа 2011

47 голосов

5 ответов

В чем разница между Q-learning и SARSA?

Хотя я знаю, что SARSA находится вне политики, в то время как Q-learning вне политики, при взгляде...

Ælex / 27 июля 2011

2 голосов

2 ответов

Как узнать функцию вознаграждения в процессе принятия решений Маркова

Как правильно обновить функцию R (s) во время Q-learning ?Например, скажем, агент посещает...

Cerin / 17 июля 2011