Вопросы с тегом Усиление обучения - PullRequest

Вопросы с тегом Усиление обучения

0 голосов
0 ответов

Я работаю над алгоритмом Q-обучения, где мне нужно создать формулу для создания собственного цвета...

Timothy Rajan / 03 января 2019
0 голосов
0 ответов

В целях обучения я скопировал скрипт из github.При использовании задач маятника из Open AI Gym...

Ralf Sürig / 31 декабря 2018
0 голосов
0 ответов

Итак, я читал газету софт-критики https://arxiv.org/pdf/1801.01290.pdf Актер использует...

Hubert Zhou / 20 декабря 2018
0 голосов
2 ответов

Я только что прочитал статью Mnih (2013) , и мне было действительно интересно, что он говорит об...

Vallout / 20 декабря 2018
0 голосов
0 ответов

поэтому у меня есть такой дизайн среды и вознаграждения, который я специально разработал, чтобы он...

Miguel A. Friginal / 15 декабря 2018
0 голосов
0 ответов

Я читаю о функциях полезности в книге «Искусственный интеллект» Стюарта Рассела и Питера Норвига.В...

venkysmarty / 14 декабря 2018
0 голосов
0 ответов

У меня есть агент, который должен реагировать на различные вводимые мной данные.Пусть 'A-> B'...

user9007131 / 08 декабря 2018
0 голосов
0 ответов

В коде обучения DQN прогнозируемое значение имеет отрицательное значение, и обучение не может быть...

장예훈 / 06 декабря 2018
0 голосов
0 ответов

Я пытаюсь реализовать опыт воспроизведения (ER) в среде OpenAI taxi-v2.Предполагается, что...

BlueKryptonite / 04 декабря 2018
0 голосов
1 ответ

Я инициализирую состояние своего окружения с некоторым значением s'.Также я заново...

Siddhant Tandon / 22 ноября 2018
0 голосов
0 ответов

Есть ли работа по изучению более одного решения в обучении с подкреплением?Например, фирма может...

Tracy Yang / 22 ноября 2018
0 голосов
0 ответов

У меня есть 20 копий среды , которая получает вознаграждение 0,1 при достижении цели и 0 в...

sachinruk / 21 ноября 2018
0 голосов
0 ответов

Я смотрел видео, которое немного рассказывает об обучении подкреплению, и я узнал, что если робот...

Faruk Nane / 19 ноября 2018
0 голосов
0 ответов

Например, в многорукий бандит: Допустим, алгоритм уже нашел лучшую машину. Что произойдет, если...

Kevin / 14 ноября 2018
0 голосов
3 ответов

Если в имитируемой среде необходимо много итераций, прежде чем алгоритм обучения с подкреплением...

Ali / 14 ноября 2018
0 голосов
0 ответов

Мне интересно, как построить кривые вознаграждения в обучении подкреплению. Особенно, в моей...

WKIm / 13 ноября 2018
0 голосов
1 ответ

Я новичок в изучении подкрепления и застрял в актерском критике. Что я понял о методе критики...

jin / 12 ноября 2018
0 голосов
1 ответ

На этом слайде показано уравнение для Q (состояние, действие) в терминах набора весов и функций. Я...

RussAbbott / 31 октября 2018
0 голосов
1 ответ

Я работаю над проектом RL, но застрял в одной точке: задача непрерывная (неэпизодическая).Следуя...

kz28 / 29 октября 2018
0 голосов
0 ответов
0 голосов
1 ответ

Я пытаюсь использовать алгоритм обучения с подкреплением, чтобы играть в простую игру в мини-гольф....

Kalum Dushantha / 18 октября 2018
0 голосов
1 ответ

В обучении с подкреплением мы эмпирически знаем, что с помощью дискретных действий легче обучаться,...

Steven / 16 октября 2018
0 голосов
0 ответов

Я недавно изучал изучение подкрепления.Для этого я читал знаменитую книгу Саттона, но есть кое-что,...

Djazouli / 16 октября 2018
0 голосов
1 ответ

Я читаю Silver et al (2012) "Поиск временных различий в компьютере Go" и пытаюсь понять порядок...

Kota Mori / 15 октября 2018
0 голосов
2 ответов

У меня есть фундаментальный вопрос о применимости обучения с подкреплением (RL) к проблеме, которую...

RajeshS / 10 октября 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...