Вопросы с тегом Усиление обучения

0 голосов

0 ответов

Как представлять состояния в числовом представлении для обучения подкреплению.(Создать Q-таблицу)

Я работаю над алгоритмом Q-обучения, где мне нужно создать формулу для создания собственного цвета...

Timothy Rajan / 03 января 2019

0 голосов

0 ответов

Ошибка в критической модели актера: ValueError: Denso имеет 2 измерения, но получил массив с shape ()

В целях обучения я скопировал скрипт из github.При использовании задач маятника из Open AI Gym...

Ralf Sürig / 31 декабря 2018

0 голосов

0 ответов

Как алгоритм софт-актер-критик справляется с градиентом политики?

Итак, я читал газету софт-критики https://arxiv.org/pdf/1801.01290.pdf Актер использует...

Hubert Zhou / 20 декабря 2018

0 голосов

2 ответов

Мини-партии в РЛ

Я только что прочитал статью Mnih (2013) , и мне было действительно интересно, что он говорит об...

Vallout / 20 декабря 2018

0 голосов

0 ответов

Сигмоид Tensorflow продолжает насыщаться

поэтому у меня есть такой дизайн среды и вознаграждения, который я специально разработал, чтобы он...

Miguel A. Friginal / 15 декабря 2018

0 голосов

0 ответов

расчет полезности в процессе декомпозиции Маркова

Я читаю о функциях полезности в книге «Искусственный интеллект» Стюарта Рассела и Питера Норвига.В...

venkysmarty / 14 декабря 2018

0 голосов

0 ответов

Поиск алгоритма RL для конкретной задачи

У меня есть агент, который должен реагировать на различные вводимые мной данные.Пусть 'A-> B'...

user9007131 / 08 декабря 2018

0 голосов

0 ответов

В DQN прогнозируемое значение является отрицательным

В коде обучения DQN прогнозируемое значение имеет отрицательное значение, и обучение не может быть...

장예훈 / 06 декабря 2018

0 голосов

0 ответов

Q-обучение с опытом воспроизведения, а не обучения

Я пытаюсь реализовать опыт воспроизведения (ER) в среде OpenAI taxi-v2.Предполагается, что...

BlueKryptonite / 04 декабря 2018

0 голосов

1 ответ

Состояние инициализации в DQN

Я инициализирую состояние своего окружения с некоторым значением s'.Также я заново...

Siddhant Tandon / 22 ноября 2018

0 голосов

0 ответов

подкрепление обучения, когда есть более одного решения, чтобы учиться

Есть ли работа по изучению более одного решения в обучении с подкреплением?Например, фирма может...

Tracy Yang / 22 ноября 2018

0 голосов

0 ответов

Награды, нормализующие в обучении подкрепления

У меня есть 20 копий среды , которая получает вознаграждение 0,1 при достижении цели и 0 в...

sachinruk / 21 ноября 2018

0 голосов

0 ответов

Установка скорости обучения в качестве отрицательного числа для неправильных случаев поезда

Я смотрел видео, которое немного рассказывает об обучении подкреплению, и я узнал, что если робот...

Faruk Nane / 19 ноября 2018

0 голосов

0 ответов

Вероятность вознаграждения с учетом изменений состояния во время отбора проб Томпсона

Например, в многорукий бандит: Допустим, алгоритм уже нашел лучшую машину. Что произойдет, если...

Kevin / 14 ноября 2018

0 голосов

3 ответов

Усиленное обучение или контролируемое обучение?

Если в имитируемой среде необходимо много итераций, прежде чем алгоритм обучения с подкреплением...

Ali / 14 ноября 2018

0 голосов

0 ответов

Построение кривой вознаграждения в обучении подкреплению

Мне интересно, как построить кривые вознаграждения в обучении подкреплению. Особенно, в моей...

WKIm / 13 ноября 2018

0 голосов

1 ответ

почему актер критик от политики

Я новичок в изучении подкрепления и застрял в актерском критике. Что я понял о методе критики...

jin / 12 ноября 2018

0 голосов

1 ответ

При использовании функциональной аппроксимации в обучении с подкреплением как выбрать действия?

На этом слайде показано уравнение для Q (состояние, действие) в терминах набора весов и функций. Я...

RussAbbott / 31 октября 2018

0 голосов

1 ответ

Как оформить вознаграждение за действие, которое является единственным законным действием в каком-либо штате

Я работаю над проектом RL, но застрял в одной точке: задача непрерывная (неэпизодическая).Следуя...

kz28 / 29 октября 2018

0 голосов

0 ответов

Внеполитический актер-критик: Каково обоснование зависимости целевой функции от распределения состояния поведенческой политики?

In Degris et al.(2012) paper Критик-актор вне политики , целевая функция Jb определена как функция...

jaromiru / 19 октября 2018

0 голосов

1 ответ

игра по мини-гольфу

Я пытаюсь использовать алгоритм обучения с подкреплением, чтобы играть в простую игру в мини-гольф....

Kalum Dushantha / 18 октября 2018

0 голосов

1 ответ

Перенос Дискретного действия в Непрерывное действие в Укреплении

В обучении с подкреплением мы эмпирически знаем, что с помощью дискретных действий легче обучаться,...

Steven / 16 октября 2018

0 голосов

0 ответов

Первый визит против каждого визита Монте-Карло

Я недавно изучал изучение подкрепления.Для этого я читал знаменитую книгу Саттона, но есть кое-что,...

Djazouli / 16 октября 2018

0 голосов

1 ответ

Алгоритм трассировки прав, порядок обновления

Я читаю Silver et al (2012) "Поиск временных различий в компьютере Go" и пытаюсь понять порядок...

Kota Mori / 15 октября 2018

0 голосов

2 ответов

Применимо ли обучение подкреплению к СЛУЧАЙНОЙ среде?

У меня есть фундаментальный вопрос о применимости обучения с подкреплением (RL) к проблеме, которую...

RajeshS / 10 октября 2018