Вопросы с тегом Усиление обучения

0 голосов

1 ответ

Python OpenAI Gym Monitor создает файлы JSON в каталоге записи

Я использую итерацию значения в среде CartPole-v0 и хотел бы записать видео действий агента в...

AKuro / 04 октября 2018

0 голосов

0 ответов

Google Dopamine

Я импортировал некоторые зависимости от дофамина и получил сообщение об ошибке: модуль DopamineKit...

Ayush Dhumal / 29 сентября 2018

0 голосов

1 ответ

Модель обучения обучения подкреплению - как сложить до 5

Я экспериментирую с изучением подкрепления на питоне с использованием Keras.Большинство доступных...

2D_ / 23 сентября 2018

0 голосов

0 ответов

Функция оценки ELI5 и политика softmax для градиента политики

H, я слежу за лекцией Дэвида Сильвера о градиентах политики , но у меня возникают проблемы с...

d56 / 22 сентября 2018

0 голосов

0 ответов

Как работает система поощрений в обучении с подкреплением?

Насколько мне известно, вся система вознаграждений зависит от функции потерь в нейронной сети,...

Andrei Li / 21 сентября 2018

0 голосов

1 ответ

Укрепление Инструменты обучения

В чем разница между Tensorforce, Kerasrl и chainerrl, используемыми для Обучение усилению ?...

Priyanka Srs / 11 сентября 2018

0 голосов

2 ответов

Онлайн обучение с Tensorflow

Моя проблема связана со сборкой системы рекомендаций. Я использую тензорный поток для обучения...

Ali Maan / 03 сентября 2018

0 голосов

3 ответов

Застрял в понимании разницы между обновлениями использования TD (0) и TD (λ)

Я изучаю разницу во времени, изучая этот пост . Здесь правило обновления TD (0) мне ясно, но в TD...

Kaushal28 / 02 сентября 2018

0 голосов

0 ответов

Усиление обучения, как настроить систему рекомендаций

Система рекомендаций работает в режиме реального времени. Он может предложить 3 продукта, скажем, x...

Geena / 06 июля 2018

0 голосов

0 ответов

Укрепление обучения для среды, на которую агент не может повлиять

Модель RL определяется как P^a_ss', пространство действия непрерывно. Чтобы агент знал, что...

Minh Triet / 05 июля 2018

0 голосов

1 ответ

Функция вознаграждения за политический градиент спуска в обучении подкрепления

В настоящее время я изучаю Политический градиентный спуск в контексте обучения усилению. TL; DR,...

Carsten / 29 июня 2018

0 голосов

2 ответов

Выберите вес действия из модели тензорного потока

У меня есть маленькая модель, используемая в контексте обучения с подкреплением. Я могу ввести 2-й...

Francois / 08 июня 2018

0 голосов

1 ответ

Q-Learning без сетки вознаграждений

Я работаю над проектом, в котором пытаюсь внедрить Q-learning в C # (в частности, в Unity).У меня...

user3631213 / 04 июня 2018

0 голосов

1 ответ

Как я могу использовать усиленное обучение для рекомендации продукта?

Возможно ли на основе взаимодействия с пользователем на сайте электронной коммерции разработать...

Meftaul / 26 мая 2018

0 голосов

0 ответов

Двойной маятник Сброс

У меня проблема с синхронизацией часов беседки и отметки времени после вызова службы «Сброс...

Alain Saad / 24 мая 2018

0 голосов

1 ответ

Понимание обучения подкреплению на примере игры 2048

Итак, я хочу научиться подкреплению, используя несколько примеров.Я написал игру 2048, но я не знаю...

michalrz / 21 мая 2018

0 голосов

2 ответов

что такое epsilon / k как это получилось в жадном алгоритме epsilon

Как было сказано, он выберет руку, имеющую наивысшее эмпирическое среднее значение с вероятностью...

satoshi N / 19 мая 2018

0 голосов

1 ответ

Как это называется, когда действие не влияет на состояние в обучении подкреплению?

В обучении с подкреплением есть ли название для алгоритмов, в которых предпринятые действия не...

nick ellul / 19 мая 2018

0 голосов

0 ответов

Агент обучения подкрепления выводит одно значение в пространстве непрерывного действия

Я пытаюсь заставить агента PPO освоить простую среду, состоящую из необходимости балансировать...

Mounsif Mehdi / 18 мая 2018

0 голосов

3 ответов

SARSA в обучении укреплению

Я сталкиваюсь с алгоритмом SARSA в обучении подкрепления без модели.В частности, в каждом состоянии...

wrek / 16 мая 2018

0 голосов

1 ответ

Использование данных обучения для обучения другой модели

Я работаю над проектом NIPS 2017 Learning to Run.У меня ограниченное время, и мне нужно попробовать...

Kemal BEKTAŞ / 14 мая 2018

0 голосов

1 ответ

обучение с подкреплением: работа с не поддающейся количественной оценке системой обратной связи

Я пытаюсь написать алгоритм обучения с подкреплением, который для простоты будет предсказывать...

Faiz Halde / 12 мая 2018

0 голосов

1 ответ

Способы использования политики, изученной в обучении подкрепления

Я хотел бы перепроверить свое понимание обучения подкреплению. Насколько легко / сложно или...

alfa_80 / 11 мая 2018

0 голосов

1 ответ

Перевернутый маятник: на основе модели или без модели?

Это мой первый пост здесь, и я пришел сюда, чтобы обсудить или получить разъяснения о том, что мне...

JohanL / 02 мая 2018

0 голосов

1 ответ

Как применять модели глубокого подкрепления обучения, когда доступ к реальной среде затруднен?

Обучение глубокому подкреплению может быть очень полезным при применении его к реальным задачам,...

Shamane Siriwardhana / 24 апреля 2018