Вопросы с тегом усиление обучения

0 голосов

0 ответов

Усиление обучения: как бороться с изменениями состояния окружающей среды из-за внешних факторов

У меня есть случай использования, когда состояние среды может меняться из-за случайных событий...

Francis Chang / 26 сентября 2019

0 голосов

0 ответов

Почему DDPG / TD3 извлекает выгоду из старых данных, а PPO - нет

У меня есть вопрос более общего характера, касающийся обучения глубокому подкреплению.Я всегда...

GFarmer / 25 сентября 2019

0 голосов

0 ответов

Применение AI для определения параметров, которые оптимизируют функцию путем итерации

Я новичок в машинном обучении и хочу внедрить его в один из моих проектов, чтобы сделать его...

Marc Schwambach / 23 сентября 2019

0 голосов

0 ответов

почему политика градиента политики использует функцию Q в обучении подкреплению?

Введение алгоритма градиентов политики утверждает, что алгоритмы политики лучше, потому что он...

swapnil / 20 сентября 2019

0 голосов

0 ответов

Когда агент учится в наборе инструментов обучения укреплению Matalb?

В настоящее время я тестирую набор инструментов для обучения усилению в Matlab R2019a.Пока все...

Viktor Katzy / 19 сентября 2019

0 голосов

1 ответ

Расходящиеся потери в PPO + ICM с использованием LSTM

Я пытался внедрить Proximal Policy Optimization с помощью награды за внутреннее любопытство для...

Tomas Trdla / 12 июля 2019

1 голос

0 ответов

Пользовательская среда Gym для обработки пошаговых функций с DDPG Agent

Я новичок в обучении подкреплению, и я хотел бы обработать аудиосигнал, используя эту технику.Я...

Post. T. / 08 июля 2019

0 голосов

0 ответов

Укрепление с непрерывным расхождением действий

Я пытаюсь реализовать алгоритм REINFORCE для пространства непрерывного действия. Я создал игрушку,...

asdf4567 / 08 июля 2019

1 голос

2 ответов

Разница между средами OpenAI Gym «CartPole-v0» и «CartPole-v1»

Я не могу найти точное описание различий между средами OpenAI Gym 'CartPole-v0' и 'CartPole-v1'....

PaulOnStackoverflow / 05 июля 2019

1 голос

0 ответов

Работа с большим и переменным пространством действия

Я пытаюсь реализовать простой алгоритм q-обучения.Для каждого состояния у меня есть функция,...

EArwa / 05 июля 2019

0 голосов

0 ответов

как придумать подход глубокого обучения Q для предложения подходящего временного интервала для выполнения конкретной деятельности

Я хочу придумать модель глубокого обучения Q, чтобы предложить наиболее подходящий временной...

sachi / 05 июля 2019

0 голосов

0 ответов

Детерминированная среда - градиент политики

У меня есть сомнения относительно алгоритма градиента политики (PG) в RL. Я пытаюсь реализовать...

Alex Gomes / 04 июля 2019

1 голос

1 ответ

Преимущество и недостатки использования Actor Critic над DDQN

Я новичок в изучении подкрепления, и я прочитал об этих двух алгоритмах Actor Critic и DDQN. Я...

Shrawan / 03 июля 2019

1 голос

1 ответ

Градиент политики потерь - обучение по усилению

Я обучаю свою сеть, используя градиент политики и определяя потери как: self.loss = -tf

Alex Gomes / 03 июля 2019

0 голосов

0 ответов

вопросы по DPG

В блоге Лилиана Вена в DPG: Это может выглядеть странно - как рассчитать градиент функции политики...

AgnosticCucumber / 03 июля 2019

0 голосов

0 ответов

Как перейти от пошаговой функции к плоскому сигналу с помощью Gym Open AI с помощью обучения с подкреплением

Узнав об обучении подкреплению самостоятельно, в эти дни я пытаюсь взять себя в руки в Тренажерном...

Post. T. / 01 июля 2019

0 голосов

0 ответов

Как разработать непрерывную функцию вознаграждения для глубокого обучения подкреплению

Не могли бы вы помочь мне решить эту проблему: Насколько нам известно, функция вознаграждения...

Wotchin / 29 июня 2019

0 голосов

0 ответов

DQN с тензорным потоком: ошибка: попытка использовать переменную eval_net / e1 / kernel, но указанную форму (1, 20) и найденную форму (4, 20)

Я пытаюсь написать DQN на Python, используя тензор потока. Чтобы использовать графический процессор...

Verena / 27 июня 2019

0 голосов

1 ответ

Могу ли я использовать подкрепление обучения в tenorflowjs?

В данный момент я работаю над проектом, в котором для создания нейронной сети, которая будет...

Louis Aldous / 26 июня 2019

1 голос

1 ответ

Q-функция против функции-значения

Является ли Q функция синонимом функция-значение ?Я вижу, что он используется взаимозаменяемо, а...

AgnosticCucumber / 17 июня 2019

0 голосов

0 ответов

RuntimeError: Попытка использовать закрытый сеанс.в тензорсоре, восстанови модель

runner.run(episodes=episodes,max_episode_timesteps=200,episode_finished=episode_finished) agent

Monhanmod Khan / 14 июня 2019

0 голосов

1 ответ

Как мы оцениваем каждое вознаграждение за возврат в методах градиента политики?

Сообщество Hi StackOverflow, У меня проблема с методами градиента политики в обучении с...

dummyHead / 10 июня 2019

0 голосов

0 ответов

Почему соединения в роботизированной среде можно вращать только в одном направлении?

Я исследовал множество роботизированных сред, разработанных в тренажерном зале OpenAI. https://gym

KT 2713 / 10 июня 2019

0 голосов

1 ответ

Как глубоко посчитать вычисления Q для игр Atari?

Мы знаем, что q-learning нужны тонны вычислений: Огромное количество состояний в расчете q-обучения...

Mark / 10 июня 2019

0 голосов

0 ответов

Алгоритм RL MAB с разными значениями вознаграждений?

Я пытаюсь решить проект, используя алгоритм RL, в частности, я хочу использовать e-жадность и UBC....

dnobl / 07 июня 2019