Я работаю над алгоритмом Q-обучения, где мне нужно создать формулу для создания собственного цвета...
В целях обучения я скопировал скрипт из github.При использовании задач маятника из Open AI Gym...
Итак, я читал газету софт-критики https://arxiv.org/pdf/1801.01290.pdf Актер использует...
Я только что прочитал статью Mnih (2013) , и мне было действительно интересно, что он говорит об...
поэтому у меня есть такой дизайн среды и вознаграждения, который я специально разработал, чтобы он...
Я читаю о функциях полезности в книге «Искусственный интеллект» Стюарта Рассела и Питера Норвига.В...
У меня есть агент, который должен реагировать на различные вводимые мной данные.Пусть 'A-> B'...
В коде обучения DQN прогнозируемое значение имеет отрицательное значение, и обучение не может быть...
Я пытаюсь реализовать опыт воспроизведения (ER) в среде OpenAI taxi-v2.Предполагается, что...
Я инициализирую состояние своего окружения с некоторым значением s'.Также я заново...
Есть ли работа по изучению более одного решения в обучении с подкреплением?Например, фирма может...
У меня есть 20 копий среды , которая получает вознаграждение 0,1 при достижении цели и 0 в...
Я смотрел видео, которое немного рассказывает об обучении подкреплению, и я узнал, что если робот...
Например, в многорукий бандит: Допустим, алгоритм уже нашел лучшую машину. Что произойдет, если...
Если в имитируемой среде необходимо много итераций, прежде чем алгоритм обучения с подкреплением...
Мне интересно, как построить кривые вознаграждения в обучении подкреплению. Особенно, в моей...
Я новичок в изучении подкрепления и застрял в актерском критике. Что я понял о методе критики...
На этом слайде показано уравнение для Q (состояние, действие) в терминах набора весов и функций. Я...
Я работаю над проектом RL, но застрял в одной точке: задача непрерывная (неэпизодическая).Следуя...
In Degris et al.(2012) paper Критик-актор вне политики , целевая функция Jb определена как функция...
Я пытаюсь использовать алгоритм обучения с подкреплением, чтобы играть в простую игру в мини-гольф....
В обучении с подкреплением мы эмпирически знаем, что с помощью дискретных действий легче обучаться,...
Я недавно изучал изучение подкрепления.Для этого я читал знаменитую книгу Саттона, но есть кое-что,...
Я читаю Silver et al (2012) "Поиск временных различий в компьютере Go" и пытаюсь понять порядок...
У меня есть фундаментальный вопрос о применимости обучения с подкреплением (RL) к проблеме, которую...