Пока я внедрял агентов для решения различных проблем ... Я видел, что потери моего актера снижаются...
Можно ли использовать «обучение с подкреплением» или цикл обратной связи на контролируемой модели?...
Здравствуйте, сообщество StackOverflow! У меня возник вопрос по поводу алгоритмов прогнозирования и...
Для конкретных бизнес-правил, применимых к моей проблеме: У меня есть инструмент программного...
У меня есть алгоритм RL, в котором я использую LSTM и свертки. Он основан на двойном обучении....
Как работает приведенный ниже расчет?
Мой вопрос: Можем ли мы внедрить онлайн-обучение по подкреплению в облаке? Я имею в виду, например,...
Я занимаюсь проектом, который автоматически контролирует набор включений и выключений чиллеров и...
Я читаю книгу «ИИ для разработчиков игр» Гленна Симанна и Дэвида М. Бурга, где они используют ИИ...
Я очень плохо знаком с машинным обучением.Я нашел этот пример на Github: Код Я реализовал функцию...
У меня проблемы с алгоритмом REINFORCE в керасе с играми Atari.После раунда около 30 эпизодов сеть...
Мне интересно, почему Оптимизация Политики Трастового Региона является алгоритмом On-policy? По...
Я уже некоторое время использую OpenAI Retro, и я хотел поэкспериментировать с играми для двух...
Я играю с созданием самостоятельной машины в компьютерную игру.Я думал об использовании обучения с...
Задача Моя цель - применить Reinforcement Learning для прогнозирования следующего состояния объекта...
Есть ли способ выполнить итерацию по каждому состоянию, заставить среду перейти в это состояние, а...
У меня проблема с результатами, полученными при выполнении итерации значений, с числами, растущими...
Я пытался понять, почему теорема улучшения политики может применяться к эпсилон-жадной политике....
Допустим, у нас есть бот, у которого есть немного денег и несколько акций.Вводится список цен за...
Я беру урок Reinforcement Learning, и я не понимал, как совместить концепции итерации / итерации...
Я пытаюсь реализовать сетевой агент политики для игры 2048 согласно учебнику Карпати RL . Я знаю,...
Я новичок в области обучения подкреплению и пытался реализовать DQN для решения задачи CartPole-v0...
Лунный аппарат на DQlearning работает не очень хорошо, поэтому я стараюсь улучшить...
Как использовать деревья MinMax с Q-Learning? Я хочу реализовать агент Q-Learning connect 4 и...
У меня проблемы с пониманием алгоритма SARSA: http://en.wikipedia.org/wiki/SARSA В частности, при...