Я недавно закончил кодировать свою собственную игру PACMAN, используя pygame и python 2.7, и сейчас...
Ошибка при использовании автономного режима для DDPG. пользовательские измерения среды...
RAY - библиотека RLLIB - оценка модели DQN с использованием автономных данных пакета. Модель не в...
Я пытаюсь преобразовать свой тензор потока кода в тензор потока. Проблема состоит в том, что прямой...
Для моей дипломной работы в области компьютерных наук я реализовал алгоритм обучения подкреплению с...
В алгоритме итерации подходящего значения Эндрю Нга, который я подробно описал ниже, он попытается...
Я пытаюсь внедрить проксимальную оптимизацию политики и столкнулся с очень странной проблемой. Вот...
Я не могу понять следующие шаги для моей Deep Q Network. Я пытаюсь оптимизировать автобусные...
Я бы хотел построить автономный корабль в виртуальной среде с использованием DDPG . Однако проблема...
Мой вопрос связан не с реализацией обучения с подкреплением, а с пониманием концепции RL, когда...
Я обучил алгоритм на среде Carla, используя кластер Ray.Я хотел сделать вывод.Могу ли я знать, как...
Мне известен этот хитрый способ реализации градиента политики (см. Его для справки: Обучение...
В идеале я хочу использовать нейронную сеть, используя метод глубокого обучения.Однако я не хочу...
Я не могу обернуться вопросом: как именно отрицательные награды помогают машине избежать их?...
Представьте, что у меня проблема с динамическим ценообразованием, и я решаю эту проблему с помощью...
Я использую реализацию из: https://github
Я изучаю градиент политики через игру CartPole.Я получил две реализации, и обе работают хорошо
Я хочу обучить политике, которая зависит от времени.Например, я хотел бы знать цену продукта с...
Моя проблема заключается в следующем.У меня есть простой мир сетки: https://i.imgur.com/2QyetBg.png...
Я пытаюсь сделать так, чтобы компьютер выучил очень простую 2D игру-стрелялку с обучением...
Я кодировал очень простую среду для стрелялки, в которой 2 игрока (квадраты) стреляют друг в друга...
Итак, в моем задании мне нужно решить Mountain car, оптимизировав функцию значения состояния...
Существует обучение по подкреплению без какой-либо нейронной сети (например, Q-Learning), и есть...
У меня есть агент DQN, который обучен в определенной сети для выполнения задачи. Однако, когда я...
Я пытался решить среду OpenAI MountainCarContinuous-v0 некоторое время, но я застрял. Проведя...