У меня есть вопрос о моем случае в теме обучения с подкреплением. Я хочу измерить принятие цены...
Программа имеет ошибку сегментации при использовании последовательной модели keras, по крайней мере...
Я потратил несколько недель, пытаясь написать код Tensorflow уровня Python, который мог бы напрямую...
Я пытаюсь создать простой обучающий агент для подкрепления, который получает награду из внешнего...
Справочная информация: я использую DQN и DDPG для одновременного решения двух задач state(input)...
У меня есть модель, состояние которой зависит от нескольких действий;Я могу принять один параметр в...
У меня есть агентская модель для моделирования доставки посылки с использованием 7 грузовиков
У меня есть более или менее стандартная реализация DQN, решающая «прорыв» Atari (из курса обучения...
Могу ли я получить состояние рендеринга камеры с точки зрения глаз агента (в качестве визуальных...
Я пытаюсь создать среду для тренировок openAI для мира из четырех комнат для реализации...
Я пытаюсь обучить Echo State Network для генерации текста со стохастической оптимизацией по линии...
У меня проблемы с реализацией алгоритмов обучения с подкреплением (RL) в стиле тензорного потока в...
Я пытаюсь реализовать алгоритм ограниченного PPO для классической задачи управления, такой как...
Я знаю, что Dec-POMDP (Децентрализованный-POMDP) является NEXP-завершенным для конечных временных...
Я пытаюсь построить автоэнкодер, приспособить его к данным наблюдений и использовать потерю в...
ValueError: could not broadcast input array from shape (60,60,2) into shape (1) Я пытался каким-то...
Я пытаюсь смоделировать карточную игру UNO как частично наблюдаемые марковские процессы принятия...
Читая газету Радуга из DeepMind, я застрял на следующем тексте в разделе «Экспериментальные...
Я строю алгоритм обучения подкрепления актера-критика для решения окружения. Я хочу использовать...
Я успешно установил MuJoCo в моей системе. Задача состоит в том, чтобы заставить робота-гуманоида...
Мне интересно, как на самом деле работает дисконтирование вознаграждений за обучение подкреплению.Я...
В чем разница между tf.keras.layers.Dense и tf.layers.Dense?Почему-то у меня DQN только сходимость...
Я реализовал q обучающий алгоритм, в котором агент пытается путешествовать как можно дальше.Я...
Для обучения я случайным образом генерирую сетку со значениями формы N, содержащими 0 и 1....
В настоящее время я пытаюсь реализовать алгоритм SARSA, как описано в Саттоне, Барто, «Обучение...