Мой вопрос: почему, когда я тренирую один и тот же алгоритм дважды, он дает разные результаты...
Я пытаюсь найти способ получить доступ к Unity Dr Learning, но не могу найти какую-либо информацию...
Я знаю определение: - Оптимальная политика (pi) * удовлетворяет (pi) *> = (pi) для всех (pi)...
Я пытался определить диапазон каждой функции в среде Half Cheetah MuJoCo. Единственная релевантная...
Я заинтересован в изучении подкрепления, в частности, как использовать RL для динамического...
Ошибка, которую я получил из консоли Spyder, приведена ниже: runfile ('/ Users / ozgeozler / Pygame...
Я пытаюсь реализовать Глубокий детерминистический градиент политики с помощью Keras. Вот алгоритм:...
Я пытаюсь сбалансировать перевернутый маятник, используя алгоритм DDPG.Я не могу получить ожидаемые...
Я новичок в области нейронных сетей, и я хочу понять определенное утверждение.Один мой друг сказал,...
Я работаю над репозиторием Uber Atari-model-zoo (https://github.com/uber-research/atari-model-zoo)....
У меня есть двумерный массив нормализованных данных. Я использую space = np.array([0,1,...366],[0,0
Когда я только начинал с подкрепляющего обучения, я поднял проблему с тележкой и следовал некоторым...
Я следовал учебному пособию Tensorflow , в котором реализован A3C, чтобы добиться успеха в среде...
Я хочу попробовать усиленное обучение на Python.Но я хочу создать пользовательскую среду с моими...
Я пытался сделать ИИ для блэкджека, используя RL.Сейчас я пытаюсь сделать две отдельные сети, что...
привет, я пытался создать RL-программу для блэкджека.Я сделал весь код с Q-сети, и он работает
Я пытаюсь обучить DQNAgent с помощью типа action_space gym.spaces.Box (4).Но внутри функции...
Я использую DQN, чтобы научиться играть в игры Atari, и тренирую его на GPU. Я заметил, что...
Я хотел бы представить новую функцию активации в сети с помощью tenorflow. Тем не менее, я получаю...
Я хотел бы представить новый слой в качестве функции активации в тензорном потоке.Однако есть...
Моя задача связана с большим типом среды мира сетки (размер сетки может быть 30x30, 50x50, 100x100,...
В настоящее время я использую базовый уровень PPO2 в OpenAI для разработки политики для нескольких...
Я пытаюсь реализовать память воспроизведения опыта с помощью tf.estimator.Estimator API.Однако я не...
Я использую a2c для работы на Cartpole-v1.Конечная цель - найти среднюю награду.Тем не менее, мое...
Я очень озадачен назначением библиотеки сонета DeepMind для TensorFlow. Насколько я могу судить из...