Вопросы с тегом армирование обучение

0 голосов

1 ответ

Лучший алгоритм для многоагентного поиска непрерывного пространства с использованием обучения с подкреплением

Я работаю над проектом, в котором мне нужно найти оптимальный оптимизированный путь от 1 точки к...

Ayush kabir verma / 24 июня 2019

1 голос

1 ответ

Понимание параметра total_timesteps в моделях стабильных базовых линий

Я читаю оригинальную бумагу PPO и пытаюсь сопоставить ее с входными параметрами модели...

PyRsquared / 21 июня 2019

2 голосов

1 ответ

Как я могу изменить это, чтобы использовать таблицу q для обучения подкрепления

Я работаю над изучением q-таблиц и пробежался по простой версии, в которой использовался только...

MNM / 21 июня 2019

1 голос

0 ответов

моя модель детерминированного градиента политики ничего не изучает даже после 2000 итераций

Я пробовал разные гиперпараметры и количество слоев и узлов, но моя модель ничего не изучает даже...

Himanshu Prajapati / 20 июня 2019

0 голосов

0 ответов

Длинные игровые рамки

Я учусь изучению глубокого подкрепления, начиная с примеров из интернета по решению таких игр, как...

keithc / 18 июня 2019

0 голосов

1 ответ

Эпсилон-жадный алгоритм

Я понимаю эпсилон-жадный алгоритм, но есть одна путаница. Это среднее вознаграждение или значение ,...

AgnosticCucumber / 18 июня 2019

0 голосов

0 ответов

DDPG не сходится для среды лабиринта VRep

Извините за длинный пост, просто хотел заранее сообщить подробности реализации. Также, извините за...

page47250 / 17 июня 2019

1 голос

1 ответ

Deep Q-Network (DQN) для изучения игры 2048 не улучшается

Я пытаюсь создать агента Deep Q-Network (DQN), который может научиться играть в игру 2048 .Я...

Drukob / 13 июня 2019

0 голосов

0 ответов

Ошибка памяти при использовании keras-rl для обучения подкреплению

Я использую keras-rl и успешно запускаю пример keras-rl, а именно dqn_cartpole.py.Затем я изменяю...

LinTIna / 13 июня 2019

0 голосов

0 ответов

KeyError: 9 в Python для Google Colab

Я пытаюсь изменить среду FrozenLake для применения в моем простом проекте управления доходами,...

Makbule / 12 июня 2019

1 голос

1 ответ

Выход CNN не сильно меняется с входом

Я пытался реализовать Actor Critic с помощью сверточной нейронной сети. Существует два разных...

nsidn98 / 11 июня 2019

2 голосов

1 ответ

Пользовательская среда OpenAI Gym: дискретное пространство наблюдения с реальными значениями

Я хотел бы создать пользовательскую среду для занятий в тренажерном зале openai, которая имеет...

sesli / 10 июня 2019

0 голосов

1 ответ

Понимание значений аргументов для примера леса mdptoolbox

Я пытаюсь понять, как использовать mdptoolbox и у меня есть несколько вопросов. Что означает 20 в...

Amanda / 08 июня 2019

0 голосов

0 ответов

Настройка TensorBoard для обучения подкреплению

Я бы хотел отслеживать свой прогресс в средах RL, таких как OpenAI, с течением времени. Я хотел бы,...

Sharan SP / 08 июня 2019

0 голосов

0 ответов

Градиент TensorFlow из Optimizer.minimize неправильно вычисляет переменные с зависимостями

Я хотел бы использовать train_opt = tf.train.AdamOptimizer().minimize() для проблемы, когда потеря...

Pamela B / 05 июня 2019

1 голос

2 ответов

Точность обучения глубокого обучения

Я использую метод глубокого обучения для прогнозирования поведения временных рядов.Я новичок в этом...

mad / 04 июня 2019

0 голосов

0 ответов

Обучение подкреплению A2C не учится

Я обучил модель A2C в Tensorflow 2.0 в среде CartPole-v0. Теперь я переключился на автомобильную...

twinrix / 04 июня 2019

0 голосов

0 ответов

Как оптимизировать логическое выражение

Суть проблемы заключается в следующем: Существует набор функций, скажем, от f1 до fn, выводящих...

Vishnu Prasad K / 02 июня 2019

1 голос

0 ответов

«OSError: [WinError 126] Указанный модуль не найден» при использовании OpenAI Gym-Atari в Windows 10

Я просто пытаюсь выполнить этот простой пробный код: import gym env = gym

Rachit Bansal / 30 мая 2019

1 голос

1 ответ

Свободное от модели или основанное на модели глубокое усиление обучения для автомобильных гонок?

Я новичок в области обучения подкреплению.Так что я совершенно запутался с терминами «на основе...

antoine Mathu / 28 мая 2019

0 голосов

0 ответов

Сохранение модели в базовых показателях OPENAI

Openai Baselines сохранить обученную модель с помощью следующей команды, python -m baselines.run...

SD11 / 27 мая 2019

0 голосов

0 ответов

R MDPtoolbox: как увеличить количество итераций (используя R)

Я занимаюсь разработкой модели обучения подкреплению на R и хочу увеличить количество итераций...

Salem Gharbi / 25 мая 2019

0 голосов

0 ответов

Проблема с кодом градиента политики для pong-v0 в Keras

Я новичок в машинном обучении и пробую один код, написанный на pong-v0.Я использую метод градиента...

Parikshit / 24 мая 2019

0 голосов

0 ответов

Набор инструментов для обучения усилению в MATLAB - несколько дискретных действий

Я хотел бы использовать агента DQN, в котором у меня есть несколько непрерывных состояний (или...

Enrico Anderlini / 23 мая 2019

0 голосов

0 ответов

Для реализации модели обучения с подкреплением может ли система вознаграждений быть различной для обучения и оценки?

Я пытаюсь создать модель обучения с подкреплением для оценки компании, основываясь на финансовых...

Sudhanshu Garg / 23 мая 2019