Вопросы с тегом армирование обучение

0 голосов

3 ответов

Как выполнить задачу случайным образом N раз в цикле, который выполняется M раз?

Требование: мне нужно выполнить задание T, N раз в игре, в которую играют 500 раундов. У меня есть...

aneeshaasc / 18 апреля 2019

0 голосов

0 ответов

как использовать обратный вызов Keras Tensorboard с градиентами во время обучения подкреплению?

Я бы хотел использовать стандартный обратный вызов Tensorboard с функцией Keras fit для отображения...

keith gould / 18 апреля 2019

0 голосов

0 ответов

SARSA с линейным значением Func.Прибл.не сходится к правильным Q-факторам

Я пытался внедрить SARSA с LVFA. До сих пор я реализовал следующий код, но он, похоже, не работает...

Uzair Akbar / 17 апреля 2019

0 голосов

0 ответов

keras NN: изменить размер выходного слоя, сохранив прогнозирование постоянным / инициализировать функцию действия значения функцией значения

Я обучил простую последовательную модель для оценки функции стоимости для конкретной политики в...

Malo / 15 апреля 2019

1 голос

1 ответ

Ошибка оптимизатора Адама: одна из переменных, необходимых для вычисления градиента, была изменена операцией на месте

Я пытаюсь реализовать Алгоритм обучения актера-критика , который не совпадает с базовым алгоритмом...

JaeJu / 14 апреля 2019

0 голосов

0 ответов

RL - Вознаграждение падает после ~ 200 эпизодов

Я построил модель обучения подкреплению с помощью Pytorch. Я использовал принцип Q-Learning. Модель...

Tobias M. / 12 апреля 2019

0 голосов

0 ответов

Deep Q-Learning agent плохо выполняет свои действия. Нужна помощь в оптимизации

Я пытаюсь сделать глубокого агента q-обучения из https://keon.io/deep-q-learning Моя среда выглядит...

EnesZ / 12 апреля 2019

2 голосов

1 ответ

Eager Execution, tf.GradientTape возвращает только None

Я пытаюсь вычислить градиент с помощью tf.GradientTape.Когда я пытаюсь сделать это, используя в...

kosaka norio / 10 апреля 2019

0 голосов

2 ответов

Неожиданное пространство наблюдения для CartPole-v0

Я удивлен пространством наблюдения, которое я прохожу через самоанализ для CartPole-v0. Согласно...

MasterScrat / 09 апреля 2019

0 голосов

0 ответов

Получите эпсилоны подходящей фазы на keras-rl

Я строю Agent из keras-rl и использую LinearAnnealedPolicy с EpsGreedyQPolicy. Подробный вывод...

Angelo / 09 апреля 2019

1 голос

0 ответов

Распараллеливание поиска по дереву Монте-Карло

У меня есть реализация поиска по дереву Монте-Карло, которую нужно оптимизировать. Поэтому я...

ATidedHumour / 08 апреля 2019

0 голосов

0 ответов

Модель Актер-Критик не работает над проблемой Горного Автомобиля

Я пытаюсь реализовать модель актерского критика, чтобы решить проблему с MountainCar. Среда не...

nolw38 / 07 апреля 2019

0 голосов

0 ответов

Во время обучения Gradient Policy Gradient, как средняя доходность, так и потери увеличиваются. Как это может быть?

Для OpenAI Spinning-Up Введение в градиенты политики , во время обучения потери продолжают...

Vaibhav Gupta / 07 апреля 2019

0 голосов

1 ответ

Алгоритм DQN не сходится на CartPole-v0

Краткое описание моей модели Я пытаюсь написать свой собственный алгоритм DQN на Python, используя...

kosaka norio / 06 апреля 2019

1 голос

1 ответ

Как применить Q-learning в среде OpenAI-тренажерного зала, где на каждом временном шаге выполняется несколько действий?

Я успешно использовал Q-learning для решения некоторых классических условий обучения подкреплению...

Pierre / 05 апреля 2019

2 голосов

1 ответ

Как предпринять лучшее действие вместо случайного действия

Мой агент продолжает случайные действия, поэтому алгоритм не тренируется должным образом.Как мне...

omnidevio / 05 апреля 2019

1 голос

1 ответ

Пользовательская функция потерь для вознаграждения с использованием Keras в Python

У меня есть модель, по которой я хотел бы построить пользовательскую функцию потерь, у меня есть...

Rhys / 04 апреля 2019

1 голос

0 ответов

Как исправить «Shapes должен иметь одинаковый ранг» в функции get_updates?

Я настраиваю как собственные потери, так и собственные методы подгонки внутри Keras для алгоритма...

Mauricio Maroto / 04 апреля 2019

2 голосов

1 ответ

Что означает размер партии на фоне глубокого обучения подкреплению?

Размер партии означает количество образцов, обученных нейронной работе в обучении под наблюдением,...

guilt11 / 02 апреля 2019

0 голосов

0 ответов

ipykernel_launcher.py не отвечает

Я устанавливаю тренажерный зал на anaconda, пытаюсь запустить тестовый код на ноутбуке jupyter, но...

xuwenhua625 / 30 марта 2019

0 голосов

0 ответов

Может ли DQNAgent с переопределением PrioritizedMemory?

Я использую DQNAgent и PrioritizedMemory, чтобы тренироваться против среды, и за вознаграждение это...

Angelo / 28 марта 2019

2 голосов

0 ответов

Это правда ?как насчет ожидаемого SARSA и двойного Q-Learning?

Я учусь Reinforcement Learning, и я сталкиваюсь с проблемой понимания разницы между SARSA,...

Cooper / 27 марта 2019

1 голос

1 ответ

Невозможно запустить FlappyBird PLE в Google Colab

Я пытаюсь использовать среду FlappyBird в Google Colab для учебной задачи подкрепления. Я скачал...

Subham Agarwala / 27 марта 2019

0 голосов

0 ответов

Несовместимые формы в функции керас

Я пытаюсь реализовать сеть критиков-актеров, используя keras (и тензор потока 2.0 альфа с...

Taxel / 26 марта 2019

1 голос

0 ответов

Политический градиент: проблема инициализации параметра политики

У меня есть некоторые проблемы с инициализацией тэты параметра политики для алгоритма REINFORCE из...

xenomeno / 26 марта 2019