Вопросы с тегом армирование обучение

0 голосов

1 ответ

Укрепление обучения без окончательного состояния?

У меня есть вопрос о моем случае в теме обучения с подкреплением. Я хочу измерить принятие цены...

Jenifer Prochnow / 22 мая 2019

1 голос

0 ответов

Ошибка сегментации с последовательной моделью Keras

Программа имеет ошибку сегментации при использовании последовательной модели keras, по крайней мере...

Cecilia Combemale / 16 мая 2019

1 голос

0 ответов

Можно ли запускать код тензорного потока python на TPU без использования Estimator API?

Я потратил несколько недель, пытаясь написать код Tensorflow уровня Python, который мог бы напрямую...

user3815403 / 15 мая 2019

0 голосов

0 ответов

Ввод внешних потерь в график тензорного потока и вычисление градиентов

Я пытаюсь создать простой обучающий агент для подкрепления, который получает награду из внешнего...

Rahul / 13 мая 2019

1 голос

0 ответов

В многозадачности не может создать новый график вычислений после обратного распространения

Справочная информация: я использую DQN и DDPG для одновременного решения двух задач state(input)...

minstrel_hcl / 11 мая 2019

0 голосов

1 ответ

Как я могу выполнять действия и состояния, когда мой переход между состояниями зависит от нескольких действий одновременно?

У меня есть модель, состояние которой зависит от нескольких действий;Я могу принять один параметр в...

VIKAS POONIA / 11 мая 2019

2 голосов

0 ответов

Усиленное обучение - применить Q-learning для планирования времени отправления грузовика для оптимизации доставки посылок

У меня есть агентская модель для моделирования доставки посылки с использованием 7 грузовиков

Jack / 10 мая 2019

2 голосов

1 ответ

DQN ведет себя по-разному на разных компьютерах

У меня есть более или менее стандартная реализация DQN, решающая «прорыв» Atari (из курса обучения...

Boris Brodski / 07 мая 2019

1 голос

0 ответов

Как получить состояние рендеринга камеры с помощью MuJoCo?

Могу ли я получить состояние рендеринга камеры с точки зрения глаз агента (в качестве визуальных...

Ziemo / 06 мая 2019

1 голос

0 ответов

Параметры среды, созданной в openAI тренажерном зале, не обновляются при ручном обновлении

Я пытаюсь создать среду для тренировок openAI для мира из четырех комнат для реализации...

Ajinkya Ambatwar / 05 мая 2019

0 голосов

1 ответ

argmax из вероятностного распределения лучше политики, чем случайная выборка из softmax?

Я пытаюсь обучить Echo State Network для генерации текста со стохастической оптимизацией по линии...

Sami / 03 мая 2019

0 голосов

0 ответов

Реализовать обучение подкрепления с использованием чистого тензорного стиля (без подачи) в тензорном потоке?

У меня проблемы с реализацией алгоритмов обучения с подкреплением (RL) в стиле тензорного потока в...

fredericgo / 02 мая 2019

1 голос

1 ответ

Как внедрить алгоритм Proximal Policy Optimization (PPO) для классических задач управления?

Я пытаюсь реализовать алгоритм ограниченного PPO для классической задачи управления, такой как...

Mika / 02 мая 2019

1 голос

0 ответов

Является ли I-POMDP (Интерактивный POMDP) NEXP-полным?

Я знаю, что Dec-POMDP (Децентрализованный-POMDP) является NEXP-завершенным для конечных временных...

Brij Rokad / 30 апреля 2019

0 голосов

0 ответов

ValueError: Ошибка при проверке ввода: ожидалось, что input_1 будет иметь форму (28, 1, 1), но получил массив с формой (1, 1, 1)

Я пытаюсь построить автоэнкодер, приспособить его к данным наблюдений и использовать потерю в...

ZeroMaxinumXZ / 28 апреля 2019

0 голосов

0 ответов

Как передать мульти вход в train_on_batch в Керасе

ValueError: could not broadcast input array from shape (60,60,2) into shape (1) Я пытался каким-то...

Đức Anh Nguyễn Đỗ / 25 апреля 2019

1 голос

1 ответ

Как смоделировать UNO как POMDP

Я пытаюсь смоделировать карточную игру UNO как частично наблюдаемые марковские процессы принятия...

Brij Rokad / 25 апреля 2019

2 голосов

0 ответов

В поисках доказательства того, что генерация шума Tensorflow может быть ненадежной на GPU

Читая газету Радуга из DeepMind, я застрял на следующем тексте в разделе «Экспериментальные...

Vlad-HC / 24 апреля 2019

1 голос

0 ответов

Как правильно оптимизировать общую сеть между актером и критиком?

Я строю алгоритм обучения подкрепления актера-критика для решения окружения. Я хочу использовать...

BestR / 23 апреля 2019

0 голосов

0 ответов

Как заставить робота-гуманоида ходить по предварительно обученной модели (OpenAI Gym, MuJoCo)?

Я успешно установил MuJoCo в моей системе. Задача состоит в том, чтобы заставить робота-гуманоида...

Tejveer / 23 апреля 2019

1 голос

1 ответ

Дисконтированные награды в базовом обучении подкреплению

Мне интересно, как на самом деле работает дисконтирование вознаграждений за обучение подкреплению.Я...

Perks / 21 апреля 2019

2 голосов

0 ответов

Tensorflow - противоречивые результаты между tf.layers.Dense и tf.keras.layers.Dense?

В чем разница между tf.keras.layers.Dense и tf.layers.Dense?Почему-то у меня DQN только сходимость...

J smit / 20 апреля 2019

0 голосов

1 ответ

Необходимо ли заканчивать эпизоды, когда в обучении подкреплению происходит столкновение

Я реализовал q обучающий алгоритм, в котором агент пытается путешествовать как можно дальше.Я...

elemecro bots / 19 апреля 2019

1 голос

1 ответ

Сеть хорошо тренируется на сетке формы N, но при оценке любого изменения не получается

Для обучения я случайным образом генерирую сетку со значениями формы N, содержащими 0 и 1....

Sushrut Tadwalkar / 19 апреля 2019

0 голосов

0 ответов

Алгоритм SARSA для обучения усилению уменьшает значения с течением времени

В настоящее время я пытаюсь реализовать алгоритм SARSA, как описано в Саттоне, Барто, «Обучение...

GreenLogic / 18 апреля 2019