Вопросы с тегом усиление обучение

0 голосов

0 ответов

Архитектура дуэльного DQN - кодер нужен для числовых данных?

В дуэльной архитектуре авторы описывают эту архитектуру следующим образом: поток кодировщика поток...

PySeeker / 28 сентября 2019

0 голосов

1 ответ

Как лучше всего учиться в Reinforcement, RNN или других, чтобы предсказать лучшее действие, которое мы должны предпринять, чтобы максимизировать продажи?

У меня есть набор данных, состоящий из нескольких функций: customerId, actionDay1, SalesDay1,...

John Mack / 09 июля 2019

0 голосов

0 ответов

нейронная сеть играет ятзее - выходной слой

Я пытаюсь тренировать нейронную сеть, играя в yahtzee.На каждом ходу сеть должна выбирать категории...

feedFloward / 06 июля 2019

2 голосов

0 ответов

Вывод V (s) и Q (s, a) из целевого показателя производительности в MDP

Я рассматриваю статью Оптимизация политики с исследованиями на основе моделей , раздел 2 о выводе V...

Per Arne Andersen / 22 июня 2019

0 голосов

0 ответов

Обучаем модель обучения подкреплению с большим количеством изображений

Я пробую обучать модели глубокого подкрепления обучению задачу выхода из лабиринта, и каждый раз,...

lllllllllllll / 28 мая 2019

0 голосов

0 ответов

украсить изображение с подкреплением обучения

Я пытаюсь сформулировать и решить следующую проблему мутации изображения.Предположим, я пытаюсь...

lllllllllllll / 27 мая 2019

1 голос

2 ответов

tf.losses.mean_squared_error с отрицательной целью

Я использую Q learning и хочу знать, могу ли я использовать функцию расчета потерь tf.losses

Xeyes / 23 мая 2019

3 голосов

1 ответ

Как уменьшить выход нейронной сети, когда определенное действие не выполняется

Я использую нейронную сеть и тензорный поток для усиления обучения по различным предметам с помощью...

Xeyes / 16 мая 2019

1 голос

1 ответ

Как научить правила игры для ай?

Я делаю AI как альфа GO, используя DQN.НО у меня проблемы с обучением правилам игры.ИИ не знает...

장영연 / 16 мая 2019

1 голос

1 ответ

Обучение DDQN одновременно

Мой друг и я тренируем DDQN для изучения 2D футбола.Я тренировал модель около 40 000 эпизодов, но...

Huseyincan Erbayraktar / 15 мая 2019

1 голос

1 ответ

DQN - Как передать вход 4-х кадров из игры в виде одного состояния

Я читал этот блог о Deep Q-Learning . 1- В разделе блога The input я хотел узнать, как мы подаем 4...

Hazzaldo / 01 мая 2019

0 голосов

0 ответов

Почему вознаграждение колеблется за Double Q-Learning?

Я пытаюсь реализовать Double Q-Learning с использованием нейронных сетей из библиотеки Keras.Когда...

Gauranga Das / 20 апреля 2019

1 голос

1 ответ

Проблемы с реализацией приблизительного (функционально-ориентированного) обучения

Я новичок в изучении подкрепления. Недавно я узнал о приближенном q-обучении или q-основанном на...

Love2Code / 06 апреля 2019

0 голосов

0 ответов

Модель обучения подкреплению с отсроченным вознаграждением

Я смоделировал игру на питоне.Когда игра вызывается, она выполняет полный цикл со случайным игроком...

Rhys / 01 апреля 2019

0 голосов

1 ответ

Могу ли я суммировать градиенты в каждой итерации обучения?

Мне нужно суммировать градиенты в каждой итерации, а затем передавать эти градиенты другому...

Han Zheng / 17 марта 2019

2 голосов

0 ответов

ValueError: Попытка преобразовать тензор в тензор и не удалось. Ошибка: аргумент должен быть плотным тензором:

Когда я вырезаю линию tf.reshape(rewards_list, [-1, 25]) Я получаю сообщение об ошибке ValueError:...

Rayna Levy / 15 марта 2019

0 голосов

1 ответ

Укрепление обучения - не сходятся

Я работаю над своей дипломной работой бакалавра. Моя тема - обучение с подкреплением.Настройка:...

Dennis Ziganow / 02 марта 2019

0 голосов

1 ответ

Pytorch: Как создать правило обновления, не основанное на производных?

Я хочу реализовать следующий алгоритм, взятый из этой книги, раздел 13.6 : Я непонять, как...

Gulzar / 17 февраля 2019

0 голосов

1 ответ

нейронная сеть не учится (потери остаются прежними)

Мой партнер по проекту и я в настоящее время сталкиваемся с проблемой в нашем последнем...

jan / 14 февраля 2019

0 голосов

1 ответ

Pytorch ValueError: оптимизатор получил пустой список параметров

При попытке создать нейронную сеть и оптимизировать ее с помощью Pytorch я получаю ValueError:...

Gulzar / 13 февраля 2019

0 голосов

0 ответов

Состояние выполнено на основе действий в OpenAI Atari

Я пытаюсь создать нейронную сеть, чтобы играть в эмулированную игру atari "BreakoutDeterministic"

niallmandal / 12 февраля 2019

0 голосов

1 ответ

Политический градиент: почему перестановка данных может привести к снижению производительности?

Выше приведены средние оценки каждые 100 эпизодов, когда агент работает в среде gym...

Sherwin Chen / 10 февраля 2019

0 голосов

1 ответ

Как я могу реализовать функциональность активации Keras с помощью tenorflow?

Я пытаюсь изменить код кераса для нейронной сети на код тензорного потока.Я выбрал несколько...

jongchul / 30 января 2019

0 голосов

1 ответ

Каково полное значение коэффициента дисконтирования γ (гамма) в обучении с подкреплением?

Я относительно новичок в понятиях машинного обучения, и я читал несколько лекций / учебных пособий...

Adam Whitehurst / 23 января 2019

0 голосов

1 ответ

Потеря уменьшилась и прыгать внезапно

Я тренирую агента с DQN. Награда увеличивается, а убыток уменьшается. Это хороший знак, у меня...

fgauth / 14 января 2019