В дуэльной архитектуре авторы описывают эту архитектуру следующим образом: поток кодировщика поток...
У меня есть набор данных, состоящий из нескольких функций: customerId, actionDay1, SalesDay1,...
Я пытаюсь тренировать нейронную сеть, играя в yahtzee.На каждом ходу сеть должна выбирать категории...
Я рассматриваю статью Оптимизация политики с исследованиями на основе моделей , раздел 2 о выводе V...
Я пробую обучать модели глубокого подкрепления обучению задачу выхода из лабиринта, и каждый раз,...
Я пытаюсь сформулировать и решить следующую проблему мутации изображения.Предположим, я пытаюсь...
Я использую Q learning и хочу знать, могу ли я использовать функцию расчета потерь tf.losses
Я использую нейронную сеть и тензорный поток для усиления обучения по различным предметам с помощью...
Я делаю AI как альфа GO, используя DQN.НО у меня проблемы с обучением правилам игры.ИИ не знает...
Мой друг и я тренируем DDQN для изучения 2D футбола.Я тренировал модель около 40 000 эпизодов, но...
Я читал этот блог о Deep Q-Learning . 1- В разделе блога The input я хотел узнать, как мы подаем 4...
Я пытаюсь реализовать Double Q-Learning с использованием нейронных сетей из библиотеки Keras.Когда...
Я новичок в изучении подкрепления. Недавно я узнал о приближенном q-обучении или q-основанном на...
Я смоделировал игру на питоне.Когда игра вызывается, она выполняет полный цикл со случайным игроком...
Мне нужно суммировать градиенты в каждой итерации, а затем передавать эти градиенты другому...
Когда я вырезаю линию tf.reshape(rewards_list, [-1, 25]) Я получаю сообщение об ошибке ValueError:...
Я работаю над своей дипломной работой бакалавра. Моя тема - обучение с подкреплением.Настройка:...
Я хочу реализовать следующий алгоритм, взятый из этой книги, раздел 13.6 : Я непонять, как...
Мой партнер по проекту и я в настоящее время сталкиваемся с проблемой в нашем последнем...
При попытке создать нейронную сеть и оптимизировать ее с помощью Pytorch я получаю ValueError:...
Я пытаюсь создать нейронную сеть, чтобы играть в эмулированную игру atari "BreakoutDeterministic"
Выше приведены средние оценки каждые 100 эпизодов, когда агент работает в среде gym...
Я пытаюсь изменить код кераса для нейронной сети на код тензорного потока.Я выбрал несколько...
Я относительно новичок в понятиях машинного обучения, и я читал несколько лекций / учебных пособий...
Я тренирую агента с DQN. Награда увеличивается, а убыток уменьшается. Это хороший знак, у меня...