Можно ли считать выходные данные одной нейронной сети двумя или более наборами выходов? Я объясню...
Это проблема обучения обратному подкреплению (IRL).У меня есть данные (наблюдения) о действиях,...
Я новичок в изучении подкрепления, работаю над проектом колледжа. Проект связан с оптимизацией...
Я использую глубокое обучение подкрепления для решения классической задачи по выходу из лабиринта,...
Просматривая курс обучения подкреплению Дэвида Сильвера на YouTube (и слайд: Лекция 2 MDP ), я...
Я предварительно использую кодовую базу pacman для обучения своей собственной модели глубокого...
Недавно я сравнил две модели для DQN в среде CartPole-v0. Один из них представляет собой...
Привет, сообщество StackOverflow! У меня есть вопрос об актерско-критических моделях в обучении с...
Я пытаюсь решить проблему CartPole-v1 из OpenAI, используя backprop в однослойной нейронной сети -...
Я пытаюсь изучить методы градиента политики для обучения с подкреплением, но застрял в части...
Алгоритм DQN ниже Источник На линии градиентного спуска есть что-то, что яне совсем понимаю...
Я не являюсь носителем английского языка.Я чувствую, что дуэль означает бой между двумя парнями.Но...
Я реализовал пользовательскую среду в стиле сред OpenAi Gym, в которой у меня есть фигуры (круги,...
Алгоритм DQN ниже Источник В записях D у нас есть поля phi_t, a_t, r_t и phi_ {t + 1}. Почему в...
Я реализовал игру 3x3 OX с помощью q-learning (она отлично работает в AI против AI и AI против...
Я пытаюсь реализовать алгоритм критики мягкого актера для дискретного пространства действий, и у...
На самом деле не знаю, с чего начать поиск правильного алгоритма. Я создаю веб-приложение, которое...
Я знаю, что когда свойство Маркова выполнено, следующее состояние относится только к текущему...
Я попытался использовать непрерывное пространство действия DDPG для решения следующей проблемы...
В моем понимании, обучение с подкреплением получит награду за действие. Однако, при игре в...
Я хочу изучить некоторые фундаментальные алгоритмы многоагентного усиления, такие как team-Q,...
Я создал пользовательскую среду, используя OpenAI Gym. Я хочу получить доступ к max_episode_steps и...
При изучении обучения в области подкрепления, и именно в том, что касается RL без модели, мы обычно...
В чем отличие между глубоким q обучением (dqn) от «управления на уровне человека через обучение с...
Я пытаюсь спроектировать функцию формирования награды для двуногого робота, я узнал о формировании...