Вопросы с тегом усиление обучения

0 голосов

1 ответ

Можно ли обучить нейронную сеть с «разделенным» выходом

Можно ли считать выходные данные одной нейронной сети двумя или более наборами выходов? Я объясню...

Xeyes / 05 июня 2019

0 голосов

0 ответов

Обучение обратному подкреплению для марковских игр

Это проблема обучения обратному подкреплению (IRL).У меня есть данные (наблюдения) о действиях,...

Julian Lopez Baasch / 03 июня 2019

0 голосов

0 ответов

Как создать собственную среду, используя тренажерный зал OpenAI для обучения с подкреплением

Я новичок в изучении подкрепления, работаю над проектом колледжа. Проект связан с оптимизацией...

Vamshi Pulluri / 01 июня 2019

0 голосов

0 ответов

Вознаграждение не увеличивается за проблему выхода из лабиринта с DQN

Я использую глубокое обучение подкрепления для решения классической задачи по выходу из лабиринта,...

lllllllllllll / 01 июня 2019

1 голос

2 ответов

Запутался в наградах в лекции Дэвида Сильвера 2

Просматривая курс обучения подкреплению Дэвида Сильвера на YouTube (и слайд: Лекция 2 MDP ), я...

AntiInsect / 30 мая 2019

0 голосов

0 ответов

Понимание конфигурации памяти воспроизведения и эпсилона в обучении глубокому подкреплению

Я предварительно использую кодовую базу pacman для обучения своей собственной модели глубокого...

lllllllllllll / 30 мая 2019

2 голосов

1 ответ

Почему многослойные перцепроны превосходят RNN в CartPole?

Недавно я сравнил две модели для DQN в среде CartPole-v0. Один из них представляет собой...

Balázs Koncz / 27 мая 2019

0 голосов

1 ответ

Как работают общие параметры в моделях актер-критик?

Привет, сообщество StackOverflow! У меня есть вопрос об актерско-критических моделях в обучении с...

dummyHead / 26 мая 2019

1 голос

0 ответов

Cartpole - Простой backprop с 1 скрытым слоем?

Я пытаюсь решить проблему CartPole-v1 из OpenAI, используя backprop в однослойной нейронной сети -...

uncountably-infinite / 25 мая 2019

1 голос

1 ответ

Как функция оценки помогает в градиенте политики?

Я пытаюсь изучить методы градиента политики для обучения с подкреплением, но застрял в части...

dummyHead / 24 мая 2019

1 голос

1 ответ

В DQN, как выполнить градиентный спуск, когда каждая запись в буфере опыта соответствует только одному действию?

Алгоритм DQN ниже Источник На линии градиентного спуска есть что-то, что яне совсем понимаю...

landings / 23 мая 2019

0 голосов

0 ответов

Что означает слово «дуэль» в дуэли DQN?

Я не являюсь носителем английского языка.Я чувствую, что дуэль означает бой между двумя парнями.Но...

landings / 23 мая 2019

2 голосов

0 ответов

Как обрабатывать функцию потерь и регистрировать вероятности для нейронной сети с несколькими выходами?

Я реализовал пользовательскую среду в стиле сред OpenAi Gym, в которой у меня есть фигуры (круги,...

salah2 / 22 мая 2019

1 голос

1 ответ

В DQN, почему y_i вычисляется, но не сохраняется?

Алгоритм DQN ниже Источник В записях D у нас есть поля phi_t, a_t, r_t и phi_ {t + 1}. Почему в...

landings / 21 мая 2019

2 голосов

3 ответов

Огромное количество состояний в расчете q-обучения

Я реализовал игру 3x3 OX с помощью q-learning (она отлично работает в AI против AI и AI против...

Mark / 21 мая 2019

0 голосов

1 ответ

Мягкий актер-критик с дискретным пространством действия

Я пытаюсь реализовать алгоритм критики мягкого актера для дискретного пространства действий, и у...

tk338 / 20 мая 2019

0 голосов

1 ответ

Алгоритм сопоставления строк для распознавания продуктов

На самом деле не знаю, с чего начать поиск правильного алгоритма. Я создаю веб-приложение, которое...

volimfritule / 12 мая 2019

1 голос

1 ответ

Связан ли переход процесса принятия решений Маркова с действием?

Я знаю, что когда свойство Маркова выполнено, следующее состояние относится только к текущему...

Keavnn / 11 мая 2019

2 голосов

1 ответ

Непрерывная DDPG, похоже, не сходится к двумерной задаче пространственного поиска («Охота на наперсток»)

Я попытался использовать непрерывное пространство действия DDPG для решения следующей проблемы...

a_guest / 11 мая 2019

2 голосов

1 ответ

Как машина узнает, за какой шаг можно получить максимальное вознаграждение?

В моем понимании, обучение с подкреплением получит награду за действие. Однако, при игре в...

Mark / 07 мая 2019

0 голосов

1 ответ

Коды для многоагентного обучения с подкреплением

Я хочу изучить некоторые фундаментальные алгоритмы многоагентного усиления, такие как team-Q,...

Hb Sun / 07 мая 2019

0 голосов

1 ответ

Тренажерный зал OpenAI: Как получить доступ к регистрационным данным среды (например, max_episode_steps) из пользовательской OPenvironment?

Я создал пользовательскую среду, используя OpenAI Gym. Я хочу получить доступ к max_episode_steps и...

siby / 02 мая 2019

1 голос

1 ответ

Когда использовать Монте-Карло поверх обучения TD, и наоборот

При изучении обучения в области подкрепления, и именно в том, что касается RL без модели, мы обычно...

Ilyes Yamoun / 28 апреля 2019

1 голос

1 ответ

Разница между глубоким q обучением (dqn) и нейронной q-итерацией

В чем отличие между глубоким q обучением (dqn) от «управления на уровне человека через обучение с...

Mika / 25 апреля 2019

0 голосов

0 ответов

Как мы определяем функцию формирования награды в обучении глубокому подкреплению, чтобы заставить двуногого робота ходить?

Я пытаюсь спроектировать функцию формирования награды для двуногого робота, я узнал о формировании...

guilt11 / 21 апреля 2019