Вопросы с тегом усиление обучения - PullRequest

Вопросы с тегом усиление обучения

0 голосов
1 ответ

Можно ли считать выходные данные одной нейронной сети двумя или более наборами выходов? Я объясню...

Xeyes / 05 июня 2019
0 голосов
0 ответов

Это проблема обучения обратному подкреплению (IRL).У меня есть данные (наблюдения) о действиях,...

Julian Lopez Baasch / 03 июня 2019
0 голосов
0 ответов
0 голосов
0 ответов

Я использую глубокое обучение подкрепления для решения классической задачи по выходу из лабиринта,...

lllllllllllll / 01 июня 2019
1 голос
2 ответов

Просматривая курс обучения подкреплению Дэвида Сильвера на YouTube (и слайд: Лекция 2 MDP ), я...

AntiInsect / 30 мая 2019
0 голосов
0 ответов

Я предварительно использую кодовую базу pacman для обучения своей собственной модели глубокого...

lllllllllllll / 30 мая 2019
2 голосов
1 ответ

Недавно я сравнил две модели для DQN в среде CartPole-v0. Один из них представляет собой...

Balázs Koncz / 27 мая 2019
0 голосов
1 ответ

Привет, сообщество StackOverflow! У меня есть вопрос об актерско-критических моделях в обучении с...

dummyHead / 26 мая 2019
1 голос
0 ответов

Я пытаюсь решить проблему CartPole-v1 из OpenAI, используя backprop в однослойной нейронной сети -...

uncountably-infinite / 25 мая 2019
1 голос
1 ответ

Я пытаюсь изучить методы градиента политики для обучения с подкреплением, но застрял в части...

dummyHead / 24 мая 2019
1 голос
1 ответ

Алгоритм DQN ниже Источник На линии градиентного спуска есть что-то, что яне совсем понимаю...

landings / 23 мая 2019
0 голосов
0 ответов

Я не являюсь носителем английского языка.Я чувствую, что дуэль означает бой между двумя парнями.Но...

landings / 23 мая 2019
2 голосов
0 ответов

Я реализовал пользовательскую среду в стиле сред OpenAi Gym, в которой у меня есть фигуры (круги,...

salah2 / 22 мая 2019
1 голос
1 ответ

Алгоритм DQN ниже Источник В записях D у нас есть поля phi_t, a_t, r_t и phi_ {t + 1}. Почему в...

landings / 21 мая 2019
2 голосов
3 ответов

Я реализовал игру 3x3 OX с помощью q-learning (она отлично работает в AI против AI и AI против...

Mark / 21 мая 2019
0 голосов
1 ответ

Я пытаюсь реализовать алгоритм критики мягкого актера для дискретного пространства действий, и у...

tk338 / 20 мая 2019
0 голосов
1 ответ

На самом деле не знаю, с чего начать поиск правильного алгоритма. Я создаю веб-приложение, которое...

volimfritule / 12 мая 2019
1 голос
1 ответ

Я знаю, что когда свойство Маркова выполнено, следующее состояние относится только к текущему...

Keavnn / 11 мая 2019
2 голосов
1 ответ
2 голосов
1 ответ

В моем понимании, обучение с подкреплением получит награду за действие. Однако, при игре в...

Mark / 07 мая 2019
0 голосов
1 ответ

Я хочу изучить некоторые фундаментальные алгоритмы многоагентного усиления, такие как team-Q,...

Hb Sun / 07 мая 2019
1 голос
1 ответ

При изучении обучения в области подкрепления, и именно в том, что касается RL без модели, мы обычно...

Ilyes Yamoun / 28 апреля 2019
1 голос
1 ответ

В чем отличие между глубоким q обучением (dqn) от «управления на уровне человека через обучение с...

Mika / 25 апреля 2019
0 голосов
0 ответов

Я пытаюсь спроектировать функцию формирования награды для двуногого робота, я узнал о формировании...

guilt11 / 21 апреля 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...