Вопросы с тегом политики градиентного спуска

0 голосов

0 ответов

почему политика градиента политики использует функцию Q в обучении подкреплению?

Введение алгоритма градиентов политики утверждает, что алгоритмы политики лучше, потому что он...

swapnil / 20 сентября 2019

0 голосов

0 ответов

Детерминированная среда - градиент политики

У меня есть сомнения относительно алгоритма градиента политики (PG) в RL. Я пытаюсь реализовать...

Alex Gomes / 04 июля 2019

1 голос

1 ответ

Градиент политики потерь - обучение по усилению

Я обучаю свою сеть, используя градиент политики и определяя потери как: self.loss = -tf

Alex Gomes / 03 июля 2019

0 голосов

0 ответов

вопросы по DPG

В блоге Лилиана Вена в DPG: Это может выглядеть странно - как рассчитать градиент функции политики...

AgnosticCucumber / 03 июля 2019

0 голосов

1 ответ

Как мы оцениваем каждое вознаграждение за возврат в методах градиента политики?

Сообщество Hi StackOverflow, У меня проблема с методами градиента политики в обучении с...

dummyHead / 10 июня 2019

1 голос

1 ответ

Как функция оценки помогает в градиенте политики?

Я пытаюсь изучить методы градиента политики для обучения с подкреплением, но застрял в части...

dummyHead / 24 мая 2019

0 голосов

0 ответов

Ray - RLlib - Ошибка с Custom env - пространство непрерывных действий - DDPG - обучение в автономном режиме?

Ошибка при использовании автономного режима для DDPG. пользовательские измерения среды...

narasimha.m / 18 апреля 2019

2 голосов

0 ответов

Градиент политики в керасе предсказывает только одно действие

У меня проблемы с алгоритмом REINFORCE в керасе с играми Atari.После раунда около 30 эпизодов сеть...

tk338 / 29 марта 2019

2 голосов

1 ответ

Как накапливать потери по мини-партиям, а затем рассчитывать градиент

Мой главный вопрос:усреднение потерь - это то же самое, что усреднение градиента, и как мне...

Mike Jankowiak / 17 марта 2019

0 голосов

0 ответов

Реализация градиента политики при большом количестве выходных классов

Мне известен этот хитрый способ реализации градиента политики (см. Его для справки: Обучение...

user1953737 / 22 февраля 2019

0 голосов

1 ответ

Multiclass Sigmoid для комплектации ДХО

Я работаю над проблемой обучения глубокому подкреплению и хотел бы использовать Sigmoid для моего...

ahmet hamza emra / 27 августа 2018

0 голосов

1 ответ

Функция вознаграждения за политический градиент спуска в обучении подкрепления

В настоящее время я изучаю Политический градиентный спуск в контексте обучения усилению. TL; DR,...

Carsten / 29 июня 2018