Вопросы с тегом усиление-обучения

3 голосов

1 ответ

Как найти следующий шаг к go

Nathalie / 23 марта 2020

1 голос

0 ответов

Игра в змею с использованием обучения подкреплению и DQN (с deeplearning4j)

mirzak / 22 марта 2020

0 голосов

0 ответов

Разве актер-критик c не может решить проблему горных автомобилей?

Alan Yu / 18 марта 2020

0 голосов

1 ответ

Почему временная сложность уравнения Беллмана для прямого решения равна n ^ 3?

zheng zhou / 16 марта 2020

1 голос

3 ответов

Генерация всех возможных двоичных матриц, чтобы каждая строка и столбец складывались в AT MOST 1 для каждой матрицы

S2C / 15 марта 2020

1 голос

2 ответов

Как я могу найти наибольшее значение только определенных записей в моей HashMap, а не во всей HashMap?

Quirkless / 15 марта 2020

1 голос

1 ответ

подкрепление обучения - количество действий

blue-sky / 14 марта 2020

1 голос

0 ответов

оценочное значение обучения И ожидаемая временная разница

user3510164 / 13 марта 2020

0 голосов

1 ответ

В чем смысл параматизированной политики в обучении подкреплению?

vaibhav / 13 марта 2020

0 голосов

0 ответов

Разница между DDQN + приоритет воспроизведения опыта и DDQN + больше эпох?

Rajan Lagah / 08 марта 2020

0 голосов

0 ответов

DQN не работает. Есть ли что-то не так в коде или в Reinforcement learning просто сложно настроить параметры

grad / 05 марта 2020

0 голосов

1 ответ

TRPO - RL: мне нужно получить руку робота 8DOF, чтобы переместиться в указанную точку. Мне нужно реализовать код TRPO RL, используя тренажерный зал OpenAI со средой Gazebo?

user1690356 / 05 марта 2020

0 голосов

0 ответов

Как адаптировать PPO от непрерывного к дискретному пространству действия

TFbie / 04 марта 2020

0 голосов

0 ответов

максимальный KL выше среднего KL в TRPO

Jagjit Saini / 01 марта 2020

0 голосов

0 ответов

PPO хорош для эпизодических c проблем с задержкой вознаграждения

TFbie / 29 февраля 2020

0 голосов

1 ответ

Инициализируйте двумерный массив равномерно в numpy

Masilive Sifanele / 28 февраля 2020

1 голос

1 ответ

Несколько действий, которые приводят к одному и тому же состоянию в процессе обучения

Μιχάλης Θεο / 26 февраля 2020

1 голос

1 ответ

RLIB Несколько Агентов с различными тренировочными алгоритмами

SFD / 24 февраля 2020

0 голосов

0 ответов

Количество шагов для просмотра в агенте DDPG

Alok Ranjan Swain / 21 февраля 2020

0 голосов

0 ответов

укб многорукий бандит python

WWMASK / 21 февраля 2020

0 голосов

1 ответ

В обучении с подкреплением, у агента и среды разные состояния или только одно?

vaibhav / 17 февраля 2020

1 голос

0 ответов

Как использовать Укрепление обучения для задачи классификации?

Hamad / 16 февраля 2020

1 голос

0 ответов

Как создать оптимизатор для метода TD-Lambda в Tensorflow 2.0?

kman99 / 14 февраля 2020

0 голосов

1 ответ

Подходит ли алгоритм градиента политики под модельным или основанным на модели методам в обучении подкреплению?

vaibhav / 14 февраля 2020

0 голосов

0 ответов

Функция сбора Pytorch для получения текущих значений Q для Deep Q

Jack / 13 февраля 2020