Вопросы с тегом Усиление обучения

0 голосов

0 ответов

Python - реализация алгоритма NEAT поверх игры Pacman

Я недавно закончил кодировать свою собственную игру PACMAN, используя pygame и python 2.7, и сейчас...

Uri Yakir / 21 апреля 2019

0 голосов

0 ответов

Ray - RLlib - Ошибка с Custom env - пространство непрерывных действий - DDPG - обучение в автономном режиме?

Ошибка при использовании автономного режима для DDPG. пользовательские измерения среды...

narasimha.m / 18 апреля 2019

0 голосов

0 ответов

RAY - RLLIB - Сбой при обучении DQN с использованием автономного образца пакета - значение episode_len_mean: .nan

RAY - библиотека RLLIB - оценка модели DQN с использованием автономных данных пакета. Модель не в...

narasimha.m / 16 апреля 2019

1 голос

0 ответов

Тензор потока при стремительном выполнении выдает только те же значения

Я пытаюсь преобразовать свой тензор потока кода в тензор потока. Проблема состоит в том, что прямой...

tk338 / 12 апреля 2019

0 голосов

0 ответов

Почему SGD в Q-Learning намного стабильнее, чем Mini-Batch или Batch?

Для моей дипломной работы в области компьютерных наук я реализовал алгоритм обучения подкреплению с...

Dennis Ziganow / 03 апреля 2019

2 голосов

1 ответ

Алгоритм итерации по постоянному значению при Марковском обучении

В алгоритме итерации подходящего значения Эндрю Нга, который я подробно описал ниже, он попытается...

J0hnnyJiang / 01 апреля 2019

0 голосов

1 ответ

Политическое обучение не сходится

Я пытаюсь внедрить проксимальную оптимизацию политики и столкнулся с очень странной проблемой. Вот...

user2249675 / 29 марта 2019

2 голосов

0 ответов

Python Tensorflow DQN Следующие шаги

Я не могу понять следующие шаги для моей Deep Q Network. Я пытаюсь оптимизировать автобусные...

Rayna Levy / 23 марта 2019

0 голосов

1 ответ

Ограничение на изменение действия в обучении подкрепления

Я бы хотел построить автономный корабль в виртуальной среде с использованием DDPG . Однако проблема...

Dane Lee / 10 марта 2019

0 голосов

3 ответов

Укрепление обучения, где каждый штат является конечным

Мой вопрос связан не с реализацией обучения с подкреплением, а с пониманием концепции RL, когда...

maurocomi / 25 февраля 2019

0 голосов

0 ответов

Как сделать вывод о Карле после тренировки на кластере Рэй?

Я обучил алгоритм на среде Carla, используя кластер Ray.Я хотел сделать вывод.Могу ли я знать, как...

Deepak Nayak / 22 февраля 2019

0 голосов

0 ответов

Реализация градиента политики при большом количестве выходных классов

Мне известен этот хитрый способ реализации градиента политики (см. Его для справки: Обучение...

user1953737 / 22 февраля 2019

0 голосов

0 ответов

Как использовать глубокое обучение в игре со змеями

В идеале я хочу использовать нейронную сеть, используя метод глубокого обучения.Однако я не хочу...

Jostein Dyrseth / 19 февраля 2019

0 голосов

2 ответов

Отрицательное вознаграждение в обучении подкреплению

Я не могу обернуться вопросом: как именно отрицательные награды помогают машине избежать их?...

Anton Kasabutski / 19 февраля 2019

0 голосов

0 ответов

Как создать непрерывное многомерное пространство состояний в обучении глубокому подкреплению?

Представьте, что у меня проблема с динамическим ценообразованием, и я решаю эту проблему с помощью...

Karthik Rajkumar / 19 февраля 2019

0 голосов

0 ответов

Как я могу изменить свой Q_Target с init на основной цикл?

Я использую реализацию из: https://github

Miguel A. Friginal / 18 февраля 2019

0 голосов

0 ответов

Являются ли эти реализации градиента политики эквивалентными?

Я изучаю градиент политики через игру CartPole.Я получил две реализации, и обе работают хорошо

dylc / 12 февраля 2019

0 голосов

0 ответов

DDPG для изменяющейся во времени политики

Я хочу обучить политике, которая зависит от времени.Например, я хотел бы знать цену продукта с...

Tracy Yang / 08 февраля 2019

0 голосов

1 ответ

Научите робота собирать предметы в мире сетки до достижения состояния терминала с помощью обучения подкреплению

Моя проблема заключается в следующем.У меня есть простой мир сетки: https://i.imgur.com/2QyetBg.png...

Genesist / 02 февраля 2019

0 голосов

0 ответов

Государственное представительство по 2D стрельбе

Я пытаюсь сделать так, чтобы компьютер выучил очень простую 2D игру-стрелялку с обучением...

Noam Vaknin / 23 января 2019

0 голосов

0 ответов

Государственное представительство для простого шутера DQN

Я кодировал очень простую среду для стрелялки, в которой 2 игрока (квадраты) стреляют друг в друга...

Noam Vaknin / 23 января 2019

0 голосов

0 ответов

Решающий горный автомобиль (тренажерный зал) с линейным приближением функции значения с обновлением веса разницы во времени

Итак, в моем задании мне нужно решить Mountain car, оптимизировав функцию значения состояния...

stos1512 / 20 января 2019

0 голосов

1 ответ

Поиск (Python) проекта, который сравнивает обучение в области подкрепления с DeepRL

Существует обучение по подкреплению без какой-либо нейронной сети (например, Q-Learning), и есть...

Boun7yhun7er / 19 января 2019

0 голосов

1 ответ

Производительность Deep Q-Learning Agent снижается после определенного количества эпох

У меня есть агент DQN, который обучен в определенной сети для выполнения задачи. Однако, когда я...

Abhijit Roy / 13 января 2019

0 голосов

1 ответ

Мне нужна помощь в понимании подкрепления учебного кода

Я пытался решить среду OpenAI MountainCarContinuous-v0 некоторое время, но я застрял. Проведя...

Sam Peterson / 13 января 2019