Вопросы с тегом армирование обучения

1 голос

1 ответ

Критическая потеря для агента RL

Пока я внедрял агентов для решения различных проблем ... Я видел, что потери моего актера снижаются...

Kaus / 19 сентября 2019

0 голосов

2 ответов

Применение «обучения с подкреплением» на контролируемой модели обучения

Можно ли использовать «обучение с подкреплением» или цикл обратной связи на контролируемой модели?...

Mohamed Aziz Tousli / 11 июля 2019

1 голос

0 ответов

Смещение / дисперсия алгоритмов усиления для немарковских состояний

Здравствуйте, сообщество StackOverflow! У меня возник вопрос по поводу алгоритмов прогнозирования и...

dummyHead / 06 июня 2019

0 голосов

0 ответов

Могу ли я обучить какой-то алгоритм принятия решений, основанный на случайных решениях и их результатах?

Для конкретных бизнес-правил, применимых к моей проблеме: У меня есть инструмент программного...

Connor Mote / 04 июня 2019

0 голосов

0 ответов

Использование intra_op_parallelism_threads и inter_op_parallelism_threads приводит к совершенно разным результатам в tenorflow-gpu

У меня есть алгоритм RL, в котором я использую LSTM и свертки. Он основан на двойном обучении....

Othmane / 04 июня 2019

0 голосов

1 ответ

Расчет MDP

Как работает приведенный ниже расчет?

Tamra.y / 02 июня 2019

0 голосов

0 ответов

Онлайн обучение подкреплению в облаке

Мой вопрос: Можем ли мы внедрить онлайн-обучение по подкреплению в облаке? Я имею в виду, например,...

Sam / 15 мая 2019

0 голосов

0 ответов

Как применить усиленное обучение, когда следующее состояние недостижимо?

Я занимаюсь проектом, который автоматически контролирует набор включений и выключений чиллеров и...

timothy50506 / 25 апреля 2019

1 голос

1 ответ

Рассматривается ли основанная на правилах система, которая изучает обучение с подкреплением?

Я читаю книгу «ИИ для разработчиков игр» Гленна Симанна и Дэвида М. Бурга, где они используют ИИ...

iaskdumbstuff / 12 апреля 2019

1 голос

0 ответов

tf.keras в 4 раза медленнее, чем Keras в моем коде RL

Я очень плохо знаком с машинным обучением.Я нашел этот пример на Github: Код Я реализовал функцию...

Tobias M. / 03 апреля 2019

2 голосов

0 ответов

Градиент политики в керасе предсказывает только одно действие

У меня проблемы с алгоритмом REINFORCE в керасе с играми Atari.После раунда около 30 эпизодов сеть...

tk338 / 29 марта 2019

1 голос

1 ответ

Почему Оптимизация Политики Трастового Региона является алгоритмом On-policy?

Мне интересно, почему Оптимизация Политики Трастового Региона является алгоритмом On-policy? По...

zhangyh / 27 марта 2019

1 голос

0 ответов

Игры для 2 игроков в OpenAI Retro

Я уже некоторое время использую OpenAI Retro, и я хотел поэкспериментировать с играми для двух...

niallmandal / 13 марта 2019

0 голосов

1 ответ

обучение с подкреплением - движение к путевой точке

Я играю с созданием самостоятельной машины в компьютерную игру.Я думал об использовании обучения с...

DaveS / 12 февраля 2019

0 голосов

2 ответов

Укрепление обучения для непрерывного состояния и пространства действия

Задача Моя цель - применить Reinforcement Learning для прогнозирования следующего состояния объекта...

maurocomi / 05 января 2019

0 голосов

1 ответ

Как перечислить возможные состояния преемника для каждого состояния в тренажерном зале OpenAI?(строго для обычных MDP)

Есть ли способ выполнить итерацию по каждому состоянию, заставить среду перейти в это состояние, а...

stefani / 09 декабря 2018

0 голосов

1 ответ

Значение итерации не сходится - марковский процесс принятия решения

У меня проблема с результатами, полученными при выполнении итерации значений, с числами, растущими...

Tom F / 09 декабря 2018

0 голосов

1 ответ

Путаница в понимании формулы Q (s, a) для обучения усилению MDP?

Я пытался понять, почему теорема улучшения политики может применяться к эпсилон-жадной политике....

Dhruv Chadha / 15 сентября 2018

0 голосов

2 ответов

Как бы я обрезал непрерывное действие в актере-критике?

Допустим, у нас есть бот, у которого есть немного денег и несколько акций.Вводится список цен за...

Arpan Dhatt / 11 июня 2018

0 голосов

1 ответ

Является ли метод поиска по методу Монте-Карло или итерация значения (или что-то еще)?

Я беру урок Reinforcement Learning, и я не понимал, как совместить концепции итерации / итерации...

Johan / 07 мая 2018

0 голосов

1 ответ

Политика сети для игры 2048

Я пытаюсь реализовать сетевой агент политики для игры 2048 согласно учебнику Карпати RL . Я знаю,...

Gogis / 04 мая 2018

0 голосов

1 ответ

Deep Q Network не решает OpenAI CartPole

Я новичок в области обучения подкреплению и пытался реализовать DQN для решения задачи CartPole-v0...

ashboy64 / 02 мая 2018

0 голосов

1 ответ

как улучшить производительность машинного обучения - модель обучения DQ

Лунный аппарат на DQlearning работает не очень хорошо, поэтому я стараюсь улучшить...

HungryBird / 26 апреля 2018

3 голосов

2 ответов

Как использовать деревья MinMax с Q-Learning?

Как использовать деревья MinMax с Q-Learning? Я хочу реализовать агент Q-Learning connect 4 и...

Vadiklk / 10 января 2012

5 голосов

1 ответ

Алгоритм SARSA

У меня проблемы с пониманием алгоритма SARSA: http://en.wikipedia.org/wiki/SARSA В частности, при...

Neutralise / 22 мая 2011