Вопросы с тегом д-обучение

0 голосов

1 ответ

Научите робота собирать предметы в мире сетки до достижения состояния терминала с помощью обучения подкреплению

Моя проблема заключается в следующем.У меня есть простой мир сетки: https://i.imgur.com/2QyetBg.png...

Genesist / 02 февраля 2019

0 голосов

1 ответ

Каково полное значение коэффициента дисконтирования γ (гамма) в обучении с подкреплением?

Я относительно новичок в понятиях машинного обучения, и я читал несколько лекций / учебных пособий...

Adam Whitehurst / 23 января 2019

0 голосов

1 ответ

Deep Q Learning For Snake Game

Я работаю над проектом с кодом Keras Plays Catch .Я изменил игру на простую игру «Змея» и...

Amir_P / 22 января 2019

0 голосов

1 ответ

Несоответствия между tf.contrib.layer.fully_connected, tf.layers.dense, tf.contrib.slim.fully_connected, tf.keras.layers.Dense

Я пытаюсь реализовать градиент политики для проблемы контекстного бандита (https://medium

Alex Van de Kleut / 16 января 2019

0 голосов

0 ответов

Q-обучение для оптимального размещения заказа

Таким образом, последний поток, который я написал о Reinforcement Learning, был отмечен как слишком...

Sergio / 16 января 2019

0 голосов

1 ответ

В-обучение, как влияет количество тестовых эпизодов на конвергенцию?

в следующем коде, который является кодом для решения FrozenLake 4x4 с помощью Q-learning. в...

Meysam Ghorbani / 16 января 2019

0 голосов

1 ответ

Потеря уменьшилась и прыгать внезапно

Я тренирую агента с DQN. Награда увеличивается, а убыток уменьшается. Это хороший знак, у меня...

fgauth / 14 января 2019

0 голосов

0 ответов

Как получить один выход из CNN, пока мы кормим его множественным количеством цветных изображений?

Я выполняю задание Deep-Q Learning, и у меня есть последовательность из 4 изображений, которые я...

Shahbaz Khan / 25 декабря 2018

0 голосов

1 ответ

Каков код стрельбы пулями в динамические объекты в Python?

Я хочу тренировать ИИ с использованием Reinforcement Learning на python.Цель состоит в том, чтобы...

Farbod.T / 11 декабря 2018

0 голосов

2 ответов

Почему Q-Learning - это обучение вне политики?

Привет, сообщество переполнения стека! В настоящее время я слежу за лекциями Дэвида Сильвера по...

dummyHead / 10 декабря 2018

0 голосов

1 ответ

В чем конкретно разница между Q, V (функция стоимости) и вознаграждением в обучении подкреплению?

В контексте сетей Double Q или Deuling Q, я не уверен, полностью ли я понимаю разницу.Особенно с V....

Rashan Arshad / 07 декабря 2018

0 голосов

1 ответ

Q-Learning Промежуточные Награды

Если агент Q-Learning действительно заметно лучше противостоит противникам в конкретной карточной...

Ongun Uzay Macar / 05 декабря 2018

0 голосов

0 ответов

Q-обучение с опытом воспроизведения, а не обучения

Я пытаюсь реализовать опыт воспроизведения (ER) в среде OpenAI taxi-v2.Предполагается, что...

BlueKryptonite / 04 декабря 2018

0 голосов

0 ответов

Политика Q-Learning не согласуется с итерацией Value / Policy

Я играю с pymdptoolbox.У него есть встроенная проблема управления лесами.Он может генерировать...

Chenyang / 20 ноября 2018

0 голосов

0 ответов

Разница между моими реализациями Q-Learning в Tensorflow и Keras

Я написал реализацию Q-Learning для решения проблемы OpenAI FrozenLake-v0 с использованием простого...

adam-pociejowski / 11 ноября 2018

0 голосов

0 ответов

Нечеткое схождение Q-Learning

У меня проблемы с FQL (Fuzzy Q-Learning). Я реализовал свой алгоритм на Matlab. На самом деле...

Ali El Amine / 08 ноября 2018

0 голосов

1 ответ

Эпсилон и скорость обучения снижаются в эпсилон жадных q обучения

Я понимаю, что эпсилон отмечает компромисс между разведкой и эксплуатацией. Сначала вы хотите,...

maddie / 08 ноября 2018

0 голосов

1 ответ

Сходимость Q-обучения на перевернутом маятнике

Здравствуйте, я работаю над полным контролем над проблемой с карполом (перевернутый маятник). Моя...

Stevy KUIMI / 05 ноября 2018

0 голосов

1 ответ

Усиление обучения с моделью Keras

Я пытался реализовать алгоритмы q-learning в Керасе.По статьям я нашел эти строки кода. for state,...

Miguel A. Friginal / 27 октября 2018

0 голосов

0 ответов

Конвергенция Q-обучения и локальная проблема оптимумов

Я новичок в области обучения усилению (RL) и Q-обучения в частности. У меня есть набор из 20 штатов...

praneeth / 26 октября 2018

0 голосов

0 ответов

Первый визит против каждого визита Монте-Карло

Я недавно изучал изучение подкрепления.Для этого я читал знаменитую книгу Саттона, но есть кое-что,...

Djazouli / 16 октября 2018

0 голосов

2 ответов

Почему мои Deep Q Net и Double Deep Q Net нестабильны?

Я пытаюсь реализовать DQN и DDQN (оба с опытом ответа) для решения OpenAI AI-Gym Cartpole...

Jack / 12 октября 2018

0 голосов

1 ответ

Сарса и Q Learning (обучение с подкреплением) не сходятся в оптимальной политике

У меня есть вопрос о моем собственном проекте по тестированию техники подкрепления.Сначала...

T. LEVENT / 11 октября 2018

0 голосов

0 ответов

Цели в градиентах политики при использовании CNN в качестве предиктора

Я хочу создать агент градиента политики, который сможет играть в Doom с помощью этого руководства

Fcoder / 04 октября 2018

0 голосов

0 ответов

Потеря Deep Q Network становится все выше

Я пытался создать DQN для игр Atari в Tensorflow. Вот мой код: import tensorflow as tf import gym...

Kay Jersch / 08 сентября 2018