Вопросы с тегом армирование-обучение

0 голосов

0 ответов

Ошибка FLOW при запуске "Python examples / rllib / traffic_light_grid.py"

Я пытаюсь запустить многоагентный эксперимент на RL-Framework Flow для SUMO. Однако, если я пытаюсь...

lospollos / 02 ноября 2019

1 голос

1 ответ

Сохранение моделей Traned AI в Google Colab

После обучения двойного агента DDPG с задержкой в Google colab в течение 10 часов я скачал файл...

stellan lange / 29 октября 2019

0 голосов

1 ответ

q-learning: ValueError: 'a' не может быть пустым, если не взяты образцы

Я пытаюсь разработать алгоритм q-обучения для обучения с подкреплением, это мой код: import numpy...

student / 29 октября 2019

1 голос

0 ответов

Как объединить два или более обученных веса?

Я внедрил 5x5 Gomoku от CNN + DQN. Вот ссылка на github: https://github

GreenTea / 28 октября 2019

1 голос

0 ответов

керас подходит время / шаг разница

Создание агента dqn и попытка понять, почему вызов соответствия в моем коде на несколько порядков...

gr0k / 24 октября 2019

0 голосов

1 ответ

Как использовать данные трафика из сумо в качестве среды RL для использования в Python?

Я пытаюсь использовать Усиление обучения на средствах управления движением. Я заметил, что я должен...

NajmehS / 24 октября 2019

0 голосов

0 ответов

ModuleNotFoundError: нет модуля с именем 'utils.stats'

Я использую ddpg алгоритм критики актера и использую from utils.stats import gather_stats и получаю...

Gaurav / 21 октября 2019

2 голосов

1 ответ

Как рассчитать MaxQ в Q-learning?

Я делаю реализацию Q-обучения, в частности уравнения Беллмана. Я использую версию с веб-сайта ,...

Miguel A. Friginal / 20 октября 2019

0 голосов

0 ответов

Получите отрицательный общий убыток от функции потерь Актера-критика

Я пытаюсь реализовать актер-критика с тензорным потоком, я настраиваю функцию потерь для...

LIU SHUZHI / 19 октября 2019

0 голосов

0 ответов

Усиление обучения: как определить вознаграждение за живое время?

В такой среде, как бесконечная игра-бегун, где цель состоит в том, чтобы просто остаться в живых...

A Poor / 18 октября 2019

0 голосов

1 ответ

Pytorch - переход между режимами eval () и train ()

Я изучаю «Обучение глубокому подкреплению» и строю свой собственный пример после УЧЕБНОГО ОБУЧЕНИЯ...

Sergy Stepura / 18 октября 2019

1 голос

0 ответов

Реализация 1-слойного, 2-слойного или 3-слойного поиска td-gammon

Я прочитал несколько статей, и большинство из них говорят, что 3-слойный повышает...

Ângela Gonçalves / 17 октября 2019

0 голосов

0 ответов

keras.fit и keras.predict в многопроцессорной среде

Я делаю проект на DQN. Выполнение действий и получение следующего состояния занимает немного...

Ganzorig Batnasan / 17 октября 2019

0 голосов

0 ответов

Как сохранить модель DDPG с помощью Coach в Sagemaker

Я работал с примерами AWS по следующей ссылке: https://github

Rishan / 11 октября 2019

0 голосов

0 ответов

Прогнозируемый результат - NaN на карточной игре RL DQN

Я пытаюсь создать учебный проект для популярной португальской карточной игры. У меня работает среда

talvasconcelos / 08 октября 2019

0 голосов

0 ответов

DDPG идет к нулевым градиентам

Я пытаюсь реализовать DDPG для маятниковой среды OpenAI, используя Tensorflow и Keras. После...

Zachary Goddard / 07 октября 2019

1 голос

0 ответов

openai-gym pong: как сделать reset () более случайным

Я реализовал агента dqn, и после нескольких часов обучения награда остается неизменной 20-21. Когда...

yonigo / 07 октября 2019

0 голосов

0 ответов

Как понять лямбда-слой Keras?

Я новичок в лямбда-выражениях Keras и мне нужно понять, как они работают. Я хочу реализовать...

Marek Balaz / 05 октября 2019

0 голосов

0 ответов

Вне политики MC Control Q (s, a) только равен -1, пример Racecar

В свободное время я изучаю «Обучение усилению» через книгу «Введение в обучение усилению - второе...

Adam Olsson / 04 октября 2019

0 голосов

1 ответ

Награда сходится, но действия не правильны в обучении подкреплению

Я разрабатываю обучающий агент для подкрепления. Моя структура вознаграждения выглядит следующим...

cvg / 03 октября 2019

0 голосов

0 ответов

Политика Градиент Действие Измерение

Я понимаю, что пространство действий в градиенте политики должно быть дискретным, например, "вверх"...

Pak Long / 03 октября 2019

0 голосов

1 ответ

Пользовательская функция раннего останова - остановка, когда значение стоимости начинает ускоряться вверх после конвергенции?

Я тренирую модель, используя Tensorflow в Python 3, и настроил свою собственную функцию раннего...

Matt Wilson / 02 октября 2019