Вопросы с тегом укрепление обучения

0 голосов

2 ответов

Почему моя модель дает разные результаты каждый раз, когда я ее тренирую?

Мой вопрос: почему, когда я тренирую один и тот же алгоритм дважды, он дает разные результаты...

J. Ali / 25 июня 2019

0 голосов

0 ответов

Есть ли в Unity возможность добавлять модели для глубокого усиления?

Я пытаюсь найти способ получить доступ к Unity Dr Learning, но не могу найти какую-либо информацию...

Mykhailo Melnychuk / 16 июня 2019

1 голос

1 ответ

Что такое оптимальность в обучении укреплению?

Я знаю определение: - Оптимальная политика (pi) * удовлетворяет (pi) *> = (pi) для всех (pi)...

Naman Jain / 11 июня 2019

0 голосов

1 ответ

Диапазон пространства состояний для MuJoco HalfCheetah

Я пытался определить диапазон каждой функции в среде Half Cheetah MuJoCo. Единственная релевантная...

soulless / 04 июня 2019

2 голосов

1 ответ

Как использовать модели обучения подкреплению MDP Q-learning?

Я заинтересован в изучении подкрепления, в частности, как использовать RL для динамического...

dnobl / 26 мая 2019

0 голосов

1 ответ

Как исправить ‘ValueError: Ошибка при проверке ввода: ожидалось, что dens_1_input имеет shape (4,), но получил массив с shape (1,) в Python?

Ошибка, которую я получил из консоли Spyder, приведена ниже: runfile ('/ Users / ozgeozler / Pygame...

Makbule / 29 апреля 2019

0 голосов

0 ответов

Как максимизировать функции с Keras

Я пытаюсь реализовать Глубокий детерминистический градиент политики с помощью Keras. Вот алгоритм:...

Monocero / 28 апреля 2019

0 голосов

0 ответов

Сложность балансировки маятника с использованием алгоритма глубокого обучения

Я пытаюсь сбалансировать перевернутый маятник, используя алгоритм DDPG.Я не могу получить ожидаемые...

Shritej Chavan / 23 апреля 2019

0 голосов

1 ответ

Нейрональные сети становятся медленными в адаптации после большого количества тренировок?

Я новичок в области нейронных сетей, и я хочу понять определенное утверждение.Один мой друг сказал,...

Journerist / 18 апреля 2019

0 голосов

0 ответов

Загрузите замороженную модель TensorFlow (как файл * .pb) и продолжайте тренировать ее

Я работаю над репозиторием Uber Atari-model-zoo (https://github.com/uber-research/atari-model-zoo)....

Manor Zvi / 16 апреля 2019

1 голос

0 ответов

Использование Openai Spaces для измененной среды

У меня есть двумерный массив нормализованных данных. Я использую space = np.array([0,1,...366],[0,0

Karthik Rajkumar / 18 марта 2019

0 голосов

1 ответ

ошибка при обучении CartPole-v0 OpenGym с model.predict

Когда я только начинал с подкрепляющего обучения, я поднял проблему с тележкой и следовал некоторым...

Aritro Mukherjee / 06 марта 2019

0 голосов

1 ответ

Как изменить пример A3C Tensorflow, чтобы играть в игры Atari?

Я следовал учебному пособию Tensorflow , в котором реализован A3C, чтобы добиться успеха в среде...

memememe / 24 февраля 2019

0 голосов

1 ответ

Пользовательские среды в OpenAI-Gym

Я хочу попробовать усиленное обучение на Python.Но я хочу создать пользовательскую среду с моими...

Savinay_ / 21 февраля 2019

0 голосов

1 ответ

Как я могу обновить тензор (значение веса), пытаясь использовать две отдельные сети?

Я пытался сделать ИИ для блэкджека, используя RL.Сейчас я пытаюсь сделать две отдельные сети, что...

seunghyung lee / 09 февраля 2019

0 голосов

1 ответ

tenorflow Ошибка переменной: ошибка формы, хотя форма в порядке

привет, я пытался создать RL-программу для блэкджека.Я сделал весь код с Q-сети, и он работает

seunghyung lee / 04 февраля 2019

0 голосов

0 ответов

keras_rl: Как использовать агент DQN с action_space, отличным от Discrete (2)

Я пытаюсь обучить DQNAgent с помощью типа action_space gym.spaces.Box (4).Но внутри функции...

Yaniv Sheffer / 31 января 2019

0 голосов

1 ответ

ValueError: Невозможно передать значение формы (1, 4, 84, 84) для тензора 'Placeholder: 0', который имеет форму '(?, 84, 84, 4)'

Я использую DQN, чтобы научиться играть в игры Atari, и тренирую его на GPU. Я заметил, что...

James Brightman / 15 января 2019

0 голосов

0 ответов

ValueError: Shape должен иметь ранг 0, но является рангом 2 для 'cond / Switch' (op: 'Switch') с входными формами: [1,1], [1,1]

Я хотел бы представить новую функцию активации в сети с помощью tenorflow. Тем не менее, я получаю...

Yuay / 06 января 2019

0 голосов

1 ответ

Введен новый слой с использованием tenorflow

Я хотел бы представить новый слой в качестве функции активации в тензорном потоке.Однако есть...

Yuay / 27 декабря 2018

0 голосов

1 ответ

Стратегия геологоразведочных работ DQN для крупной глобальной сети

Моя задача связана с большим типом среды мира сетки (размер сетки может быть 30x30, 50x50, 100x100,...

Mink / 06 декабря 2018

0 голосов

0 ответов

Как использовать обученную политику в OpenAI Baseline

В настоящее время я использую базовый уровень PPO2 в OpenAI для разработки политики для нескольких...

user3259937 / 27 ноября 2018

0 голосов

1 ответ

tenorflow - реализация опыта воспроизведения памяти с помощью API оценки

Я пытаюсь реализовать память воспроизведения опыта с помощью tf.estimator.Estimator API.Однако я не...

Chocolate / 21 ноября 2018

0 голосов

0 ответов

Cartpole-v1, использующий A2C, имеет очень низкую награду без причины

Я использую a2c для работы на Cartpole-v1.Конечная цель - найти среднюю награду.Тем не менее, мое...

Wei Bovey / 14 ноября 2018

0 голосов

1 ответ

Что дает Сонет DeepMind, чего нет у Кераса?

Я очень озадачен назначением библиотеки сонета DeepMind для TensorFlow. Насколько я могу судить из...

Sam Lerman / 04 ноября 2018