Вопросы с тегом д-обучение

1 голос

0 ответов

Q-Learning алгоритм генерации наград

Petur Ulev / 18 февраля 2020

0 голосов

0 ответов

Двойное Q-обучение сразу после переключения возвращается к Q-learning

Feng Liu / 13 февраля 2020

3 голосов

1 ответ

Связь между оптимальным уравнением Беллмана и Q-обучением

HSKim / 02 февраля 2020

1 голос

0 ответов

Каков наилучший способ справиться с несбалансированным примером базы данных с наградами

GerardL / 23 января 2020

0 голосов

0 ответов

Как генерировать последовательности, используя Q-Learning?

nar-007 / 21 января 2020

0 голосов

0 ответов

Можете ли вы обучить игре "Snake", используя Q learning (а не Deep Q Learning)

Roee Herzovich / 13 января 2020

1 голос

2 ответов

Критерии конвергенции в Q-Learning

drtamakloe / 13 января 2020

0 голосов

1 ответ

Очарование эпсилон-жадной разведки: исправление эпсилон-распада X

Я учу агента выйти из лабиринта, собирая все яблоки на своем пути, используя Qlearning. Я читал,...

Catarina Nogueira / 09 ноября 2019

0 голосов

1 ответ

Плохая производительность двойного DQN по сравнению с ванильным DQN

Я сейчас пытаюсь оптимизировать навигацию моего робота. Сначала я использовал ванильный DQN, где...

trello123 / 01 ноября 2019

0 голосов

1 ответ

q-learning: ValueError: 'a' не может быть пустым, если не взяты образцы

Я пытаюсь разработать алгоритм q-обучения для обучения с подкреплением, это мой код: import numpy...

student / 29 октября 2019

2 голосов

1 ответ

Как рассчитать MaxQ в Q-learning?

Я делаю реализацию Q-обучения, в частности уравнения Беллмана. Я использую версию с веб-сайта ,...

Miguel A. Friginal / 20 октября 2019

0 голосов

0 ответов

Усиление обучения: как определить вознаграждение за живое время?

В такой среде, как бесконечная игра-бегун, где цель состоит в том, чтобы просто остаться в живых...

A Poor / 18 октября 2019

0 голосов

0 ответов

Как развернуть модель Q-обучения?

Я пытаюсь ознакомиться с Укреплением Обучения. Я создал RL, используя подход Q-обучения. Описание...

Randy Morrison / 17 октября 2019

3 голосов

0 ответов

Автомобиль с самостоятельным вождением не улучшается с Q-Learning

Я работаю над проектом, в котором я пытаюсь научить машину вождению с помощью Q-learning в Python....

Viktor Sandberg / 14 октября 2019

0 голосов

0 ответов

Соглашение об именовании Q-learning

Когда скорость обучения α определяется как α k = 1 / k, означает ли k количество выполненных...

user289661 / 07 октября 2019

0 голосов

1 ответ

Как смоделировать рекомендацию статьи как задачу Q-обучения в Python

Я хочу реализовать рекомендацию статьи, используя Q-learning в Python. Наш набор данных содержит,...

Superman / 12 июля 2019

0 голосов

0 ответов

Сравнение производительности между DoubleDQN и DQN

Я попробовал алгоритм DoubleDQN и DQN в игре NChain в спортзале и понял, что производительность...

CA Hau / 05 июля 2019

0 голосов

1 ответ

Является ли MaxQ суммой всех возможных наград или самой высокой наградой?

Я пишу простой пример q-обучения и для обновления q-значений вам нужен maxQ '. Я не уверен,...

yomag1234 / 01 июля 2019

1 голос

1 ответ

Вопросы о Deep Q-Learning

Я прочитал несколько материалов о глубоком q-learning, и я не уверен, полностью ли я их понимаю.Из...

mad / 26 июня 2019

2 голосов

1 ответ

Как я могу изменить это, чтобы использовать таблицу q для обучения подкрепления

Я работаю над изучением q-таблиц и пробежался по простой версии, в которой использовался только...

MNM / 21 июня 2019

0 голосов

0 ответов

Длинные игровые рамки

Я учусь изучению глубокого подкрепления, начиная с примеров из интернета по решению таких игр, как...

keithc / 18 июня 2019

0 голосов

1 ответ

Эпсилон-жадный алгоритм

Я понимаю эпсилон-жадный алгоритм, но есть одна путаница. Это среднее вознаграждение или значение ,...

AgnosticCucumber / 18 июня 2019

0 голосов

1 ответ

Можно ли обучить нейронную сеть с «разделенным» выходом

Можно ли считать выходные данные одной нейронной сети двумя или более наборами выходов? Я объясню...

Xeyes / 05 июня 2019

0 голосов

1 ответ

обучить нейронную сеть реальному субъектному вводу / выводу, чтобы он вел себя подобно субъекту

Цель состоит в том, чтобы создать ИИ, который будет играть в простую игру, отслеживая горизонтально...

Michael1997 / 04 июня 2019

0 голосов

0 ответов

Использование intra_op_parallelism_threads и inter_op_parallelism_threads приводит к совершенно разным результатам в tenorflow-gpu

У меня есть алгоритм RL, в котором я использую LSTM и свертки. Он основан на двойном обучении....

Othmane / 04 июня 2019