Я учу агента выйти из лабиринта, собирая все яблоки на своем пути, используя Qlearning. Я читал,...
Я сейчас пытаюсь оптимизировать навигацию моего робота. Сначала я использовал ванильный DQN, где...
Я пытаюсь разработать алгоритм q-обучения для обучения с подкреплением, это мой код: import numpy...
Я делаю реализацию Q-обучения, в частности уравнения Беллмана. Я использую версию с веб-сайта ,...
В такой среде, как бесконечная игра-бегун, где цель состоит в том, чтобы просто остаться в живых...
Я пытаюсь ознакомиться с Укреплением Обучения. Я создал RL, используя подход Q-обучения. Описание...
Я работаю над проектом, в котором я пытаюсь научить машину вождению с помощью Q-learning в Python....
Когда скорость обучения α определяется как α k = 1 / k, означает ли k количество выполненных...
Я хочу реализовать рекомендацию статьи, используя Q-learning в Python. Наш набор данных содержит,...
Я попробовал алгоритм DoubleDQN и DQN в игре NChain в спортзале и понял, что производительность...
Я пишу простой пример q-обучения и для обновления q-значений вам нужен maxQ '. Я не уверен,...
Я прочитал несколько материалов о глубоком q-learning, и я не уверен, полностью ли я их понимаю.Из...
Я работаю над изучением q-таблиц и пробежался по простой версии, в которой использовался только...
Я учусь изучению глубокого подкрепления, начиная с примеров из интернета по решению таких игр, как...
Я понимаю эпсилон-жадный алгоритм, но есть одна путаница. Это среднее вознаграждение или значение ,...
Можно ли считать выходные данные одной нейронной сети двумя или более наборами выходов? Я объясню...
Цель состоит в том, чтобы создать ИИ, который будет играть в простую игру, отслеживая горизонтально...
У меня есть алгоритм RL, в котором я использую LSTM и свертки. Он основан на двойном обучении....