Что делает Alpzero модель на основе

0 голосов

asizohar / 19 октября 2019

Alphazero использует montecarlo и учится на опыте, так почему он считается основанным на модели, а не свободным от модели, для чего при реализации альфа-нуля требуется модель

машина-обучения
усиление-обучения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.

Похожие темы

Обучение Змеи есть пищу за определенное количество шагов c, используя обучение Усилению
RL-Coach простой пример поведенческого клонирования
Как я могу сохранить модель DDPG?
Почему результат при восстановлении сохраненной модели DDPG значительно отличается от результата при сохранении?
Unity-ML Agents Space Shooter Game
Как DQN может предсказать будущую награду, хотя я и кормлю только вознаграждение за следующий шаг?
В обучении с подкреплением, у агента и среды разные состояния или только одно?
Как использовать Укрепление обучения для задачи классификации?
Разница между DDQN + приоритет воспроизведения опыта и DDQN + больше эпох?
Оптимизатор обучения для лучших подкреплений

...