Question

Я новичок в области DRL и работаю над моделью DRL. В эти дни я делал вывод, что я даю состояния модели и вижу, какие действия предпринимает модель.

Я определил состояние как 3-мерный массив Numpy и передал его модели, и он возвращает каждый раз, когда я запускаю код, это разные комбинации действий, даже если это определенно одно и то же состояние.

Мой вопрос таков: каково поведение ДХО? Или это звучит странно?

Я натренировал его только на 5 эпизодах, которые могли его вызвать?

Если кто-нибудь подскажет мне мысли, я буду вам благодарен.

Модель глубокого обучения требует различных действий, даже если одно и то же состояние

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Модель глубокого обучения требует различных действий, даже если одно и то же состояние

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы