Я новичок в области DRL и работаю над моделью DRL. В эти дни я делал вывод, что я даю состояния модели и вижу, какие действия предпринимает модель.
Я определил состояние как 3-мерный массив Numpy и передал его модели, и он возвращает каждый раз, когда я запускаю код, это разные комбинации действий, даже если это определенно одно и то же состояние.
Мой вопрос таков: каково поведение ДХО? Или это звучит странно?
Я натренировал его только на 5 эпизодах, которые могли его вызвать?
Если кто-нибудь подскажет мне мысли, я буду вам благодарен.