Я использую нейронную сеть и тензорный поток для усиления обучения по различным предметам с помощью метода обучения Q, и я хочу знать, каково решение для сокращения возможностей вывода, когда конкретное действие, соответствующее конкретному выводу, не реализуемов окружающей среде в определенном состоянии.
Например, моя сеть учится играть в игру, в которой выполняются 4 действия.Но есть определенное состояние, в котором действие 1 не может быть выполнено в среде, но значения Q в моей нейронной сети указывают мне, что действие 1 - это лучшее, что нужно сделать.Что мне делать в этой ситуации?
(Является ли выбор случайного действительного действия лучшим способом противодействия этой проблеме?)