Что вы можете сделать, так это то, что когда вы находитесь в состоянии 's' и у вас есть, например, 8 возможных действий (таким образом, 8 выходов для вашей сети), но действия 1 2 3 не могут быть выполнены, вы можете минимизировать потери с помощьюцелевые значения Q вручную устанавливаются в 0 для всех действий инвалидов в состоянии 's'.
И для этапа обучения, когда действие, соответствующее наибольшему значению Q, является недействительным, просто выберите случайное действие и незабудьте установить целевое значение Q для этого действия на 0.