Я реализовал q обучающий алгоритм, в котором агент пытается путешествовать как можно дальше.Я использую мгновенные награды и награду за финальный эпизод.Когда агент сталкивается, я даю высокую награду за столкновение в минус, и я не останавливаю эпизод.Можно ли так делать, или эпизод должен быть закончен после столкновения агента?