Предотвращение столкновений
Чтобы предотвратить аварию автомобиля, вам необходимо стимулировать агента на каждый шаг, чтобы избежать столкновения.Это возможно, если ваша функция вознаграждения включает в себя такие вещи, как отклонение полосы движения и высокий штраф g-force, а также положительные вознаграждения за приближение к путевой точке.
Параметры состояния
Один из способов думать о состоянии - это набор параметров, которые можно использовать для выбора действия, которое максимизирует (дисконтируется совокупное) вознаграждение.Путевая точка и текущая позиция не очень информативны в этом отношении, учитывая, что не существует оптимального действия для выбора, учитывая только ваше текущее местоположение и пункт назначения.Текущее оптимальное действие зависит от таких факторов, как скорость, ускорение, газ, расстояние до центра полосы движения и т. Д. Вам лучше записать их в качестве параметров состояния.
Взгляните на используемую среду DeepDrive , платформа для тестирования симуляции вождения автомобиля.Обратите внимание на то, как оно включает предотвращение столкновений, минимизацию расстояния до пункта назначения и максимальное соблюдение дороги в своей функции вознаграждения, а также выбор параметров состояния.