Gym Taxi-v2 - это амортизация. Моя реализация Q-learning все еще работает с Taxi-v3, но по некоторым причинам env.render () показывает неправильное положение такси на каждом шаге.
В любом случае, кроме добавленной стены, чем отличаются Taxi-v2 v Taxi-v3?