Если вы уже собрали данные, тогда среда не нужна. Вы будете работать непосредственно с траекториями - последовательностями состояний, действий и вознаграждений.
Для RL вам понадобится сигнал вознаграждения, у вас есть это?
Если вы спрашиваете, как создатьВ среде симуляции существует несколько способов сделать это, но это будет несколько связано. Здесь - это репозиторий, над которым я и другие из моей лаборатории работаем, это среда разработки средств разработки агентов (включая среды моделирования RL) в python, хотя он все еще находится в зачаточном состоянии (извините за бесстыдное "я"продвижение) - мы будем рады серьезному вкладу!
Для полноты картины существуют и другие фреймворки, наиболее заметными из которых являются gym .