Самая важная вещь, которую необходимо учитывать при использовании AWS glue , - это безсерверная искровая среда с расширениями.Это означает, что вам нужно будет адаптировать ваш скрипт, чтобы он был похож на pySpark.Если вы согласны с этим, тогда вы можете использовать внешние библиотеки Python, следуя инструкциям на Документация по AWS Glue
Если у вас уже запущены скрипты, и вы не хотите использовать Spark, вы всегда можете рассмотреть AWS Data Pipeline .Это сервис для запуска преобразований данных не только Spark.С другой стороны, AWS Data Pipeline работает на основе задач, а не на основе данных, что означает отсутствие управления каталогами или схемами.
Если вы хотите использовать AWS Data Pipeline с Python, это не очевидно при чтении документации,но этот процесс будет в основном включать файл оболочки в S3 с инструкциями по настройке среды Python и запуску сценария.Затем вы настраиваете планирование для конвейера, и AWS позаботится о запуске виртуальных машин при необходимости и последующей остановке.У вас есть хороший пост в stackoverflow об этом