Вы можете использовать задание AWS Glue ETL, написанное на PySpark. Работы с клеем могут выполняться по расписанию каждый час. Я предлагаю прочитать весь набор данных, выполнить ваши операции и затем переместить данные в другое место долгосрочного хранения.
Если вы работаете с несколькими ГБ данных, задание PySpark должно быть выполнено в течение нескольких минут. Нет необходимости поддерживать работу кластера EMR в течение часа, если он понадобится вам только в течение 10 минут. Попробуйте использовать недолговечные кластеры EMR или задание Glue ETL.
Athena поддерживает запросы к данным GZipped. Если вы выполняете какой-то анализ, возможно, будет работать запрос Athena с временным диапазоном?
Вы также можете использовать оператор CTAS (Create Table As Select) в Athena для копирования данных в новое местоположение. и одновременно выполняя basi c ETL на нем.
Что именно делает ваш код PySpark?