1) Создайте таблицу athena, указывающую ваши данные на S3:
Создайте внешнюю таблицу на athena
2) Создайте динамический фрейм из каталога клея, используятаблица, созданная на шаге выше.
from awsglue.context import GlueContext
glueContext = GlueContext(SparkContext.getOrCreate())
DyF = glueContext.create_dynamic_frame.from_catalog(database="{{database}}", table_name="{{table_name}}")
3) Запишите данные в новое местоположение S3 в любом формате, который вам нравится:
glueContext.write_dynamic_frame.from_options(
frame = DyF,
connection_type = "s3",
connection_options = {"path": "path to new s3 location"},
format = "parquet")
4) Создайте таблицу athena, указывающую на ваш паркетданные на S3:
Создание внешней таблицы для athena
Примечание. Вместо создания таблицы athena вручную, вы также можете использовать сканер клея для ее создания.Однако это повлечет за собой определенные расходы.