У меня есть следующая работа в AWS Glue, которая в основном считывает данные из одной таблицы и извлекает их в виде csv-файла в S3, однако я хочу выполнить запрос к этой таблице (A Select, SUM и GROUPBY) и хочу получить что выводить в CSV, как мне это сделать в AWS Glue? Я новичок в Spark, поэтому, пожалуйста, помогите
args = getResolvedOptions(sys.argv, ['JOB_NAME'])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
datasource0 = glueContext.create_dynamic_frame.from_catalog(database =
"db1", table_name = "dbo1_expdb_dbo_stg_plan", transformation_ctx =
"datasource0")
applymapping1 = ApplyMapping.apply(frame = datasource0, mappings =
[("plan_code", "int", "plan_code", "int"), ("plan_id", "int", "plan_id",
"int")], transformation_ctx = "applymapping1")
datasink2 = glueContext.write_dynamic_frame.from_options(frame =
applymapping1, connection_type = "s3", connection_options = {"path":
"s3://bucket"}, format = "csv", transformation_ctx = "datasink2")
job.commit()