Мне нужно выполнить дополнительную загрузку в корзину S3.
- Каждый день новый файл .gz выгружается в папку S3, и сканер клея считывает данные и обновляет их в каталоге данных.
- Задание Scala AWS Glue запускается и фильтрует только данные за текущий день.
- Указанные выше отфильтрованные данные преобразуются в соответствии с некоторыми правилами и разделенным динамическим фреймом данных (т. Е. Годом, месяцем, днем)Уровень создан.
Теперь мне нужно записать этот динамический фрейм данных в корзину S3, в которой присутствуют все разделы предыдущего дня.На самом деле мне просто нужно записать только один раздел в корзину S3. В настоящее время я использую приведенный ниже фрагмент кода для записи данных в корзину S3.
// Write it out in Parquet for ERROR severity
glueContext.getSinkWithFormat(
connectionType = "s3",
options = JsonOptions(Map("path" -> "s3://some s3 bucket location",
"partitionKeys" -> Seq("partitonyear","partitonmonth","partitonday"))),
format = "parquet").writeDynamicFrame(DynamicFrame(dynamicDataframeToWrite.toDF().coalesce(maxExecutors), glueContext))
Я не уверен, что приведенный выше фрагменткод выполняет добавочную загрузку или нет. Есть ли способ через библиотеки склеивания AWS добиться того же?