Перезаписать файлы паркета из динамической рамки в AWS Glue - PullRequest
0 голосов
/ 24 августа 2018

Я использую динамические кадры для записи файла паркета в S3, но если файл уже существует, моя программа добавляет новый файл вместо его замены.Я использую следующее предложение:

glueContext.write_dynamic_frame.from_options(frame = table,
                                         connection_type = "s3",
                                         connection_options = {"path": output_dir,
                                                               "partitionKeys": ["var1","var2"]},
                                         format = "parquet")

Есть ли что-то вроде "mode":"overwrite", которое заменяет мои паркетные файлы?

1 Ответ

0 голосов
/ 25 августа 2018

В настоящее время AWS Glue не поддерживает режим перезаписи, но они работают над этой функцией.

В качестве обходного пути вы можете преобразовать объект DynamicFrame в DataFrame spark и записать его, используя spark вместо Glue:

table.toDF()
  .write
  .mode("overwrite")
  .format("parquet")
  .partitionBy("var_1", "var_2")
  .save(output_dir)
...