Динамическое разбиение, введенное в Spark 2.3, похоже, не работает на AWS EMR 5.13.0 при записи в S3
При выполнении временный каталог создается в S3, но исчезает после завершения процесса беззапись новых данных в окончательную структуру папок.
Проблема была обнаружена при выполнении приложения Scala / Spark 2.3 в EMR 5.13.0.
Конфигурация выглядит следующим образом:
var spark = SparkSession
.builder
.appName(MyClass.getClass.getSimpleName)
.getOrCreate()
spark.conf.set("spark.sql.sources.partitionOverwriteMode","DYNAMIC") // also tried "dynamic"
Код, который записывает в S3:
val myDataset : Dataset[MyType] = ...
val w = myDataset
.coalesce(10)
.write
.option("encoding", "UTF-8")
.option("compression", "snappy")
.mode("overwrite")
.partitionBy("col_1","col_2")
w.parquet(s"$destinationPath/" + Constants.MyTypeTableName)
, где destinationPath является корзиной / папкой S3
Кто-нибудь еще сталкивался с этой проблемой?