Scala 2.12 и Spark 2.2.1 здесь.Я использовал следующий код для записи содержимого DataFrame
в S3:
myDF.write.mode(SaveMode.Overwrite)
.parquet("s3n://com.example.mybucket/mydata.parquet")
Когда я перехожу на com.example.mybucket
на S3, я на самом деле вижу каталог , называемый " mydata.parquet", а также файл с именем" mydata.parquet_ $ folder $"!!!Если я захожу в каталог mydata.parquet
, я вижу под ним два файла:
_SUCCESS
;и part-<big-UUID>.snappy.parquet
В то время как я ожидал увидеть единственный файл с именем mydata.parquet
, живущий в корне корзины.
Что-то не такздесь (если так, что?!?) или это ожидается с форматом файла Parquet?Если ожидается, какой файл фактический Паркет мне нужно прочитать из директории
mydata.parquet
?;или mydata.parquet_$folder$
файл ?;или mydata.parquet/part-<big-UUID>.snappy.parquet
?
Спасибо!