Запись Spark Sql в файл паркета не заканчивается - PullRequest
0 голосов
/ 23 февраля 2019

Я запускаю пакетное задание Spark Sql и намеревался преобразовать дамп таблицы в файл (ы) паркета.Эта таблица является таблицей кустов, а базовое хранилище - HBase.Я использую MapR и версия spark * 2.2.1 .Фрейм данных, используемый для записи, имеет 144 раздела, и я сохранил то же самое в MEMORY_AND_DISK.Только 143 раздела кэшируются и создаются файлы.Временная папка содержит 143 пустых каталога попыток.В журнале YARN ничего нет.

Уровень хранения: десериализован 1x Реплицированные кэшированные разделы: 143 Кэшированная фракция: 99% Размер в памяти: 173,4 ГБ Размер на диске: 0,0 B

spark submit:

$SPARK_HOME/bin/spark-submit --master yarn --executor-memory 30G  --queue uwhbddev_q1 --num-executors 30 --executor-cores 4 --conf spark.serializer=org.apache.spark.serializer.KryoSerializer --conf spark.driver.memory=16g --conf spark.shuffle.compress=true --conf spark.shuffle.file.buffer=60k --conf spark.sql.shuffle.partitions=2000 --conf spark.default.parallelism=100 --conf spark.files.maxPartitionBytes=44739242 --conf spark.driver.maxResultSize=8g --conf spark.kryoserializer.buffer.max=2000m

А фрагмент кода:

val writeDF = spark.sql("select * from " + hsrdbName.toString().concat(".").concat(i.toString().trim()))  ///i is the table name and hsrdbName is the db name
writeDF.persist(StorageLevel.MEMORY_AND_DISK)
writeDF.write.parquet(pathToWrite)
writeDF.unpersist()

Есть идеи, как это исправить?

...