Как Spark пишет сжатый файл паркета? - PullRequest
0 голосов
/ 22 декабря 2018

Используя Apache Spark 1.6.4, с плагиномasticsearch4hadoop, я экспортирую индекс эластичного поиска (документы 100m, 100Go, 5 осколков) в сжатый файл партера в HDFS 2.7.

Я запускаю этот ETL какJava-программа с 1 исполнителем (8 CPU, 12Go RAM).

Процесс выполнения 5 задач (потому что 5 осколков ES) занимает около 1 часа, в большинстве случаев работает нормально, но иногда я могусм. некоторые задачи Spark, потому что out of memory error.

. В процессе я вижу в HDFS некоторые временные файлы, но они всегда имеют размер 0

Q: ЯХотите знать, сохраняет ли Spark данные в памяти перед записью файла gz.parquet?

...