Используя Apache Spark 1.6.4, с плагиномasticsearch4hadoop, я экспортирую индекс эластичного поиска (документы 100m, 100Go, 5 осколков) в сжатый файл партера в HDFS 2.7.
Я запускаю этот ETL какJava-программа с 1 исполнителем (8 CPU, 12Go RAM).
Процесс выполнения 5 задач (потому что 5 осколков ES) занимает около 1 часа, в большинстве случаев работает нормально, но иногда я могусм. некоторые задачи Spark, потому что out of memory error
.
. В процессе я вижу в HDFS некоторые временные файлы, но они всегда имеют размер 0
Q: ЯХотите знать, сохраняет ли Spark данные в памяти перед записью файла gz.parquet?