Spark-обработка данных, хранящихся на SSD - PullRequest
0 голосов
/ 15 декабря 2018

В настоящее время мы используем приложение на основе Spark 2.1, которое анализирует и обрабатывает огромное количество записей для создания статистики, которая используется для генерации отчетов.Теперь мы используем 150 исполнителей, 2 ядра на исполнителя и 10 ГБ на исполнителя для наших рабочих заданий, и объем данных ~ 3 ТБ, хранящихся в формате паркета.На обработку данных за 12 месяцев уходит ~ 15 минут времени.

Теперь, чтобы повысить производительность, мы хотим попробовать полноценный SSD-узел для хранения данных в HDFS.Ну, вопрос в том, есть ли какая-либо специальная конфигурация / оптимизация для SSD?Было ли проведено какое-либо исследование производительности обработки Spark на HDFS на основе SSD и HDFS на основе HDD?

1 Ответ

0 голосов
/ 16 декабря 2018

http://spark.apache.org/docs/latest/hardware-provisioning.html#local-disks

SPARK_LOCAL_DIRS - это конфигурация, которую вам нужно изменить.

https://www.slideshare.net/databricks/optimizing-apache-spark-throughput-using-intel-optane-and-intel-memory-drive-technology-with-ravikanth-durgavajhala

Вариант использования: K означает algo, но поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...