В настоящее время мы используем приложение на основе Spark 2.1, которое анализирует и обрабатывает огромное количество записей для создания статистики, которая используется для генерации отчетов.Теперь мы используем 150 исполнителей, 2 ядра на исполнителя и 10 ГБ на исполнителя для наших рабочих заданий, и объем данных ~ 3 ТБ, хранящихся в формате паркета.На обработку данных за 12 месяцев уходит ~ 15 минут времени.
Теперь, чтобы повысить производительность, мы хотим попробовать полноценный SSD-узел для хранения данных в HDFS.Ну, вопрос в том, есть ли какая-либо специальная конфигурация / оптимизация для SSD?Было ли проведено какое-либо исследование производительности обработки Spark на HDFS на основе SSD и HDFS на основе HDD?