Spark - может "spark.deploy.spreadOut = false" повысить производительность на S3 - PullRequest
0 голосов
/ 26 сентября 2018

Я понимаю, что "spark.deploy.spreadOut" при значении true может принести пользу HDFS, но для S3 может иметь значение false больше, чем true?

1 Ответ

0 голосов
/ 27 сентября 2018

Если вы используете Hadoop и HDFS, не будет выгодно использовать автономный планировщик Spark, для которого применяется это свойство.Скорее, вы должны запустить YARN, а ResourceManager определяет, как распределяются исполнители

Если вы используете автономный планировщик в EC2, то установка этого свойства поможет , и по умолчанию установлено значение true.

Другими словами, когда вы читаете данные, это не решающий фактор, режим развертывания для мастера равен

. Чем больше преимуществ вы получите от количества файлов, которые вывы пытаетесь прочитать, и в каких форматах вы храните данные в

...