Question

Я понимаю, что "spark.deploy.spreadOut" при значении true может принести пользу HDFS, но для S3 может иметь значение false больше, чем true?

cricket_007 · Answer 1 · 27 сентября 2018

Если вы используете Hadoop и HDFS, не будет выгодно использовать автономный планировщик Spark, для которого применяется это свойство.Скорее, вы должны запустить YARN, а ResourceManager определяет, как распределяются исполнители

Если вы используете автономный планировщик в EC2, то установка этого свойства поможет , и по умолчанию установлено значение true.

Другими словами, когда вы читаете данные, это не решающий фактор, режим развертывания для мастера равен

. Чем больше преимуществ вы получите от количества файлов, которые вывы пытаетесь прочитать, и в каких форматах вы храните данные в

Spark - может "spark.deploy.spreadOut = false" повысить производительность на S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark - может "spark.deploy.spreadOut = false" повысить производительность на S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы