Question

Когда мы создаем RDD с использованием функции textFile на основе HDFS, он создает разделы в соответствии с блоками, и вычисления обычно происходят там, где данные находятся на узле данных.

Однако, когда мы создаем RDD на основе файлов S3, как данные будут передаваться из корзины S3 работникам Spark для выполнения?передача включает также водителя?Кроме того, они будут влиять на производительность при использовании S3 в качестве хранилища по сравнению с HDFS.

С уважением,

Neeraj

thebluephantom · Answer 1 · 13 октября 2018

Поскольку вы не подразумеваете локальность данных с S3.

Просто нужен разделяемый формат для рабочих, чтобы получать данные.

Следовательно, S3 медленнее, но дешевле.

NoNodeNode не требуется.

Драйвер требуется только для таких вещей, как сбор и координация задач для работников / исполнителей.Не было бы смысла архитектурно.

как данные будут передаваться из корзины S3 работникам Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как данные будут передаваться из корзины S3 работникам Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы