как данные будут передаваться из корзины S3 работникам Spark - PullRequest
0 голосов
/ 13 октября 2018

Когда мы создаем RDD с использованием функции textFile на основе HDFS, он создает разделы в соответствии с блоками, и вычисления обычно происходят там, где данные находятся на узле данных.

Однако, когда мы создаем RDD на основе файлов S3, как данные будут передаваться из корзины S3 работникам Spark для выполнения?передача включает также водителя?Кроме того, они будут влиять на производительность при использовании S3 в качестве хранилища по сравнению с HDFS.

С уважением,

Neeraj

1 Ответ

0 голосов
/ 13 октября 2018

Поскольку вы не подразумеваете локальность данных с S3.

Просто нужен разделяемый формат для рабочих, чтобы получать данные.

Следовательно, S3 медленнее, но дешевле.

NoNodeNode не требуется.

Драйвер требуется только для таких вещей, как сбор и координация задач для работников / исполнителей.Не было бы смысла архитектурно.

...