Как СДР разделяют Данные для себя? - PullRequest
0 голосов
/ 16 марта 2019

Я изучаю искру и попал в одно сомнение.

Допустим, у меня есть 100 ГБ файла, который нужно обработать. Итак, я создал один RDD и разделен на три части. Таким образом, три RDD будут выполняться параллельно на соответствующих узлах с собственным набором данных из большого входного файла. Пока хорошо ..!

Если часть данных (из 100 ГБ) выполняется на узле 1, B на узле 2 и C на узле 3.

Просто хочу знать, это очень большой файл, тогда как данные распределяются между тремя узлами? Например, набор данных из большого файла на узел 1 и B на узел 3 и C на узел 3. Читает ли он записи или как это работает?

Пожалуйста, помогите мне понять ..!

Спасибо

1 Ответ

0 голосов
/ 16 марта 2019

Не уверен, что я понял вопрос ...

Искры, считывающие "отщепление" от входных данных.Количество разбиений определяется по тому, как данные разбиты по исходному пути.Это может быть случайное число, например 200, или число стран в мире, если ваши данные разделены по странам.

При чтении данных в rdds разделы будут распределены между вашими узлами.Он извлечет все данные из каждого раздела.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...