Spark: когда файл в hdfs намного больше, чем доступная RAM в кластере - PullRequest
0 голосов
/ 03 октября 2018

У меня есть файл с блоком 10000 в hdfs.

# процессор в моем кластере = 200
Ram = 500 ГБ

Q1.) Когда я инициализирую RDD, только 200 (Блоки #cores) будут прочитаны в первой итерации.
Таким образом, для обработки всего файла необходимо всего 50 итераций.Правильно ли это понимание?

Q2.) При широкой зависимости требуется перетасовка.

И для правильной работы перетасовки, если только 200 блоков из всех 10K блоков разбиты / обработаны за одну итерацию.

Тогда это приведет к неверному результату (например, groupByKey).

Таким образом, в случае перетасовки:

Когда происходит перетасовка между этапом-1 и этапом-2

Q2a.) Тогда на этапе 1 полные данные (10000 разделов / блоков) должны быть доступны в ОЗУ?Правильно ли это понимать?

Q2b.) Какое решение в этом сценарии?

Пожалуйста, поясните выше путаницу, как я пытался, но не смог найти объяснения по этому поводу.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...