У меня есть файл с блоком 10000 в hdfs.
# процессор в моем кластере = 200
Ram = 500 ГБ
Q1.) Когда я инициализирую RDD, только 200 (Блоки #cores) будут прочитаны в первой итерации.
Таким образом, для обработки всего файла необходимо всего 50 итераций.Правильно ли это понимание?
Q2.) При широкой зависимости требуется перетасовка.
И для правильной работы перетасовки, если только 200 блоков из всех 10K блоков разбиты / обработаны за одну итерацию.
Тогда это приведет к неверному результату (например, groupByKey).
Таким образом, в случае перетасовки:
Когда происходит перетасовка между этапом-1 и этапом-2
Q2a.) Тогда на этапе 1 полные данные (10000 разделов / блоков) должны быть доступны в ОЗУ?Правильно ли это понимать?
Q2b.) Какое решение в этом сценарии?
Пожалуйста, поясните выше путаницу, как я пытался, но не смог найти объяснения по этому поводу.