У меня есть кластер Spark с 3 рабочими узлами.В качестве примера возьмем упрощенное число слов:
val textFile = sc.textFile("hdfs://input/words")
textFile.count
Это приложение создает СДР и вычисляет, сколько строк.Из-за огромного размера входного файла, фактически выполняя функцию count
, Spark разбивает входные данные на 3 части и отдельно перемещает их на 3 рабочих узла?Если да, как Spark разбивает входной файл (как Spark определяет, какая строка отправляется на какой рабочий узел)?