Понять, как Spark преобразует входной файл в рабочие узлы - PullRequest
0 голосов
/ 19 декабря 2018

У меня есть кластер Spark с 3 рабочими узлами.В качестве примера возьмем упрощенное число слов:

val textFile = sc.textFile("hdfs://input/words")
textFile.count

Это приложение создает СДР и вычисляет, сколько строк.Из-за огромного размера входного файла, фактически выполняя функцию count, Spark разбивает входные данные на 3 части и отдельно перемещает их на 3 рабочих узла?Если да, как Spark разбивает входной файл (как Spark определяет, какая строка отправляется на какой рабочий узел)?

1 Ответ

0 голосов
/ 19 декабря 2018

Вы пытаетесь обработать файл "hdfs: // input / words".Этот файл уже разделен, как только вы сохраните его в HDFS (так как вы взяли пример файла HDFS выше).Если файл имеет 3 блока, Spark увидит его как 3 раздела файла.Spark не нужно перемещать файл на рабочие узлы.так как файл находится на HDFS.это уже на машинах, которые будут использоваться в качестве рабочих узлов с помощью искры.Я надеюсь, что это понятно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...