Question

У меня есть кластер Spark с 3 рабочими узлами.В качестве примера возьмем упрощенное число слов:

val textFile = sc.textFile("hdfs://input/words")
textFile.count

Это приложение создает СДР и вычисляет, сколько строк.Из-за огромного размера входного файла, фактически выполняя функцию count, Spark разбивает входные данные на 3 части и отдельно перемещает их на 3 рабочих узла?Если да, как Spark разбивает входной файл (как Spark определяет, какая строка отправляется на какой рабочий узел)?

Harjeet Kumar · Answer 1 · 19 декабря 2018

Вы пытаетесь обработать файл "hdfs: // input / words".Этот файл уже разделен, как только вы сохраните его в HDFS (так как вы взяли пример файла HDFS выше).Если файл имеет 3 блока, Spark увидит его как 3 раздела файла.Spark не нужно перемещать файл на рабочие узлы.так как файл находится на HDFS.это уже на машинах, которые будут использоваться в качестве рабочих узлов с помощью искры.Я надеюсь, что это понятно.

Понять, как Spark преобразует входной файл в рабочие узлы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Понять, как Spark преобразует входной файл в рабочие узлы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов