Может ли кто-нибудь объяснить детали обработки задачи Spark в WordCount? - PullRequest
0 голосов
/ 19 июня 2020

Условие : Приложение : Файл WordCount : Все файлы читаются из HDFS. Размер блока файла составляет 128 МБ.

Вопрос 1

Как Spark обрабатывает файлы, размер которых не равен 128 МБ?

Я генерирую файл WordCount с помощью Spark, поэтому размер каждого файла не равен до 128 МБ, как показано ниже. enter image description here

Размер блока каждого файла детали составляет 128 МБ, а его Размер равен 258,14 МБ. Но в Spark UI размер входного файла каждой задачи равен 128 МБ. Как Spark обрабатывает этот процесс?

Вопрос 2

Обрабатывает ли Spark файл во время его загрузки или ожидает загрузки файла перед началом обработки?

...