Условие : Приложение : Файл WordCount : Все файлы читаются из HDFS. Размер блока файла составляет 128 МБ.
Вопрос 1
Как Spark обрабатывает файлы, размер которых не равен 128 МБ?
Я генерирую файл WordCount с помощью Spark, поэтому размер каждого файла не равен до 128 МБ, как показано ниже. ![enter image description here](https://i.stack.imgur.com/ZsZw8.png)
Размер блока каждого файла детали составляет 128 МБ, а его Размер равен 258,14 МБ. Но в Spark UI размер входного файла каждой задачи равен 128 МБ. Как Spark обрабатывает этот процесс?
Вопрос 2
Обрабатывает ли Spark файл во время его загрузки или ожидает загрузки файла перед началом обработки?