Ответ Дэвида в значительной степени ударяет по гвоздю с ног на голову, я просто углубляюсь в это здесь.
Здесь работают две разные концепции, каждая из которых обрабатывается отдельной сущностью в рамках hadoop
Во-первых -
1) Разделение файла на блоки - Когда файл записывается в HDFS, HDFS делит файл на блоки и заботится о его репликации.Это делается один раз (в основном), а затем становится доступным для всех заданий MR, работающих в кластере.Это кластерная конфигурация
Во-вторых -
2) Разделение файла на входные разбиения - Когда путь ввода передается в задание MR, задание MRиспользует путь вместе с форматом ввода, настроенным для разделения файлов, указанных в пути ввода, на разбиения, каждое разбиение обрабатывается задачей карты.Вычисление входных разбиений выполняется по формату ввода каждый раз, когда выполняется задание
Теперь, когда мы имеем это в своем распоряжении, мы можем понять, что метод isSplitable () относится ко второй категории.
Чтобы по-настоящему понять это, взгляните на поток данных записи HDFS (Концепция 1)
Второй момент на диаграмме, вероятно, где происходит разделение, обратите внимание, что этоне имеет ничего общего с запуском задания MR
Теперь рассмотрим этапы выполнения задания MR
Здесь первым шагом является расчетразделения входов через формат ввода, сконфигурированный для работы.
Большая часть вашей путаницы проистекает из того факта, что вы объединяете обе эти концепции, надеюсь, это немного прояснит ситуацию.