Взять пример текста
Hello
World
Есть две строки текста, но, естественно, есть ключ и значение, смещение файла и сама строка. Если вы сделаете шестнадцатеричный дамп файла, вы увидите что-то вроде этого
0x0 Hello
0x6 World
Вот так HDFS знает, как разбивать текстовые файлы на блоки, и таким образом mapreduce (и другие механизмы времени выполнения) можно использовать для чтения эти данные.
Если вы храните видео, изображения, аудио, документы в формате PDF и т. д. c, то вы должны реализовать свой собственный считыватель InputFormat, чтобы определить, как байты файла должны быть структурированы и распараллелены, если вообще