Данные хранятся / читаются в блоках HDFS заранее определенного размера и читаются различными типами RecordReader с помощью сканеров байтов, и знают, сколько байтов нужно прочитать, чтобы определить, когда необходимо вернуть InputSplit.
Хорошим упражнением для лучшего понимания является создание собственного RecordReader и создание маленьких и больших файлов из одной маленькой записи, одной большой записи и множества записей. В случае с множеством записей вы пытаетесь разделить запись на два блока, но этот тестовый пример должен быть таким же, как одна большая запись на два блока.
Задача сокращения может быть установлена клиентом действия MapReduce.
Начиная с Hadoop 2 + YARN, это изображение устарело