Вставьте ваши изображения в SequenceFile;тогда вы сможете обрабатывать их итеративно, используя map-Reduce.
Чтобы быть немного менее загадочным: Hadoop изначально ничего не знает о тексте, а не о тексте.У него просто есть класс, который знает, как открыть входной поток (hdfs объединяет блоки вместе на разных узлах, чтобы они выглядели как один большой файл).Кроме того, у вас есть Reader и InputFormat, который знает, как определить, где в этом потоке начинаются записи, где они заканчиваются, и как найти начало следующей записи, если вы уронили где-то в середине файла.TextInputFormat - это всего лишь одна реализация, которая рассматривает переводы строк как разделитель записей.Существует также специальный формат, называемый SequenceFile, в который можно записывать произвольные двоичные записи, а затем возвращать их обратно.Используйте это.