Question

Обычно входной файл может быть частично прочитан и обработан функцией Mapper (как в текстовых файлах). Есть ли что-нибудь, что можно сделать для обработки двоичных файлов (скажем, изображений, сериализованных объектов), для которых требуется, чтобы все блоки находились на одном хосте, прежде чем начнется обработка.

SquareCog · Answer 1 · 11 июня 2010

Вставьте ваши изображения в SequenceFile;тогда вы сможете обрабатывать их итеративно, используя map-Reduce.

Чтобы быть немного менее загадочным: Hadoop изначально ничего не знает о тексте, а не о тексте.У него просто есть класс, который знает, как открыть входной поток (hdfs объединяет блоки вместе на разных узлах, чтобы они выглядели как один большой файл).Кроме того, у вас есть Reader и InputFormat, который знает, как определить, где в этом потоке начинаются записи, где они заканчиваются, и как найти начало следующей записи, если вы уронили где-то в середине файла.TextInputFormat - это всего лишь одна реализация, которая рассматривает переводы строк как разделитель записей.Существует также специальный формат, называемый SequenceFile, в который можно записывать произвольные двоичные записи, а затем возвращать их обратно.Используйте это.

Hadoop: отображение бинарных файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Hadoop: отображение бинарных файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов