Может ли Hadoop прочитать произвольный ключ двоичного файла - PullRequest
3 голосов
/ 28 сентября 2011

Похоже, Hadoop MapReduce требует структуры пары ключ-значение в тексте или двоичном тексте.В действительности у нас могут быть файлы, которые будут разбиты на куски для обработки.Но ключи могут быть распределены по файлу.Может быть не совсем ясно, что за одним ключом следует одно значение.Есть ли InputFileFormatter, который может читать бинарные файлы такого типа?Я не хочу использовать Map Reduce и Map Reduce.Это снизит производительность и сократит цель использования карты уменьшить.Какие-либо предложения?Спасибо,

1 Ответ

1 голос
/ 28 сентября 2011

Согласно Hadoop: полное руководство

Логические записи, которые определяют FileInputFormats, обычно не вписываются в HDFS блоки. Например, логические записи TextInputFormat представляют собой строки, которые будут пересекаться Границы HDFS чаще, чем нет. Это не имеет никакого отношения к функционированию вашего программа - строки, например, не пропущены и не разбиты - но о них стоит знать, как это означает, что локальные карты данных (то есть карты, которые работают на одном хосте в качестве входных данных) выполнит некоторые удаленные чтения Незначительные накладные расходы это обычно не имеет значения.

Если файл разделен HDFS между границами, то Hadoop Framework позаботится об этом. Но если вы разбиваете файл вручную, необходимо учитывать границы.

В действительности у нас могут быть файлы, которые нужно разбить на куски для обработки. Но ключи могут быть распределены по файлу. Может быть не совсем ясно, что за одним ключом следует одно значение.

Какой сценарий, мы можем посмотреть на обходной путь для этого?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...