Сжатие в файле последовательности Hadoop - PullRequest
0 голосов
/ 29 ноября 2011

У меня есть несколько основных вопросов о последовательном файле hadoop.

1) В какой степени кодек сжатия по умолчанию сжимает файл?

2) У меня есть файл последовательности hadoop размером 100 МБ, когда я читаю этот файл и выгружаю его содержимое в текстовый файл.

3) При чтении файла последовательности значение "syncSeen ()" и "seek (длинная позиция)" ? Есть ли проблема, если я не использую эти звонки во время чтения? любой пример о том, как использовать эти методы?

1 Ответ

0 голосов
/ 29 ноября 2011

SequenceFile.Reader # seek поместит считыватель в заданную точку в SequenceFile.

В соответствии с Hadoop: полное руководство

Точка синхронизации - это точка в потоке, которую можно использовать для повторной синхронизации с границей записи, если считыватель «потерян», например, после поиска произвольной позиции в потоке.Точки синхронизации записываются в SequenceFile.Writer, который вставляет специальную запись, чтобы пометить точку синхронизации каждые несколько записей в процессе записи файла последовательности.Такие записи достаточно малы, чтобы нести незначительные накладные расходы на хранение - менее 1%.Точки синхронизации всегда совпадают с границами записи.

SequenceFile.Reader # syncseen сообщит, пройдена ли метка синхронизации во время чтения SequenceFile.

...