Question

Я хочу обработать много файлов в Hadoop - каждый файл имеет некоторую информацию заголовка, за которой следует множество записей, каждая из которых хранится в фиксированном количестве байтов. Есть предложения по этому поводу?

Paolo Capriotti · Answer 1 · 09 июля 2009

Я думаю, что лучшее решение - написать пользовательский InputFormat.

Sourav Gulati · Answer 2 · 21 марта 2013

Существует одно решение: вы можете проверить смещение строки файлов, которые читает маппер. Это будет ноль для первой строки в файле. так что вы можете добавить строку в карту следующим образом:

Открытая пустая карта (ключ LongWritable, текстовое значение, контекстный контекст) выбрасывает IOException, InterruptedException {

        if(key.get() > 0)
                       {
                         your mapper code
                       }
              }

Итак, он пропустит первую строку файла.

Однако это не очень хороший способ, потому что таким образом это условие будет проверяться для каждой строки в файле.

Лучший способ - использовать ваш пользовательский формат ввода

phsiao · Answer 3 · 20 сентября 2009

Помимо написания пользовательского FileInputFormat, вы также должны убедиться, что файл не является разделимым, чтобы читатель знал, как обрабатывать записи внутри файла.

Обработка файлов с заголовками в Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обработка файлов с заголовками в Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов