Входные файлы Hadoop Порядок - PullRequest
1 голос
/ 25 января 2011

У меня есть файлы данных, расположенные в папках с именами дат. Структура каталогов

  • / данные / 2011/01/01
  • / данные / 2011/01/02

и так далее, и внутри каждого каталога есть около 50 файлов, которые мне нужно проанализировать, и я передаю данные в hadoop как / data / ** / ** / **, чтобы он мог проанализировать все файлы. Мои вопросы

  1. Как я могу попросить hadoop упорядочить ввод? Мне нужно разобрать файлы по дате.
  2. При синтаксическом анализе файлов с определенной датой мне необходимо предварительно загрузить структуру данных, связанную с этой датой, которая находится в том же каталоге дат.

Спасибо Анкуш

1 Ответ

1 голос
/ 26 января 2011
  1. Вы не можете заказать вход.В «наихудшем» сценарии, если у вас столько же входных файлов, сколько у вас запущенных задач в кластере, все они будут обрабатываться параллельно в один и тот же момент."FileInputFormat", который читает требуемый файл конфигурации и делает то, что вам нужно?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...