У меня есть файлы данных, расположенные в папках с именами дат. Структура каталогов
- / данные / 2011/01/01
- / данные / 2011/01/02
и так далее, и внутри каждого каталога есть около 50 файлов, которые мне нужно проанализировать, и я передаю данные в hadoop как / data / ** / ** / **, чтобы он мог проанализировать все файлы. Мои вопросы
- Как я могу попросить hadoop упорядочить ввод? Мне нужно разобрать файлы по дате.
- При синтаксическом анализе файлов с определенной датой мне необходимо предварительно загрузить структуру данных, связанную с этой датой, которая находится в том же каталоге дат.
Спасибо
Анкуш