Обрабатывать целые файлы в Hadoop с использованием кода Python (желательно в Dumbo) - PullRequest
2 голосов
/ 30 августа 2011

Кажется, это очень распространенный вариант использования, но его трудно реализовать в Hadoop (это возможно с классом WholeFileRecordReader)Это вообще возможно в Дамбо или Свинье?Кто-нибудь знает способ обработки целых файлов в качестве задач карты с использованием Dumbo или Pig?

Ответы [ 2 ]

0 голосов
/ 31 августа 2011

Я предполагаю, что вы хотите, чтобы один файл был записан в Pig.Если нет, пожалуйста, будьте более конкретны в своем вопросе.

Я не знаю загрузчика хранилища Pig, который загружает весь файл сразу (в стандартном дистрибутиве или в копилке).Я предлагаю вам написать свой собственный пользовательский загрузчик Pig , что относительно просто.

0 голосов
/ 30 августа 2011

WholeFileRecordReader означает не разбивать входной файл? Если это так, определите mapred.min.split.size для очень большого значения, и mapreduce, и Pig примут его.

...