Question

Кажется, это очень распространенный вариант использования, но его трудно реализовать в Hadoop (это возможно с классом WholeFileRecordReader)Это вообще возможно в Дамбо или Свинье?Кто-нибудь знает способ обработки целых файлов в качестве задач карты с использованием Dumbo или Pig?

Donald Miner · Answer 1 · 31 августа 2011

Я предполагаю, что вы хотите, чтобы один файл был записан в Pig.Если нет, пожалуйста, будьте более конкретны в своем вопросе.

Я не знаю загрузчика хранилища Pig, который загружает весь файл сразу (в стандартном дистрибутиве или в копилке).Я предлагаю вам написать свой собственный пользовательский загрузчик Pig , что относительно просто.

Daniel Dai · Answer 2 · 30 августа 2011

WholeFileRecordReader означает не разбивать входной файл? Если это так, определите mapred.min.split.size для очень большого значения, и mapreduce, и Pig примут его.

Обрабатывать целые файлы в Hadoop с использованием кода Python (желательно в Dumbo)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обрабатывать целые файлы в Hadoop с использованием кода Python (желательно в Dumbo)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы