Question

Мы работаем с BigData, используя Hadoop my Virtual Box с CentOS. всякий раз, когда мы выполняем некоторые программы, он создает 2 разных файла: 1) part-r-00000 и 2) part-m-00000. так в чем же разница и смысл этих двух файлов?

Vin · Answer 1 · 05 апреля 2019

Выходные файлы по умолчанию называются part-x-yyyyy

где:

1) x - это либо ‘m’, либо ‘r ', в зависимости от того, было ли задание map only, или сокращение

2) yyyyy является Mapper, или Reducer номер задачи (на основе нуля (00000))

Таким образом, если задание имеет 10 редукторов, сгенерированные файлы будут иметь имена с part-r-0000 0 до part-r-0000 9, по одному для каждой задачи редуктора.

Можно изменить имя по умолчанию.

Это все, что вам нужно сделать в классе Driver, чтобы изменить значение по умолчанию для выходного файла: job.getConfiguration().set(“mapreduce.output.basename”, “Neo”);

Таким образом, ваши файлы будут называться “Neo-r-00000”.

Ben Watson · Answer 2 · 05 апреля 2019

Это файлы, созданные заданиями MapReduce.r означает, что файл был выведен Редуктором, m означает, что файл был выведен Mapper.

В чем разница между файлами part-r-00000 и part-m-00000 в Hadoop?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

В чем разница между файлами part-r-00000 и part-m-00000 в Hadoop?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов