В чем разница между файлами part-r-00000 и part-m-00000 в Hadoop? - PullRequest
2 голосов
/ 05 апреля 2019

Мы работаем с BigData, используя Hadoop my Virtual Box с CentOS. всякий раз, когда мы выполняем некоторые программы, он создает 2 разных файла: 1) part-r-00000 и 2) part-m-00000. так в чем же разница и смысл этих двух файлов?

Ответы [ 2 ]

1 голос
/ 05 апреля 2019

Выходные файлы по умолчанию называются part-x-yyyyy

где:

1) x - это либо ‘m’, либо ‘r ', в зависимости от того, было ли задание map only, или сокращение

2) yyyyy является Mapper, или Reducer номер задачи (на основе нуля (00000))

Таким образом, если задание имеет 10 редукторов, сгенерированные файлы будут иметь имена с part-r-0000 0 до part-r-0000 9, по одному для каждой задачи редуктора.

Можно изменить имя по умолчанию.

Это все, что вам нужно сделать в классе Driver, чтобы изменить значение по умолчанию для выходного файла: job.getConfiguration().set(“mapreduce.output.basename”, “Neo”);

Таким образом, ваши файлы будут называться “Neo-r-00000”.

1 голос
/ 05 апреля 2019

Это файлы, созданные заданиями MapReduce.r означает, что файл был выведен Редуктором, m означает, что файл был выведен Mapper.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...