Объединить формат ввода файла hadoop - PullRequest
0 голосов
/ 03 января 2019

Я использую CombineFileInputFormat для действия по уменьшению карты для обработки небольших файлов (размером в КБ) и больших файлов (в сотнях МБ и некоторых ГБ).У меня MapReduce.input.fileinputformat.split.maxsize как 64 МБ и setMaxSplitSize (67108864).когда запускаются мапперы, эта строка печатается в системном журнале.

2018-12-29 10:26:10,138 INFO [main] org.apache.hadoop.mapred.MapTask: Processing split: Paths:
/input/file.csv-m-00002:0+908250,
/input/file_68171.txt-m-00000:0+36589,
/input/file_27138.txt-m-00000:0+62929,
/input/file_62783.txt-m-00000:0+77776,
/input/file_26540.txt-m-00001:0+50115,
/input/file_12282018.txt-m-00007:0+65766888,
/input/file_12282018.txt-m-00007:65766888+65766889.

Может кто-нибудь объяснить вышеописанную обработку split?Когда я добавляю эти разделенные итоги, это больше, чем размер разделения.

У меня есть несколько вопросов, касающихся разделения файлов

  • , какое значение используется при использовании CombineFileInputFormat mapreduce.input.fileinputformat.split.maxsize или setMaxSplitSize () из класса CombineFileInputFormat?

  • как setMaxSplitSize () работает для больших файлов размером больше, чем maxSplitSize?

  • В чем разница между mapreduce.input.fileinputformat.split.maxsize и setMaxSplitSize ()?

...