Количество задач MR, созданных для разделяемых и неразделимых файлов - PullRequest
0 голосов
/ 21 февраля 2019

У меня есть файл объемом 2 ГБ (скажем, avro), сжатый с помощью BZip2 (splittable), и у меня точно такой же файл (опять же, avro), который не сжимается (следовательно, не разделяемый).Размер блока составляет 128 МБ.У меня вопрос: если я выполню запрос по обоим из вышеперечисленных, скажем, SparkSQL, в каком из перечисленных выше будет создано больше задач мапперов, а какое будет быстрее?Кроме того, разделение ввода одинаково для обоих.

...