Единственное, что имеет значение, это то, могут ли файлы разделяться.
Если файлы представляют собой несжатый текст или сжатые с помощью lzo, то Hadoop разберет разбиение.
x5 2 ГБ файлов приведет к ~ 100 разбиениям и, следовательно, ~ 100 задачам карты (10 ГБ / 128 МБ (размер блока EMR) ~ = 100)
x10 файлов размером 1 ГБ снова приведут к ~ 100 разбиениям и, следовательно, снова к 100 задачам карты.
Если файлы сжаты gzip или bzip2, то Hadoop (по крайней мере, версия, работающая на EMR) не будет разбивать файлы.
x5 2 ГБ файлов приведет только к 5 разбиениям (и, следовательно, только 5 задач с картами)
x10 1 ГБ файлов приведет только к 10 разбиениям (и, следовательно, только 10 задач с картой)
Mat