Есть большая разница. Это часто называют «проблемой небольших файлов» и связано с тем, что Hadoop рассчитывает разделить гигантские входные данные на более мелкие задачи, а не собирать небольшие входные данные в более крупные задачи.
Посмотрите на этот пост в блоге от Cloudera:
http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/
Если вы можете избежать создания большого количества файлов, сделайте это. Объединить, когда это возможно. Большие разделяемые файлы НАМНОГО лучше для Hadoop.
Однажды я запустил Pig в наборе данных netflix. Потребовались часы, чтобы обработать всего несколько концертов. Затем я объединил входные файлы (я думаю, что это был файл на фильм или файл на пользователя) в один файл - мой результат был за считанные минуты.