Если вы не выполняете слишком интенсивные вычисления с каждым URL-адресом, а ваши файлы имеют размер <64 МБ, то вам, вероятно, лучше всего использовать один маппер, работающий на одном узле. В этом случае я бы использовал все URL в одном файловом подходе. </p>
Лучше иметь файлы большего размера, чтобы у каждого картографа было достаточно работы. Если ваши файлы очень маленькие, объедините их, чтобы приблизить общий объем к отметке 64 МБ. Это также позволит хранить больше данных в HDFS, поскольку каждый файл занимает ОЗУ в Namenode для хранения метаданных, а ОЗУ ограничено, поэтому, если вы используете меньшее количество файлов, вы можете поместить больше данных в кластер и ваш Namenode будет использовать меньше оперативной памяти.
Вы также можете попробовать использовать CombineFileInputFormat подход