Дело не в банке. Клиентская сторона рассчитывает InputSplits
.
Таким образом, вполне возможно, что при большом количестве входных файлов для каждого задания клиентская машина получает большую нагрузку.
Но я предполагаю, что при отправке 200 заданий у обработчика RPC на устройстве отслеживания заданий возникают некоторые проблемы. Сколько обработчиков RPC активны в JobTracker?
В любом случае, я бы отправлял до 10 или 20 заданий за раз и ждал их завершения. Я полагаю, у вас есть планировщик FIFO по умолчанию? Таким образом, вы не выиграете от подачи всех 200 работ одновременно.