Я пишу приложение для индексирования MapReduce.
Мне удалось разделить входы с помощью NLineInputFormat, и теперь в моем приложении есть несколько сотен картографов. Тем не менее, только 2 / машины из них активны в то же время, остальные "в ожидании". Я считаю, что такое поведение значительно замедляет приложение.
Как сделать так, чтобы Hadoop запускал как минимум 100 из них одновременно на одну машину?
Я использую старый синтаксис hadoop api. Вот что я пробовал до сих пор:
conf.setNumMapTasks(1000);
conf.setNumTasksToExecutePerJvm(500);
ни один из них, кажется, не имеет никакого эффекта.
Есть какие-нибудь идеи, как сделать так, чтобы мапперы действительно запускались параллельно?