Задание занимает двойное или тройное время для завершения, когда я использую значение потока маппера больше 1 в hadoop - PullRequest
0 голосов
/ 26 февраля 2019

Я использую Hadoop на моей локальной машине (12 ГБ ОЗУ).Когда я запускаю задание для большого файла, задав значение mapper thread больше 1, время завершения задания скорее увеличивается, чем уменьшается.

Согласно моим предположениям, если мы используем больше, это займет меньше временитемы картографа.

Может кто-нибудь предложить лучший подход для повышения производительности?

Я запустил файл с 1 потоком преобразования, который занял (скажем) 10 минут для завершения;и после увеличения потоков мапперов MultithreadedMapper.setNumberOfThreads (задание, без потоков) до 2, это заняло еще больше времени.

Почему это происходит и что я могу сделать, чтобы увеличить производительность?

...