Отладка неудачных перемешиваний в Hadoop Map уменьшает - PullRequest
0 голосов
/ 21 сентября 2018

Я вижу, как увеличивается размер входного файла. Неудачные тасования увеличиваются, а время выполнения задания увеличивается нелинейно.

Например.

75GB took 1h
86GB took 5h

Я также вижу увеличение среднего времени тасования 10сгиб

например.

75GB 4min
85GB 41min

Может кто-нибудь указать мне направление для отладки этого?

1 Ответ

0 голосов
/ 01 октября 2018

Всякий раз, когда вы уверены, что ваши алгоритмы правильные, проблемы с автоматическим разделением томов жесткого диска или проблемами фрагментации могут возникать где-то после этого порога 75 ГБ, поскольку вы, вероятно, используете ту же файловую систему для кэширования результатов.

...