Question

Мы запускаем алгоритм сравнения текста, написанный на Python, используя 48 узлов Hadoop. Время от времени (1/5 запуска) ровно 1 картограф не завершает работу с ошибкой превышения лимита времени.

Есть около 20-25 миллионов итераций.

Мы попытались увеличить лимит до 1 часа и, таким образом, успешно обработали предыдущие сбои, но возникает больше отказов с тем же сообщением.

Я попытался отладить выполнение этих же данных в одном потоке на Python и обнаружил, что максимальное время, затрачиваемое на итерацию, составляет 15 секунд, а среднее время составляет 0,008 секунды. Итак, я пришел к выводу, что код Python не приводит к огромным затратам времени.

Что нам, вероятно, нужно искать для устранения этой проблемы?

Hadoop mapper не может завершить работу с ошибкой превышения времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Hadoop mapper не может завершить работу с ошибкой превышения времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы