Мы запускаем алгоритм сравнения текста, написанный на Python, используя 48 узлов Hadoop. Время от времени (1/5 запуска) ровно 1 картограф не завершает работу с ошибкой превышения лимита времени.
Есть около 20-25 миллионов итераций.
Мы попытались увеличить лимит до 1 часа и, таким образом, успешно обработали предыдущие сбои, но возникает больше отказов с тем же сообщением.
Я попытался отладить выполнение этих же данных в одном потоке на Python и обнаружил, что максимальное время, затрачиваемое на итерацию, составляет 15 секунд, а среднее время составляет 0,008 секунды. Итак, я пришел к выводу, что код Python не приводит к огромным затратам времени.
Что нам, вероятно, нужно искать для устранения этой проблемы?