У меня есть код Python для обработки изображений, работающий в кластере. Я использую ms-mpi с mpi4py для межпроцессного взаимодействия. Иногда один из процессов python случайно завершается с "0xc0000005" (исключение нулевого указателя, я думаю).
job aborted:
[ranks] message
[0] terminated
[1] process exited without calling finalize
[2-35] terminated
---- error analysis -----
[1] on clusternode-02
python ended prematurely and may have crashed. exit code 0xc0000005
Я почти уверен, что это происходит с помощью opencv, который я использую, но это происходит совершенно случайно. Я перезапускаю все задания, и один и тот же хост обрабатывает одно и то же задание. Таким образом, чтобы решить эту проблему, не занимаясь отладкой python и opencv, я бы просто уменьшил количество доступных процессов для выполняющейся в данный момент задачи, перепланировал невыполненное задание и продолжил. Итак, вопрос заключается в следующем: есть ли способ продолжить все другие работы, когда одно из заданий завершается без полной остановки mpiexec?
Спасибо