Как продолжить выполнение mpiexec после завершения одного из заданий - PullRequest
0 голосов
/ 08 июля 2019

У меня есть код Python для обработки изображений, работающий в кластере. Я использую ms-mpi с mpi4py для межпроцессного взаимодействия. Иногда один из процессов python случайно завершается с "0xc0000005" (исключение нулевого указателя, я думаю).

job aborted:                                                        
[ranks] message                                                     

[0] terminated                                                      

[1] process exited without calling finalize                         

[2-35] terminated                                                   

---- error analysis -----                                           

[1] on clusternode-02                                               
python ended prematurely and may have crashed. exit code 0xc0000005 

Я почти уверен, что это происходит с помощью opencv, который я использую, но это происходит совершенно случайно. Я перезапускаю все задания, и один и тот же хост обрабатывает одно и то же задание. Таким образом, чтобы решить эту проблему, не занимаясь отладкой python и opencv, я бы просто уменьшил количество доступных процессов для выполняющейся в данный момент задачи, перепланировал невыполненное задание и продолжил. Итак, вопрос заключается в следующем: есть ли способ продолжить все другие работы, когда одно из заданий завершается без полной остановки mpiexec?

Спасибо

...