MPI - все реализации - имели возможность продолжить работу после ошибки на некоторое время. По умолчанию умирает, то есть обработчиком ошибок по умолчанию является MPI_ERRORS_ARE_FATAL, но это можно установить (например, см. Обсуждение здесь ). Но стандарт в настоящее время не намного выше этого; то есть трудно восстановить и продолжить после такой ошибки. Если ваша программа достаточно проста - своего рода мастер-рабочий тип установки - возможно, можно продолжить этот путь.
Форум MPI в настоящее время работает над тем, что станет MPI-3, и обработка ошибок и отказоустойчивость станут важным компонентом нового стандарта (есть рабочая группа , выделенная для этого). к теме). Однако до тех пор, пока эта работа не будет завершена, единственный способ повысить отказоустойчивость MPI - это использовать более ранние, нестандартные расширения. FT-MPI - проект, который разработал очень надежный MPI, но, к сожалению, он основан на MPI1.2; очень ранняя версия стандарта. Заявление здесь состоит в том, что они теперь работают с OpenMPI, но я не знаю, что с этим случилось. Есть MPICH-V , основанный на MPI2, но это скорее перезапуск с контрольной точки, чем то, что, я думаю, вы ищете.
Обновлено для добавления : отказоустойчивость не вошла в MPI-3, но рабочая группа продолжает свою работу, и ожидается, что что-то из этого получится в ближайшее время.