отказоустойчивость в MPICH / OpenMPI - PullRequest
10 голосов
/ 22 марта 2011

У меня два вопроса -

Q1 .Есть ли более эффективный способ обработки ситуации с ошибками в MPI, кроме контрольной точки / отката?Я вижу, что если узел "умирает", программа резко останавливается. Есть ли способ продолжить выполнение после того, как узел умирает?(без проблем, если это за счет точности)

Q2 .Я прочитал в "http://stackoverflow.com/questions/144309/what-is-the-best-mpi-implementation",, что OpenMPI имеет лучшую отказоустойчивость, и недавно MPICH-2 также разработал аналогичные функции ... Кто-нибудь знает, что они такое и как их использовать? Это" режим "? Могут ли они помочь вСитуация, изложенная в Q1 ?

, пожалуйста, ответьте. Спасибо.

1 Ответ

10 голосов
/ 22 марта 2011

MPI - все реализации - имели возможность продолжить работу после ошибки на некоторое время. По умолчанию умирает, то есть обработчиком ошибок по умолчанию является MPI_ERRORS_ARE_FATAL, но это можно установить (например, см. Обсуждение здесь ). Но стандарт в настоящее время не намного выше этого; то есть трудно восстановить и продолжить после такой ошибки. Если ваша программа достаточно проста - своего рода мастер-рабочий тип установки - возможно, можно продолжить этот путь.

Форум MPI в настоящее время работает над тем, что станет MPI-3, и обработка ошибок и отказоустойчивость станут важным компонентом нового стандарта (есть рабочая группа , выделенная для этого). к теме). Однако до тех пор, пока эта работа не будет завершена, единственный способ повысить отказоустойчивость MPI - это использовать более ранние, нестандартные расширения. FT-MPI - проект, который разработал очень надежный MPI, но, к сожалению, он основан на MPI1.2; очень ранняя версия стандарта. Заявление здесь состоит в том, что они теперь работают с OpenMPI, но я не знаю, что с этим случилось. Есть MPICH-V , основанный на MPI2, но это скорее перезапуск с контрольной точки, чем то, что, я думаю, вы ищете.

Обновлено для добавления : отказоустойчивость не вошла в MPI-3, но рабочая группа продолжает свою работу, и ожидается, что что-то из этого получится в ближайшее время.

...