Ошибка недопустимого коммуникатора Intel MPI во время выполнения - PullRequest
0 голосов
/ 07 февраля 2019

У меня есть очень большая программа, которую я написал (код симуляции), которая выполняет множественные коммуникации MPI на каждом временном шаге симуляции.Я недавно обновил свой рабочий стол с Ubuntu 16.04 до 18.04, и с тех пор мой код вылетает примерно через час и тысячи шагов.Если я перезапущу точно такие же начальные условия, код не будет зависать точно в одно и то же время, но всегда с небольшими изменениями.Я получаю сообщение об ошибке:

Прервать (873060101) на узле 15 (ранг 15 в 0): фатальная ошибка в PMPI_Recv: недопустимый коммуникатор, стек ошибок: PMPI_Recv (171): MPI_Recv (buf = 0x4b46a00, count= 36912, MPI_DOUBLE, src = 14, тег = 25, MPI_COMM_WORLD, статус = 0x1) сбой PMPI_Recv (103): недопустимый коммуникатор [cli_15]: сбой readline

Во всех сообщениях в моем коде я всегда используюкоммуникатор по умолчанию MPI_COMM_WORLD и никогда не создавать новый.Я попытался отформатировать рабочий стол и сделать чистую установку, и это не помогает.Я использую последнюю версию (2019 обновление 2) компилятора Intel c ++ и библиотеки MPI.Функция, использующая tag = 25, использует MPI_Isend для отправки данных и MPI_Recv для их получения.Когда я запускаю свой код в большом кластере, я никогда не получаю этот сбой.Любые идеи, что вызывает эту ошибку?

Elad

...