Как исправить: horovod.run.common.util.network.NoValidAddressesFound - PullRequest
1 голос
/ 30 марта 2019

Я пытаюсь сделать распределенное обучение с помощью 2 док-станции nvidia. Когда я попробовал с 2 хостами это не сработало. Как мне решить эту проблему?

Я попробовал эту команду:

horovodrun -np 3 -H localhost:1 -p 12345  python keras_mnist_advanced.py

Это сработало, но когда я попробовал:

horovodrun -np 3 -H localhost:1,192.168.0.20:2 -p 12345  python keras_mnist_advanced.py

Я получил эту ошибку:

Запуск функции задания horovodrun не был успешным: horovod.run.common.util.network.NoValidAddressesFound: Невозможно подключиться к службе задач horovodrun # 1 по любому из адресов: {'lo': [('127.0.0.1', 30871)], 'docker0': [ ('172.17.0.1', 30871)], 'enp0s31f6': [('192.168.0.20', 30871)]}

1 Ответ

0 голосов
/ 05 апреля 2019

Пожалуйста, посмотрите на эти вопросы, поднятые в хранилище:

1) https://github.com/horovod/horovod/issues/975

2) https://github.com/horovod/horovod/issues/971

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...