keras (серверный тензор потока) запускается в кластере с использованием slurm - PullRequest
0 голосов
/ 07 ноября 2018

У меня есть возможность провести обучение Tensorflow на компьютере кластера с помощью диспетчера рабочей нагрузки slurm (кластер содержит почти 400000 ядер, 40000 ГБ ОЗУ, производительность Rmax = 500 тФлоп / с и Rpeak = 1000 тФлоп / с, драм GPU).

Я работаю над проектами обработки изображений с использованием алгоритмов глубокого обучения.

У меня вопрос, как масштабировать мое глубокое обучение keras для работы на этом кластере, используя slurm в качестве менеджера рабочей нагрузки?

1 Ответ

0 голосов
/ 07 ноября 2018

Используйте Horovod для масштабирования тренировки Keras - https://github.com/uber/horovod

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...