Question

У меня есть возможность провести обучение Tensorflow на компьютере кластера с помощью диспетчера рабочей нагрузки slurm (кластер содержит почти 400000 ядер, 40000 ГБ ОЗУ, производительность Rmax = 500 тФлоп / с и Rpeak = 1000 тФлоп / с, драм GPU).

Я работаю над проектами обработки изображений с использованием алгоритмов глубокого обучения.

У меня вопрос, как масштабировать мое глубокое обучение keras для работы на этом кластере, используя slurm в качестве менеджера рабочей нагрузки?

Michael S. · Answer 1 · 07 ноября 2018

Используйте Horovod для масштабирования тренировки Keras - https://github.com/uber/horovod

keras (серверный тензор потока) запускается в кластере с использованием slurm

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

keras (серверный тензор потока) запускается в кластере с использованием slurm

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы