Распределенное обучение с Tensorflow 2.x на кластере K8S - PullRequest
0 голосов
/ 18 апреля 2020

Я пытаюсь выяснить, как выполнить распределенное обучение для сценария тензорного потока (2.x). Погуглив, я только что нашел довольно старые репозитории, основанные на tenorflow 1.x, и из официальной документации (https://www.tensorflow.org/guide/distributed_training) кажется, что все в основном сосредоточено на том, чтобы иметь несколько видеокарт на одной машине, версии с несколько рабочих (например, MultiWorkerMirroredStrategy, ParameterServerStrategy) все еще экспериментальны.

У кого-нибудь есть лучшее предложение по поводу? Есть ли какое-либо решение для конкретного поставщика c для него?

Мой идеал - создать образ для запуска в виде нескольких автоматически масштабируемых модулей в кластере k8s, то есть что-то похожее на то, что можно найти в * 1009. *, но более актуально. Я хотел бы избежать того, чтобы начать копаться в этом, просто чтобы потом выяснить, что есть лучший способ.

...