Как создать распределенную кластерную среду для Distributed Tensorflow? - PullRequest
0 голосов
/ 27 ноября 2018

Я просмотрел документацию по распределенной среде Tensorflow, но нигде не могу найти, как настроить кластер, подходящий для Tensorflow.

В настоящее время у меня есть 10 серверов, с которых я хочу начать обучение модели, ноЯ хотел бы знать зависимости, которые мне нужно установить на всех серверах кластера, кроме библиотеки тензорного потока.

ИЛИ

Достаточно ли указать спецификации кластера в коде Python, который я пишу для распределенного обучения, с IP-адресом рабочих и серверов параметров или есть что-то, чего мне не хватает?

tf.train.ClusterSpec({
"worker": [
    "172.09.09.09:1290",
    "172.10.10.10:2040",
    "172.11.11.11:3060"
],
"ps": [
    "172.12.12.12:8080",
    "172.13.13.13:8080"
]})

Все остальное я могу найти в документации по тензорному потоку.Должен ли я построить кластер, похожий на Apache Spark?

Пожалуйста, помогите для правильного документированного потока установки для кластера Tensflow или, если я что-то упустил, помогите мне с простым ответом, который вы можете.

Ответы [ 2 ]

0 голосов
/ 19 марта 2019

Вам просто нужно запустить один скрипт на каждом сервере.С тем же кодом.Каждый сценарий получает входные данные в качестве аргументов для настройки.Вы можете посмотреть здесь: https://github.com/tensorflow/examples/blob/master/community/en/docs/deploy/distributed.md

0 голосов
/ 27 ноября 2018

Возможно, вы сможете создать кластер и установить на него Cloudera Manager, затем можно попытаться установить на него библиотеку tenorflow и использовать Spark для выполнения операций с вашими данными:

https://www.cloudera.com/documentation/enterprise/5-9-x/topics/install_cluster_template.html

Получив кластер, вы можете сделать так, как вы изначально делали, и запустить тензор потока в Hadoop:

https://www.tensorflow.org/deploy/hadoop

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...