Question

Я просмотрел документацию по распределенной среде Tensorflow, но нигде не могу найти, как настроить кластер, подходящий для Tensorflow.

В настоящее время у меня есть 10 серверов, с которых я хочу начать обучение модели, ноЯ хотел бы знать зависимости, которые мне нужно установить на всех серверах кластера, кроме библиотеки тензорного потока.

ИЛИ

Достаточно ли указать спецификации кластера в коде Python, который я пишу для распределенного обучения, с IP-адресом рабочих и серверов параметров или есть что-то, чего мне не хватает?

tf.train.ClusterSpec({
"worker": [
    "172.09.09.09:1290",
    "172.10.10.10:2040",
    "172.11.11.11:3060"
],
"ps": [
    "172.12.12.12:8080",
    "172.13.13.13:8080"
]})

Все остальное я могу найти в документации по тензорному потоку.Должен ли я построить кластер, похожий на Apache Spark?

Пожалуйста, помогите для правильного документированного потока установки для кластера Tensflow или, если я что-то упустил, помогите мне с простым ответом, который вы можете.

skh251 · Answer 1 · 19 марта 2019

Вам просто нужно запустить один скрипт на каждом сервере.С тем же кодом.Каждый сценарий получает входные данные в качестве аргументов для настройки.Вы можете посмотреть здесь: https://github.com/tensorflow/examples/blob/master/community/en/docs/deploy/distributed.md

vi_ral · Answer 2 · 27 ноября 2018

Возможно, вы сможете создать кластер и установить на него Cloudera Manager, затем можно попытаться установить на него библиотеку tenorflow и использовать Spark для выполнения операций с вашими данными:

https://www.cloudera.com/documentation/enterprise/5-9-x/topics/install_cluster_template.html

Получив кластер, вы можете сделать так, как вы изначально делали, и запустить тензор потока в Hadoop:

https://www.tensorflow.org/deploy/hadoop

Как создать распределенную кластерную среду для Distributed Tensorflow?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как создать распределенную кластерную среду для Distributed Tensorflow?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы