Я просмотрел документацию по распределенной среде Tensorflow, но нигде не могу найти, как настроить кластер, подходящий для Tensorflow.
В настоящее время у меня есть 10 серверов, с которых я хочу начать обучение модели, ноЯ хотел бы знать зависимости, которые мне нужно установить на всех серверах кластера, кроме библиотеки тензорного потока.
ИЛИ
Достаточно ли указать спецификации кластера в коде Python, который я пишу для распределенного обучения, с IP-адресом рабочих и серверов параметров или есть что-то, чего мне не хватает?
tf.train.ClusterSpec({
"worker": [
"172.09.09.09:1290",
"172.10.10.10:2040",
"172.11.11.11:3060"
],
"ps": [
"172.12.12.12:8080",
"172.13.13.13:8080"
]})
Все остальное я могу найти в документации по тензорному потоку.Должен ли я построить кластер, похожий на Apache Spark?
Пожалуйста, помогите для правильного документированного потока установки для кластера Tensflow или, если я что-то упустил, помогите мне с простым ответом, который вы можете.