Я новичок в распределенном TensorFlow. Прямо сейчас я просто пытаюсь заставить некоторые существующие примеры работать, чтобы я мог научиться делать это правильно.
Я следую приведенной здесь инструкции, чтобы обучить начальную сеть на одной машине Linux с одним рабочим и одним PS.
https://github.com/tensorflow/models/tree/master/research/inception#how-to-train-from-scratch-in-a-distributed-setting
Программа зависает во время CreateSession с сообщением:
CreateSession все еще ожидает ответа от работника: / job: ps / replica: 0 / task: 0
Это моя команда для запуска рабочего:
./bazel-bin/inception/imagenet_distributed_train \
--batch_size=32 \
--data_dir=/datasets/BigLearning/jinlianw/imagenet_tfrecords/ \
--job_name='worker' \
--task_id=0 \
--ps_hosts='localhost:2222' \
--worker_hosts='localhost:2223'
Это моя команда для запуска PS:
./bazel-bin/inception/imagenet_distributed_train \
--job_name='ps' \
--task_id=0 \
--ps_hosts='localhost:2222' \
--worker_hosts='localhost:2223'
И процесс PS зависает после печати:
2018-06-29 21: 40: 43.097361: I
tensorflow / ядро / distributed_runtime / RPC / grpc_server_lib.cc: 332]
Запущенный сервер с целью: grpc: // localhost: 2222
Является ли начальная модель все еще верным примером для распределенного TensorFlow или я что-то не так сделал?
Спасибо!