Распределенный TensorFlow зависает во время CreateSession - PullRequest
0 голосов
/ 30 июня 2018

Я новичок в распределенном TensorFlow. Прямо сейчас я просто пытаюсь заставить некоторые существующие примеры работать, чтобы я мог научиться делать это правильно.

Я следую приведенной здесь инструкции, чтобы обучить начальную сеть на одной машине Linux с одним рабочим и одним PS. https://github.com/tensorflow/models/tree/master/research/inception#how-to-train-from-scratch-in-a-distributed-setting

Программа зависает во время CreateSession с сообщением: CreateSession все еще ожидает ответа от работника: / job: ps / replica: 0 / task: 0

Это моя команда для запуска рабочего:

./bazel-bin/inception/imagenet_distributed_train \
    --batch_size=32 \
    --data_dir=/datasets/BigLearning/jinlianw/imagenet_tfrecords/ \
    --job_name='worker' \
    --task_id=0 \
    --ps_hosts='localhost:2222' \
    --worker_hosts='localhost:2223'

Это моя команда для запуска PS:

./bazel-bin/inception/imagenet_distributed_train \
    --job_name='ps' \
    --task_id=0 \
    --ps_hosts='localhost:2222' \
    --worker_hosts='localhost:2223'

И процесс PS зависает после печати:

2018-06-29 21: 40: 43.097361: I tensorflow / ядро ​​/ distributed_runtime / RPC / grpc_server_lib.cc: 332] Запущенный сервер с целью: grpc: // localhost: 2222

Является ли начальная модель все еще верным примером для распределенного TensorFlow или я что-то не так сделал?

Спасибо!

1 Ответ

0 голосов
/ 06 июля 2018

Проблема решена. Оказывается, это из-за GRPC. На моих компьютерах кластера установлена ​​переменная окружения http_proxy. Сброс этой переменной решает проблему.

...