Как сделать распределенный поезд с помощью train_image_classifier.py в tenorflow-slim API? - PullRequest
0 голосов
/ 31 марта 2019

Я хочу сделать распределенный поезд, используя train_image_classifier.py в tenorflow-slim API.У меня есть 2 машины, которые состоят из каждого графического процессора.И это же O / S - Windows 10.

tensorflow version 1. 12
use API tensorflow-slim
CUDA 9.0
cuDNN 7.5

Я пытался запустить скрипт "train_image_classifier.py" на моей машине "PS", как

python train_image_classifier.py --train_dir=my dir --dataset_name=my dataset--dataset_split_name=train --dataset_dir=my dir -- model_name=inception_v3 -- checkpoint_path=d:/tmp/my_checkpoints/inception_v3.ckpt -- checkpoint_exclude_scopes=InceptionV3/Logits -- trainable_scopes=InceptionV3/Logits --max_number_of_steps=10000 -- batch_size=16 --learning_rate=0.01 --learning_rate_decay_type=fixed -- save_interval_secs=60 --save_summaries_secs=60 --log_every_n_steps=1 -- optimizer=rmsprop --weight_decay=0.00004 -- master=grpc://192.168.0.13:3001 --num_clones=1 --worker_replicas=2 --num_ps_tasks=1 --task=0 --sync_replicas=True

и запустите тот же сценарий на моем «рабочем» компьютере, как

python train_image_classifier.py --train_dir=my dir --dataset_name=my dataset--dataset_split_name=train --dataset_dir=my dir --model_name=inception_v3 --checkpoint_path=d:/tmp/my_checkpoints/inception_v3.ckpt --checkpoint_exclude_scopes=InceptionV3/Logits --trainable_scopes=InceptionV3/Logits --max_number_of_steps=10000 --batch_size=16 --learning_rate=0.01 --learning_rate_decay_type=fixed --save_interval_secs=60 --save_summaries_secs=60 --log_every_n_steps=1 --optimizer=rmsprop --weight_decay=0.00004 --master=grpc://192.168.0.13:3001 --num_clones=1 --worker_replicas=2 --num_ps_tasks=1 --task=0 --sync_replicas=True, но PS-машина отображает это

введите описание изображения здесь

ирабочая машина, показывающая тот же результат.Поэтому я попытался изменить команду на --master=grpc://192.168.0.13:3001 --num_clones=1 --worker_replicas=2 --num_ps_tasks=1 --task=0 --sync_replicas=False or task -> 1 etc...

. Она не работает.

Может ли скрипт "train_image_classifier.py" выполнить распределенный поезд на 2 машинах?

Я сбит с толку ..

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...