Разве tensorflow/models/research/object_detection/model_tpu_main.py
не предназначен для запуска, когда он пролит в сам TPU?У меня есть предыдущий опыт запуска model_main.py
непосредственно с компьютера с графическим процессором AWS, на котором я хочу работать, но model_tpu_main.py
, кажется, хочет, чтобы я передавал флаги информации о кластере TPU, и я не могу их игнорировать, даже если я уже зашел вмашина тпу.
Я не могу найти какую-либо документацию для этого, поэтому кто-то может объяснить, как это должно быть выполнено?
Например, я пробовал:
python /home/<username>/training/model_tpu_main.py \
--gcp_project=<project_id> \
--tpu_zone=us-central1-b \
--tpu_name=<tpu_name> \
--pipeline_config_path=/home/<username>/training/ssd_resnet50_v1_fpn_shared_box_predictor_640x640_coco14_sync.config \
--model_dir=/home/<username>/training/models \
--mode=train_and_eval \
--train_batch_size=64 \
--eval_training_data=True \
--num_train_steps=50000 \
--sample_1_of_n_eval_examples=1 \
--sample_1_of_n_eval_on_train_examples=5 \
--logtostderr=true
Но я получаю ошибки gcloud.Я не понимаю, зачем мне вообще беспокоиться об аутентификации gcloud, если я уже sshed в ..
Теперь кажется, что, возможно, мне нужно установить API обнаружения объектов в отдельном Linuxмашина, но затем отправить учебное задание в ТПУ, а не запускать его там напрямую?Может ли кто-то подтвердить / опровергнуть это дело?