Задание движка Cloud ML не может быть прервано, оно всегда застревает в «Задании успешно выполнено». - PullRequest
0 голосов
/ 04 мая 2019

Я создал классификационное задание для запуска в Google Cloud ML Engine с набором данных MNIST с помощью облачной консоли.

gcloud ml-engine jobs submit training $JOBNAME \
    --region=$REGION \
    --module-name=trainer.task \
    --package-path=./trainer \
    --job-dir=$OUTDIR \
    --staging-bucket=gs://$BUCKET \
    --scale-tier=STANDARD_1 \
    --runtime-version 1.12 \
    -- \
    --bucket=${BUCKET} \
    --output_dir=${OUTDIR} \
    --train_steps=10000

Мои учебные задания не прекращаются после завершения обучения, когда в журнале заданий отображается «Задача»завершено успешно. "Если мы не прервем работу, она будет работать на двигателе ML бесконечно.

I  worker-replica-3 loss = 0.00013220838, step = 9742 (37.280 sec)
I  worker-replica-0 global_step/sec: 9.33984
I  worker-replica-0 global_step/sec: 9.9101
I  worker-replica-3 Loss for final step: 0.0017736279.
I  worker-replica-1 Loss for final step: 0.0010084368. 
I  worker-replica-3 Module completed; cleaning up.
I  worker-replica-3 Clean up finished.
I  worker-replica-3 Task completed successfully.
I  worker-replica-2 Loss for final step: 0.0028514725.
I  worker-replica-1 Module completed; cleaning up.
I  worker-replica-1 Clean up finished.
I  worker-replica-1 Task completed successfully.
I  worker-replica-0 Loss for final step: 0.0015272798.
I  worker-replica-2 Module completed; cleaning up.
I  worker-replica-2 Clean up finished.
I  worker-replica-2 Task completed successfully.
I  worker-replica-0 Module completed; cleaning up.
I  worker-replica-0 Clean up finished.
I  worker-replica-0 Task completed successfully.

Если я изменю тип машины со шкалы уровня = STANDARD_1 на BASIC_GPU следующим образом:

gcloud ml-engine jobs submit training $JOBNAME \
    --region=$REGION \
    --module-name=trainer.task \
    --package-path=./trainer \
    --job-dir=$OUTDIR \
    --staging-bucket=gs://$BUCKET \
    --scale-tier=BASIC_GPU \
    --runtime-version 1.12 \
    -- \
    --bucket=${BUCKET} \
    --output_dir=${OUTDIR} \
    --train_steps=10000

Это будет та же проблема, что и в этом отчете почему-делает-Google-Cloude-мл-обучение-работа-дать-ноль-использования-статистика-в-час

Я такжепробовал другую версию TensorFlow все еще получил ту же проблему.

...