Я создал классификационное задание для запуска в Google Cloud ML Engine с набором данных MNIST с помощью облачной консоли.
gcloud ml-engine jobs submit training $JOBNAME \
--region=$REGION \
--module-name=trainer.task \
--package-path=./trainer \
--job-dir=$OUTDIR \
--staging-bucket=gs://$BUCKET \
--scale-tier=STANDARD_1 \
--runtime-version 1.12 \
-- \
--bucket=${BUCKET} \
--output_dir=${OUTDIR} \
--train_steps=10000
Мои учебные задания не прекращаются после завершения обучения, когда в журнале заданий отображается «Задача»завершено успешно. "Если мы не прервем работу, она будет работать на двигателе ML бесконечно.
I worker-replica-3 loss = 0.00013220838, step = 9742 (37.280 sec)
I worker-replica-0 global_step/sec: 9.33984
I worker-replica-0 global_step/sec: 9.9101
I worker-replica-3 Loss for final step: 0.0017736279.
I worker-replica-1 Loss for final step: 0.0010084368.
I worker-replica-3 Module completed; cleaning up.
I worker-replica-3 Clean up finished.
I worker-replica-3 Task completed successfully.
I worker-replica-2 Loss for final step: 0.0028514725.
I worker-replica-1 Module completed; cleaning up.
I worker-replica-1 Clean up finished.
I worker-replica-1 Task completed successfully.
I worker-replica-0 Loss for final step: 0.0015272798.
I worker-replica-2 Module completed; cleaning up.
I worker-replica-2 Clean up finished.
I worker-replica-2 Task completed successfully.
I worker-replica-0 Module completed; cleaning up.
I worker-replica-0 Clean up finished.
I worker-replica-0 Task completed successfully.
Если я изменю тип машины со шкалы уровня = STANDARD_1 на BASIC_GPU следующим образом:
gcloud ml-engine jobs submit training $JOBNAME \
--region=$REGION \
--module-name=trainer.task \
--package-path=./trainer \
--job-dir=$OUTDIR \
--staging-bucket=gs://$BUCKET \
--scale-tier=BASIC_GPU \
--runtime-version 1.12 \
-- \
--bucket=${BUCKET} \
--output_dir=${OUTDIR} \
--train_steps=10000
Это будет та же проблема, что и в этом отчете почему-делает-Google-Cloude-мл-обучение-работа-дать-ноль-использования-статистика-в-час
Я такжепробовал другую версию TensorFlow все еще получил ту же проблему.