Google Cloud GPU машины внезапно перезагружаются - PullRequest
0 голосов
/ 08 октября 2018

При обучении модели на компьютере с графическим процессором она прерывается из-за некоторого процесса исправления системы.Поскольку на облачных графических процессорах Google не предусмотрена возможность динамической миграции, перезапуск обучения каждый раз бывает болезненным.Google четко упомянул, что нет другого способа, кроме как перезапустить машины в этом Doc .
. Есть ли умный способ определить, перезагружается ли машина, и возобновить обучение автоматически.
Иногда также случается, что из-за какого-либо обновления ядра драйверы CUDA перестают работать, а графический процессор не виден, а драйверы CUDA требуют переустановки.Поэтому написание сценария запуска для возобновления обучения также не является пуленепробиваемым решением.

1 Ответ

0 голосов
/ 12 декабря 2018

Да, есть.Если вы используете tenorflow, вы можете использовать его функцию контрольных точек, чтобы сохранить ваш прогресс и забрать, где вы остановились.

Один прекрасный пример этого представлен здесь: https://github.com/GoogleCloudPlatform/ml-on-gcp/blob/master/gce/survival-training/README-tf-estimator.md

...