При обучении модели на компьютере с графическим процессором она прерывается из-за некоторого процесса исправления системы.Поскольку на облачных графических процессорах Google не предусмотрена возможность динамической миграции, перезапуск обучения каждый раз бывает болезненным.Google четко упомянул, что нет другого способа, кроме как перезапустить машины в этом Doc .
. Есть ли умный способ определить, перезагружается ли машина, и возобновить обучение автоматически.
Иногда также случается, что из-за какого-либо обновления ядра драйверы CUDA перестают работать, а графический процессор не виден, а драйверы CUDA требуют переустановки.Поэтому написание сценария запуска для возобновления обучения также не является пуленепробиваемым решением.