Я выполняю задание Vizier HyperParameter Tuning на платформе AI GCP, и испытания продолжают прерываться из-за ошибки: Terminated by service. If the job is supposed to continue running, it will be restarted on other VM shortly.
Я использую графический процессор STANDARD_P100, и похоже, что отдельные испытания настройки получаютзагружается (с опережением) из графического процессора в середине обучения - некоторые испытания завершаются успешно, а некоторые испытания останавливаются на 1000 или 2000 шагов - это всегда происходит на 1000, что важно, потому что я делаю оценку каждые 1000 шаговПохоже, что при переключении между обучением и оценкой происходит что-то, что позволяет выполнять эти задания заранее.Следующая пробная версия запускается, а затем, как правило, снова выполняется на 1000 шагов (вместо перезапуска предыдущей пробной версии).
Могу ли я что-нибудь сделать для успешного завершения моих испытаний?Они никогда не перезапускаются, как говорит виртуальная машина, и кажется, что это делает настройку всего гиперпараметра бесполезной, поскольку ~ 90% испытаний никогда не завершаются, а те, которые не пройдут, скорее всего, дадут неверную информацию алгоритму оптимизации vizier.Эти прогоны могут быть довольно дорогими для запуска на графических процессорах, и они по сути бесполезны, как в настоящее время сконфигурировано, хотя мне платят за испытания, которые никогда не завершаются.
Пример моего hptuning_config приведен ниже ...
scaleTier: CUSTOM
masterType: standard_v100
hyperparameters:
goal: MAXIMIZE
hyperparameterMetricTag: 'accuracy'
maxTrials: 80
maxParallelTrials: 1
enableTrialEarlyStopping: TRUE
params: ...