Задания по настройке Vizier HyperParameter прекращены обслуживанием - PullRequest
0 голосов
/ 27 мая 2019

Я выполняю задание Vizier HyperParameter Tuning на платформе AI GCP, и испытания продолжают прерываться из-за ошибки: Terminated by service. If the job is supposed to continue running, it will be restarted on other VM shortly.

Я использую графический процессор STANDARD_P100, и похоже, что отдельные испытания настройки получаютзагружается (с опережением) из графического процессора в середине обучения - некоторые испытания завершаются успешно, а некоторые испытания останавливаются на 1000 или 2000 шагов - это всегда происходит на 1000, что важно, потому что я делаю оценку каждые 1000 шаговПохоже, что при переключении между обучением и оценкой происходит что-то, что позволяет выполнять эти задания заранее.Следующая пробная версия запускается, а затем, как правило, снова выполняется на 1000 шагов (вместо перезапуска предыдущей пробной версии).

Могу ли я что-нибудь сделать для успешного завершения моих испытаний?Они никогда не перезапускаются, как говорит виртуальная машина, и кажется, что это делает настройку всего гиперпараметра бесполезной, поскольку ~ 90% испытаний никогда не завершаются, а те, которые не пройдут, скорее всего, дадут неверную информацию алгоритму оптимизации vizier.Эти прогоны могут быть довольно дорогими для запуска на графических процессорах, и они по сути бесполезны, как в настоящее время сконфигурировано, хотя мне платят за испытания, которые никогда не завершаются.

Пример моего hptuning_config приведен ниже ...

scaleTier: CUSTOM
  masterType: standard_v100
  hyperparameters:
    goal: MAXIMIZE
    hyperparameterMetricTag: 'accuracy'
    maxTrials: 80
    maxParallelTrials: 1
    enableTrialEarlyStopping: TRUE
    params: ...
...