Я выполняю задание по настройке гиперпараметров с использованием настраиваемого контейнера. Когда я запускаю задание на небольшое количество шагов, все работает нормально. Проблема заключается в большем количестве шагов (что означает более длительные задания) - они заканчиваются не очень информативным сообщением «Произошла внутренняя ошибка для текущей попытки».
У меня 3 подозрения:
Конфигурация моих машин не оптимальна - моя работа выполняет много вычислений с numpy. Я заметил, что загрузка ЦП главной машины, серверов параметров и рабочих составляет около 100% для всех испытаний. Честно говоря, я ожидал, что это будет 100% только для рабочих (или 100% только для мастера, потому что я не использую распределенное обучение). Это означает, что я не совсем понимаю, как эти разные типы машин используются при настройке гиперпараметров. Мне не удалось найти никаких подробных ресурсов по этому поводу.
Промежуточные данные сохраняются каждые несколько шагов. Может я слишком много экономлю? Есть ли способ проверить использование хранилища на машинах?
Проблема с инфраструктурой Google.
Ниже показано начало моей конфигурации файл.
trainingInput:
scaleTier: CUSTOM
masterType: n1-highcpu-16
workerType: n1-highcpu-16
parameterServerType: n1-standard-4
evaluatorType: n1-standard-4
workerCount: 4
parameterServerCount: 1
evaluatorCount: 1
hyperparameters:
goal: MINIMIZE
hyperparameterMetricTag: "cumulative_regret"
maxTrials: 108
maxParallelTrials: 4
enableTrialEarlyStopping: False
algorithm: GRID_SEARCH