Платформа AI нет подробной информации - произошла внутренняя ошибка при текущей попытке - PullRequest
1 голос
/ 05 августа 2020

Я выполняю задание по настройке гиперпараметров с использованием настраиваемого контейнера. Когда я запускаю задание на небольшое количество шагов, все работает нормально. Проблема заключается в большем количестве шагов (что означает более длительные задания) - они заканчиваются не очень информативным сообщением «Произошла внутренняя ошибка для текущей попытки».

У меня 3 подозрения:

  1. Конфигурация моих машин не оптимальна - моя работа выполняет много вычислений с numpy. Я заметил, что загрузка ЦП главной машины, серверов параметров и рабочих составляет около 100% для всех испытаний. Честно говоря, я ожидал, что это будет 100% только для рабочих (или 100% только для мастера, потому что я не использую распределенное обучение). Это означает, что я не совсем понимаю, как эти разные типы машин используются при настройке гиперпараметров. Мне не удалось найти никаких подробных ресурсов по этому поводу.

  2. Промежуточные данные сохраняются каждые несколько шагов. Может я слишком много экономлю? Есть ли способ проверить использование хранилища на машинах?

  3. Проблема с инфраструктурой Google.

Ниже показано начало моей конфигурации файл.

trainingInput:
  scaleTier: CUSTOM
  masterType: n1-highcpu-16
  workerType: n1-highcpu-16
  parameterServerType: n1-standard-4
  evaluatorType: n1-standard-4
  workerCount: 4
  parameterServerCount: 1
  evaluatorCount: 1
  hyperparameters:
    goal: MINIMIZE
    hyperparameterMetricTag: "cumulative_regret"
    maxTrials: 108
    maxParallelTrials: 4
    enableTrialEarlyStopping: False
    algorithm: GRID_SEARCH
...