Не удается использовать cloud-tpu с API-интерфейсом google ai-platform train - PullRequest
1 голос
/ 14 июля 2020

Несколько дней назад я успешно использовал API-интерфейс поезда AI-платформы с бэкэндом tensor2tensor и cloud-tpu, но похоже, что что-то изменилось, и я не могу заставить его работать с прошлой недели.

Различия, которые я вижу в журналах между рабочим / нерабочим, - это _master и _evaluation_master из конфигурации.

Последний успешный журнал train api показывает что-то вроде ниже.

Using config: {
  '_model_dir':..., 
  ....,
  '_master': 'grpc://10.228.38.186:8470', 
  '_evaluation_master': 'grpc://10.228.38.186:8470', 
  ...
  '_cluster': None, 'use_tpu': True
}

Однако журналы, которые я вижу с прошлой недели, выглядят следующим образом.

Using config: {
  '_model_dir': ...,
  '_master': 'cmle-training-2190487948974557758-tpu', 
  '_evaluation_master': 'cmle-training-2190487948974557758-tpu', 
  ...,
  '_cluster': None, 'use_tpu': True
} 

Затем tenorflow пытается подключить tpu по имени хоста, что в конечном итоге терпит неудачу, и процесс останавливается.


Not found: No session factory registered for the given session options: 
{
  target: "cmle-training-4208055151697798232-tpu" 
  config: operation_timeout_in_ms: 300000
} 
Registered factories are {DIRECT_SESSION, GRPC_SESSION}.

Для обоих экспериментов используется один и тот же код.

Если кто-нибудь сталкивался с подобной проблемой, пожалуйста, помогите мне пройти через это. Спасибо!

...