Несколько дней назад я успешно использовал API-интерфейс поезда AI-платформы с бэкэндом tensor2tensor и cloud-tpu, но похоже, что что-то изменилось, и я не могу заставить его работать с прошлой недели.
Различия, которые я вижу в журналах между рабочим / нерабочим, - это _master и _evaluation_master из конфигурации.
Последний успешный журнал train api показывает что-то вроде ниже.
Using config: {
'_model_dir':...,
....,
'_master': 'grpc://10.228.38.186:8470',
'_evaluation_master': 'grpc://10.228.38.186:8470',
...
'_cluster': None, 'use_tpu': True
}
Однако журналы, которые я вижу с прошлой недели, выглядят следующим образом.
Using config: {
'_model_dir': ...,
'_master': 'cmle-training-2190487948974557758-tpu',
'_evaluation_master': 'cmle-training-2190487948974557758-tpu',
...,
'_cluster': None, 'use_tpu': True
}
Затем tenorflow пытается подключить tpu по имени хоста, что в конечном итоге терпит неудачу, и процесс останавливается.
Not found: No session factory registered for the given session options:
{
target: "cmle-training-4208055151697798232-tpu"
config: operation_timeout_in_ms: 300000
}
Registered factories are {DIRECT_SESSION, GRPC_SESSION}.
Для обоих экспериментов используется один и тот же код.
Если кто-нибудь сталкивался с подобной проблемой, пожалуйста, помогите мне пройти через это. Спасибо!