Я использую tf.estimator.train_and_evaluate (...) для распределенного обучения, беру первого работника в качестве руководителя и второго работника для оценки.кластер работает следующим образом: 8 рабочих и 2 пс.
{
"cluster": {
"ps": ["100.77.4.147:61415", "100.77.14.144:52383"],
"chief": ["100.77.14.144:49606"],
"worker": ["100.110.22.203:28312", "100.77.4.147:32299", "100.77.4.147:4950", "100.110.22.203:22196", "100.110.22.203:39327", "100.77.14.144:32888", "100.77.4.147:26919"]
},
"task": {
"index": 0,
"type": "evaluator"
}
}
другой индекс набора обычных рабочих от 0 до конца
, однако во время выполнения возникают ошибки:
// in the chief node has following errors
CreateSession failed because worker /job:worker/replica:0/task:1 returned error: Unavailable: OS Error
CreateSession failed because worker /job:worker/replica:0/task:2 returned error: Unavailable: OS Error
CreateSession failed because worker /job:worker/replica:0/task:3 returned error: Unavailable: OS Error
затем я проверяю других работников, обнаружил ошибку следующим образом
CreateSession still waiting for response from worker: /job:worker/replica:0/task:5
CreateSession still waiting for response from worker: /job:worker/replica:0/task:0
CreateSession still waiting for response from worker: /job:worker/replica:0/task:1
...
Я неправильно установил cluster_spec?спасибо