Как оценить с помощью tf.estimator.train_and_evaluate? - PullRequest
0 голосов
/ 26 сентября 2018

Я использую tf.estimator.train_and_evaluate (...) для распределенного обучения, беру первого работника в качестве руководителя и второго работника для оценки.кластер работает следующим образом: 8 рабочих и 2 пс.

{
    "cluster": {
        "ps": ["100.77.4.147:61415", "100.77.14.144:52383"],
        "chief": ["100.77.14.144:49606"],
        "worker": ["100.110.22.203:28312", "100.77.4.147:32299", "100.77.4.147:4950", "100.110.22.203:22196", "100.110.22.203:39327", "100.77.14.144:32888", "100.77.4.147:26919"]
    },
    "task": {
        "index": 0,
        "type": "evaluator"
    }
}

другой индекс набора обычных рабочих от 0 до конца

, однако во время выполнения возникают ошибки:

// in the chief node has following errors
CreateSession failed because worker /job:worker/replica:0/task:1 returned error: Unavailable: OS Error
CreateSession failed because worker /job:worker/replica:0/task:2 returned error: Unavailable: OS Error
CreateSession failed because worker /job:worker/replica:0/task:3 returned error: Unavailable: OS Error

затем я проверяю других работников, обнаружил ошибку следующим образом

CreateSession still waiting for response from worker: /job:worker/replica:0/task:5
CreateSession still waiting for response from worker: /job:worker/replica:0/task:0
CreateSession still waiting for response from worker: /job:worker/replica:0/task:1
...

Я неправильно установил cluster_spec?спасибо

1 Ответ

0 голосов
/ 27 сентября 2018

обновление:

наконец-то, все работает.Оценщик не должен включаться в список работников.FYI.

...