распределительный поезд тензорного потока с оценщиком RP C не выполнен со статусом = "Недоступно: истекло время ожидания соединения" - PullRequest
0 голосов
/ 19 апреля 2020

Я использую tf 1.15.2 для обучения модели распределения lr с помощью оценщика. Все хорошо работает в местных образцах Samll. когда я обучаю пользователей большим выборкам, главный запуск зависает с предупреждением.

INFO: tenorflow: график был завершен. I0419 23: 34: 13.717832 140469171009408 monitored_session.py:240] График был завершен. 2020-04-19 23: 36: 40.964737: W tenorflow / core / distrib_runtime / rpc / grpc_remote_master. cc: 157] Ошибка RP C с состоянием = "Недоступно: истекло время ожидания соединения" и grpc_error_string = "{" создано ":" @ 1587310600.964614843 "," description ":" Ошибка, полученная от однорангового узла "," file ":" external / grpc / src / core / lib / surface / call. cc "," file_line ": 1039," grpc_message ":" Тайм-аут соединения "," grpc_status ": 14}", возможно, повторная попытка RPC 2020-04-19 23: 38: 48.196716: W tensflowflow / core / distrib_runtime / rpc / grpc_remote_master. cc: 157] RP C ошибка с состоянием = "Недоступно: истекло время ожидания соединения" и grpc_error_string = "{" создано ":" @ 1587310728.196621085 "," описание ":" ошибка получена от однорангового узла "," файл ":" external / grpc / src / core " /lib/surface/call.cc","file_line":1039,"grpc_message":" Истекло время соединения "," grpc_status ": 14}", возможно, повторная попытка RPC 2020-04-19 23: 40: 55.428762 : W tenorflow / core / distrib_runtime / rpc / grpc_remote_master. cc: 157] RP C сбой с состоянием = "Недоступно: соединение timed out "и grpc_error_string =" {"созданный": "@ 1587310855.428667150", "description": "ошибка получена от однорангового узла", "file": "external / grpc / src / core / lib / surface / call. cc "," file_line ": 1039," grpc_message ":" Тайм-аут соединения "," grpc_status ": 14}", возможно, повторная попытка RPC 2020-04-19 23: 43: 02.660764: W tenorflow / core / distrib_runtime / rpc / grpc_remote_master. cc: 157] Сбой RP C с состоянием = "Недоступно: истекло время соединения" и grpc_error_string = "{" создано ":" @ 1587310982.660655519 "," описание ":" Ошибка получена от узла "," файл " ":" external / grpc / src / core / lib / surface / call. cc "," file_line ": 1039," grpc_message ":" Время соединения истекло "," grpc_status ": 14}", возможно, повторная попытка RPC 2020-04-19 23: 45: 09.892691: W tenorflow / core / distrib_runtime / rpc / grpc_remote_master. cc: 157] Ошибка RP C с состоянием = "Недоступно: истекло время ожидания соединения" и grpc_error_string = "{" создано ":" @ 1587311109.892602767 "," description ":" Ошибка, полученная от однорангового узла "," file ":" external / grpc / src / core / lib / surface / c all. cc "," file_line ": 1039," grpc_message ":" Тайм-аут соединения "," grpc_status ": 14}", возможно, повторная попытка RPC 2020-04-19 23: 47: 17.124696: W tensflowflow / core /distributed_runtime/rpc/grpc_remote_master.cc:157] RP C не удалось с состоянием = "Недоступно: истекло время соединения" и grpc_error_string = "{" создано ":" @ 1587311237.124600720 "," description ":" Ошибка получена от peer "," file ":" external / grpc / src / core / lib / surface / call. cc "," file_line ": 1039," grpc_message ":" Тайм-аут соединения "," grpc_status ": 14}" , возможно, повторная попытка RPC 2020-04-19 23: 49: 24.356761: W tenorflow / core / distrib_runtime / rpc / grpc_remote_master. cc: 157] Ошибка RP C со статусом = "Не доступно: истекло время ожидания подключения" и grpc_error_string = "{" созданный ":" @ 1587311364.356672106 "," описание ":" Ошибка, полученная от однорангового узла "," файл ":" external / grpc / src / core / lib / surface / call. cc "," file_line " : 1039, "grpc_message": "Тайм-аут соединения", "grpc_status": 14} ", возможно, повторная попытка RPC 2020-04-19 23: 51: 31.588875: W tenorflow / core / distrib_runtime / rpc / grpc_remote_master. cc: 157] RP C не удалось с состоянием = "Недоступно: истекло время соединения" и grpc_error_string = "{" создано ":" @ 1587311491.588780730 "," description ":" Ошибка получена от партнера "," file ":" external / grpc / src / core / lib / surface / call. cc "," file_line ": 1039," grpc_message ":" Тайм-аут соединения "," grpc_status ": 14}", возможно, повторная попытка RPC 2020-04-19 23: 53: 38.820685: W tenorflow / core / distrib_runtime / rpc / grpc_remote_master. cc: 157] RP C не удалось с состоянием = "Недоступно: истекло время ожидания соединения" и grpc_error_string = "{" создано ":" @ 1587311618. 820594977 "," description ":" Ошибка, полученная от однорангового узла "," file ":" external / grpc / src / core / lib / surface / call. cc "," file_line ": 1039," grpc_message ":" Connection истекло время ожидания "," grpc_status ": 14}", возможно, повторная попытка RPC 2020-04-19 23: 55: 46.052790: W tenorflow / core / distrib_runtime / rpc / grpc_remote_master. cc: 157] Сбой RP C с status = "Недоступно: истекло время ожидания соединения" и grpc_error_string = "{" созданный ":" @ 1587311746.052697200 "," description ":" Ошибка получена от однорангового узла "," file ":" external / grpc / src / core / lib / surface /call.cc","file_line":1039,"grpc_message":" Тайм-аут соединения "," grpc_status ": 14}", возможно, повторная попытка RPC 2020-04-20 00: 01: 33.316684: W tensflowflow / core / distrib_runtime / rpc / grpc_remote_master. cc: 157] RP C не удалось с состоянием = "Недоступно: истекло время соединения" и grpc_error_string = "{" создан ":" @ 1587312093.316587391 "," описание ":" ошибка получена from peer "," file ":" external / grpc / src / core / lib / surface / call. cc "," file_line ": 1039," grpc_message ":" Время соединения d out "," grpc_status ": 14}", возможно, повторная попытка RPC 2020-04-20 00: 01: 33.316729: W tenorflow / core / distrib_runtime / rpc / grpc_remote_master. cc: 161] Слишком много повторных попыток, последний возврат статус: недоступен: истекло время ожидания соединения INFO: tenorflow: во время создания сеанса возникла ошибка. Это может быть связано с вытеснением подключенного рабочего или сервера параметров. Новый сеанс будет создан. Эта ошибка также может возникать из-за сбоя gRP C, вызванного высокой пропускной способностью памяти или сети на серверах параметров. Если эта ошибка повторяется, попробуйте увеличить количество серверов параметров, назначенных для задания. Ошибка: истекло время соединения I0420 00: 01: 33.318395 140469171009408 monitored_session.py:1222] Произошла ошибка во время создания сеанса. Это может быть связано с вытеснением подключенного рабочего или сервера параметров. Новый сеанс будет создан. Эта ошибка также может возникать из-за сбоя gRP C, вызванного высокой пропускной способностью памяти или сети на серверах параметров. Если эта ошибка повторяется, попробуйте увеличить количество серверов параметров, назначенных заданию. Ошибка: истекло время соединения

Мой образец большой 500G. Особенность num составляет около 1 миллиарда. Я пробовал это с 10 PS, 20 рабочих и 1 начальник.

Кто-нибудь знает в чем проблема? Функция от большого до большого?

...