Что может помешать нам ответить на наш R-скрипт? - PullRequest
0 голосов
/ 08 января 2019

Каковы возможные причины того, что служба h2o может перестать отвечать на запрос HTTP REST API?

Мы используем пакет R CRAN, и через некоторое время сервер h2o перестает отвечать на запросы. Мы записали множество журналов, но для этого нет явной ошибки или причины. Существует также вопрос согласованности, который я подробно опишу после логов. Журнал h2o.logging () показывает:

Time:     2019-01-07 11:13:19.262

GET       http://localhost:54321/3/Jobs/$03017f00000132d4ffffffff$_936500deb000be7364a7e2ce61d5451e
postBody:

curlError:         FALSE
curlErrorMessage:
httpStatusCode:    200
httpStatusMessage: OK
millis:            3513

{"__meta":{"data":"removed as it is not relevant"}}

------------------------------------------------------------

Time:     2019-01-07 11:13:25.013

GET       http://localhost:54321/3/Jobs/$03017f00000132d4ffffffff$_936500deb000be7364a7e2ce61d5451e
postBody:

curlError:         TRUE
curlErrorMessage:  Failed to connect to localhost port 54321: Connection refused
httpStatusCode:    -1
httpStatusMessage:
millis:            88616

Основной журнал показывает, что он работал незадолго до этого:

Connection successful!

R is connected to the H2O cluster:
    H2O cluster uptime:         2 minutes 9 seconds
    H2O cluster timezone:       Etc/UTC
    H2O data parsing timezone:  UTC
    H2O cluster version:        3.20.0.8
    H2O cluster version age:    3 months and 17 days !!!
    H2O cluster name:           H2O_started_from_R_root_ttz747
    H2O cluster total nodes:    1
    H2O cluster total memory:   255.99 GB
    H2O cluster total cores:    2
    H2O cluster allowed cores:  2
    H2O cluster healthy:        TRUE
    H2O Connection ip:          localhost
    H2O Connection port:        54321
    H2O Connection proxy:       NA
    H2O Internal Security:      FALSE
    H2O API Extensions:         XGBoost, Algos, AutoML, Core V3, Core V4
    R Version:                  R version 3.5.1 (2018-07-02)

  |======================================================================| 100%
  |======================================================================| 100%
Error in .h2o.__checkConnectionHealth() :
  H2O connection has been severed. Cannot connect to instance at http://localhost:54321/
Failed to connect to localhost port 54321: Connection refused
Calls: <Anonymous> -> .h2o.__remoteSend -> .h2o.__checkConnectionHealth

Интересно то, что это на 100% повторяется на машинах, которые имеют эту проблему (большинство), но у нас также есть две машины, которые не показывают эту проблему (по крайней мере, не кажется, мы можем не исключаю, что у них их никогда нет, но обычно они работают нормально).

Я видел, что вода никогда не отключается сама по себе, так что это маловероятно. Мы остановили любой параллелизм в сценарии R, и это ничего не изменило.

Поэтому нам нужны предложения о том, как определить проблему здесь и, конечно, решить ее.

...