Каковы возможные причины того, что служба h2o может перестать отвечать на запрос HTTP REST API?
Мы используем пакет R CRAN, и через некоторое время сервер h2o перестает отвечать на запросы. Мы записали множество журналов, но для этого нет явной ошибки или причины. Существует также вопрос согласованности, который я подробно опишу после логов. Журнал h2o.logging () показывает:
Time: 2019-01-07 11:13:19.262
GET http://localhost:54321/3/Jobs/$03017f00000132d4ffffffff$_936500deb000be7364a7e2ce61d5451e
postBody:
curlError: FALSE
curlErrorMessage:
httpStatusCode: 200
httpStatusMessage: OK
millis: 3513
{"__meta":{"data":"removed as it is not relevant"}}
------------------------------------------------------------
Time: 2019-01-07 11:13:25.013
GET http://localhost:54321/3/Jobs/$03017f00000132d4ffffffff$_936500deb000be7364a7e2ce61d5451e
postBody:
curlError: TRUE
curlErrorMessage: Failed to connect to localhost port 54321: Connection refused
httpStatusCode: -1
httpStatusMessage:
millis: 88616
Основной журнал показывает, что он работал незадолго до этого:
Connection successful!
R is connected to the H2O cluster:
H2O cluster uptime: 2 minutes 9 seconds
H2O cluster timezone: Etc/UTC
H2O data parsing timezone: UTC
H2O cluster version: 3.20.0.8
H2O cluster version age: 3 months and 17 days !!!
H2O cluster name: H2O_started_from_R_root_ttz747
H2O cluster total nodes: 1
H2O cluster total memory: 255.99 GB
H2O cluster total cores: 2
H2O cluster allowed cores: 2
H2O cluster healthy: TRUE
H2O Connection ip: localhost
H2O Connection port: 54321
H2O Connection proxy: NA
H2O Internal Security: FALSE
H2O API Extensions: XGBoost, Algos, AutoML, Core V3, Core V4
R Version: R version 3.5.1 (2018-07-02)
|======================================================================| 100%
|======================================================================| 100%
Error in .h2o.__checkConnectionHealth() :
H2O connection has been severed. Cannot connect to instance at http://localhost:54321/
Failed to connect to localhost port 54321: Connection refused
Calls: <Anonymous> -> .h2o.__remoteSend -> .h2o.__checkConnectionHealth
Интересно то, что это на 100% повторяется на машинах, которые имеют эту проблему (большинство), но у нас также есть две машины, которые не показывают эту проблему (по крайней мере, не кажется, мы можем не исключаю, что у них их никогда нет, но обычно они работают нормально).
Я видел, что вода никогда не отключается сама по себе, так что это маловероятно. Мы остановили любой параллелизм в сценарии R, и это ничего не изменило.
Поэтому нам нужны предложения о том, как определить проблему здесь и, конечно, решить ее.