H2O H2OServerError: Ошибка сервера HTTP 500 при обучении модели - PullRequest
1 голос
/ 03 апреля 2019

Попытка обучить классификатор DRF в h2o (версия 3.20.0.5), ошибка «H2OServerError: Ошибка сервера HTTP 500» без дальнейшего объяснения.

---------------------------------------------------------------------------
H2OServerError                            Traceback (most recent call last)
<ipython-input-44-f52d1cb4b77a> in <module>()
      4     training_frame=train_u, validation_frame=val_u,
      5     weights_column='weight',
----> 6     max_runtime_secs=max_train_time_hrs*60*60)
      7 
      8 

/home/mapr/python-virtual-envs/ml1c/venv/lib/python2.7/site-packages/h2o/estimators/estimator_base.pyc in train(self, x, y, training_frame, offset_column, fold_column, weights_column, validation_frame, max_runtime_secs, ignored_columns, model_id, verbose)
    224         rest_ver = parms.pop("_rest_version") if "_rest_version" in parms else 3
    225 
--> 226         model_builder_json = h2o.api("POST /%d/ModelBuilders/%s" % (rest_ver, self.algo), data=parms)
    227         model = H2OJob(model_builder_json, job_type=(self.algo + " Model Build"))
    228 

/home/mapr/python-virtual-envs/ml1c/venv/lib/python2.7/site-packages/h2o/h2o.pyc in api(endpoint, data, json, filename, save_to)
    101     # type checks are performed in H2OConnection class
    102     _check_connection()
--> 103     return h2oconn.request(endpoint, data=data, json=json, filename=filename, save_to=save_to)
    104 
    105 

/home/mapr/python-virtual-envs/ml1c/venv/lib/python2.7/site-packages/h2o/backend/connection.pyc in request(self, endpoint, data, json, filename, save_to)
    400                                     auth=self._auth, verify=self._verify_ssl_cert, proxies=self._proxies)
    401             self._log_end_transaction(start_time, resp)
--> 402             return self._process_response(resp, save_to)
    403 
    404         except (requests.exceptions.ConnectionError, requests.exceptions.HTTPError) as e:

/home/mapr/python-virtual-envs/ml1c/venv/lib/python2.7/site-packages/h2o/backend/connection.pyc in _process_response(response, save_to)
    728         # Note that it is possible to receive valid H2OErrorV3 object in this case, however it merely means the server
    729         # did not provide the correct status code.
--> 730         raise H2OServerError("HTTP %d %s:\n%r" % (status_code, response.reason, data))
    731 
    732 

H2OServerError: HTTP 500 Server Error:
Server error java.lang.NullPointerException:
  Error: Caught exception: java.lang.NullPointerException
  Request: None

Данный фрагмент кода показан ниже:

max_train_time_hrs = 8 
drf_proc.train(
    x=train_features, y=train_response,
    training_frame=train_u, validation_frame=val_u,
    weights_column='weight',
    max_runtime_secs=max_train_time_hrs*60*60)

Вывод команды h2o.init() выглядит как

Checking whether there is an H2O instance running at http://172.18.4.62:54321. connected.
Warning: Your H2O cluster version is too old (7 months and 24 days)! Please download and install the latest version from http://h2o.ai/download/
H2O cluster uptime: 06 secs
H2O cluster timezone:   Pacific/Honolulu
H2O data parsing timezone:  UTC
H2O cluster version:    3.20.0.5
H2O cluster version age:    7 months and 24 days !!!
H2O cluster name:   H2O_88021
H2O cluster total nodes:    4
H2O cluster free memory:    15.34 Gb
H2O cluster total cores:    8
H2O cluster allowed cores:  8
H2O cluster status: accepting new members, healthy
H2O connection url: http://172.18.4.62:54321
H2O connection proxy:   None
H2O internal security:  False
H2O API Extensions: AutoML, XGBoost, Algos, Core V3, Core V4
Python version: 2.7.12 fin

Хотя я понимаю, что есть предупреждение о том, что используемая мной версия h2o "слишком старая", используемая мной версия пакета python h2o и кластер, к которому я подключаюсь, все еще совпадают, и это не может быть обновлено из-за другим h2o-приложениям, которые обращаются к этому кластеру и ожидают определенной версии (у всех этих приложений нет проблем с запуском в кластере). Между тем, любой веб-браузер не может подключиться к URL-адресу соединения H2O.

Есть какие-нибудь идеи о том, что здесь может происходить или отладочных шагах, которые можно рассмотреть?

1 Ответ

2 голосов
/ 03 апреля 2019

15 ГБ памяти может быть недостаточно для тренировочного процесса, который вы рассчитываете на 8 часов.(Помимо: я бы порекомендовал использовать ранний останов вместо * или 1003 *.)

В качестве шага отладки я бы порекомендовал смотреть в интерфейсе Flow (направьте ваш браузер на порт 54321 - посмотрите URL-адрес соединения в вашем h2o.init() выводе).Особенно следите за тем, как увеличивается использование памяти с течением времени.

(Иногда ошибка «500» просто означает, что она стала нестабильной, а нехватка памяти является распространенным триггером.)

Если вы получаетеошибка немедленно, это менее вероятно, будет проблемой (если у вас нет огромного набора данных).

В этом случае я бы попытался сузить, если конкретный столбец или строка данных могут быть причиной проблемы.Например,

  • Эксперимент 1: первая половина столбцов в train_features
  • Эксперимент 2: вторая половина столбцов в train_features
  • Эксперимент 3: первая половинастроки в train_u
  • Эксперимент 4: вторая половина строк в train_u
  • Эксперимент 5/6 (если все еще не повезло): то же самое для valid_u

Если одна из экспериментальной пары дает сбой, а другая - нет, повторите эксперимент на половине сбоя.

...