Ошибка при импорте трубопровода Sparkling Water (H2O) в Apache Spark: py4j.protocol.Py4JError - PullRequest
1 голос
/ 07 февраля 2020

Я недавно создал конвейер PySpark, используя AutoML Sparkling Water на последнем этапе (очень похоже на https://github.com/h2oai/sparkling-water/blob/master/py/examples/pipelines/ham_or_spam_multi_algo.py), но когда я загружаю свою модель из файла, я получаю эту ошибку:

Пример:

model = loaded_pipeline.fit(data)
model.write().overwrite().save("examples/build/model")
loaded_model = PipelineModel.load("examples/build/model")


py4j.protocol.Py4JError: ai.h2o.sparkling.ml.models.H2OMOJOModel.H2OSupervisedMOJOModel does not exist in the JVM

У меня есть текущие пакеты / версии: H2O (3.28.0.3), h2o-pysparkling-2-4 (3.28.0.3-1), PySpark (2.4.3), Py4j (0.10.7). Я получил эту ошибку, только когда обновил H2O / Sparkling Water до версии 3.28. Может ли это быть связано с определением некоторой переменной среды или версии пакета?

1 Ответ

0 голосов
/ 17 февраля 2020

Пожалуйста, запустите from pysparkling import * в начале кода. Этот вызов гарантирует, что мы добавим зависимости Sparkling Water в приложение Spark.

...