Преобразование фрейма данных pandas в фрейм искры дает ошибку сети Py4J - PullRequest
0 голосов
/ 07 мая 2019

Я использую искру и воду (газированную воду) в моем проекте. У меня есть строка кода, которая преобразует кадр данных pandas в кадр данных spark. Периодически это выдает ошибку, как показано ниже. Ошибка возникает после нескольких дней работы кластера h2o. В порте Java-сервера не произошло никаких изменений.

ОШИБКА: py4j.java_gateway: при попытке подключения к серверу Java произошла ошибка (127.0.0.1:39805)

Traceback (последний последний вызов):

Файл "/usr/local/spark-2.3.1-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", строка 1067, в начале

self.socket.connect((self.address, self.port))

Файл "/usr/lib64/python2.7/socket.py", строка 228, в мет

return getattr(self._sock,name)(*args)

ошибка: [Errno 111] Соединение отклонено

Произошла ошибка

Traceback (последний последний вызов):

Файл "/home/IN/c101116/codebase/prediction/livePredictionEngine15.py", строка 1167, в прогнозе

storePrediction(q.get())

Файл "/home/IN/c101116/codebase/prediction/livePredictionEngine15.py", строка 1041, в storePrediction

model_output = get_model_response(prediction_df)

Файл "/home/IN/c101116/codebase/prediction/livePredictionEngine15.py", строка 434, в get_model_response

**prediction_input = sqlContext.createDataFrame(prediction_input)**

Файл "/usr/local/spark-2.3.1-bin-hadoop2.7/python/pyspark/sql/context.py", строка 302, в createDataFrame

return self.sparkSession.createDataFrame(data, schema, samplingRatio, verifySchema)

Файл "/usr/local/spark-2.3.1-bin-hadoop2.7/python/pyspark/sql/session.py", строка 648, в createDataFrame

if self.conf.get("spark.sql.execution.pandas.respectSessionTimeZone").lower() \

Файл "/usr/local/spark-2.3.1-bin-hadoop2.7/python/pyspark/sql/conf.py", строка 48, в get

return self._jconf.get(key)

Файл "/usr/local/spark-2.3.1-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", строка 1255, в звоните

answer = self.gateway_client.send_command(command)

Файл "/usr/local/spark-2.3.1-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", строка 983, в send_command

connection = self._get_connection()

Файл "/usr/local/spark-2.3.1-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", строка 931, в _get_connection

connection = self._create_connection()

Файл "/usr/local/spark-2.3.1-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", строка 937, в _create_connection

connection.start()

Файл "/usr/local/spark-2.3.1-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", строка 1079, в начале

raise Py4JNetworkError(msg, e)

Py4JNetworkError: Произошла ошибка при попытке подключения к серверу Java (127.0.0.1:39805)

#

from pysparkling import H2OContext sc = spark.sparkContext sqlContext = SQLContext(sc) hc = H2OContext.getOrCreate(spark) , , , , prediction_input = sqlContext.createDataFrame(prediction_input)

...