Ошибка сериализации с Spark Pandas_UDF - PullRequest
0 голосов
/ 12 июня 2019

У меня есть функция python, которую я преобразовал в функцию Pandas_UDF, и она работала до последней недели, но получала ошибку, указанную ниже, за последние несколько дней.Мы попробовали простую функцию Python с UDF Pandas, и она не выдает эту ошибку.Я не уверен, что именно в моем коде вызывает это.Были ли какие-либо изменения в искровой среде.Я использую Azure Databricks, если это поможет.

Поиск только обнаружил эту ссылку , но она устарела.

Оцените любые указания по устранению этой проблемы.

Спасибо, Юди

SparkException: задание прервано из-за сбоя этапа: задание 0 на этапе 23.0 не выполнено 4 раза, последний сбой: потерянное задание 0.3 на этапе 23.0 (TID 252, 172.17.69.7, исполнитель 0): org.apache.spark.api.python.PythonException: обратная связь (последний вызов был последним): файл "/databricks/spark/python/pyspark/serializers.py", строка 180, в _read_with_length возвращают себяФайл .loads (obj) "/databricks/spark/python/pyspark/serializers.py", строка 669, в нагрузках возвращает файл pickle.loads (obj, encoding = encoding) "/ databricks / spark / python / pyspark / cloudpickle.py ", строка 875, в подимпорте import (name) ImportError: Нет модуля с именем _pandasujson

Во время обработки вышеуказанного исключения произошло другое исключение:

Traceback(последний вызов был последним): Файл "/ databricks / spark / python / pyspark / worker.py ", строка 394, в основной функции, профилировщик, десериализатор, файл serializer = read_udfs (pickleSer, infile, eval_type)" /databricks/spark/python/pyspark/worker.py ", строка 234, в read_udfs arg_offsets, udf = read_single_udf (pickleSer, infile, eval_type, runner_conf) Файл "/databricks/spark/python/pyspark/worker.py", строка 160, в файле read_single_udf f, return_type = read_command (pickleSer, infile)/databricks/spark/python/pyspark/worker.py ", строка 69, в команде read_command = serializer._read_with_length (file) Файл" /databricks/spark/python/pyspark/serializers.py ", строка 183, в _read_with_length поднять SerializationError(«Вызвано» + traceback.format_exc ()) pyspark.serializers.SerializationError: Вызвано Traceback (последний вызов был последним): файл «/databricks/spark/python/pyspark/serializers.py», строка 180, в _read_with_length returnФайл self.loads (obj) "/databricks/spark/python/pyspark/serializers.py", строка 669, при загрузке возвращает pickle.loads (obj, encoding = encoding) File "/databricks/spark/python/pyspark/cloudpickle.py", строка 875, в подимпорте import (name) ImportError: Нет модуля с именем '_pandasujson'

...