Question

Я пытаюсь создать UDF в PySpark. Функция принимает строку ввода, которая является xml. Затем он использует l xml для его анализа и возвращает список словарей с атрибутами. Я создал функцию parse_xml, но когда я пробую строку spark.udf.register("parse_xml", parse_xml), но это дает ошибку: PicklingError: Could not serialize object: TypeError: can't pickle lxml.etree.XMLParser objects.

Кажется, что объекты l xml не сериализуемы, но ввод - это строка, а вывод - это список / словарь - есть ли способ создать такой UDF?

Невозможно сериализовать PySpark UDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Невозможно сериализовать PySpark UDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы