Я пытаюсь создать UDF в PySpark. Функция принимает строку ввода, которая является xml. Затем он использует l xml для его анализа и возвращает список словарей с атрибутами. Я создал функцию parse_xml
, но когда я пробую строку spark.udf.register("parse_xml", parse_xml)
, но это дает ошибку: PicklingError: Could not serialize object: TypeError: can't pickle lxml.etree.XMLParser objects
.
Кажется, что объекты l xml не сериализуемы, но ввод - это строка, а вывод - это список / словарь - есть ли способ создать такой UDF?