Невозможно сериализовать PySpark UDF - PullRequest
1 голос
/ 18 июня 2020

Я пытаюсь создать UDF в PySpark. Функция принимает строку ввода, которая является xml. Затем он использует l xml для его анализа и возвращает список словарей с атрибутами. Я создал функцию parse_xml, но когда я пробую строку spark.udf.register("parse_xml", parse_xml), но это дает ошибку: PicklingError: Could not serialize object: TypeError: can't pickle lxml.etree.XMLParser objects.

Кажется, что объекты l xml не сериализуемы, но ввод - это строка, а вывод - это список / словарь - есть ли способ создать такой UDF?

1 Ответ

0 голосов
/ 18 июня 2020
• 1000 * парсер, и он тоже будет быстрым.
...