Я хочу извлечь строку из столбца данных XML (строка) в моем фреймворке pyspark. Я хочу извлечь ценность ProductName для каждого клиента.
Ниже приведен пример данных:
Customer, Product
A, <XmlData ProductName="123">....</XmlData><XmlData ProductName="1452">....</XmlData>
B, <XmlData ProductName="123">....</XmlData>
C, <XmlData ProductName="123">....</XmlData><XmlData ProductName="1452">....</XmlData><XmlData ProductName="893">....</XmlData><XmlData ProductName="3453">....</XmlData>
Я хотел бы преобразовать мой фрейм данных, чтобы включить столбец со списком извлеченных ProductNames, как показано ниже:
Customer, ProductName
A, 123;1452
B, 123
C, 123;1452;893;3453