У меня есть таблица в улье с двумя столбцами id (int) и xml_column (string).xml_column на самом деле является xml, но он хранится в виде строки.
+------+--------------------+
| id | xml_column |
+------+--------------------+
| 6723 |<?xml version="1....|
| 6741 |<?xml version="1....|
| 6774 |<?xml version="1....|
+------+--------------------+
Мой вопрос: я хотел бы проанализировать этот xml и разбить его на формат схемы с помощью spark (scala).Может кто-нибудь помочь мне, как справиться с этим?Пробные блоки данных запускают библиотеку xml, но эта библиотека обрабатывает файлы xml.
Или есть какой-либо способ преобразовать этот строковый столбец в json, и у меня есть парсер json, который может это обработать.