У меня есть куча структурированных XML-файлов, которые я хочу вставить в Hive. Структура выглядит примерно так:
<Object>
<property0>propertyValue</property0>
<FirstNestedObjects>
<FirstNestedObject>
<property1>propertyValue</property1>
</FirstNestedObject>
</FirstNestedObjects>
<SecondNestedObjects>
<SecondNestedObject>
<property2>propertyValue</property2>
</SecondNestedObject>
</SecondNestedObjects>
</Object>
Я хочу разобрать этот XML в 3 таблицы: Объекты , FirstNestedObjects , SecondNestedObjects
Столбцы для каждой из этих таблиц будут свойствами внутри объектов. Я хочу сделать это, чтобы я мог выполнять аналитику для агрегированных FirstNestedObjects и SecondNestedObjects.
Я попытался просмотреть их документацию, расположенную здесь: https://github.com/dvasilen/Hive-XML-SerDe/wiki/XML-data-sources однако она показывает только то, как разбирать информацию в одну таблицу.
Есть идеи, как мне решить эту проблему?