Разбор XML в несколько таблиц с использованием Hive XML SerDe - PullRequest
0 голосов
/ 04 января 2019

У меня есть куча структурированных XML-файлов, которые я хочу вставить в Hive. Структура выглядит примерно так:

<Object>
    <property0>propertyValue</property0>
    <FirstNestedObjects>
        <FirstNestedObject>
            <property1>propertyValue</property1>
        </FirstNestedObject>
    </FirstNestedObjects>

    <SecondNestedObjects>
        <SecondNestedObject>
            <property2>propertyValue</property2>
        </SecondNestedObject>
    </SecondNestedObjects>
</Object>

Я хочу разобрать этот XML в 3 таблицы: Объекты , FirstNestedObjects , SecondNestedObjects

Столбцы для каждой из этих таблиц будут свойствами внутри объектов. Я хочу сделать это, чтобы я мог выполнять аналитику для агрегированных FirstNestedObjects и SecondNestedObjects.

Я попытался просмотреть их документацию, расположенную здесь: https://github.com/dvasilen/Hive-XML-SerDe/wiki/XML-data-sources однако она показывает только то, как разбирать информацию в одну таблицу.

Есть идеи, как мне решить эту проблему?

1 Ответ

0 голосов
/ 05 января 2019

Одним из возможных решений может быть создание многораздельной таблицы с 3 разделами. По вашему запросу вы можете записать данные в нужный раздел. Таким образом, в итоге у вас будет 3 отдельных каталога, в которых вы можете создавать таблицы для индивидуального запроса к ним.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...