Существует ли входной класс для работы с [несколькими] большими XML-файлами на основе их древовидной структуры в Hadoop? У меня есть набор XML-файлов, которые имеют одну и ту же схему, но мне нужно разбить их на части данных, а не разбивать их на части.
Например, XML-файл будет:
<root>
<parent> data </parent>
<parent> more data</parent>
<parent> even more data</parent>
</root>
Я бы определил каждый раздел как:
/ Корень / родитель.
То, что я спрашиваю: есть ли в Hadoop средство чтения ввода, уже включенное для этого?