Разделение больших файлов XML на управляемые разделы для Hadoop - PullRequest
5 голосов
/ 03 марта 2010

Существует ли входной класс для работы с [несколькими] большими XML-файлами на основе их древовидной структуры в Hadoop? У меня есть набор XML-файлов, которые имеют одну и ту же схему, но мне нужно разбить их на части данных, а не разбивать их на части.

Например, XML-файл будет:

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>

Я бы определил каждый раздел как: / Корень / родитель.

То, что я спрашиваю: есть ли в Hadoop средство чтения ввода, уже включенное для этого?

1 Ответ

1 голос
/ 06 марта 2010

Я думаю, что проект Cloud9 в UMD может помочь вам в этом.

Библиотека имеет класс XMLInputFormat , который может быть полезен.

Также представляет интерес эта страница в документации Cloud9, в которой рассказывается, как можно справиться с XML-дампом Википедии в MapReduce .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...