Question

Существует ли входной класс для работы с [несколькими] большими XML-файлами на основе их древовидной структуры в Hadoop? У меня есть набор XML-файлов, которые имеют одну и ту же схему, но мне нужно разбить их на части данных, а не разбивать их на части.

Например, XML-файл будет:

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>

Я бы определил каждый раздел как: / Корень / родитель.

То, что я спрашиваю: есть ли в Hadoop средство чтения ввода, уже включенное для этого?

Binary Nerd · Answer 1 · 06 марта 2010

Я думаю, что проект Cloud9 в UMD может помочь вам в этом.

Библиотека имеет класс XMLInputFormat , который может быть полезен.

Также представляет интерес эта страница в документации Cloud9, в которой рассказывается, как можно справиться с XML-дампом Википедии в MapReduce .

Разделение больших файлов XML на управляемые разделы для Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разделение больших файлов XML на управляемые разделы для Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов