Обработка XML в hadoop - PullRequest
       5

Обработка XML в hadoop

1 голос
/ 16 мая 2011

У меня есть около 200+ XML-файлов в hdfs. Я использую XmlInputFormat (из mahout) для потоковой передачи элементов. Картограф может получить содержимое XML и обработать его. Но проблема в том, что обрабатывается только первый XML-файл. Но когда мы обрабатываем большое количество небольших текстовых файлов, после обработки 1-го файла, следующие файлы будут переданы в маппер Hadoop. Дайте мне знать, если это не поведение по умолчанию с XML-файлами и что нужно сделать, чтобы перебрать весь набор XML-файлов. Спасибо.

1 Ответ

1 голос
/ 18 августа 2011

Мне повезло, используя обычный класс XmlStreamRecordReader , а затем перебирая стандартный ввод (с Python, Hadoop Streaming API).

Насколько большие файлы, и вы запускаете это в одной системе или кластере из нескольких узлов?Какой размер блока HDFS установлен?

...