Запись метаданных внутри HDFS - PullRequest
1 голос
/ 07 января 2011

Мы используем Nutch для сканирования нашего сайта в интрасети.

Мы извлекаем метаданные в файле XML, на этапе индексации (мы изменили код indexer.java) и при запуске в локальном режиме.он дал нам необходимые метаданные.

Теперь мы подумали об использовании Nutch в режиме кластера (используя Hadoop), когда мы сканировали Nutch в кластере, мы можем получить индекс, но не метаданные, которые мы использовали дляполучить ранее, в локальном режиме мы использовали (классы ввода-вывода Java для записи мета в файлы).Для hadoop мы изменили это на классы файловой системы hadoop io.Но мы не можем получить мету.

Есть ли какое-то решение или мы что-то упустили?

Заранее спасибо, Гео

1 Ответ

1 голос
/ 10 января 2011

Мы извлекаем метаданные в XML-файл, на этапе индексации (мы изменили код indexer.java), и при запуске в локальном режиме он дал нам необходимые метаданные.

модификация индексатора - не лучший вариант, о чем свидетельствует проблема, с которой вы столкнулись

Вы могли бы:

  • добавить метаданные как часть инъекции (если вы хотите сделать это только для семян)
  • или напишите собственный индексный плагин: и, например, получить его для загрузки XML md из файла в conf /

содержимое conf / добавляется в файл задания и распределяется по узлам кластера. В коде довольно много примеров индексных плагинов.

Может быть, вам следует использовать список пользователей Nutch, чтобы получить более широкую аудиторию?

...