Выгрузить все сегменты из орехового - PullRequest
3 голосов
/ 01 ноября 2011

Я просто пытаюсь сбросить свои сегменты из сканирования, используя readseg. Если у меня есть только одна папка, команда

bin/nutch readseg -dump crawl/segments/* dumpFolder 

работает, но если у меня есть несколько папок сегментов, это терпит неудачу. Есть идеи?

Ответы [ 3 ]

1 голос
/ 04 июля 2014

Альтернативно, вот что вы можете попробовать

Сначала объединить все сегменты:

bin/nutch mergesegs crawl/merged crawl/segments/*

Затем сбросить объединенный сегмент

bin/nutch readseg -dump crawl/merged/* dumpedContent
1 голос
/ 15 ноября 2011

Вы должны указать путь сегмента до сегмента dir (тот, что с отметкой времени). Если вы хотите прочитать все сегменты в сегменты / dir, у вас может быть класс-обертка, где вы можете перечислить содержимое в сегменте dir и вызвать там readseg.

0 голосов
/ 28 сентября 2015

Чтобы прочитать содержимое сегментов из файлов последовательности и создать отдельные файлы в файлах:

1. Объединить сегменты

эта команда создает mergedseg путем объединения всех сегментов в segments/*

nutch mergesegs mergedseg -dir segments/

2. Дамп слитого сегмента

эта команда должна создавать файлы в content_dump

nutch dump -segment mergedseg -outputDir content_dump

Примечания

  • Протестировано в версии 1.10
  • nutch dump кажется немного хитрым. Это не свалилось, когда я дал путь сегмента. В приведенном выше примере mergedseg является родительским каталогом сегмента каталога.
  • Вы также можете сбросить определенные mimeTypes. Проверьте справку nutch dump
...