Чтобы прочитать содержимое сегментов из файлов последовательности и создать отдельные файлы в файлах:
1. Объединить сегменты
эта команда создает mergedseg
путем объединения всех сегментов в segments/*
nutch mergesegs mergedseg -dir segments/
2. Дамп слитого сегмента
эта команда должна создавать файлы в content_dump
nutch dump -segment mergedseg -outputDir content_dump
Примечания
- Протестировано в версии 1.10
-
nutch dump
кажется немного хитрым. Это не свалилось, когда я дал путь сегмента. В приведенном выше примере mergedseg
является родительским каталогом сегмента каталога.
- Вы также можете сбросить определенные mimeTypes. Проверьте справку
nutch dump