Я новичок в этом, пытаюсь использовать Nutch 1.2 для получения сайта. Я использую только консоль Linux для работы с Nutch , так как мне больше ничего не нужно. Моя команда выглядит так
bin/nutch crawl urls -dir crawled -depth 3
Где находится папка urls , где у меня есть ссылки, и я получаю результаты в папку crawled .
И когда я хотел бы увидеть результаты, я печатаю: bin/nutch readseg -dump crawled/segments/20110401113805 /home/nutch/dumpfiles
Это работает очень хорошо, но я получаю много неработающих ссылок.
Теперь я не хочу Nutch следовать ссылкам JavaScript, только обычные ссылки, кто-нибудь может подсказать / помочь мне, как это сделать?
Я пытался редактировать conf / crawl-urlfilter.txt безрезультатно. Я мог набрать неправильные команды!
Любая помощь приветствуется!