Как опустить JavaScript и комментарии с помощью Nutch Crawl? - PullRequest
0 голосов
/ 01 апреля 2011

Я новичок в этом, пытаюсь использовать Nutch 1.2 для получения сайта. Я использую только консоль Linux для работы с Nutch , так как мне больше ничего не нужно. Моя команда выглядит так bin/nutch crawl urls -dir crawled -depth 3 Где находится папка urls , где у меня есть ссылки, и я получаю результаты в папку crawled . И когда я хотел бы увидеть результаты, я печатаю: bin/nutch readseg -dump crawled/segments/20110401113805 /home/nutch/dumpfiles Это работает очень хорошо, но я получаю много неработающих ссылок. Теперь я не хочу Nutch следовать ссылкам JavaScript, только обычные ссылки, кто-нибудь может подсказать / помочь мне, как это сделать? Я пытался редактировать conf / crawl-urlfilter.txt безрезультатно. Я мог набрать неправильные команды!

Любая помощь приветствуется!

1 Ответ

0 голосов
/ 07 апреля 2011

Остерегайтесь двух разных файлов фильтров, один для одной команды остановки сканирования, а другой для пошаговых команд.В остальном просто создайте регулярное выражение, которое будет соответствовать URL-адресам, которые вы хотите пропустить, добавьте минус перед тем, как закончить.

...