Question

Я новичок в этом, пытаюсь использовать Nutch 1.2 для получения сайта. Я использую только консоль Linux для работы с Nutch , так как мне больше ничего не нужно. Моя команда выглядит так bin/nutch crawl urls -dir crawled -depth 3 Где находится папка urls , где у меня есть ссылки, и я получаю результаты в папку crawled . И когда я хотел бы увидеть результаты, я печатаю: bin/nutch readseg -dump crawled/segments/20110401113805 /home/nutch/dumpfiles Это работает очень хорошо, но я получаю много неработающих ссылок. Теперь я не хочу Nutch следовать ссылкам JavaScript, только обычные ссылки, кто-нибудь может подсказать / помочь мне, как это сделать? Я пытался редактировать conf / crawl-urlfilter.txt безрезультатно. Я мог набрать неправильные команды!

Любая помощь приветствуется!

millebii · Answer 1 · 07 апреля 2011

Остерегайтесь двух разных файлов фильтров, один для одной команды остановки сканирования, а другой для пошаговых команд.В остальном просто создайте регулярное выражение, которое будет соответствовать URL-адресам, которые вы хотите пропустить, добавьте минус перед тем, как закончить.

Как опустить JavaScript и комментарии с помощью Nutch Crawl?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как опустить JavaScript и комментарии с помощью Nutch Crawl?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы