Nutch не удалось сканировать конкретный сайт - PullRequest
1 голос
/ 26 марта 2012

Я использую Nutch 1.4 для сканирования сайтов. В демонстрационных целях я начал ползти с jabong.com, но заметил, что Nutch не может получить все ссылки на сайте.

После посещения http://www.jabong.com/women/clothing/womens-suits-sets/ На этом сайте не отображаются ссылки, которые отображаются на изображениях.

Я настроил орех как: - conf / nuth-default.xml ---> добавил имя агента conf / regex-urlfilter.txt ---> Вместо +. Я написал + ^ http://([a -z0-9] *.) * Jabong.com/ seed.txt содержит http://www.jabong.com/

Может кто-нибудь сказать мне, в чем может быть проблема, что он не выбирает все ссылки?

1 Ответ

2 голосов
/ 27 марта 2012

Наконец-то удалось решить эту проблему после того, как долго ломал голову. Так что делимся этим здесь :) Вы должны настроить параметры, определенные в nutch-default.xml в каталоге conf

Так что проверьте значение max.content.length, определенное для этого, будет около 60 КБ, но на самом деле содержимое страницы было намного больше, поэтому он не мог сканировать всю страницу, и поэтому ссылки не могли отображаться на просканированной странице.

Так что перед сканированием любого сайта проверьте эти параметры :) Приятного ползания:)

PS: Я сожалею, что в некоторых случаях я чувствую, что я задаю вопрос здесь, а затем публикую решение Перед отправкой вопроса я действительно много пробовал ..

...