почему Nutch не сканирует все ссылки ни на каких сайтах на английском языке? - PullRequest
0 голосов
/ 31 января 2012

Я сканирую сайт с помощью Nutch 1.4, я понимаю, что Nutch не сканирует все ссылки на этом сайте. у меня нет фильтра и нет предельных правил для сканирования. например Nutch никогда не сканировать эту ссылку:

http://www.irna.ir/News/30786427/سوء-استفاده-از-نام-كمیته-امداد-برای-جمع-آوری-رای-در-مناطق-محروم/سياسي/

если я дам эту ссылку Nutch для сканирования, Natch никогда не будет сканировать эту ссылку. этот сайт на фарси, а не на английском. Как я могу сканировать эту ссылку?

Ответы [ 2 ]

0 голосов
/ 22 февраля 2014

Одна из причин, по которой может не получиться получить неанглийский URL-адрес, заключается в том, что веб-сервер www.irna.ir и используемый клиент Nutch используют другую кодировку URL-адреса.

0 голосов
/ 03 апреля 2012

Nutch выполняет нормализацию URL-адреса и другую обработку URL-адресов на каждом URL-адресе, прежде чем добавить его в crawldb. Ваш URL мог там быть отфильтрован сам. Вы можете удалить эти плагины из списка используемых плагинов (свойство plugin.includes в conf/nutch-site.xml) и попробовать еще раз.

...