Question

Я сканирую сайт с помощью Nutch 1.4, я понимаю, что Nutch не сканирует все ссылки на этом сайте. у меня нет фильтра и нет предельных правил для сканирования. например Nutch никогда не сканировать эту ссылку:

http://www.irna.ir/News/30786427/سوء-استفاده-از-نام-كمیته-امداد-برای-جمع-آوری-رای-در-مناطق-محروم/سياسي/

если я дам эту ссылку Nutch для сканирования, Natch никогда не будет сканировать эту ссылку. этот сайт на фарси, а не на английском. Как я могу сканировать эту ссылку?

user3340022 · Answer 1 · 22 февраля 2014

Одна из причин, по которой может не получиться получить неанглийский URL-адрес, заключается в том, что веб-сервер www.irna.ir и используемый клиент Nutch используют другую кодировку URL-адреса.

Tejas Patil · Answer 2 · 03 апреля 2012

Nutch выполняет нормализацию URL-адреса и другую обработку URL-адресов на каждом URL-адресе, прежде чем добавить его в crawldb. Ваш URL мог там быть отфильтрован сам. Вы можете удалить эти плагины из списка используемых плагинов (свойство plugin.includes в conf/nutch-site.xml) и попробовать еще раз.

почему Nutch не сканирует все ссылки ни на каких сайтах на английском языке?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

почему Nutch не сканирует все ссылки ни на каких сайтах на английском языке?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы