Сканирование страниц на основе аутентификации с использованием Apache Nutch - PullRequest
0 голосов
/ 26 июня 2018

Как я могу сканировать страницы, основанные на аутентификации, используя Nutch?Я выполнил все необходимые настройки в nutch-site.xml, nutch-default.xml и httpclient-auth.xml.Тем не менее он показывает следующее:

Generator: 0 records selected for fetching, exiting ...
Stopping at depth=1 - no more URLs to fetch.

Я перешел по следующим ссылкам ссылка 1 , ссылка 2 .Но мой сканер не сканирует страницы.Можно ли как-нибудь использовать ключ API для сканирования?

1 Ответ

0 голосов
/ 29 июня 2018

вам нужно настроить httpclient-auth.xml Вот пример для интерфейса пользователя solr с аутентификацией, сделанный так же для ваших сайтов.

<auth-configuration>
   <credentials username="solr" password="xxx">
      <authscope host="localhost" port="8983"/>
   </credentials>
</auth-configuration>

Просмотрите несколько примеров в этом файле и попробуйте их

и добавить в нутч-сайт

<property>
<name>http.auth.file</name>
<value>httpclient-auth.xml</value>
<description>Authentication configuration file for 'protocol-httpclient' plugin.
</description>
...