Nutch - набор печенья - PullRequest
0 голосов
/ 24 ноября 2018

Я пытаюсь установить простое печенье с Nutch.Этот файл cookie важен, поскольку он меняет структуру веб-страницы, если он равен 1, то все страницы имеют одинаковую структуру, поэтому их легче сканировать, в противном случае все они имеют разные элементы.

Из того, что я там прочиталЭто не простой способ установить Cookie с помощью Nutch, но вы можете пройти проверку подлинности с помощью protocol-httpclient, что, я думаю, могло бы решить мою проблему.

Есть страница с формой, которая отправляет запрос на сервер и устанавливаетЭтот файл cookie, поэтому я попробовал следующую конфигурацию в httpclient-auth.xml

<auth-configuration>
  <credentials authMethod="formAuth"
    loginUrl="https://example.com"
    loginFormId="myFormName"
    loginRedirect="true">
    <loginPostData>
      <field name="myField"
        value="on"/>
      </loginPostData>
      <additionalPostHeaders>
       <field name="User-Agent"
        value="Mozilla/5.0 ... Firefox/35.0" />
      </additionalPostHeaders>
      <loginCookie>
       <policy>BROWSER_COMPATIBILITY</policy>
     </loginCookie>
   </credentials>
 </auth-configuration>

Первая проблема, я не уверен, является ли loginUrl страницей с формой или URL-адресом накоторый будет выполнен запрос.

Вторая проблема заключается в том, что форма имеет только name, а не id, если я использую loginFormId="myFormName", я получаю следующую ошибку No form exists: myFormName, если я должен использоватьloginFormId?

Третья может быть проблема, тег ввода hidden, это проблема?

...