javax.net.ssl.SSLHandshakeException для некоторых URL https в Nutch 1.13 - PullRequest
0 голосов
/ 13 февраля 2019

Я пытаюсь сканировать начальные URL-адреса, которые являются http / https, но для нескольких URL-адресов https я получаю сообщение об ошибке FetcherThread INFO api.HttpRobotRulesParser (168) - Не удалось получить robots.txt для https://corporate.douglas.de/investors/?lang=en: javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: сбой построения пути PKIX: sun.security.provider.certpath.SunCertPathBuilderException: невозможно найти действительный путь сертификации к запрошенной цели

с другой стороны https://www.integrafin.co.uk/annual-reports/отлично сканируется

ниже находится мой плагин конфигурации. Включает протокол-http | urlfilter-regex | parse- (html | tika | text) | index- (базовый | якорь | еще | статические | ссылки) | indexer-solr | скоринг-OPIC | urlnormalizer- (передвигайте | регулярное выражение | основной) | urlmeta | язык-идентификатор

Ответы [ 2 ]

0 голосов
/ 13 февраля 2019

Вы можете попробовать использовать более свежую версию Nutch или скомпилировать напрямую из master, а затем попробовать установить значение http.tls.certificates.check из (https://github.com/apache/nutch/pull/388).). Это, по сути, позволит вам пропустить TLS /Проверка SSL.

0 голосов
/ 13 февраля 2019

Я думаю, вам нужно поместить сертификат сервера https://corporate.douglas.de/investors/?lang=en в файл "cacerts" JVM, которая запускает ваш код.

Сначала загрузите сертификат с помощью Chrome: enter image description here

Затем щелкните вкладку «Сведения», а затем кнопку «Копировать в файл» enter image description here

В мастере выберитеопция "DER binary .... (.CER)"

Теперь вы можете использовать инструмент "portecle" (http://portecle.sourceforge.net/), чтобы добавить сертификат в файл cacert в вашей JVM, следуя этим шагамhttp://portecle.sourceforge.net/import-trusted-cert.html

Надежда работает на вас.

...