Натч, используя селен для сканирования страниц - PullRequest
0 голосов
/ 22 февраля 2019

Я использую Apache Nutch 1.12 для сканирования сайта, и теперь мне нужно сканировать некоторые динамически генерируемые страницы JavaScript на этом сайте.Итак, я следовал следующему https://github.com/momer/nutch-selenium, но когда я сканирую страницы, сгенерированные JS, а затем запускаю nutch readseg, чтобы получить содержимое, содержимое не анализируется.

Я восстановил Nutch согласнок шагам на странице GitHub выше с проблемой, но есть ли способ узнать, действительно ли анализируются страницы JS?Любые журналы селена, которые я могу отслеживать во время сканирования, чтобы увидеть, есть ли проблемы?

Когда я запускаю nutch readseg -get на динамической странице, я не вижу динамическое содержимое.

Я проверил, что селен запущен (localhost: 4444) и обновил свой nutch-site.xml соответственно, но я не уверен, в чем проблема?

Есть какие-нибудь указатели?

Большое спасибо

...