Я использую Apache Nutch 1.12 для сканирования сайта, и теперь мне нужно сканировать некоторые динамически генерируемые страницы JavaScript на этом сайте.Итак, я следовал следующему https://github.com/momer/nutch-selenium, но когда я сканирую страницы, сгенерированные JS, а затем запускаю nutch readseg, чтобы получить содержимое, содержимое не анализируется.
Я восстановил Nutch согласнок шагам на странице GitHub выше с проблемой, но есть ли способ узнать, действительно ли анализируются страницы JS?Любые журналы селена, которые я могу отслеживать во время сканирования, чтобы увидеть, есть ли проблемы?
Когда я запускаю nutch readseg -get на динамической странице, я не вижу динамическое содержимое.
Я проверил, что селен запущен (localhost: 4444) и обновил свой nutch-site.xml соответственно, но я не уверен, в чем проблема?
Есть какие-нибудь указатели?
Большое спасибо