Отслеживает ли Stormcrawler вторичную загрузку содержимого страницы JavaScript? - PullRequest
0 голосов
/ 22 октября 2018

Если посмотреть на мои результаты поиска для webmd.com, то, возможно, это не так, и я думаю, что ожидать от этого слишком много, поскольку это будет очень сложно.Но я решил попросить в любом случае перепроверить.

Итак, если у меня есть страница, которая использует JavaScript для загрузки своего тела после начальной загрузки страницы, есть ли у Stormcrawler какой-либо метод, с помощью которого он будет ждать этоговторичный контент для загрузки, а затем очистки страницы?

Я полагаю, что ни один сканер не делает этого, кроме очень очень высокого уровня и сложных сканеров, подобных тому, что может использовать Google или Bing - или, может быть, даже нет, поскольку для этого потребуется браузерУровень интеллекта и сложности.Мысль о том, как бы вы реализовали такое поведение, вызывает беспокойство.

1 Ответ

0 голосов
/ 23 октября 2018

StormCrawler имеет реализацию протокола на основе селена , которая делегирует навигацию браузеру.В нашем блоге есть учебник , объясняющий, как его использовать.Я склонен использовать Chromedriver и тестировать с Chrome в визуальном режиме для тестирования и отладки, а затем переключать его на безголовый продукт.По сути, вы позволяете браузеру работать с динамическим контентом.Вы даже можете выполнять навигационные действия, например, нажимать кнопку, заполнять форму и т. Д. Это полезно для сканирования определенных сайтов, но производительность, вероятно, не очень хорошая для общего сканирования.

...