Как добавить (интегрировать) crawljax с crawler4j? - PullRequest
0 голосов
/ 05 марта 2019

Я работаю над веб-сканером, который извлекает данные из веб-сайта с использованием crawler4j, и все идет хорошо, но основная проблема связана с событиями на основе ajax.Итак, я обнаружил, что библиотека crawljax имеет значение, но я не мог определить, где и когда ее использовать.

Когда я использую ее (я имею в виду рабочие последовательности)?

  • перед извлечениемстраница с использованием crawler4j.

или

  • после извлечения страницы с использованием crawler4j.

или

  • есть Iиспользуйте url, поступающий с помощью crawler4j, и используйте его для извлечения данных Ajax (страницы) с помощью crawljax.

1 Ответ

1 голос
/ 27 мая 2019

Библиотека crawljax в основном является сканером для своих целей. Интеграция в crawler4j требует больших ручных усилий на вашей стороне.

Я рекомендую вам использовать комбинацию Selenium и / или CasperJS и / или PhantomJS перед crawler4j, т.е. вы можете запустить движок JavaScript в качестве прокси перед crawler4j. Однако это снизит производительность вашего веб-сканера

...