Question

Я работаю над веб-сканером, который извлекает данные из веб-сайта с использованием crawler4j, и все идет хорошо, но основная проблема связана с событиями на основе ajax.Итак, я обнаружил, что библиотека crawljax имеет значение, но я не мог определить, где и когда ее использовать.

Когда я использую ее (я имею в виду рабочие последовательности)?

перед извлечениемстраница с использованием crawler4j.

или

после извлечения страницы с использованием crawler4j.

или

есть Iиспользуйте url, поступающий с помощью crawler4j, и используйте его для извлечения данных Ajax (страницы) с помощью crawljax.

rzo · Answer 1 · 27 мая 2019

Библиотека crawljax в основном является сканером для своих целей. Интеграция в crawler4j требует больших ручных усилий на вашей стороне.

Я рекомендую вам использовать комбинацию Selenium и / или CasperJS и / или PhantomJS перед crawler4j, т.е. вы можете запустить движок JavaScript в качестве прокси перед crawler4j. Однако это снизит производительность вашего веб-сканера

Как добавить (интегрировать) crawljax с crawler4j?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как добавить (интегрировать) crawljax с crawler4j?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы