Библиотека jsoup
- это библиотека Java для работы с реальным HTML. Он способен извлекать и работать с HTML. Тем не менее, это , а не веб-сканер в целом, поскольку он способен извлекать только одну страницу за раз (без написания пользовательской программы (= сканер), используя jsoup
для извлечения, извлечения и извлечения новых URLs).
Веб-сканер использует синтаксический анализатор HTML для извлечения URL-адресов с ранее выбранных веб-сайтов и добавляет этот недавно обнаруженный URL-адрес в frontier .
В этом ответе приведена общая диаграмма последовательности веб-сканера: Какую последовательность действий выполняет crawler4j для получения данных?
Подводя итог:
HTML-анализатор является необходимым компонентом веб-сканера для анализа и извлечения URL-адресов из заданного HTML-ввода. Однако только HTML-анализатор является , а не веб-сканером, поскольку в нем отсутствуют некоторые необходимые функции, такие как поддержка ранее просматриваемых URL-адресов, вежливость и т. Д.