Web Crawler vs Html Parser - PullRequest
       30

Web Crawler vs Html Parser

0 голосов
/ 14 ноября 2018

В чем разница между веб-сканером и анализатором?

В Java есть некоторые названия для загрузки библиотек. Например, они называют Nutch сканером, а Jsoup анализатором.

Они имеют ту же цель?

Они полностью похожи для работы?

спасибо

Ответы [ 2 ]

0 голосов
/ 10 декабря 2018

Библиотека jsoup - это библиотека Java для работы с реальным HTML. Он способен извлекать и работать с HTML. Тем не менее, это , а не веб-сканер в целом, поскольку он способен извлекать только одну страницу за раз (без написания пользовательской программы (= сканер), используя jsoup для извлечения, извлечения и извлечения новых URLs).

Веб-сканер использует синтаксический анализатор HTML для извлечения URL-адресов с ранее выбранных веб-сайтов и добавляет этот недавно обнаруженный URL-адрес в frontier .

В этом ответе приведена общая диаграмма последовательности веб-сканера: Какую последовательность действий выполняет crawler4j для получения данных?

Подводя итог:

HTML-анализатор является необходимым компонентом веб-сканера для анализа и извлечения URL-адресов из заданного HTML-ввода. Однако только HTML-анализатор является , а не веб-сканером, поскольку в нем отсутствуют некоторые необходимые функции, такие как поддержка ранее просматриваемых URL-адресов, вежливость и т. Д.

0 голосов
/ 14 ноября 2018

На этот вопрос легко ответить, посмотрев его в Википедии:

Парсер - это программный компонент, который принимает входные данные (часто текстовые) и создает структуру данных

https://en.wikipedia.org/wiki/Parsing#Computer_languages

Веб-сканер, иногда называемый пауком или паукообразным роботом и часто сокращаемый до сканера, - это [интернет-бот], который систематически просматривает Всемирную паутину, обычно с целью индексации в Интернете.(паутина).

https://en.wikipedia.org/wiki/Web_crawler

...