гусеничный против скребка - PullRequest
52 голосов
/ 08 июля 2010

Может ли кто-нибудь различить сканер и скребок по объему и функциональности?

Ответы [ 4 ]

78 голосов
/ 09 июля 2010

Сканер получает веб-страницы - т. Е. С учетом начального адреса (или набора начальных адресов) и некоторых условий (например, количество глубоких ссылок, типы игнорируемых файлов) он загружает все, с чем связаны ссылки, изотправная точка (и).

Скребок берет загруженные страницы или, в более общем смысле, данные, отформатированные для отображения, и (пытается) извлечь данные из этих страниц, чтобы он мог (например) храниться в базе данных и обрабатываться по желанию.

В зависимости от того, как вы используете результат, очистка может нарушать права владельца информации и / или пользовательских соглашений об использовании веб-сайтов (ползание нарушает последнее и в некоторых случаях).Многие сайты содержат файл с именем robots.txt в своем корне (то есть с URL-адресом http://server/robots.txt), чтобы указать, как (и если) сканеры должны относиться к этому сайту - в частности, он может перечислять (частично)URL-адреса, которые сканер не должен пытаться посетить.При желании их можно указать отдельно для сканера (пользователь-агент).

4 голосов
/ 18 ноября 2012

Веб-сканер получает ссылки (Urls - Pages) в логике, а скребок получает значения (извлекает) из HTML.

Существует так много инструментов для сканирования веб-сайтов. Посетите страницу , чтобы увидеть некоторые из них. Любой синтаксический анализатор XML - HTML может использоваться для извлечения (извлечения) данных из просканированных страниц. (Я рекомендую Jsoup для анализа и извлечения данных)

3 голосов
/ 08 июля 2010

Crawlers путешествуют по сети, следуя по ссылкам. Примером может служить робот Google, который получает страницы для индексации. Скреперы извлекают значения из форм, но не обязательно имеют какое-либо отношение к сети.

0 голосов
/ 13 апреля 2017

Как правило, сканеры переходят по ссылкам для доступа к многочисленным страницам, в то время как скребки, в некотором смысле, просто извлекают содержимое, отображаемое в Интернете, и не достигают более глубоких ссылок.

Самый типичный сканер - это роботы Google, которые следуют по ссылкам для доступа ко всем веб-страницам на вашем сайте и индексируют контент, если они сочтут его полезным (поэтому вам нужен robots.txt, чтобы указать, какой контент вам не нужен. хочу быть проиндексированным). Таким образом, мы могли искать такой контент на его сайте. В то время как цель скребков состоит в том, чтобы просто вытащить содержимое для личного использования и не окажет большого влияния на других.

Однако в настоящее время нет особой разницы в отношении сканеров и скребков, поскольку некоторые автоматизированные инструменты для просмотра веб-страниц также позволяют сканировать веб-сайт, следуя ссылкам, таким как Octoparse и import.io. Они не сканеры, как роботы Google, но они могут автоматически сканировать веб-сайты, чтобы получать многочисленные данные без кодирования.

...