Question

Может ли кто-нибудь различить сканер и скребок по объему и функциональности?

Jerry Coffin · Answer 1 · 09 июля 2010

Сканер получает веб-страницы - т. Е. С учетом начального адреса (или набора начальных адресов) и некоторых условий (например, количество глубоких ссылок, типы игнорируемых файлов) он загружает все, с чем связаны ссылки, изотправная точка (и).

Скребок берет загруженные страницы или, в более общем смысле, данные, отформатированные для отображения, и (пытается) извлечь данные из этих страниц, чтобы он мог (например) храниться в базе данных и обрабатываться по желанию.

В зависимости от того, как вы используете результат, очистка может нарушать права владельца информации и / или пользовательских соглашений об использовании веб-сайтов (ползание нарушает последнее и в некоторых случаях).Многие сайты содержат файл с именем robots.txt в своем корне (то есть с URL-адресом http://server/robots.txt), чтобы указать, как (и если) сканеры должны относиться к этому сайту - в частности, он может перечислять (частично)URL-адреса, которые сканер не должен пытаться посетить.При желании их можно указать отдельно для сканера (пользователь-агент).

cuneytykaya · Answer 2 · 18 ноября 2012

Веб-сканер получает ссылки (Urls - Pages) в логике, а скребок получает значения (извлекает) из HTML.

Существует так много инструментов для сканирования веб-сайтов. Посетите страницу , чтобы увидеть некоторые из них. Любой синтаксический анализатор XML - HTML может использоваться для извлечения (извлечения) данных из просканированных страниц. (Я рекомендую Jsoup для анализа и извлечения данных)

Steven Sudit · Answer 3 · 08 июля 2010

Crawlers путешествуют по сети, следуя по ссылкам. Примером может служить робот Google, который получает страницы для индексации. Скреперы извлекают значения из форм, но не обязательно имеют какое-либо отношение к сети.

M John · Answer 4 · 13 апреля 2017

Как правило, сканеры переходят по ссылкам для доступа к многочисленным страницам, в то время как скребки, в некотором смысле, просто извлекают содержимое, отображаемое в Интернете, и не достигают более глубоких ссылок.

Самый типичный сканер - это роботы Google, которые следуют по ссылкам для доступа ко всем веб-страницам на вашем сайте и индексируют контент, если они сочтут его полезным (поэтому вам нужен robots.txt, чтобы указать, какой контент вам не нужен. хочу быть проиндексированным). Таким образом, мы могли искать такой контент на его сайте. В то время как цель скребков состоит в том, чтобы просто вытащить содержимое для личного использования и не окажет большого влияния на других.

Однако в настоящее время нет особой разницы в отношении сканеров и скребков, поскольку некоторые автоматизированные инструменты для просмотра веб-страниц также позволяют сканировать веб-сайт, следуя ссылкам, таким как Octoparse и import.io. Они не сканеры, как роботы Google, но они могут автоматически сканировать веб-сайты, чтобы получать многочисленные данные без кодирования.

гусеничный против скребка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

гусеничный против скребка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы