Как правило, сканеры переходят по ссылкам для доступа к многочисленным страницам, в то время как скребки, в некотором смысле, просто извлекают содержимое, отображаемое в Интернете, и не достигают более глубоких ссылок.
Самый типичный сканер - это роботы Google, которые следуют по ссылкам для доступа ко всем веб-страницам на вашем сайте и индексируют контент, если они сочтут его полезным (поэтому вам нужен robots.txt, чтобы указать, какой контент вам не нужен. хочу быть проиндексированным). Таким образом, мы могли искать такой контент на его сайте. В то время как цель скребков состоит в том, чтобы просто вытащить содержимое для личного использования и не окажет большого влияния на других.
Однако в настоящее время нет особой разницы в отношении сканеров и скребков, поскольку некоторые автоматизированные инструменты для просмотра веб-страниц также позволяют сканировать веб-сайт, следуя ссылкам, таким как Octoparse и import.io. Они не сканеры, как роботы Google, но они могут автоматически сканировать веб-сайты, чтобы получать многочисленные данные без кодирования.