Question

Я создаю сайт электронной коммерции с большой базой продуктов. Конечно, приятно, когда Goggle индексирует все продукты сайта. Но что, если какой-то конкурент захочет Web Scrap веб-сайт и получить все изображения и описания продуктов?

Я наблюдал за некоторыми веб-сайтами со схожими списками продуктов, и они размещают CAPTCHA, так что список продуктов могут прочитать только люди. Недостатком является то, что ... он невидим для ботов Google, Yahoo или других "хорошо себя ведущих".

Jeremy L · Answer 1 · 26 февраля 2009

Вы можете узнать IP-адреса, используемые Google и другими пользователями, проверив IP-адреса посетителей с помощью whois (в командной строке или на веб-сайте). Затем, как только вы накопите тайник легальных поисковых систем, добавьте их в свой список продуктов без CAPTCHA.

Mark · Answer 2 · 26 февраля 2009

Если вы беспокоитесь о конкурентах, использующих ваш текст или изображения, как насчет водяного знака или специального текста?

Пусть они возьмут ваши изображения, и у вас будет свой логотип на их сайте!

cdonner · Answer 3 · 26 февраля 2009

Поскольку потенциальное приложение для скрининга экрана может подделать пользовательский агент и HTTP-реферер (для изображений) в заголовке и использовать временное расписание, аналогичное человеческому браузеру, невозможно полностью остановить профессиональные скребки. Но вы все равно можете проверить эти вещи и предотвратить случайную очистку. Лично я нахожу Captchas раздражающим для чего-либо кроме регистрации на сайте.

Cristian - ScrapeSentry.com · Answer 4 · 24 марта 2015

Заблокировать web-скраперы непросто, а еще сложнее избежать ложных срабатываний.

В любом случае вы можете добавить некоторый нетрандж в белый список и не показывать им капчу. Все эти хорошо известные сканеры: Bing, Googlebot, Yahoo и т. Д. При сканировании всегда используют специальные диапазоны, и все эти IP-адреса разрешаются для определенных обратных поисков.

Несколько примеров:

Google IP 66.249.65.32 разрешает crawl-66-249-65-32.googlebot.com

Bing IP 157.55.39.139 разрешается в msnbot-157-55-39-139.search.msn.com

Yahoo IP 74.6.254.109 разрешается в h049.crawl.yahoo.net

Итак, допустим, что '*. Googlebot.com ', '*. Search.msn.com ' и '*. Crawl.yahoo.net адреса должны быть в белом списке.

Существует множество белых списков, которые вы можете реализовать в Интернете.

Сказал, что я не верю, что Captcha - это решение против продвинутых скребков, так как такие службы, как deathbycaptcha.com или 2captcha.com обещают решить любой вид капчи секунд.

Пожалуйста, загляните в нашу вики http://www.scrapesentry.com/scraping-wiki/ мы написали много статей о том, как предотвращать, обнаруживать и блокировать веб-скребки.

Jason Bellows · Answer 5 · 17 сентября 2009

Возможно, я слишком упрощен, но если вы беспокоитесь о производительности сервера, то предоставление API уменьшит потребность в скребках и сэкономит вам время процессора полосы / ширины.

Другие мысли, перечисленные здесь:

http://blog.screen -scraper.com / 2009/08/17 / далее-мысль-на-препятствующего Экранный соскоб /

HipHop-opatamus · Answer 6 · 17 сентября 2009

Одна из техник, которую вы могли бы попробовать, - это метод "медового котла": это можно сделать либо с помощью лог-файлов майнинга с помощью простых скриптов.

Основной процесс состоит в том, что вы создаете свой собственный «черный список» скребковых IP-адресов, основываясь на поиске IP-адресов, которые просматривают более 2 несвязанных продуктов за очень короткий период времени. Скорее всего, эти IP-адреса принадлежат машинам. Затем вы можете выполнить их обратный поиск, чтобы определить, хорошие они (например, GoogleBot или Slurp) или плохие.

Как сделать, чтобы заблокировать веб-очистку без блокировки Хорошо себя вести ботов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сделать, чтобы заблокировать веб-очистку без блокировки Хорошо себя вести ботов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы