Как сделать, чтобы заблокировать веб-очистку без блокировки Хорошо себя вести ботов? - PullRequest
1 голос
/ 26 февраля 2009

Я создаю сайт электронной коммерции с большой базой продуктов. Конечно, приятно, когда Goggle индексирует все продукты сайта. Но что, если какой-то конкурент захочет Web Scrap веб-сайт и получить все изображения и описания продуктов?

Я наблюдал за некоторыми веб-сайтами со схожими списками продуктов, и они размещают CAPTCHA, так что список продуктов могут прочитать только люди. Недостатком является то, что ... он невидим для ботов Google, Yahoo или других "хорошо себя ведущих".

Ответы [ 6 ]

2 голосов
/ 26 февраля 2009

Вы можете узнать IP-адреса, используемые Google и другими пользователями, проверив IP-адреса посетителей с помощью whois (в командной строке или на веб-сайте). Затем, как только вы накопите тайник легальных поисковых систем, добавьте их в свой список продуктов без CAPTCHA.

1 голос
/ 26 февраля 2009

Если вы беспокоитесь о конкурентах, использующих ваш текст или изображения, как насчет водяного знака или специального текста?

Пусть они возьмут ваши изображения, и у вас будет свой логотип на их сайте!

1 голос
/ 26 февраля 2009

Поскольку потенциальное приложение для скрининга экрана может подделать пользовательский агент и HTTP-реферер (для изображений) в заголовке и использовать временное расписание, аналогичное человеческому браузеру, невозможно полностью остановить профессиональные скребки. Но вы все равно можете проверить эти вещи и предотвратить случайную очистку. Лично я нахожу Captchas раздражающим для чего-либо кроме регистрации на сайте.

0 голосов
/ 24 марта 2015

Заблокировать web-скраперы непросто, а еще сложнее избежать ложных срабатываний.

В любом случае вы можете добавить некоторый нетрандж в белый список и не показывать им капчу. Все эти хорошо известные сканеры: Bing, Googlebot, Yahoo и т. Д. При сканировании всегда используют специальные диапазоны, и все эти IP-адреса разрешаются для определенных обратных поисков.

Несколько примеров:

Google IP 66.249.65.32 разрешает crawl-66-249-65-32.googlebot.com

Bing IP 157.55.39.139 разрешается в msnbot-157-55-39-139.search.msn.com

Yahoo IP 74.6.254.109 разрешается в h049.crawl.yahoo.net

Итак, допустим, что '*. Googlebot.com ', '*. Search.msn.com ' и '*. Crawl.yahoo.net адреса должны быть в белом списке.

Существует множество белых списков, которые вы можете реализовать в Интернете.

Сказал, что я не верю, что Captcha - это решение против продвинутых скребков, так как такие службы, как deathbycaptcha.com или 2captcha.com обещают решить любой вид капчи секунд.

Пожалуйста, загляните в нашу вики http://www.scrapesentry.com/scraping-wiki/ мы написали много статей о том, как предотвращать, обнаруживать и блокировать веб-скребки.

0 голосов
/ 17 сентября 2009

Возможно, я слишком упрощен, но если вы беспокоитесь о производительности сервера, то предоставление API уменьшит потребность в скребках и сэкономит вам время процессора полосы / ширины.

Другие мысли, перечисленные здесь:

http://blog.screen -scraper.com / 2009/08/17 / далее-мысль-на-препятствующего Экранный соскоб /

0 голосов
/ 17 сентября 2009

Одна из техник, которую вы могли бы попробовать, - это метод "медового котла": это можно сделать либо с помощью лог-файлов майнинга с помощью простых скриптов.

Основной процесс состоит в том, что вы создаете свой собственный «черный список» скребковых IP-адресов, основываясь на поиске IP-адресов, которые просматривают более 2 несвязанных продуктов за очень короткий период времени. Скорее всего, эти IP-адреса принадлежат машинам. Затем вы можете выполнить их обратный поиск, чтобы определить, хорошие они (например, GoogleBot или Slurp) или плохие.

...