Как запретить доступ к содержимому сайта всем сканерам, кроме хороших (google, bing, yahoo)? - PullRequest
2 голосов
/ 09 марта 2010

Я просто хочу позволить Google, Bing, Yahoo сканировать мой веб-сайт для создания индексов. Но я не хочу, чтобы мой противоположный веб-сайт использовал службу сканирования для кражи содержимого моего веб-сайта. Что мне делать?

Ответы [ 9 ]

2 голосов
/ 12 января 2011

Есть много способов обнаружить обходы, но это сложно, когда нужно различать хороших и плохих сканеров. Но есть способ сделать это. Фактически вы должны использовать скрытую ссылку на своем веб-сайте, чтобы обнаружить все сканеры, а для хороших сканеров на основе пользовательских агентов не позволяйте им читать скрытые ссылки. Это поможет вам не на 100%, а на 70%. Я попробовал это.

2 голосов
/ 14 мая 2010

попробуйте сканировать google.com с пользовательским сканером и посмотрите, что они делают, вы можете сделать то же самое :). Шаблоны просмотра - это ключ к вашей проблеме:).

2 голосов
/ 30 апреля 2010

Почему бы не попробовать отследить шаблоны просмотра - если вы получаете много кликов или странных шаблонов просмотра, которые не могут быть получены от человека, откройте страницу с картинкой.

2 голосов
/ 09 марта 2010

Вы можете запретить Google и т. Д. Индексировать ваш веб-сайт, но вы не можете запретить этому вредоносному сканеру.

1 голос
/ 25 апреля 2013

Есть два типа гусеничных 1. Сканер без рендеринга, который может запрашивать контент вашего сайта без использования каких-либо других технологий, таких как CSS, Javascript и, конечно, он без рендеринга. 2. Отрендеренный сканер, который может работать точно так же, как большинство браузеров, которые вы используете

Чтобы запретить все сканеры, вы можете разместить на своем сайте капчу, и это раздражает. Но чтобы разрешить определенный сканер, вы можете поместить небольшой сценарий для мониторинга и предотвратить плохой сканер, как эти следующие факторы: 1. Агент браузера 2. Сколько страниц IP-адрес может просматривать ваш сайт за период времени 3. Проверьте, может ли пользователь выполнять JavaScript (не рекомендуется, потому что Google может также использовать сканер без рендеринга)

1 голос
/ 09 марта 2010

Я хочу, чтобы мир смог найти меня, но я хочу быть невидимым? По крайней мере, один из нас в замешательстве ...

0 голосов
/ 26 июля 2014

Вам необходимо заблокировать IP-адреса сканеров.

Crawlers Fresh IP-адреса -

http://myip.ms/info/bots/Google_Bing_Yahoo_Facebook_etc_Bot_IP_Addresses.html

0 голосов
/ 20 сентября 2013

Это сложная проблема, но она может быть решена или сведена к минимуму.

Идеальный сценарий - применить несколько сложных техник ИА, чтобы идентифицировать шаблоны и продолжать блокировать, запрещая их. Вы можете рассматривать это как угрозу безопасности вашего бизнеса, но имейте в виду, что вам нужно измерить компромисс здесь. Например, тратить много денег на идеальное решение не оправдывает и не компенсирует, если основная причина заключается в том, чтобы избежать потери трафика. Видишь мою точку зрения?

Я знаю, что вопрос слишком старый, но, может быть, кто-то может зайти сюда и увидеть другую точку зрения.

0 голосов
/ 09 марта 2010

Если кто-то хочет украсть ваш контент, он, скорее всего, не будет заботиться и не подчиняться ограничениям.

Единственный вариант, о котором я могу подумать, - это знать, откуда они ползают, и вообще запретить им видеть сайт.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...