Веб-сайт Spidering Автоопределение - PullRequest
1 голос
/ 08 апреля 2009

Можно ли написать код для обнаружения, если веб-сайт spidering контента?

Ответы [ 4 ]

3 голосов
/ 08 апреля 2009

хороший паук

  • читает файл robots.txt
  • имеет правильный пользовательский агент
  • будет запрашивать быстрее, чем средний пользователь

Но я думаю, что точное определение, если это браузер или паук, невозможно.

1 голос
/ 08 апреля 2009

Если паук хорош, вы можете обнаружить его через его пользовательский агент, используя список существующих пользовательских агентов, таких как this . Но хороший веб-паук обычно также следует robots.txt соглашение

Роботы, которые игнорируют файл robots.txt и подделывают свой пользовательский агент, скорее всего, также используют другие средства, чтобы скрыть, что они являются пауками.

1 голос
/ 08 апреля 2009

Вы можете использовать список строк User-Agent, которые используются обычными ботами. Вы можете использовать некоторую форму определения скорости и определить, что очень высокой частотой запросов, вероятно, будет паук (или кто-то выкрадывает весь ваш сайт).

Также могут быть списки IP-адресов, используемых обычными ботами, но надежная система обнаружения, скорее всего, невозможна.

Вы можете создать на своих страницах ссылку, на которую настоящий посетитель никогда не нажмет, и пометить любого, кто переходит по ссылке, как паука. Некоторые люди все равно нажмут на ссылку, но любопытства не избежать.

1 голос
/ 08 апреля 2009

Вы пытаетесь использовать строку агента пользователя для идентификации ботов.

Кажется, что разные боты имеют разные строки агента пользователя:

http://www.useragentstring.com/pages/useragentstring.php

Однако строка пользовательского агента может быть легко подделана.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...