Сканирование в Интернете без увеличения количества просмотров страниц - PullRequest
1 голос
/ 23 марта 2011

Я работаю над инструментом, похожим на поисковую систему, который будет сканировать веб-сайты, собирать данные, индексировать их и делать их доступными для поиска в моем приложении.
Я буду использовать Net::HTTP или Hpricot длясканировать сайты.
Сайты, на которые я просматриваю, - это форумы, которые ведут подсчет просмотров и ответов по каждой теме.Всякий раз, когда я сканирую количество просмотров, будет увеличиваться.

Есть ли способ избежать этого?Как поисковые системы сканируют без увеличения количества просмотров?

1 Ответ

1 голос
/ 23 марта 2011

Это зависит от того, как удаленные сайты увеличивают свои счетчики. Если они принимают во внимание User-Agent заголовки, вы можете воспользоваться этим. Если их счетчики увеличиваются с помощью JavaScript (например, Google Analytics), то Net::HTTP не должно вызывать изменения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...