Количество посещений веб-поиска - PullRequest
1 голос
/ 07 февраля 2012

У меня есть набор поисковых запросов размером ок. 10 миллионов Цель состоит в том, чтобы собрать количество хитов, возвращаемых поисковой системой для всех из них. Например, Google возвращает около 47 500 000 для запроса «stackoverflow».

Проблема в том, что:

1 - Google API ограничен 100 запросами в день. Это далеко не полезно для моей задачи, так как мне нужно было бы получить много отсчетов.

2 - Я использовал Bing API, но он не возвращает точное число. Накапливайте в смысле совпадения количества совпадений, отображаемых в интерфейсе Bing. Кто-нибудь сталкивался с этим вопросом раньше?

3- Отправка поисковых запросов в поисковую систему и анализ html - это одно из решений, но оно приводит к CAPTCHA и не масштабируется до этого количества запросов.

Все, что меня волнует, - это количество обращений, и я открыт для любых предложений.


simchona: что вы подразумеваете под опросом людей? :)

hackartist: спасибо за ваш комментарий и статью.

1 Ответ

2 голосов
/ 08 февраля 2012

Что ж, я действительно надеялся, что кто-то ответит на это, поскольку я тоже хотел бы узнать об этом, но, поскольку никто не подумает, что я добавлю эти предложения.

Вы можете настроить серию прокси-серверов, которые меняют свои IP-адреса каждые 100 запросов, чтобы вы могли отправлять запросы в Google как на разных людей (кажется, это большая работа). Или вы можете скачать википедию и написать что-то для анализа данных, чтобы при поиске по термину вы могли видеть, на сколько страниц оно попадает. Конечно, это гораздо меньший набор данных, чем весь Интернет, но это должен начать вас. Другим возможным источником данных являются данные Google n-граммы , которые можно загрузить и проанализировать, чтобы увидеть, сколько книг и страниц попадают под условия поиска. Возможно, сочетание этих методов может повысить точность любого поиска срок.

Конечно, ни один из этих методов не настолько хорош, как если бы вы могли просто получить счетчик страниц Google, но вполне понятно, что это данные, которые они не хотят предоставлять бесплатно.

...