Получение позиции сайта в результатах поиска Google - PullRequest
0 голосов
/ 14 марта 2012

Я хочу закодировать какой-нибудь алгоритм или парсер, который должен получить позицию сайта в результатах поиска Google. Проблема в том, что каждый раз, когда меняется макет страницы Google, я должен исправить / изменить алгоритм. Как вы думаете, ребята, это действительно будет часто меняться? Есть ли какие-либо методы / советы / хитрости по определению позиции сайта Google?

Как сделать надежный алгоритм определения местоположения?

Я хочу использовать для этой цели C #, .NET 2.0 и HtmlAgilityPack. Любые советы или предложения будут очень благодарны. Заранее спасибо, ребята!


ОБНОВЛЕНИЕ ПОЧТЫ

Я знаю, что Google покажет капчу для предотвращения запросов машины. Для этого я получил специальный сервис, который распознает любую капчу. Ребята, не могли бы вы рассказать мне о своем опыте получения точных результатов?

Ответы [ 5 ]

2 голосов
/ 14 марта 2012

Google предлагает множество API для доступа к их услугам.Для поиска есть API пользовательского поиска .

1 голос
/ 16 марта 2012

Я написал несколько проектов на эту тему, анализируя органические результаты и результаты AdWords. HTML Agility Pack - это, безусловно, верный путь.

Я думаю, что каждые 3 минуты я выполнял запрос, и это никогда не вызывало CAPTCHA.

Что касается изменения форматирования, я взял идентификатор UL ( здесь из памяти ), и он менялся только раз в году (обычный и adwords).

Как уже упоминалось выше, Google действительно не нравится, что вы делаете это! : -)

1 голос
/ 14 марта 2012

Я спросил об этом год назад и получил несколько хороших ответов. Определенно Agility Pack - это то, что нужно.

В итоге мы сделали код грубого скребка, который выполнил свою работу и работал без проблем. Мы довольно легко обращались к Google (около 25 запросов в день). Мы приняли меры предосторожности при рандомизации 1) порядка и 2) времени суток и 3) времени между запросами. Я не знаю, помогло ли что-нибудь из этого, но мы никогда не сталкивались с капчей.

Сейчас мы не сильно этим занимаемся.

Его основными слабостями были / являются:

  • мы только удосужились проверить первую страницу (возможно, мы могли бы закодировать расширенную версию, которая смотрела бы на первые X страниц, но, возможно, это было бы более высоким риском - с точки зрения обнаружения Google).

  • его результаты были ненадежными и прыгали вокруг. Вы можете быть восьмым каждый день в течение нескольких недель, за исключением одного случайного дня, когда вы были третьим. Возможно ... сама идея тщательного ежедневного или еженедельного чтения и регистрации нашего рейтинга слишком ошибочна

Чтобы ответить на ваш вопрос о том, что Google нарушил ваш код: Google не вносил принципиальных изменений во все месяцы, когда мы его запускали, но они изменили что-то , что сломало «снимок», который мы сохраняли результат (возможно, изменение CSS?), который ничего не сделал для повышения достоверности результатов.

1 голос
/ 14 марта 2012

Мы прошли через этот процесс несколько месяцев назад.Мы попробовали API, упомянутые выше, и результаты даже не были близки к фактическим результатам поиска.(Google для этой большой информации).

Очистка страницы является проблемой, Google, кажется, меняет разметку каждые несколько месяцев, а также имеет проверки для определения, если вы человек или нет.

В итоге мы сдались и пошли с одним из коммерчески доступных (и часто обновляемых) кусочков набора.

0 голосов
/ 14 марта 2012

Я уверен, что вы не сможете легко получить доступ к результатам поиска Google. Они постоянно пытаются помешать людям делать это.

Если подумать о скрепе экрана - учтите, что они начнут отображать капчу, и вы ничего не сможете получить.

...