Question

Я хочу закодировать какой-нибудь алгоритм или парсер, который должен получить позицию сайта в результатах поиска Google. Проблема в том, что каждый раз, когда меняется макет страницы Google, я должен исправить / изменить алгоритм. Как вы думаете, ребята, это действительно будет часто меняться? Есть ли какие-либо методы / советы / хитрости по определению позиции сайта Google?

Как сделать надежный алгоритм определения местоположения?

Я хочу использовать для этой цели C #, .NET 2.0 и HtmlAgilityPack. Любые советы или предложения будут очень благодарны. Заранее спасибо, ребята!

ОБНОВЛЕНИЕ ПОЧТЫ

Я знаю, что Google покажет капчу для предотвращения запросов машины. Для этого я получил специальный сервис, который распознает любую капчу. Ребята, не могли бы вы рассказать мне о своем опыте получения точных результатов?

Darin Dimitrov · Answer 1 · 14 марта 2012

Google предлагает множество API для доступа к их услугам.Для поиска есть API пользовательского поиска .

ianbailey · Answer 2 · 16 марта 2012

Я написал несколько проектов на эту тему, анализируя органические результаты и результаты AdWords. HTML Agility Pack - это, безусловно, верный путь.

Я думаю, что каждые 3 минуты я выполнял запрос, и это никогда не вызывало CAPTCHA.

Что касается изменения форматирования, я взял идентификатор UL ( здесь из памяти ), и он менялся только раз в году (обычный и adwords).

Как уже упоминалось выше, Google действительно не нравится, что вы делаете это! : -)

hawbsl · Answer 3 · 14 марта 2012

Я спросил об этом год назад и получил несколько хороших ответов. Определенно Agility Pack - это то, что нужно.

В итоге мы сделали код грубого скребка, который выполнил свою работу и работал без проблем. Мы довольно легко обращались к Google (около 25 запросов в день). Мы приняли меры предосторожности при рандомизации 1) порядка и 2) времени суток и 3) времени между запросами. Я не знаю, помогло ли что-нибудь из этого, но мы никогда не сталкивались с капчей.

Сейчас мы не сильно этим занимаемся.

Его основными слабостями были / являются:

мы только удосужились проверить первую страницу (возможно, мы могли бы закодировать расширенную версию, которая смотрела бы на первые X страниц, но, возможно, это было бы более высоким риском - с точки зрения обнаружения Google).
его результаты были ненадежными и прыгали вокруг. Вы можете быть восьмым каждый день в течение нескольких недель, за исключением одного случайного дня, когда вы были третьим. Возможно ... сама идея тщательного ежедневного или еженедельного чтения и регистрации нашего рейтинга слишком ошибочна

Чтобы ответить на ваш вопрос о том, что Google нарушил ваш код: Google не вносил принципиальных изменений во все месяцы, когда мы его запускали, но они изменили что-то , что сломало «снимок», который мы сохраняли результат (возможно, изменение CSS?), который ничего не сделал для повышения достоверности результатов.

LiamB · Answer 4 · 14 марта 2012

Мы прошли через этот процесс несколько месяцев назад.Мы попробовали API, упомянутые выше, и результаты даже не были близки к фактическим результатам поиска.(Google для этой большой информации).

Очистка страницы является проблемой, Google, кажется, меняет разметку каждые несколько месяцев, а также имеет проверки для определения, если вы человек или нет.

В итоге мы сдались и пошли с одним из коммерчески доступных (и часто обновляемых) кусочков набора.

Sebastian Siek · Answer 5 · 14 марта 2012

Я уверен, что вы не сможете легко получить доступ к результатам поиска Google. Они постоянно пытаются помешать людям делать это.

Если подумать о скрепе экрана - учтите, что они начнут отображать капчу, и вы ничего не сможете получить.

Получение позиции сайта в результатах поиска Google

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получение позиции сайта в результатах поиска Google

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы