Алгоритм и поведение бота Google AdSense - PullRequest
1 голос
/ 23 ноября 2010

Меня интересует алгоритм и поведение бота Google AdSense с веб-сайтом. Я не работал с AdSense, и у меня нет учетной записи. Поэтому мне нужна ваша помощь, чтобы понять:

1) Gbot время от времени загружает все страницы с веб-сайта. Я прав?

2) Gbot не понимает динамический контент (загружается ajax). Поэтому я должен сгенерировать статический контент и вернуть его на html-странице, и на этих страницах должен отображаться одинаковый контент для всех пользователей и для Gbot?

3) Из-за (1) и (2) я не могу использовать только корневой путь http://example.com с некоторым «основным» виджетом. Я должен генерировать уникальные страницы, например http://example.com/thread?id=101?

4) Gbot загружает страницы (1) для извлечения (индексации) ключевых слов из них и затем сохраняет (на своих серверах) эту информацию, например, по ключу / значению (где ключ - путь к странице, значение - облако тегов). Я прав?

5) Когда пользователь открыл веб-сайт в браузере. Интегрированный HTML-код AdSense загружает немного JavaScript. Как я понимаю, путем «поиска в Google» этот JavaScript не индексирует страницу, а выполняет вызов (с некоторым параметром key == page_path) на сервер Google и получает соответствующие рекламные ссылки. Затем показывает это объявление ссылки в его рамке. Это правильное поведение? Может быть, JavaScript выполняет локальную индексацию содержимого страницы?

6) Как Gbot и AdSense JavaScript работают с файлами cookie? Насколько я понимаю, AdSense может использовать куки для показа соответствующих рекламных ссылок. Если это правильно, пожалуйста, дайте мне несколько вариантов использования;)

Я знаю, что «настоящий» алгоритм известен только инженерам из Google. Но некоторые из вас имели опыт работы с AdSense и AdSense html / javascript. Пожалуйста, исправьте мое видение этого;)

Большое спасибо за любые советы !!!

P.S. Этот вопрос очень важен для меня. Это не какой-то вопрос для развлечения! Поэтому, пожалуйста, не закрывайте его;)

1 Ответ

3 голосов
/ 04 ноября 2011

1) Да, если робот Google может получить доступ к страницам и знает ли он о страницах по ссылке, XMLSitemaps, Google +1 и т. Д.

2) Робот Google теперь будет отправлять запросы AJAX / XHR для понимания содержимого AJAX (http://googlewebmastercentral.blogspot.com/2011/11/get-post-and-safely-surfacing-more-of.html).

Да, вы должны показывать роботу Google такой же контент, как и пользователям, в противном случае это будет связано с маскировкой, что противоречит их рекомендациям.

3) Этот вопрос не ясен. Но в основном желательно изменить URL-адрес, потому что тогда Google будет знать, как индексировать контент отдельно. Если вы используете AJAX, вы можете рассмотреть постоянные ссылки, как вы предлагали, или вы можете использовать HTML5 popstate.

4) Да, Google будет индексировать слова на странице. Я не уверен, что они хранят его как пару ключ / значение. Я даже не уверен, что они все еще используют Big Table (http://labs.google.com/papers/bigtable.html) ... но, скорее всего, они используют Big Table или аналогичную систему для хранения инвертированного индекса.

5) В код Adsense встроен Javascript ... для новых веб-страниц, которых Google раньше не видел, он пытается показывать наиболее релевантные объявления на основе информации, найденной в Интернете о сайте, или, возможно, с помощью якорного текста. ссылок, указывающих на эту страницу. Тем не менее, чтобы получить более точное представление о содержании страницы, Google отправит специального робота AdSense для сканирования вашей страницы ... иногда вы увидите, что это происходит очень быстро, даже как только вы загрузите страницу для первого время. Он использует агент пользователя, отличный от традиционного робота Google ... вы можете найти всех агентов пользователя от Google здесь (http://www.google.com/support/webmasters/bin/answer.py?answer=1061943)

6) Сканеры Google не принимают файлы cookie и не передают файлы cookie на ваш сервер. Это связано с широко распространенной природой сканеров Google, которая делает обслуживание файлов cookie или сеансов чрезвычайно трудным.

...