Базовая аналитика сайта не соответствует данным Google - PullRequest
1 голос
/ 23 марта 2010

После того, как был введен в заблуждение предыдущим вопросом: ТАК google-analytics-domain-data-без фильтрации

Я экспериментировал с очень простой собственной аналитической системой.

Таблица MySQL:

hit_id, subsite_id, timestamp, ip, url

subsite_id позволяет мне перейти к папке (как объяснено в предыдущем вопросе).

Теперь я могу получить следующие метрики:

  • Просмотры страниц - сгруппированы по subsite_id и дате
  • Уникальные просмотры страниц - сгруппированы по subsite_id, date, url, IP (не обязательно, как это делает Google!)
  • Обычная "наиболее посещаемая страница", "вероятное время посещения" и т. Д. И т. Д.

Я теперь сравнил свои данные с данными в Google Analytics и обнаружил, что Google имеет более низкие значения для каждой метрики . То есть, моя собственная установка рассчитывает больше хитов, чем Google.

Итак, я начал дисконтировать IP-адреса от различных веб-сканеров, Google, Yahoo и Dotbot.

Короткие вопросы:

  1. Стоит ли мне сопоставлять список все основные сканеры со скидкой, это какой список может регулярно меняться?
  2. Есть ли другие очевидные фильтры что Google будет обращаться к GA данные?
  3. Какие еще данные вы бы собирать, что может быть полезным в дальнейшем по линии?
  4. Какие переменные Google использует для разработки входа искать ключевые слова на сайте?

Данные будут использоваться только для нашей собственной "системы ранжирования дочерних сайтов", но я хотел бы показать моим пользователям некоторые базовые данные (просмотры страниц, наиболее популярные страницы и т. Д.) Для справки.

Ответы [ 3 ]

1 голос
/ 23 марта 2010

Многие люди блокируют Google Analytics по соображениям конфиденциальности.

0 голосов
/ 24 марта 2010

Основными причинами является то, что пользователям необходимо включить JavaScript и загрузить всю страницу, поскольку код часто находится в нижнем колонтитуле. Awstars, другие серверные решения, подобные вашему, получат все. Кроме того, аналитика отлично справляется с идентификацией ботов и скребков.

0 голосов
/ 24 марта 2010

Недостаточная отчетность со стороны клиента по сравнению с серверной частью является обычным результатом этих сравнений.

Вот как я пытался устранить несоответствие, когда натолкнулся на эти исследования:

Источники данных, записанные в сборе на стороне сервера, но не на стороне клиента:

  • хитов от мобильные устройства , которые не поддерживают JavaScript (это, вероятно, значительный источник неравенства между двумя коллекциями методы - например, январь 07 comScore Исследование показало, что 19% Великобритании Интернет пользователи получают доступ к Интернету с мобильного устройства)

  • попаданий от пауков , ботов (которых вы уже упоминалось)

Источники данных / события, которые сбор на стороне сервера имеет тенденцию регистрировать с большей точностью (намного меньше ложных негативов) по сравнению с тегами страницы javascript:

  • обращений пользователей за брандмауэрами , особенно корпоративный межсетевые экраны - тег страницы блокировки межсетевых экранов, плюс некоторые настроены на отклонить / удалить куки.

  • просмотров пользователей, у которых отключен JavaScript в своих браузерах - пять процентов, согласно W3C Данные

  • просмотров пользователей, которые покидают страницу до загрузки . Опять же, это больший источник неравенства, чем вы мог подумать. Большинство часто цитируемое исследование до поддержать это было проведено Стоун Temple Consulting, которая показала, что разница в уникальном посетителе трафик между двумя одинаковыми сайтами настроен с той же сети аналитическая система, но которая отличалась только в том, что код отслеживания JS был помещается в внизу страниц на одном сайте и на top из страницы в другом - было 4,3 %


FWIW, вот схема, которую я использую для удаления / идентификации пауков, ботов и т. Д.:

  1. отслеживать запросы на наши robots.txt file: тогда, конечно, отфильтруйте все остальные запросы от того же IP-адрес + пользовательский агент (не все пауки будут запрашивать robots.txt из конечно, но с незначительной ошибкой, любой запрос на этот ресурс вероятно бот.

  2. сравнить пользовательский агент и IP-адреса против опубликованных списков: iab.net и user-agents.org опубликовать два списки, которые кажутся наиболее широко используется для этой цели

  3. анализ паттернов : здесь ничего сложного; мы смотрим на (I) просмотров страниц как функция времени (то есть, нажав на много ссылок с 200 мсек на каждом страница является доказательной); (ii) путь по который «пользователь» проходит через Сайт, это систематический и полный или почти так (как после алгоритм обратного слежения); и (iii) визиты с точной синхронизацией (например, 3 часа ночи) каждый день).

...