Question

После того, как был введен в заблуждение предыдущим вопросом: ТАК google-analytics-domain-data-без фильтрации

Я экспериментировал с очень простой собственной аналитической системой.

Таблица MySQL:

hit_id, subsite_id, timestamp, ip, url

subsite_id позволяет мне перейти к папке (как объяснено в предыдущем вопросе).

Теперь я могу получить следующие метрики:

Просмотры страниц - сгруппированы по subsite_id и дате
Уникальные просмотры страниц - сгруппированы по subsite_id, date, url, IP (не обязательно, как это делает Google!)
Обычная "наиболее посещаемая страница", "вероятное время посещения" и т. Д. И т. Д.

Я теперь сравнил свои данные с данными в Google Analytics и обнаружил, что Google имеет более низкие значения для каждой метрики . То есть, моя собственная установка рассчитывает больше хитов, чем Google.

Итак, я начал дисконтировать IP-адреса от различных веб-сканеров, Google, Yahoo и Dotbot.

Короткие вопросы:

Стоит ли мне сопоставлять список все основные сканеры со скидкой, это какой список может регулярно меняться?
Есть ли другие очевидные фильтры что Google будет обращаться к GA данные?
Какие еще данные вы бы собирать, что может быть полезным в дальнейшем по линии?
Какие переменные Google использует для разработки входа искать ключевые слова на сайте?

Данные будут использоваться только для нашей собственной "системы ранжирования дочерних сайтов", но я хотел бы показать моим пользователям некоторые базовые данные (просмотры страниц, наиболее популярные страницы и т. Д.) Для справки.

Martin Smith · Answer 1 · 23 марта 2010

Многие люди блокируют Google Analytics по соображениям конфиденциальности.

mdvaldosta · Answer 2 · 24 марта 2010

Основными причинами является то, что пользователям необходимо включить JavaScript и загрузить всю страницу, поскольку код часто находится в нижнем колонтитуле. Awstars, другие серверные решения, подобные вашему, получат все. Кроме того, аналитика отлично справляется с идентификацией ботов и скребков.

doug · Answer 3 · 24 марта 2010

Недостаточная отчетность со стороны клиента по сравнению с серверной частью является обычным результатом этих сравнений.

Вот как я пытался устранить несоответствие, когда натолкнулся на эти исследования:

Источники данных, записанные в сборе на стороне сервера, но не на стороне клиента:

хитов от мобильные устройства , которые не поддерживают JavaScript (это, вероятно, значительный источник неравенства между двумя коллекциями методы - например, январь 07 comScore Исследование показало, что 19% Великобритании Интернет пользователи получают доступ к Интернету с мобильного устройства)
попаданий от пауков , ботов (которых вы уже упоминалось)

Источники данных / события, которые сбор на стороне сервера имеет тенденцию регистрировать с большей точностью (намного меньше ложных негативов) по сравнению с тегами страницы javascript:

обращений пользователей за брандмауэрами , особенно корпоративный межсетевые экраны - тег страницы блокировки межсетевых экранов, плюс некоторые настроены на отклонить / удалить куки.
просмотров пользователей, у которых отключен JavaScript в своих браузерах - пять процентов, согласно W3C Данные
просмотров пользователей, которые покидают страницу до загрузки . Опять же, это больший источник неравенства, чем вы мог подумать. Большинство часто цитируемое исследование до поддержать это было проведено Стоун Temple Consulting, которая показала, что разница в уникальном посетителе трафик между двумя одинаковыми сайтами настроен с той же сети аналитическая система, но которая отличалась только в том, что код отслеживания JS был помещается в внизу страниц на одном сайте и на top из страницы в другом - было 4,3 %

FWIW, вот схема, которую я использую для удаления / идентификации пауков, ботов и т. Д.:

отслеживать запросы на наши robots.txt file: тогда, конечно, отфильтруйте все остальные запросы от того же IP-адрес + пользовательский агент (не все пауки будут запрашивать robots.txt из конечно, но с незначительной ошибкой, любой запрос на этот ресурс вероятно бот.
сравнить пользовательский агент и IP-адреса против опубликованных списков: iab.net и user-agents.org опубликовать два списки, которые кажутся наиболее широко используется для этой цели
анализ паттернов : здесь ничего сложного; мы смотрим на (I) просмотров страниц как функция времени (то есть, нажав на много ссылок с 200 мсек на каждом страница является доказательной); (ii) путь по который «пользователь» проходит через Сайт, это систематический и полный или почти так (как после алгоритм обратного слежения); и (iii) визиты с точной синхронизацией (например, 3 часа ночи) каждый день).

Базовая аналитика сайта не соответствует данным Google

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Базовая аналитика сайта не соответствует данным Google

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы