Инструмент анализа сайта - как определить уникальные страницы из набора URL - PullRequest
0 голосов
/ 31 марта 2011

Как пакет веб-аналитики, такой как piwik / google analytics / omniture и т. Д., Определяет уникальные страницы из набора URL-адресов?

например. а) сайт может иметь следующие страницы для каталога продукции

или б) использовать строку запроса

В любом случае вы можете иметь дополнительные переменные строки запроса для таких вещей, как партнерские ссылки или другое использование, так как вы можете определить, что это та же страница?

например. оба они предназначены для перечисленных выше страниц продуктов foo.

Если вы игнорируете всю строку запроса, тогда все продукты в catalogue.xxx будут объединены в один просмотр страницы.

Если вы не игнорируете строку запроса, тогда любые дополнительные параметры строки запроса выглядят как разные страницы.

Если вы имеете дело со сторонними сайтами, вы не можете предполагать, что они используют какой-либо метод, или полагаться на правильность канонических ссылок.

Как вы могли бы заняться этим?

Ответы [ 2 ]

1 голос
/ 31 марта 2011

различные инструменты отслеживания обрабатывают его по-разному, но вы можете явно указать URL-адрес отчета для всех инструментов.

Например, Omniture не заботится о строке запроса. Он отрубит его, даже если вы не укажете pageName и по умолчанию URL-адрес в отчете страниц, он все равно отрубит строку запроса.

GA будет каждый раз записывать полный URL, включая строку запроса.

Yahoo Web Analytics записывает только строку запроса на первой странице посещения, а затем на каждой странице удаляет ее.

Но, как уже упоминалось, во всех инструментах есть способ явно указать URL-адрес для отчета, и легко написать немного JavaScript, чтобы удалить строку запроса из URL-адреса и передать ее в качестве URL-адреса для отчета.

Вы упомянули, что передали свой код отслеживания третьим лицам. Поскольку вы уже даете им код отслеживания, достаточно легко добавить этот дополнительный фрагмент JavaScript в код отслеживания, который вы им уже даете.

Например, с GA (асинхронная версия) вместо

_gaq.push(['_trackPageview']);

вы бы сделали что-то вроде

var page = location.href.split('?');
_gaq.push(['_trackPageview',page[0]]);

редактирование:

Или ... для GA вы можете указать, чтобы исключить их из инструмента отчетов. Различные инструменты могут или не могут сделать это для вас, поэтому пример кода может быть применен к любому из инструментов (но, очевидно, выдает их конкретную переменную URL)

1 голос
/ 31 марта 2011

Если вы имеете дело со сторонними сайтами, вы не можете предполагать, что их URL-адреса также соответствуют какому-либо определенному формату.Вы можете попробовать загрузить страницы и сравнить их локально, но даже это ненадежно из-за таких проблем, как ротация рекламы, отметок времени и т. Д.

Если вы работаете с одним сайтом (или небольшой группой из них),Вы можете создать шаблон, чтобы каждый URL соответствовал канонической (для вас) форме.Однако это быстро станет неуправляемым.

Конечно, это причина, по которой поисковые системы, такие как Google, рекомендуют использовать ссылки rel='canonical 'в заголовке страницы;если у Google есть проблемы с разделением страниц, это не тривиальная проблема.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...