Огромные различия между Google Analytics и собственным сбором данных - PullRequest
1 голос
/ 30 сентября 2019

Использование веб-приложения должно оцениваться статистически. Он был общедоступен с весны этого года.

Веб-приложение связано с Google Analytics . Для собственного сбора пользовательских данных выполняется следующее:

A Уникальный идентификатор пользователя создается при первом вызове веб-приложения. Он сохраняется в localStorage и сравнивается каждый раз, когда страница вызывается снова.

if (localStorage.getItem("uuid") === null) {
    localStorage.setItem("uuid", get_uuid());
}

function get_uuid() {
  return ([1e7]+-1e3+-4e3+-8e3+-1e11).replace(/[018]/g, c =>
    (c ^ crypto.getRandomValues(new Uint8Array(1))[0] & 15 >> c / 4).toString(16)
  )
}

Эти данные записываются в базу данных вместе с другой информацией (конкретная страница, время, тип устройства и т. Д.). Пользователи без Javascript или localStorage не будут включены;однако они, вероятно, не смогут правильно использовать веб-приложение.

Если я сейчас сравню данные из Google Analytics с моим собственным вариантом, расхождение будет значительным.

  • Разные пользователи согласно Google : около 900
  • Различные пользователи из-за UUID : около 400

Дополнительно о Было зарегистрировано 100 посещений (или взаимодействий) без UUID .

Теперь мой вопрос: почему существуют такие большие различия? На мой взгляд, мой сбор данных должен быть довольно точным. Но, может быть, у меня ошибка мышления с подходом UUID ? Или может быть, что Google считает совсем иначе;например, есть ли роботы, которые не оставляют UUID позади?

Большое спасибо за ваши ответы и соображения.

1 Ответ

1 голос
/ 30 сентября 2019

Я вполне уверен, что вы столкнулись со спамом в Google Analytics (GA).
Это потому, что GA - это JavaScript, а ваш идентификатор указан в источнике html.

Так что любой, кто хочет создать спам на ваших данных, может использовать ваш идентификатор.
Почему вы спрашиваете ... Когда вы замечаете это, вы видите, что в списке есть веб-страницы, которых вы не знаете в своих данных GA, вы (администратор) открываете их и получаете вирус или что-то еще хуже.
Не открывайте веб-страницы ...

Насколько я знаю, есть два способа исправить это. Фильтр регулярных выражений, который является обычным способом.
Все веб-страницы, на которых есть ссылки с других доменов, которые вы «не знаете», вам нужно заблокировать.
Это занимает время и не является хорошим подходом.

Мой метод - передать измерение из html в GA.
Если это измерение отсутствует, данные не являются реальными.

Ваш JavaScript, вероятно, выглядит примерно так:

.....
 ga('require', 'linkid', 'linkid.js');
  ga('require', 'displayfeatures');
  ga('send', 'pageview');

</script>

Если мы добавим измерение, которое выберем в инструментах администратора GA

.....
 ga('require', 'linkid', 'linkid.js');
  ga('require', 'displayfeatures');
  ga('send', 'pageview', {
      'dimension1':  'FooBar'
    });

</script>

Перейдите в admin -> Свойство (средний столбец), и внизу у вас будет Dd Custom Definitions. Откройте Custom Dimensions и добавьте измерение, которое вы добавили в HTML.

Теперь вы можете настроить фильтр на вкладке представления администратора GA, чтобы показывать только данные с вашим пользовательским измерением «FooBar».

Любые данные, у которых нет этого "FooBar", являются спамом, который не генерируется с вашей веб-страницы.

Просто помните, что вам нужно изменить все коды GA JavaScript и добавить измерение.


Вы можете увидеть этот спам (если я прав) в Приобретении -> Весь трафик -> Отчет о рефералах.
Если вы видите источники, которые вы не узнаете и выглядите странно, скорее всего, это спам.
До того, как я воспользовался этим методом, мои рефералы выглядели примерно так, существует около 50 таких фальшивых рефералов.

enter image description here

...