Расхождения между уникальными пользователями считаются на портале Google Analytics и результатом, который я получаю от BigQuery. Что-то не так с запросом? - PullRequest
0 голосов
/ 16 мая 2019

Я пытаюсь сопоставить количество пользователей как в Google Analytics, так и в экспорте BigQuery и понять, какое число является более точным.Я создал следующий запрос

SELECT
  count(distinct fullvisitorid)
FROM
 `<TABLES>_*`
where
  _TABLE_SUFFIX between "20190507" and "20190514"
  and totals.visits = 1

Я все еще получаю разницу в несколько процентов.Т.е. 323812 (BQ) против 324567 (GA).Нужно ли каким-либо образом изменить свой запрос, чтобы он соответствовал номеру GA, или какой номер является более точным и откуда возникает расхождение?

Ответы [ 2 ]

2 голосов
/ 16 мая 2019

Количество пользователей немного сложно измерить в Google Analytics. Обычно расхождения составляют около 1% из-за того, что Google Analytics выполняет предварительные расчеты. Любой из стандартных отчетов будет использовать ежедневные предварительно агрегированные таблицы. Таким образом, несмотря на то, что вы можете добавлять метрики, такие как просмотры страниц и сеансы по дням, вы не можете добавлять пользователей, поскольку один и тот же пользователь может учитываться для первого и второго дней и т. Д., Раздувая показатель (это то, что обычно наблюдается в GA). , Чтобы бороться с этим без полного пересчета пользователей по различным отчетам в GA, Google делает оценки (алгоритм HyperLogLog ++ - https://en.wikipedia.org/wiki/HyperLogLog) для количества пользователей. Это очень близко.

Я бы доверял цифрам, которые вы получаете от BQ.

0 голосов
/ 16 мая 2019

При подсчете пользователей Google Analytics учитывает все строки. Вы должны удалить totals.visits = 1 для количества пользователей. Это противоречит количеству сеансов, где вам нужно totals.visits = 1 - поэтому, если вам нужны оба, вы можете сделать что-то вроде

SELECT
  COUNT(distinct fullvisitorid) as users,
  SUM(totals.visits) as sessions,
  SUM(IF(totals.visits=1, totals.hits, 0 )) hitsInValidSessions
FROM `project.dataset.ga_sessions_yyyymmdd`
...