При анализе данных GA в BigQuery я обнаружил повторяющиеся записи с одинаковыми значениями для следующих полей
- fullVisitorId
- visitStartTime
- hit.hitNumber
Я немного отфильтровал результаты по спецификациям c fullVisitorId и visitStartTime
SELECT
fullVisitorId,
visitStartTime,
hits.hitNumber,
hits.time,
TIMESTAMP_SECONDS(CAST(visitStartTime + 0.001 * hits.time AS INT64)) AS hitsTimestamp
FROM
`testGAview.ga_sessions_20200113`,
UNNEST(hits) AS hits
WHERE
fullVisitorId = '324982394082304'
AND visitStartTime = 324234233
ORDER BY
fullVisitorId,
visitStartTime,
hitNumber
Приведенный выше запрос возвращает 13 записей, которые имеют одинаковые fullVisitorId, visitStartTime и hit.hitNumber. Я не уверен, как это возможно, потому что, глядя на [схему] [1], все эти поля одинаковы для другой строки, неожиданно. Я должен сказать, что это очень маленький процент записей .002%, поэтому я думаю, что это может быть проблема обработки на конце GA.
То, что я хотел бы сделать сейчас, это удалить ВСЕ из поля, чтобы увидеть другие значения, наряду с fullVisitorId, visitStartTime и hitNumber
SELECT
*
FROM
`testGAview.ga_sessions_20200113` UNNEST(hits) AS h,
WHERE
fullVisitorId = '324982394082304'
AND visitStartTime = 324234233
AND hits.hitNumber = 23
Я надеюсь, что приведенные выше значения возвращаются в 2 строки, которые удовлетворяют вышеуказанным условиям, а также показывают значения для всех остальных поля, чтобы увидеть, если они точно так же.
Кто-нибудь может помочь с этим? Спасибо!