Заменить Traffi c Источник из необработанных данных сеанса Google Analytics в Bigquery? - PullRequest
1 голос
/ 06 марта 2020

Недавно мы заметили, что когда пользователь пытается завершить транзакцию на нашем сайте, используя устройство ios. Apple завершает текущий сеанс и начинает новый сеанс. Сложность заключается в том, что если пользователь пришел через платный источник / электронную почту, текущий сеанс заканчивается и начинает новый сеанс с apple.com traffi c source.

For Instance                                                         
google->appleid.apple.com                                                      
(direct)->appleid.apple.com                                              
email->appleid.apple.com                                                
ios->appleid.apple.com->appleid.apple.com->appleid.apple.com             

Так как нам поступают эти необработанные данные в BQ мы рассматриваем замену appleid.apple.com их фактическим траффиком c Source, т.е. google, direct, email, ios. Любая помощь относительно логики / функции для решения этой проблемы поможет?

Это код, который я пытался реализовать:

WITH DATA AS (
SELECT 
PARSE_DATE("%Y%m%d",date) AS Date,
clientId as ClientId,
fullVisitorId AS fullvisitorid,
visitNumber  AS visitnumber,
trafficSource.medium as medium,
CONCAT(fullvisitorid,"-",CAST(visitStartTime AS STRING)) AS Session_ID,
trafficsource.source AS Traffic_Source,
MAX((CASE WHEN (hits.eventInfo.eventLabel="complete") THEN 1 ELSE 0 END)) AS ConversionComplete
FROM `project.dataset.ga_sessions_20*` 
,UNNEST(hits) AS hits
WHERE totals.visits=1 
GROUP BY 
1,2,3,4,5,6,7
),
Source_Replace AS (
SELECT 
Date AS Date,
IF(Traffic_Source LIKE "%apple.com" ,(CASE WHEN Traffic_Source NOT LIKE "%apple.com%" THEN LAG(Traffic_Source,1) OVER (PARTITION BY ClientId ORDER BY visitnumber ASC)end), Traffic_Source) AS traffic_source_1,
medium AS Medium,
fullvisitorid AS User_ID,
Session_ID AS SessionID,
ConversionComplete AS ConversionComplete
FROM 
DATA
)
SELECT 
Date AS Date,
traffic_source_1 AS TrafficSource,
Medium AS TrafficMedium,
COUNT(DISTINCT User_ID) AS Users,
COUNT(DISTINCT SessionID) AS Sessions,
SUM(ConversionComplete) AS ConversionComplete
FROM 
Source_Replace 
GROUP BY 
1,2,3

Спасибо

1 Ответ

1 голос
/ 06 марта 2020

Помогает ли visitStartTime в качестве ключа для определения начала сеанса? Может быть что-то вроде:

source_replaced as (
   select *, 
      min(Traffic_Source) over (
         partition by date, clientid, fullvisitorid, visitnumber order by visitStartTime
      ) as originating_source
   from data
)

Тогда вы можете выполнить агрегирование по originating_source. Это довольно сложно, не глядя на некоторые данные о том, что происходит.

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...