Я использую пакет R googleAnalyticsR для получения данных Google Analytics.Моя цель - получить информацию о сессиях и транзакциях.Мой код поиска данных Google Analytics:
gadata <- google_analytics_3(id = ga_id,
start = "2018-08-21",
end = "2018-09-07",
metrics = c("transactions","transactionRevenue","bounceRate" ,"transactionShipping", "sessions", "itemQuantity", "uniquePurchases", "itemRevenue", "revenuePerUser", "transactionsPerUser"),
dimensions = c("source","medium","transactionId", "sessionsToTransaction", "daysToTransaction", "date","sessionDurationBucket"),
max = 1000000, samplingLevel = "WALK")
Код работает.Я получаю результаты, но есть несколько дублированных идентификаторов транзакций с разными источниками и средами.Я не знаю причину этого.Например,
source medium transactionId sessionsToTransaction daysToTransaction
xx.com referral 123 1 0
google organic 123 4 17
Я хочу рассчитать дату первого посещения.Я вычту значение daysToTransaction
из даты транзакции.Существует около 25 дублированных идентификаторов transationId с одинаковой формой.У них есть еще один источник и носитель со значением 1 в качестве значения sessionToTransaction и 0 в качестве значения daysToTransaction.Я думаю, что этот клиент завершил свою покупку по рекомендации xx.com и впервые посетил наш сайт 17 дней назад.Но я не уверен, так как я новичок в Google Analytics метрики / измерения.
Мои вопросы
- Как мне интерпретировать этот вывод?
- Стоит ли рассматривать строку с наибольшим значением все время?
- Можно ли удалить строку со значением 0 в daysToTransaction?
Спасибо.