Лучшая обработка внутридневных данных GA в BigQuery - PullRequest
0 голосов
/ 21 ноября 2018

У меня настроен экспорт необработанных данных Google Analytics в большой запрос.

Может ли кто-нибудь из сообщества предложить эффективные способы запроса внутридневных данных, поскольку мы заметили проблему для внутридневной синхронизации (например, 15-минутная задержка), потоковые данные растут экспоненциально по всей частоте синхронизации.

Например:

  • Ежедневные (T-1) пакетные данные (ga_sessions_yyymmdd) синхронизируются с 15-20 ГБ с записями 3,5M-5M.
  • С другой стороны, внутридневные потоки данных (с 15-минутной задержкой) превышают ~ 150 ГБ в день с ~ 30М записями.

enter image description here https://issuetracker.google.com/issues/117064598

Это не выгодно для сохранения и запроса данных.

И является ли это ошибкой продукта или ожидаемым поведением, поскольку данные неэффективно используются для экспоненциально растущих данных?

Запрос большого запроса стоит 5 долларов США за ТБ, а потоковые вставки стоят ~ 50 долларов США за каждый.ТБ

1 Ответ

0 голосов
/ 27 ноября 2018

На мой взгляд, это не ошибка, а следствие того, как данные структурированы в Google Analytics.

Каждая строка является сеансом, и внутри каждого сеанса у вас есть несколько обращений.Поскольку мы не можем позволить себе ждать завершения сеанса полностью, каждый раз, когда происходит новое попадание (или группа попаданий), весь сеанс необходимо снова экспортировать в BQ.Обновление строки не подходит в потоковой системе (по крайней мере, в BigQuery).

Я уже создал несколько потоковых конвейеров в потоке данных Google с помощью Session Windows (не уверен, что это то, что Google использует для внутреннего использования), иЯ столкнулся с той же дилеммой: ждать, чтобы экспортировать агрегат только один раз, или экспортировать непрерывно и иметь экспоненциальный рост.

Совет, который я могу дать вам по поводу запроса к таблице ga_realtime_sessions:

  • Запрашивать только те столбцы, которые вам действительно нужны (без выбора *);
  • использовать представление, экспортируемое вместе с ежедневным ga_realtime_sessions_yyyymmdd, это не влияет на размер запроса, но предотвращаетВы используете дублированные данные.
...