На мой взгляд, это не ошибка, а следствие того, как данные структурированы в Google Analytics.
Каждая строка является сеансом, и внутри каждого сеанса у вас есть несколько обращений.Поскольку мы не можем позволить себе ждать завершения сеанса полностью, каждый раз, когда происходит новое попадание (или группа попаданий), весь сеанс необходимо снова экспортировать в BQ.Обновление строки не подходит в потоковой системе (по крайней мере, в BigQuery).
Я уже создал несколько потоковых конвейеров в потоке данных Google с помощью Session Windows (не уверен, что это то, что Google использует для внутреннего использования), иЯ столкнулся с той же дилеммой: ждать, чтобы экспортировать агрегат только один раз, или экспортировать непрерывно и иметь экспоненциальный рост.
Совет, который я могу дать вам по поводу запроса к таблице ga_realtime_sessions:
- Запрашивать только те столбцы, которые вам действительно нужны (без выбора *);
- использовать представление, экспортируемое вместе с ежедневным ga_realtime_sessions_yyyymmdd, это не влияет на размер запроса, но предотвращаетВы используете дублированные данные.