События Firebase дедуплицируются в Big Query - лучшие практики? - PullRequest
1 голос
/ 19 июня 2019

Похоже, 1-2% дубликатов в событиях аналитики Firebase экспортируются в Big Query.Каковы лучшие практики для их удаления?

Atm клиент не отправляет счетчик с событиями (за сеанс).Это обеспечило бы однозначный способ удаления дублирующих событий, поэтому я рекомендую Firebase реализовать это.Однако, на данный момент, что было бы хорошим способом удалить дубликаты?Посмотрите на клиентские user_pseudo_id, event_timestamp и event_name - поля и удалите все кроме одного с той же тройкой?

Как работает поле event_bundle_sequence_id?Будут ли дубликаты иметь одинаковое значение в этом поле или разные?То есть отправляются ли повторяющиеся события в одном и том же пакете или в разных пакетах?

Планирует ли Firebase удалить эти дубликаты на более ранних этапах обработки, либо для самой аналитики Firebase, либо при экспорте в Big Query?

Стандартный SQL для проверки на наличие дубликатов в событиях одного дня:

with n_dups as
(
SELECT event_name, event_timestamp, user_pseudo_id, count(1)-1 as n_duplicates
FROM `project.dataset.events_20190610`
group by event_name, event_timestamp, user_pseudo_id
)
select n_duplicates, count(1) as n_cases
from n_dups
group by n_duplicates
order by n_cases desc
...