Похоже, 1-2% дубликатов в событиях аналитики Firebase экспортируются в Big Query.Каковы лучшие практики для их удаления?
Atm клиент не отправляет счетчик с событиями (за сеанс).Это обеспечило бы однозначный способ удаления дублирующих событий, поэтому я рекомендую Firebase реализовать это.Однако, на данный момент, что было бы хорошим способом удалить дубликаты?Посмотрите на клиентские user_pseudo_id, event_timestamp и event_name - поля и удалите все кроме одного с той же тройкой?
Как работает поле event_bundle_sequence_id?Будут ли дубликаты иметь одинаковое значение в этом поле или разные?То есть отправляются ли повторяющиеся события в одном и том же пакете или в разных пакетах?
Планирует ли Firebase удалить эти дубликаты на более ранних этапах обработки, либо для самой аналитики Firebase, либо при экспорте в Big Query?
Стандартный SQL для проверки на наличие дубликатов в событиях одного дня:
with n_dups as
(
SELECT event_name, event_timestamp, user_pseudo_id, count(1)-1 as n_duplicates
FROM `project.dataset.events_20190610`
group by event_name, event_timestamp, user_pseudo_id
)
select n_duplicates, count(1) as n_cases
from n_dups
group by n_duplicates
order by n_cases desc