У нас есть поток веб-событий.
Событие разделено на (домен, uid).
Все описанные здесь события относятся к одному домену. Существуют тысячи доменов с очень неравномерным трафиком (отсюда и разделение).
Допустим, у нас есть события от одного незарегистрированного пользователя (uid1).
У нас есть события от одного и того же незарегистрированного пользователя с отдельного устройства, которое создает новый uid (назовем его uid2).
Когда у нас есть регистрация на uid1, она регистрируется по электронной почте (email1).
Позже, со второго устройства, он входит в систему - так что мы можем знать, что оба uid от одного пользователя.
Когда это происходит, мы можем проверить состояние хранилища для идентификатора пользователя (например, адрес электронной почты) при входе в систему, чтобы узнать, существует ли он, и, следовательно, получить правильного пользователя.
Однако, поскольку они являются разными идентификаторами, они не будут разделены. Разделение только по доменам вместо (domain, uid) нежелательно.
Отдельно размер такого пользовательского хранилища может быть очень большим для каждого экземпляра приложения (миллионы записей), поэтому он может быть слишком большим для хранилища GlobalKTable.
Как это решить?