Я создаю записи в журнале о действиях пользователя. По соображениям конфиденциальности их необходимо анонимизировать через N дней. Однако мне также нужно создавать отчеты по этим анонимным данным.
Я хочу, чтобы все действия реального пользователя A были перечислены под фальшивым пользователем X в анонимных журналах - записи одного пользователя все равно должны оставаться записями одного (фальшивого) пользователя в журналах. Это, очевидно, означает, что мне нужно иметь некоторое сопоставление между реальными и поддельными пользователями, которое я использую при анонимизации новых записей. Конечно, это полностью отрицает точку анонимности - при наличии сопоставления исходные данные пользователя могут быть восстановлены.
Пример:
Пользователь Фрэнк Мюллер купил 3 банки супа.
Три дня спустя пользователь Фрэнк Мюллер попросил возмещение за 3 банки супа.
Когда я анонимизирую вторую запись в журнале, первая уже была анонимизирована. Я все еще хочу, чтобы обе записи журнала указывали на одного и того же пользователя. Что ж, это кажется практически невозможным на практике, поэтому я хотел бы использовать какой-то метод разделения данных, который, я надеюсь, позволит мне сохранить как можно большую целостность данных. Возможно, используя журналы как хранилище данных - разбейте все на факты и просто примите тот факт, что некоторые измерения не могут быть проанализированы?
Сталкивались ли вы с таким сценарием раньше? Какие у меня есть варианты? Очевидно, мне нужно пойти на какой-то компромисс - что оказалось для вас эффективным? Как максимально эффективно использовать такие данные?