Де-идентификация (возможно, чаще упоминаемая как анонимизация ) является очень активной областью исследований, поскольку ее успех, очевидно, является требованием для использования аутентичных текстовых корпусов в таких областях, как НЛП для здравоохранения, медициныи тому подобное.Я рекомендую вам взглянуть на инструменты, перечисленные в ответе на этот вопрос на CrossValidated.Если вы перейдете по ссылкам дальше, вы найдете исследовательские работы, описывающие работу этих инструментов, с дальнейшими ссылками и оценками результатов.