Не относится к отрасли здравоохранения, но у нас были аналогичные требования для клиентов телекоммуникационных компаний. Мы хотели иметь возможность предоставлять репрезентативные данные в тестовых системах, но следили за тем, чтобы конфиденциальная информация не копировалась.
С этой целью мы попробовали несколько разных вещей, в том числе те, которые мы выбрали:
Представления, которые будут использоваться вместо прямого доступа к таблице - эти представления в основном объединяют нечувствительную информацию из реальной таблицы с фиктивной информацией из отдельных таблиц. Фиктивная информация заменила всю конфиденциальную информацию из реальной таблицы.
Передача данных через очистительный фильтр. Это в основном выгружало бы производственную базу данных и передавало ее через программу анонимного восстановления, которая заменяла конфиденциальную информацию. В простых случаях такие вещи, как адреса, были установлены одинаково.
Аналогично (2) выше, но фильтр может использовать данные из определенных данных поиска. Например, адрес может быть сформирован из 4-значного номера улицы, имени, выбранного из 1000 наиболее распространенных названий улиц, типа улицы (ST, RD, CRES, WAY, PLACE и т. Д.) И базы данных городов. Номер телефона может быть любой последовательностью из десяти цифр (с учетом требований телекоммуникационных компаний), но без дублирования.