Маскировка конфиденциальных данных в файле с помощью регулярных выражений - PullRequest
0 голосов
/ 21 апреля 2020

У нас есть веб-приложение Java ESB, которое используется для преобразования и обработки данных. На панели инструментов пользователь имеет возможность просматривать / загружать входящий файл данных источника.

Для обеспечения соответствия данных PII у нас есть требование маскировать в нем конфиденциальную информацию на основе регулярных выражений. Пользователь определит несколько шаблонов регулярных выражений в приложении, нам нужно отсканировать исходный файл на наличие этих шаблонов регулярных выражений и замаскировать конфиденциальные данные.

  1. Входящий исходный файл может быть любого типа (CSV, XML, JSON, Excel, PDF) с любым макетом.
  2. Конфиденциальная информация (номер кредитной карты, номер SSN) может присутствовать в любом месте файла, и в некоторых случаях у нас нет информации где эти поля находятся в файле.

В качестве решения мы попробовали Chlorine-Finder API , он хорошо работает в некоторых случаях, но имеет следующие проблемы:

  1. Он не работает с двоичными файлами (в формате Excel и PDF).
  2. Перед маскированием необходимо преобразовать файл в STRING, что влияет на производительность (с точки зрения памяти). использование) для больших файлов.

Итак, мы ищем альтернативные варианты. Существуют ли другие библиотеки Java, которые можно использовать для маскировки данных - та, которая также работает с двоичными файлами? Любые другие предложения?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...