У нас есть веб-приложение Java ESB, которое используется для преобразования и обработки данных. На панели инструментов пользователь имеет возможность просматривать / загружать входящий файл данных источника.
Для обеспечения соответствия данных PII у нас есть требование маскировать в нем конфиденциальную информацию на основе регулярных выражений. Пользователь определит несколько шаблонов регулярных выражений в приложении, нам нужно отсканировать исходный файл на наличие этих шаблонов регулярных выражений и замаскировать конфиденциальные данные.
- Входящий исходный файл может быть любого типа (CSV, XML, JSON, Excel, PDF) с любым макетом.
- Конфиденциальная информация (номер кредитной карты, номер SSN) может присутствовать в любом месте файла, и в некоторых случаях у нас нет информации где эти поля находятся в файле.
В качестве решения мы попробовали Chlorine-Finder API , он хорошо работает в некоторых случаях, но имеет следующие проблемы:
- Он не работает с двоичными файлами (в формате Excel и PDF).
- Перед маскированием необходимо преобразовать файл в STRING, что влияет на производительность (с точки зрения памяти). использование) для больших файлов.
Итак, мы ищем альтернативные варианты. Существуют ли другие библиотеки Java, которые можно использовать для маскировки данных - та, которая также работает с двоичными файлами? Любые другие предложения?