У меня есть проект, который включает свободный ввод текста пользователем (строки длиной менее 80 символов), и мне нужно обнаружить PII внутри этой строки. Все это должно происходить в режиме реального времени, так как нам нужно отправить ответ на пользовательский ввод (в течение 2 секунд или около того), который частично основан на том, присутствует ли PII в тексте.
Я уже нашел некоторые решения, но они не совсем то, что я ищу:
- Google DLP - запросы обрабатываются в течение двух секунд, поэтому их нельзя использовать.
- redact-pii (модуль npm) - слишком прост в их обнаружении
- AWS Macie - работает с существующими хранилищами данных, а не с данными в полете.
Есть ли у вас какие-либо предложения для служб или библиотек, которые могут помочь с этим?
Конкретный PII, который мы хотим обнаружить, включает такие вещи, как имя, адрес, номер телефона. Также SPII, такой как номер кредитной карты, номер социального страхования.
По сути, мы хотим быть совместимыми при обработке текста с такими стандартами, как PIPEDA и GDPR.