Предотвращение потери данных в файлах больших данных - PullRequest
0 голосов
/ 05 июня 2019

Я перенес приложение с большими данными в облако, и входные файлы хранятся в GCS. Файлы могут быть разных форматов, таких как txt, csv, avro, parquet и т. Д., И эти файлы содержат конфиденциальные данные, которые я хочу замаскировать.

Кроме того, я прочитал, что существует некоторое ограничение квоты на размер файла. Для моего случая один файл может содержать 15 миллионов записей.

Я пробовал DLP UI, а также клиентскую библиотеку для проверки этих файлов, но он не работает.

Страница Github - https://github.com/Hitman007IN/DataLossPreventionGCPDemo

под ресурсами есть 2 файла. test.txt работает, и test1.txt, который является примером файла, который я использую в своем приложении, не работает.

1 Ответ

0 голосов
/ 19 июня 2019

Google Cloud DLP только что на прошлой неделе запустил поддержку для сканирования файлов Avro.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...