Редактирование паркетных файлов как двоичных - PullRequest
0 голосов
/ 30 мая 2018

Предполагается, что файлы паркета на AWS S3 (используются для запросов в AWS Athena).

Мне нужно анонимизировать запись с определенным числовым полем, изменив числовое значение (достаточно изменить одну цифру).

  1. Можно ли отсканировать файл паркета в двоичном формате и найти числовое значение?Или сжатие сделает невозможным поиск такой строки?
  2. Предполагая, что я могу сделать # 1 - могу ли я анонимизировать запись, изменив цифру этого числа на двоичном уровне, не повреждая файл паркета?

10X

1 Ответ

0 голосов
/ 31 мая 2018

Нет, это будет невозможно.Паркет имеет два слоя в своем формате, которые делают это невозможным: кодирование и сжатие.Они оба переупорядочивают данные так, чтобы они занимали меньше места, разница между ними заключается в использовании процессора и универсальности.Иногда данные могут быть сжаты, так что нам нужно меньше байта на значение, если все значения одинаковы / очень похожи.Изменение одного значения приведет к большему использованию пространства, что, в свою очередь, сделает невозможным ваше редактирование.

...