DataBricks - сохранить изменения обратно в DataLake (ADLS Gen2) - PullRequest
0 голосов
/ 24 мая 2019

У меня есть устаревшие данные, которые хранятся в формате CSV в учетной записи хранения Azure DataLake Gen2.Я могу подключиться к этому и допросить его с помощью DataBricks.У меня есть требование удалить определенные записи, когда истечет срок их хранения или если к данным необходимо применить «право на забвение» GDPR.

Используя Delta, я могу загрузить CSV в таблицу Delta и использовать SQLнайти и удалить необходимые строки, но каков наилучший способ сохранить эти изменения?В идеале вернуться к исходному файлу, чтобы данные удалялись из оригинала.Я использовал опцию LOCATION при создании таблицы Delta для сохранения сгенерированных файлов формата Parquet в DataLake, но было бы неплохо сохранить его в исходном формате CSV.

Любой совет приветствуется.

1 Ответ

0 голосов
/ 24 мая 2019

Я был бы здесь осторожен. Право быть забытым означает, что вам нужно удалить данные. На самом деле Delta не удаляет его из исходного файла (по крайней мере, изначально) - это произойдет только после того, как данные будут очищены.

Самый безопасный способ удаления данных - это прочитать все данные в информационном кадре, отфильтровать ненужные записи и затем записать их обратно, используя перезапись. Это обеспечит удаление данных и переписывание той же структуры.

...