Как удалить данные Databricks старше X дней / лет? - PullRequest
0 голосов
/ 31 января 2020

Я пытаюсь настроить политику хранения для создаваемых таблиц Databricks, но я не знаю, как это сделать. Я использую эти две конфигурации на основе документации Databricks:

  • delta.logRetentionDuration = "interval": укажите, сколько времени вы можете go вернуться во времени. По умолчанию используется интервал 30 дней.

  • delta.deletedFileRetentionDuration = "интервал": настройка времени хранения устаревших файлов данных перед удалением с помощью
    VACUUM. По умолчанию используется интервал 1 неделя.

Моей таблице не менее 2 дней, и использование интервала в 1 день неэффективно, потому что я запрашиваю таблицу, и каждая строка все еще там, ничего не удалено Я также использовал команду VACUUM следующим образом:

VACUUM test_table RETAIN 10 ЧАСОВ

Но, тем не менее, ничего не удалено.

1 Ответ

0 голосов
/ 06 февраля 2020

Delta lake предоставляет команду вакуума, которая удаляет более старые версии данных (любые данные, которые старше указанного срока хранения).

Case1: Если вы иметь дельта-таблицу без каких-либо изменений, при использовании вакуума команда ничего не делает.

Case2: Если у вас есть дельта-таблица с любыми изменениями, при использовании вакуума команда удаляет старые версии данных.

Вы можете сослаться на эту статью " Пылесосить дельты озер ", которая ясно объясняет с примерами, когда применяется вакуум, а не.

Надеюсь, это поможет.

...