Пользовательские метаданные / теги для Delta Lake? - PullRequest
1 голос
/ 17 января 2020

Я пытаюсь собрать вместе ie версии двух таблиц. Например, если версия 1 таблицы А использовалась для генерации версии 3 таблицы В, я хочу сказать это. В Delta Lake уже есть что-то, что может легко выполнить эту функцию?

Я думаю, что, может быть, я всегда смогу сделать так, чтобы два номера версий совпадали, например, если я изменю одну таблицу, у меня также будет дополнительная операция на другой стол. Но это не похоже ни на реальное решение, ни на какое-либо другое решение, близкое к надежному.

Заранее благодарим!

1 Ответ

0 голосов
/ 21 января 2020

Поскольку в Delta нет механизма пользовательских метаданных и нет способа координировать транзакции между таблицами Delta, лучшим решением для решения этой проблемы является добавление дополнительных столбцов к данным.

Не беспокойтесь о стоимости хранения, потому что сжатие паркета будет использовать мало места для длинных запусков с одним и тем же значением в столбце. Не беспокойтесь о производительности запросов, потому что (а) если вам не нужны столбцы метаданных, они не будут извлечены, и (б) потому, что коллекция Delta stats оптимизирует запросы, если вам нужно фильтровать по метаданным.

Надеюсь, это поможет.

...