Как проверить, были ли изменены столбцы в большом файле паркета? - PullRequest
0 голосов
/ 11 января 2020

Я часто запускаю скрипт pyspark в большом хранилище паркетных файлов для анализа данных. Файлы в этом хранилище периодически обновляются с (а) новыми строками и (б) различными значениями для существующих строк в каждом столбце.

Мне интересно, есть ли способ проверить, были ли некоторые столбцы в файле паркета изменены каким-либо образом по сравнению с предыдущей версией, чтобы я мог сэкономить время, не повторяя мой анализ, когда столбцы имеют не был изменен?

1 Ответ

0 голосов
/ 11 января 2020

Нет никакого свойства в формате паркета или искры, чтобы помочь с полки. Вам нужно создать метаданные, чтобы помочь с работой.

Вы можете использовать один столбец для хранения «обновленной даты» и другой столбец для хранения последовательности обновленных столбцов. Вы можете разделить данные по столбцу «обновленная дата», используя partitionBy and saveAsTable, чтобы вы могли быстро просмотреть обновленные записи с указанием даты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...