Question

Я часто запускаю скрипт pyspark в большом хранилище паркетных файлов для анализа данных. Файлы в этом хранилище периодически обновляются с (а) новыми строками и (б) различными значениями для существующих строк в каждом столбце.

Мне интересно, есть ли способ проверить, были ли некоторые столбцы в файле паркета изменены каким-либо образом по сравнению с предыдущей версией, чтобы я мог сэкономить время, не повторяя мой анализ, когда столбцы имеют не был изменен?

Salim · Answer 1 · 11 января 2020

Нет никакого свойства в формате паркета или искры, чтобы помочь с полки. Вам нужно создать метаданные, чтобы помочь с работой.

Вы можете использовать один столбец для хранения «обновленной даты» и другой столбец для хранения последовательности обновленных столбцов. Вы можете разделить данные по столбцу «обновленная дата», используя partitionBy and saveAsTable, чтобы вы могли быстро просмотреть обновленные записи с указанием даты.

Как проверить, были ли изменены столбцы в большом файле паркета?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как проверить, были ли изменены столбцы в большом файле паркета?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы