Я часто запускаю скрипт pyspark в большом хранилище паркетных файлов для анализа данных. Файлы в этом хранилище периодически обновляются с (а) новыми строками и (б) различными значениями для существующих строк в каждом столбце.
Мне интересно, есть ли способ проверить, были ли некоторые столбцы в файле паркета изменены каким-либо образом по сравнению с предыдущей версией, чтобы я мог сэкономить время, не повторяя мой анализ, когда столбцы имеют не был изменен?