В настоящее время я работаю над приложением Pyspark для вывода ежедневных дельта-экстрактов в виде паркета. Эти файлы должны быть одним разделом (естественный раздел будет на дату создания / обновления данных, как они строятся).
Я планировал затем взять выведенную папку для паркета ифайлы, переименуйте сам фактический файл паркета, переместите его в другое место и удалите исходный каталог *.parquet
, включая файлы _SUCCESS
и *.crc
.
Пока я тестировал файлы для чтения, созданные с использованием вышеуказанного сценарияс Spark и Pandas я не уверен, вызовет ли это проблемы с другими приложениями, которые мы можем представить в будущем.
Может ли кто-нибудь увидеть какую-либо реальную проблему (кроме усилий по обработке / кодированию) с вышеупомянутым подходом?
Спасибо