Question

В настоящее время я работаю над приложением Pyspark для вывода ежедневных дельта-экстрактов в виде паркета. Эти файлы должны быть одним разделом (естественный раздел будет на дату создания / обновления данных, как они строятся).

Я планировал затем взять выведенную папку для паркета ифайлы, переименуйте сам фактический файл паркета, переместите его в другое место и удалите исходный каталог *.parquet, включая файлы _SUCCESS и *.crc.

Пока я тестировал файлы для чтения, созданные с использованием вышеуказанного сценарияс Spark и Pandas я не уверен, вызовет ли это проблемы с другими приложениями, которые мы можем представить в будущем.

Может ли кто-нибудь увидеть какую-либо реальную проблему (кроме усилий по обработке / кодированию) с вышеупомянутым подходом?

Спасибо

Shu · Answer 1 · 22 октября 2019

Если у вас есть one parquet file и переименование этого файла в new filename, тогда новый файл будет valid parquet file.

Если вы combining one or more parquet files и объединяете их в one, тогда объединенный файл будет not be a valid parquet file.

В случае, если вы combining more parquet files в один, то лучше создать один файл с помощью spark (используя перераспределение) и записать в таблицу.

(or)
Вы также можете использовать parquet-tools-**.jar до для объединения нескольких файлов паркета в один файл паркета.

Есть ли проблемы с сохранением паркета в виде одного файла и без директории?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли проблемы с сохранением паркета в виде одного файла и без директории?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы