У меня есть работа, которая читает CSV-файлы, конвертирует их во фреймы данных и записывает в Parquet. Я использую режим добавления при записи данных в паркет. При таком подходе при каждой записи создается отдельный файл Parquet. Мои вопросы:
- 1) Если каждый раз, когда я записываю данные в схему Parquet, появляется новый файл
будет ли это влиять на производительность чтения (как сейчас данные
распространяются с разной длиной разделенных файлов Parquet)
- 2) Есть ли способ генерировать паркетные перегородки исключительно на основе
размер данных?
- 3) Нужно ли придумывать собственную стратегию разбиения для реализации
точка 2?
Я использую Spark 2.3