У меня есть данные журнала csv, поступающие каждый час в одном ведре s3, и я хочу разделить его для повышения производительности запросов, а также преобразования в паркет.
Также как я могу автоматически добавлять разделы для новых журналов которые будут добавлены.
Примечание:
- имена файлов csv соответствуют стандартному формату даты
- файлы записываются из внешнего источника и не могут быть отредактированы для записи в папки но только в основном ведре
- Хотел отдельно конвертировать csv файлы в паркет