Мы установили формат файла фиксированной длины в S3. Мы хотим создать Athena Table после преобразования его в Parque. У нас есть около 50-60 разных таких файлов
В настоящее время я могу подумать о двух подходах:
- Поместить логи синтаксического анализа фиксированной длины c в сценарий создания таблицы Athena.
- Создание задания Glue, которое будет анализировать его и создавать файлы Parque, а затем создать таблицу Athena для этого
Approach-1: Хотя, возможно, он имеет минимальный код, но это будет в скрипте создания таблицы. Мы используем Teraform для создания Infra, поэтому синтаксический анализ logi c (шаблон Regex или Grok) будет частью infra, я скептически отношусь к logi c в инфра-коде.
Approach- 2: Это будет работа Glue, написанная с использованием Spark, она будет гибкой для анализа файла фиксированной длины, мы могли бы написать повторно используемый код для формата фиксированной длины, чтобы использовать его для всех различных файлов. Логи c разобрать бы с разработчиками. Афина будет иметь внешнюю таблицу для выходного местоположения задания Glue. Инфра-код будет содержать только оператор create.
Не могли бы вы предоставить свои представления.