У меня есть модуль ETL, встроенный в python. В настоящее время он извлекает данные из реляционной базы данных. Но сейчас у меня два варианта использования.
Мне нужно получить файлы, используя вызовы API для веб-службы. Мой план - сохранить эти файлы в s3, а затем выполнить процесс etl. Эти файлы в формате JSON и должны быть преобразованы. Какой пакет Python преобразует полезную нагрузку JSON в другой формат файла (CSV, PDF и т. Д.)?
Как запустить sql для файлов в S3? Я мог бы использовать Athena, но мне было интересно, есть ли какие-то конкретные инструменты, которые я могу интегрировать в etl, что устраняет этот дополнительный шаг (использование Athena)Основная цель - сделать модуль etl самодостаточным.
Спасибо за любые рекомендации!