Автоматизация обслуживания представлений Афины - PullRequest
0 голосов
/ 29 мая 2019

В настоящее время я работаю над созданием озера данных, где мы можем компилировать, объединять и анализировать несколько наборов данных в S3.

Я использую Athena и Quicksight в качестве центральной части этого, чтобы иметь возможность быстро запрашивать и исследовать данные. Чтобы упростить работу Quicksight для конечных пользователей, я создаю множество представлений Athena, которые выполняют некоторые базовые преобразования и агрегации.

Я хотел бы иметь возможность контролировать источники своих представлений и создавать некоторую автоматизацию вокруг них, чтобы мы могли использовать подход, основанный на коде, и не полагаться на то, что пользователи обновляют представления вручную и запускают DDL для обновления определений.

Кажется, что в Cloudformation нет поддержки представлений Athena.

Мой текущий подход заключается в том, чтобы просто сохранить create or replace view as ... DDL в файле .sql в системе управления версиями, а затем создать какой-то сценарий, который запускает DDL, чтобы его можно было сделать частью решения для непрерывной интеграции.

У кого-нибудь есть опыт автоматизации и CI для представлений Athena?

1 Ответ

0 голосов
/ 29 мая 2019

Я думаю, вы могли бы использовать клей AWS

Когда мне следует использовать клей AWS?

Вы можете использовать AWS Glue для создания хранилища данных для организации, очистки, проверить и отформатировать данные. Вы можете преобразовывать и перемещать данные облака AWS в ваше хранилище данных. Вы также можете загрузить данные из разрозненных источников в ваше хранилище данных для регулярных отчетов и анализа. От храня его в хранилище данных, вы интегрируете информацию из различные части вашего бизнеса и обеспечить общий источник данных для принятия решения.

AWS Glue упрощает многие задачи при создании хранилища данных:

  • Находит и каталогизирует метаданные о ваших хранилищах данных в центральный каталог.
  • Вы можете обрабатывать полуструктурированные данные, такие как поток кликов или журналы процесса.
  • Заполняет каталог клеевых данных AWS определениями таблиц из запланированных программ-обходчиков. Сканеры вызывают логику классификатора для вывода схема, формат и типы данных ваших данных. Эти метаданные хранятся в виде таблиц в каталоге данных клея AWS и используются в процесс создания ваших рабочих мест ETL.
  • Создает сценарии ETL для преобразования, сглаживания и обогащения ваших данных от источника к цели.
  • Обнаруживает изменения схемы и адаптируется в соответствии с вашими предпочтениями.
  • Запускает задания ETL на основе расписания или события. Вы можете инициировать работу автоматически, чтобы переместить ваши данные в ваши данные склад. Триггеры могут быть использованы для создания потока зависимостей между рабочие места.
  • Собирает метрики времени выполнения для мониторинга деятельности вашего хранилища данных.
  • Обрабатывает ошибки и повторяет попытки автоматически.
  • Масштабирует ресурсы по мере необходимости для выполнения ваших заданий.

https://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html

...