Какие есть варианты обработки Data Lineage в Snowflake? - PullRequest
1 голос
/ 27 марта 2020

Есть идеи / варианты по обработке Data Lineage в Snowflake? Мы следуем микросервисной архитектуре, в которой мы запускаем набор хранимых процедур, которые содержат довольно много SQL запросов, как только запускаются определенные события.

Пример : Когда таблица A заполнить выполнить SP_Populate_Table_B, и в результате таблица B заполняется. У нас есть большой набор SP, так как мы заполняем промежуточную область, DataVault и нашу размерную модель.

Мы ищем какой-нибудь хороший способ обработки всех метаданных, связанных с этим микросервисным способом выполнения нашего ETL. В основном автоматизированный способ отслеживания зависимостей между таблицами, визуализация оркестровки, более удобный способ обработки изменений SP при изменении таблиц и т. Д. c.

Не могли бы вы порекомендовать совет для некоторых платформ или инструментов, желательно open-source, что вы пробовали для Snowflake? Будет ли DBT решением этой проблемы?

Спасибо, Pantelis

1 Ответ

0 голосов
/ 01 апреля 2020

dbt - это хорошее решение для развертывания вашего хранилища в виде кода, но не хорошее решение для использования вашего хранилища в качестве базы данных для служб для написания промежуточных таблиц.

Если вы заботитесь о происхождении данных, и вы ' Если вы готовы переосмыслить подход SP, то я бы порекомендовал dbt в качестве инструмента для развертывания инфраструктуры вашего хранилища в виде кода и легко понял зависимости ваших данных от нисходящего потока. как проблема ELT, и позволить dbt быть инфраструктурой, которая преобразует подмножество ваших массово загруженных данных / событий во что-то, что готово для анализа или приема для BI.

Прочтите это для получения дополнительной информации: https://discourse.getdbt.com/t/understanding-idempotent-data-transformations/518

...