Какая платформа с открытым исходным кодом лучше всего подходит для ETL Apache Airflow или Apache Beam? - PullRequest
0 голосов
/ 09 июля 2019

Я пытаюсь создать ETL с платформой с открытым исходным кодом, я слышал о двух вещах, Apache Beam и Apache Airflow, которые лучше всего подходят для всего ETL или ELT, таких как Talend, Azure Data Factory и т. Д., И фактически,Я пытаюсь сделать все с облачными хранилищами данных (красное смещение, хранилище данных Azure, снежинки и т. Д.), Который хорош для этих видов работ, и было бы здорово, если бы я получил некоторое сравнение между этими двумя средами.Заранее спасибо.

Ответы [ 2 ]

2 голосов
/ 09 июля 2019

Apache Airflow не является платформой ETL, это приложение для планирования и мониторинга рабочих процессов, которое будет планировать и отслеживать ваш конвейер ETL.Apache Beam - это унифицированная модель для определения рабочих процессов обработки данных.

Это означает, что ваши ETL-конвейеры будут записываться с использованием Apache Beam, а Airflow будет запускать и планировать эти конвейеры.

0 голосов
/ 11 июля 2019

Apache Airflow: инструмент планирования и мониторинга. Вам нужно написать свои ETL-скрипты (будь то на Python или Scala) и запустить их, используя Apache Airflow.

Такие инструменты, как Talend, Informatica предоставляют множество богатых пользовательских интерфейсов и встроенных функций, с помощью которых вы можете выполнять такие простые вещи, как сброс данных в очень сложные преобразования. Помимо этого планирования, оркестровка и т. Д. Может быть завершена с использованием собственной функции планирования.

Если вы пытаетесь создать хранилище данных корпоративного класса, имеющее большую сложность, я бы предложил воспользоваться инструментом ETL корпоративного класса. Это даст вам долгосрочную выгоду от Manageability, Support, Debugging и т. Д.

...