Вам нужно использовать Azure Data Factory или вы можете просто использовать Databricks в качестве инструмента ETL из нескольких источников? - PullRequest
0 голосов
/ 08 февраля 2019

... Или мне нужно сначала добавить данные в озеро данных, используя фабрику данных, а затем использовать блоки данных в качестве ELT?

Ответы [ 2 ]

0 голосов
/ 16 февраля 2019

Действительно, это зависит от сценария, который я думаю.Если у вас есть большое разнообразие источников данных, к которым вам нужно подключиться, тогда, вероятно, лучше использовать adf.

Если ваши источники представляют собой файлы данных (в любом формате), вы можете рассмотреть возможность использования блоков данных для etl.

Я использую блоки данных как чистый инструмент etl (без adf), монтируя ноутбук в контейнер для храненияв хранилище больших двоичных объектов возьмите оттуда огромные XML-данные и запишите их в блок данных в виде блоков данных.Затем я анализирую форму фрейма данных и затем записываю данные в базу данных SQL Azure.Справедливости ради стоит сказать, что я на самом деле не использую его для «е» в etl, так как данные уже были извлечены из реальной исходной системы.

Большим преимуществом является то, что у вас есть возможность анализироватьфайлы.

С уважением.

0 голосов
/ 13 февраля 2019

Зависит.

Блоки данных могут подключаться к источникам данных и получать данные.Однако фабрика данных Azure (ADF) имеет больше соединителей , чем блоков данных.Так что это зависит от того, что вам нужно.Если вы используете ADF, вам нужно поместить данные куда-нибудь (например, в хранилище Azure), чтобы блоки данных могли их забрать.

Кроме того, еще одна главная особенность ADF - это организация перемещения или активности данных.У блоков данных есть функция Job для планирования записных книжек или JAR, однако она ограничена в рамках блоков данных.Если вы хотите запланировать что-либо за пределами блоков данных (например, перетащить файл в SFTP или по электронной почте по завершении или прекратить кластер блоков данных и т. Д.), Тогда ADF - это то, что вам нужно.

...