Пакетная обработка с искрой и лазурью - PullRequest
0 голосов
/ 03 мая 2018

Я работаю в энергетической компании. В настоящее время мы генерируем 1 ГБ данных в виде плоских файлов в день. Мы решили использовать хранилище озера данных Azure для хранения наших данных, в которых мы хотим выполнять пакетную обработку ежедневно. Мой вопрос заключается в том, как лучше всего передать плоские файлы в хранилище озера данных Azure? и после того, как данные помещены в лазурное, меня интересует, стоит ли обрабатывать данные с помощью искры HDInsight? как API Dataframe или SparkSQL и, наконец, визуализировать его с помощью Azure?

1 Ответ

0 голосов
/ 06 мая 2018

Для ежедневной загрузки из локальной файловой системы я бы порекомендовал использовать фабрику данных Azure версии 2. Необходимо установить Integration Runtime в Premise (более одного для высокой доступности). Вы должны рассмотреть несколько тем безопасности (локальные брандмауэры, сетевое подключение и т. Д.). Подробную документацию можно найти здесь . Есть также несколько хороших учебных пособий . С помощью фабрики данных Azure вы можете инициировать загрузку в Azure с помощью Get-Metadata-Activity и использовать e. г. блокнот Azure Databricks для дальнейшей обработки Spark.

...