Question

Я очень новичок в Databricks.Итак, простите меня, пожалуйста.Вот мое требование

У меня есть данные, хранящиеся в Azure DataLake
В соответствии с требованием, мы можем получить доступ к данным только через блокнот Azure Databricks
Нам нужно вытащитьданные из определенных таблиц, объединение с другими таблицами, агрегирование
Отправка данных в концентратор событий

Как я могу выполнить это действие.Я предполагаю, что нет ни одного процесса выстрела.Я планировал создать блокнот и запустить его через фабрику данных Azure.Поместите данные в Blob и затем с помощью .Net отправьте их в Event Hub.Но из фабрики данных Azure мы можем запустить только записную книжку Azure Databricks, которая не хранится где-либо

databash · Answer 1 · 14 ноября 2018

Блоки данных Azure поддерживают концентраторы событий Azure в качестве источника и приемника. Понимание Структурированная потоковая передача - это механизм обработки потоков в Apache Spark (также доступен в Azure Databricks)

Создайте блокнот для всех ваших преобразований (объединение, агрегация ...) - при условии, что вы выполняете пакетную запись в концентратор событий Azure.

Код PySpark:

val connectionString = "Valid EventHubs connection string."
val ehWriteConf = EventHubsConf(connectionString)
df.select("body")
.write
.format("eventhubs")
.options(ehWriteConf.toMap)    
.save()

Замените .write на .writeStream, если ваши запросы потоковые.

При работе с концентраторами событий Azure следует учитывать и другие аспекты, касающиеся разделов - это необязательно, вы можете просто отправить тело в одиночку (что сделает модель с циклическим изменением)

Подробнее здесь

Azure Databricks to Event Hub

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Azure Databricks to Event Hub

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы