Нужно загрузить данные из Hadoop в Druid после применения преобразований. Если я использую Spark, можем ли мы загружать данные из Spark RDD или датафрейма в Druid напрямую? - PullRequest
0 голосов
/ 04 ноября 2019

У меня есть данные в таблицах улья. Я хочу применить несколько преобразований перед загрузкой этих данных в друид. Так что есть способы, но я не уверен в них. 1. Сохраните эту таблицу после применения преобразования, а затем выполните массовую загрузку с помощью метода поглощения hadoop. Но я хочу избежать дополнительной записи на сервер. 2. Используя спокойствие. Но это для Spark Streaming и только для Scala и Java, а не для Python. Я прав в этом?

Есть ли другой способ, которым я могу этого достичь?

1 Ответ

0 голосов
/ 08 ноября 2019

Вы можете достичь этого, используя интеграцию с друидом Кафкой.

Я думаю, что вы должны прочитать данные из таблиц в преобразовании spark apply и затем записать их обратно в поток kafka. После настройки интеграции с друидом кафкой он будет читать данные из кафки и отправлять их на источник данных друидов.

Вот документация об интеграции druid kafka https://druid.apache.org/docs/latest/tutorials/tutorial-kafka.html

...