Как экспортировать данные из улья в кафку - PullRequest
0 голосов
/ 15 января 2019

Мне нужно экспортировать данные из тем Hive в темы Kafka, основываясь на некоторых событиях в другой теме Kafka. Я знаю, что могу читать данные из куста в задании Spark с помощью HQL и записывать их в Kafka из Spark, но есть ли лучший способ?

Ответы [ 2 ]

0 голосов
/ 15 января 2019

Как правило, вы делаете это наоборот (Kafka для HDFS / Hive).

Но вы можете попробовать использовать плагин Kafka Connect JDBC для чтения из таблицы Hive по расписанию, который преобразует строки в сообщения Kafka со структурированным значением ключа.

В противном случае я бы переоценил другие инструменты, потому что Hive работает медленно. Couchbase или Cassandra предлагают гораздо лучшие функции CDC для приема внутрь Kafka. Или переписать исходные приложения, которые для начала были вставлены в Hive, а не писать сразу в Kafka, из которого вы, например, можете присоединиться к другим темам.

0 голосов
/ 15 января 2019

Этого можно добиться с помощью неструктурированной потоковой передачи. Шаги, упомянутые ниже:

  1. Создание задания потоковой передачи Spark, которое подключается к необходимой теме и получает необходимую информацию об экспорте данных.

  2. Из потока выполните сбор и получите требования к экспорту данных в переменных драйвера.

  3. Создание фрейма данных с использованием указанного условия

  4. Запишите фрейм данных в нужную тему, используя kafkaUtils.

  5. Укажите интервал опроса на основе объема данных и производительности записи kafka.

...