Question

Мне нужно экспортировать данные из тем Hive в темы Kafka, основываясь на некоторых событиях в другой теме Kafka. Я знаю, что могу читать данные из куста в задании Spark с помощью HQL и записывать их в Kafka из Spark, но есть ли лучший способ?

cricket_007 · Answer 1 · 15 января 2019

Как правило, вы делаете это наоборот (Kafka для HDFS / Hive).

Но вы можете попробовать использовать плагин Kafka Connect JDBC для чтения из таблицы Hive по расписанию, который преобразует строки в сообщения Kafka со структурированным значением ключа.

В противном случае я бы переоценил другие инструменты, потому что Hive работает медленно. Couchbase или Cassandra предлагают гораздо лучшие функции CDC для приема внутрь Kafka. Или переписать исходные приложения, которые для начала были вставлены в Hive, а не писать сразу в Kafka, из которого вы, например, можете присоединиться к другим темам.

Subhasish Guha · Answer 2 · 15 января 2019

Этого можно добиться с помощью неструктурированной потоковой передачи. Шаги, упомянутые ниже:

Создание задания потоковой передачи Spark, которое подключается к необходимой теме и получает необходимую информацию об экспорте данных.
Из потока выполните сбор и получите требования к экспорту данных в переменных драйвера.
Создание фрейма данных с использованием указанного условия
Запишите фрейм данных в нужную тему, используя kafkaUtils.
Укажите интервал опроса на основе объема данных и производительности записи kafka.

Как экспортировать данные из улья в кафку

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как экспортировать данные из улья в кафку

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы