Как отправить данные из кафки в улей - PullRequest
0 голосов
/ 15 мая 2018

Я хочу отправить данные из kafka (выполняя некоторую работу с mapreduce) в улей.
Подходит ли для этого использование потоковой передачи искры?
ИЛИ как лучше?

Ответы [ 2 ]

0 голосов
/ 15 мая 2018

С точки зрения потоковой передачи таблицы Hive, построенные заранее, выгруженные в Spark Streaming или Flink, по большей части будут работать нормально, но что, если схема вывода Hive в задании Spark изменится?Здесь вам может понадобиться что-то вроде Streamsets , Kafka Connect HDFS Connector или Apache Gobblin

Кроме того, имейте в виду, что HDFS не нравится работать с крошечными файлами, поэтому настройте большойразмер партии перед HDFS будет полезен для последующего потребления Hive

0 голосов
/ 15 мая 2018

Для этого можно использовать Kafka Connect и разъем HDFS. Это передает данные из Kafka в HDFS и автоматически определяет таблицу Hive сверху. Он доступен автономно или как часть Confluent Platform .

Отказ от ответственности: я работаю на Confluent.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...