Question

Я хочу отправить данные из kafka (выполняя некоторую работу с mapreduce) в улей.
Подходит ли для этого использование потоковой передачи искры?
ИЛИ как лучше?

cricket_007 · Answer 1 · 15 мая 2018

С точки зрения потоковой передачи таблицы Hive, построенные заранее, выгруженные в Spark Streaming или Flink, по большей части будут работать нормально, но что, если схема вывода Hive в задании Spark изменится?Здесь вам может понадобиться что-то вроде Streamsets , Kafka Connect HDFS Connector или Apache Gobblin

Кроме того, имейте в виду, что HDFS не нравится работать с крошечными файлами, поэтому настройте большойразмер партии перед HDFS будет полезен для последующего потребления Hive

Robin Moffatt · Answer 2 · 15 мая 2018

Для этого можно использовать Kafka Connect и разъем HDFS. Это передает данные из Kafka в HDFS и автоматически определяет таблицу Hive сверху. Он доступен автономно или как часть Confluent Platform .

Отказ от ответственности: я работаю на Confluent.

Как отправить данные из кафки в улей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как отправить данные из кафки в улей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов