Чтение сообщения от Кафки и запись в HDFS - PullRequest
0 голосов
/ 14 мая 2018

Я ищу лучший способ читать сообщения (много сообщений, около 100B каждый день) из Кафки, после прочтения сообщения мне нужно манипулировать данными и записывать их в HDFS.

  • Если мне нужно сделать это с максимальной производительностью, каков наилучший способ для меня читать сообщения от Kafka и записывать файлы в HDFS?
  • Какой язык программирования лучше для этого?
  • Нужно ли подумать об использовании таких решений, как Spark?

Ответы [ 2 ]

0 голосов
/ 15 мая 2018

Вы можете использовать Spark, Flink, NiFi, Streamsets ... но Confluent предоставляет Kafka Connect HDFS именно для этой цели.

API-интерфейс Kafka Connect несколько ограничен в преобразованиях, поэтому большинство людей пишут задание Kafka Streams для фильтрации / улучшения данных во вторичной теме, которая затем записывается в HDFS

* 1006.* Примечание: эти опции будут записывать много файлов в HDFS (обычно по одному на раздел раздела Kafka)

Какой язык программирования подходит для этого?

Каждый из вышеперечисленныхиспользуете Java.Но вам не нужно самостоятельно писать код, если вы используете NiFi, Streamsets или Kafka Connect

0 голосов
/ 14 мая 2018

Для этого следует использовать потоковую передачу Spark (см. здесь ), она обеспечивает простое соответствие между разделами Kafka и разделами Spark.

Или вы можете использовать Use Kafka Streams (см. more ). Kafka Streams - это клиентская библиотека для создания приложений и микросервисов, в которой входные и выходные данные хранятся в кластерах Kafka.

...