Чтение данных из файла HDFS и отправка их производителю кафки - PullRequest
0 голосов
/ 04 апреля 2019

У меня есть набор файлов в HDFS, эти файлы твиты. Мне нужно транслировать эти твиты через производителя кафки. Позже мне нужно обработать поток и выполнить некоторую аналитику над ним.

То, что я сделал, это:

a) Напишите Java-программу для построчного чтения файла из HDFS.

b) Я могу опубликовать это сообщение в теме из java-программы, используя kafka.

Но это очень медленный метод. И размеры данных большие.

Я посмотрел на некоторые задания maprecece, из которых я могу передавать данные производителю kafka, я новичок в этом и не очень уверен, как это сделать.

Вот о чем я говорю: https://my -bigdata-blog.blogspot.com / 2017/07 / Hadoop-таможенно-OUTPUTFORMAT-HDFS-отправить к kafka.html

...