У меня есть набор файлов в HDFS, эти файлы твиты. Мне нужно транслировать эти твиты через производителя кафки. Позже мне нужно обработать поток и выполнить некоторую аналитику над ним.
То, что я сделал, это:
a) Напишите Java-программу для построчного чтения файла из HDFS.
b) Я могу опубликовать это сообщение в теме из java-программы, используя kafka.
Но это очень медленный метод. И размеры данных большие.
Я посмотрел на некоторые задания maprecece, из которых я могу передавать данные производителю kafka, я новичок в этом и не очень уверен, как это сделать.
Вот о чем я говорю:
https://my -bigdata-blog.blogspot.com / 2017/07 / Hadoop-таможенно-OUTPUTFORMAT-HDFS-отправить к kafka.html