Вы можете использовать Spark, Flink, NiFi, Streamsets ... но Confluent предоставляет Kafka Connect HDFS именно для этой цели.
API-интерфейс Kafka Connect несколько ограничен в преобразованиях, поэтому большинство людей пишут задание Kafka Streams для фильтрации / улучшения данных во вторичной теме, которая затем записывается в HDFS
* 1006.* Примечание: эти опции будут записывать много файлов в HDFS (обычно по одному на раздел раздела Kafka)
Какой язык программирования подходит для этого?
Каждый из вышеперечисленныхиспользуете Java.Но вам не нужно самостоятельно писать код, если вы используете NiFi, Streamsets или Kafka Connect