Как отфильтровать несуществующие темы Kafka и файлы HDFS - PullRequest
0 голосов
/ 02 января 2019

У меня есть программа Spark, которая принимает данные из тем Kafka и файлов HDFS. Эта информация является статической и содержит несколько тем и файлов, которые может обрабатывать система.

Во время выполнения данные могут поступать из нескольких файлов Тем и HDFS. Остальные темы и данные файлов HDFS могут не отображаться в одном окне.

Я хочу сначала отфильтровать глобальные конфигурации, чтобы узнать, какие темы и файлы kafka присутствуют, и я хочу обработать только их.

Как добиться такой фильтрации в приложении Spark.

...