У меня есть программа Spark, которая принимает данные из тем Kafka и файлов HDFS.
Эта информация является статической и содержит несколько тем и файлов, которые может обрабатывать система.
Во время выполнения данные могут поступать из нескольких файлов Тем и HDFS. Остальные темы и данные файлов HDFS могут не отображаться в одном окне.
Я хочу сначала отфильтровать глобальные конфигурации, чтобы узнать, какие темы и файлы kafka присутствуют, и я хочу обработать только их.
Как добиться такой фильтрации в приложении Spark.