Учитывая, что данные из обеих тем объединены в один момент и, наконец, отправлены в приемник Kafka, что является наилучшим способом чтения из нескольких тем
val df = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", servers)
.option("subscribe", "t1,t2")
против
val df1 = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", servers)
.option("subscribe", "t1")
val df2 = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", servers)
.option("subscribe", "t2")
Где-то я сделаю df1.join(df2)
и отправлю его в раковину Кафки.
Что касается производительности и использования ресурсов, какой вариант будет лучшим здесь?
Заранее спасибо
PS : Я вижу другой похожий вопрос Spark структурированное потоковое приложение, читающее из нескольких тем Kafka но там кадры данных из 2 тем, похоже, не используются вместе