Группа потребителей Kafka и разделы со структурированной потоковой передачей Spark - PullRequest
0 голосов
/ 28 февраля 2019

У меня есть тема Kafka с 3 разделами, и я использую эти данные с использованием потоковой структурированной искры.У меня есть 3 потребителя (скажем, группа потребителей A), которые читают по одному разделу каждый, до сих пор все рабочие файлы.

У меня есть новое требование к чтению из той же темы, и я хочу распараллелить его, создавая 3 потребителя (скажем, группу потребителей B) снова каждое чтение из одного раздела.Поскольку я использую структурированную потоковую передачу, я не могу упомянуть group.id явно.

Будут ли потребители из другой группы, указывающие на один / тот же раздел, читать все данные?

1 Ответ

0 голосов
/ 10 июня 2019

Использование может использовать group.id как показано ниже для потоковой передачи

String processingGroup = "processingGroupA";

Dataset<Row> raw_df = sparkSession
                      .readStream()
                      .format("kafka")
                      .option("kafka.bootstrap.servers", consumerAppProperties.getProperty(BOOTSTRAP_SERVERS_CONFIG))
                      .option("subscribe", topicName) 
                      .option("startingOffsets", "latest")
                      .option("group.id",  processingGroup)
                      .load();
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...