Как найти идентификатор группы потребителей потокового приложения с искрой? - PullRequest
1 голос
/ 31 марта 2020

В программировании потокового воспроизведения мы можем явно назначить идентификатор группы потребителей kafka, установив ниже config:

val kafkaParams = Map[String, Object](
  ...
  "group.id" -> "use_a_separate_group_id_for_each_stream",
  ...
)

val rdd = KafkaUtils.createRDD[String, String](sparkContext, kafkaParams, offsetRanges, PreferConsistent)

В настройке структурированного потокового воспроизведения ваш собственный идентификатор группы потребителей запрещен.

В моей программе я не собираюсь менять идентификатор группы потребителей, но повторно использую этот идентификатор группы, чтобы найти самый последний offfset для разделов topi c, на которые подписана группа.

Так есть ли какой-нибудь метод, который я могу получить идентификатор группы потребителей, неявно используемый в моем приложении spark?

1 Ответ

1 голос
/ 31 марта 2020

Идентификатор группы потребителей внутренне генерируется Spark Apache при создании rdd:

  // So that consumers in executors do not mess with any existing group id
  .set(ConsumerConfig.GROUP_ID_CONFIG, s"$uniqueGroupId-executor")

. Вы можете взглянуть на KafkaSourceProvider.scala, чтобы увидеть, что генерируется. Я не предлагаю изменить это, но возможно вниз по течению поток к другой группе потребителей c

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...