Сколько исполнителей назначено прослушать тему кафки в Spark-kafka Интеграция в Spark 2.1? - PullRequest
0 голосов
/ 05 сентября 2018

У меня есть кластер Spark с 17 исполнителями. Я интегрировал Spark 2.1 с Kafka и читаю данные из темы как:

val df = spark
  .readStream
  .format("kafka")
  .options("kafka.bootstrap.servers","localhost:9092")
  .options("subscribe","test")
  .load 

Теперь я хочу знать, что когда я отправлю свое искровое приложение в кластерном режиме, сколько исполнителей (из общего числа 17) будет назначено для прослушивания темы Kafka и создания микропартий в структурированной потоковой передаче.

Кроме того, как я могу ограничить размер микропакета в структурированном потоке при чтении из Kafka?

1 Ответ

0 голосов
/ 05 сентября 2018

Структурированное Steaming использует один раздел на раздел раздела Kafka. Поскольку один раздел обрабатывается одним ядром, он будет использовать самое большее число исполнителей из числа назначенных приложению.

Количество сообщений, обрабатываемых в пакете, зависит главным образом от используемого триггера (и, как следствие, интервал пакета, если пакет используется вообще), однако обратите внимание на maxOffsetsPerTrigger:

Ограничение скорости на максимальное количество смещений, обрабатываемых за интервал запуска. Указанное общее количество смещений будет пропорционально разделено на разделы темы разного объема.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...