Как загрузить все записи из темы кафки, используя спарк в пакетном режиме - PullRequest
1 голос
/ 21 июня 2019

Я хочу загрузить все записи из темы кафки, используя spark, но все примеры, которые я видел, использовали spark-streaming. Как я могу загрузить сообщения fwom kafka ровно один раз?

1 Ответ

2 голосов
/ 21 июня 2019

Точные шаги перечислены в официальной документации , например:

val df = spark
  .read
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("subscribePattern", "topic.*")
  .option("startingOffsets", "earliest")
  .option("endingOffsets", "latest")
  .load()

Однако "все записи" довольно плохо определены, если источником является непрерывный поток, поскольку результат зависитв момент времени, когда выполняется запрос.

Кроме того, следует помнить, что параллелизм ограничен разделами раздела Kafka, поэтому следует соблюдать осторожность, чтобы не перегружать кластер.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...