Потеря данных Spark 2.1 -кафка брокер 0.8.2.1 потоковая - PullRequest
0 голосов
/ 27 июня 2018

1 потоковое и Kafka брокер версии 0.8.2.1, у меня есть отдельные серверы для спарк и кафка на AWS.

Используя val directKafkaStream = KafkaUtils.createDirectStream прямой подход. StreamingContext(conf, Seconds(300)), я ожидаю получить 30 строк от потоковой передачи, но фактический прием только 15-25 в диапазоне. Перекрестная проверка потребителя кафки по той же теме, показывающая 30 строк в течение 300 секунд. И stream.foreachRDD {rdd => дает 15-20 строк.

Что плохого в получении нестандартных данных. Я использую sparksession для создания sc и ssc.

Спасибо.

1 Ответ

0 голосов
/ 27 июня 2018

добавить auto.offset.reset к smallest в параметре kafka

 val kafkaParams = Map[String, String](
         "auto.offset.reset" -> "smallest", ......)
...