1 потоковое и Kafka брокер версии 0.8.2.1, у меня есть отдельные серверы для спарк и кафка на AWS.
Используя val directKafkaStream = KafkaUtils.createDirectStream
прямой подход. StreamingContext(conf, Seconds(300))
, я ожидаю получить 30 строк от потоковой передачи, но фактический прием только 15-25 в диапазоне. Перекрестная проверка потребителя кафки по той же теме, показывающая 30 строк в течение 300 секунд. И stream.foreachRDD {rdd => дает 15-20 строк.
Что плохого в получении нестандартных данных. Я использую sparksession для создания sc и ssc.
Спасибо.