В новом API потоковой передачи Spark количество разделов рассчитывается в этом формате в соответствии с документами Spark: "Интеграция Spark Streaming для Kafka 0.10 похожа по дизайну на подход 0.8 Direct Stream. Она обеспечивает простой параллелизм, соответствие 1: 1 между разделами Kafka и разделами Spark, а также доступ к смещениям и метаданным ".
Но в документах потоковой передачи искры указано, что общее количество разделов составляет: batchInterval / minBatchInterval (200 мс), поэтому для интервала пакетной обработки 2 с вы получите 10 разделов.
Мне просто нужна ясность, почему способ вычисления раздела отличается в прямом подходе и подходе получателя. Я думал о прямом подходе для 4 разделов kafka и пакетного интервала 2 с, я получу 40 разделов RDD.