Какое количество потоковых разделов Spark напрямую зависит от подхода получателя? - PullRequest
0 голосов
/ 02 августа 2020

В новом API потоковой передачи Spark количество разделов рассчитывается в этом формате в соответствии с документами Spark: "Интеграция Spark Streaming для Kafka 0.10 похожа по дизайну на подход 0.8 Direct Stream. Она обеспечивает простой параллелизм, соответствие 1: 1 между разделами Kafka и разделами Spark, а также доступ к смещениям и метаданным ".

Но в документах потоковой передачи искры указано, что общее количество разделов составляет: batchInterval / minBatchInterval (200 мс), поэтому для интервала пакетной обработки 2 с вы получите 10 разделов.

Мне просто нужна ясность, почему способ вычисления раздела отличается в прямом подходе и подходе получателя. Я думал о прямом подходе для 4 разделов kafka и пакетного интервала 2 с, я получу 40 разделов RDD.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...