Я пытаюсь прочитать данные из Kafka (1 тема, 5 разделов), используя подход Spark Streaming Direct. Чтобы увеличить параллелизм при обработке данных, я установил Dstream.repartition(60)
. Однако кажется, что только 5 исполнителей работают на каждом этапе каждой партии потоковой передачи?
Я установил следующие параметры:
--num-executors 20
--executor-cores 4
--executor-memory 3G
--driver-memory 3G
--spark.default.Parallelism 60
Моя путаница:
Я хочу уменьшить время обработки, поэтому я пытаюсь увеличить число Vcores
, но этот метод, похоже, не работает. Зачем? Спасибо.