Kafka Partition + Spark Streaming Context - PullRequest
0 голосов
/ 03 мая 2018

Сценарий - у меня есть 1 тема с 2 разделами с разными наборами данных, скажем, A, B. Я знаю, что dstream может принимать сообщения на уровне раздела и на уровне темы. Запрос - Можем ли мы использовать два разных контекста потоков для каждого раздела или один контекст потоков для всей темы, а затем отфильтровать данные уровня раздела? Меня беспокоит производительность при увеличении количества потоковых контекстов.

1 Ответ

0 голосов
/ 03 мая 2018

Цитирование из документации.

Упрощенный параллелизм: нет необходимости создавать несколько входных потоков Кафки и объединить их. С DirectStream Spark Streaming создаст как можно больше Разделы RDD, так как есть разделы Kafka для потребления, которые будут все читают данные из кафки параллельно. Так что есть сопоставление один к одному между разделами Kafka и RDD, что легче понять и мелодия.

Поэтому, если вы используете основанный на Direct Stream потребитель Spark Streaming, он должен обрабатывать параллелизм.

...