Question

Сценарий - у меня есть 1 тема с 2 разделами с разными наборами данных, скажем, A, B. Я знаю, что dstream может принимать сообщения на уровне раздела и на уровне темы. Запрос - Можем ли мы использовать два разных контекста потоков для каждого раздела или один контекст потоков для всей темы, а затем отфильтровать данные уровня раздела? Меня беспокоит производительность при увеличении количества потоковых контекстов.

wandermonk · Answer 1 · 03 мая 2018

Цитирование из документации.

Упрощенный параллелизм: нет необходимости создавать несколько входных потоков Кафки и объединить их. С DirectStream Spark Streaming создаст как можно больше Разделы RDD, так как есть разделы Kafka для потребления, которые будут все читают данные из кафки параллельно. Так что есть сопоставление один к одному между разделами Kafka и RDD, что легче понять и мелодия.

Поэтому, если вы используете основанный на Direct Stream потребитель Spark Streaming, он должен обрабатывать параллелизм.

Kafka Partition + Spark Streaming Context

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Kafka Partition + Spark Streaming Context

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы