Спарк в режиме непрерывной обработки не читает кафку все разделы раздела - PullRequest
0 голосов
/ 10 января 2019

Я экспериментирую с режимом непрерывной обработки Spark в структурированном потоке и читаю тему Kafka с 2 разделами, в то время как приложение Spark имеет только одного исполнителя с одним ядром.

Приложение является простым, в котором оно просто читает из первой темы и публикует во второй. Проблема в том, что мой консольный потребитель читает из второй темы, он видит только сообщения из одного раздела первой темы. Это означает, что мое приложение Spark читает только сообщения из одного раздела темы.

Как сделать так, чтобы приложение Spark читалось с обоих разделов темы?

Примечание

Я задаю этот вопрос людям, которые могут столкнуться с той же проблемой, что и я

1 Ответ

0 голосов
/ 10 января 2019

Я нашел ответ на свой вопрос в документации Spark Structured Streaming в разделе предостережения

По сути, в режиме непрерывной обработки spark запускает долго выполняющиеся задачи, которые считываются из одного раздела темы, следовательно, поскольку может выполняться только одна задача на ядро, приложение spark должно иметь столько ядер, сколько разделов темы kafka оно считывает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...