Spark Streaming и проблема Кафки с разделами - PullRequest
0 голосов
/ 24 октября 2019

Я создал приложение, используя Spark Streaming, которое получает путь к некоторым файлам от Kafka и открывает их для анализа содержимого. Я хотел бы читать эти файлы параллельно внутри Spark с помощью функции flatMap (), которая возвращает элементы внутри каждого файла. Я отправляю пути к файлам, используя тему Kafka с 8 разделами, отправляя 8 путей для каждой партии. По умолчанию внутри Spark у меня 8 разделов, но пути распределены не одинаково, поэтому есть задачи, которые читают больше файлов, чем другие. Как мне сбалансировать 8 разделов, чтобы иметь по одному пути для каждого раздела?

Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...