Я создал приложение, используя Spark Streaming, которое получает путь к некоторым файлам от Kafka и открывает их для анализа содержимого. Я хотел бы читать эти файлы параллельно внутри Spark с помощью функции flatMap (), которая возвращает элементы внутри каждого файла. Я отправляю пути к файлам, используя тему Kafka с 8 разделами, отправляя 8 путей для каждой партии. По умолчанию внутри Spark у меня 8 разделов, но пути распределены не одинаково, поэтому есть задачи, которые читают больше файлов, чем другие. Как мне сбалансировать 8 разделов, чтобы иметь по одному пути для каждого раздела?
Спасибо.