Question

У меня есть приложение PySpark, которое обрабатывает файлы в папке, используя wholeTextFiles().Это приложение может быть выполнено Spark Submit.

Теперь мне нравится использовать одно и то же приложение для обработки около миллиона файлов, которые хранятся в разных папках.

Приложение должно обрабатывать эти файлы параллельновместо пакетной обработки.

Хотя я использую метод parallelize(), но я сомнительно использовать его для такого огромного количества файлов.

Было бы полезно, если вы предложите лучший способраспараллелить работу PySpark.

У меня есть несколько вопросов, касающихся Spark.

Будет полезно просто увеличить число исполнителей, или мне придется написать многопоточное приложение для той же цели?
В настоящее время я использую только локальный режим.Повысит ли производительность кластера производительность или нет?

Жду ваших предложений ...

Обработка большого количества файлов с использованием PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.