У меня есть приложение PySpark, которое обрабатывает файлы в папке, используя wholeTextFiles()
.Это приложение может быть выполнено Spark Submit.
Теперь мне нравится использовать одно и то же приложение для обработки около миллиона файлов, которые хранятся в разных папках.
Приложение должно обрабатывать эти файлы параллельновместо пакетной обработки.
Хотя я использую метод parallelize()
, но я сомнительно использовать его для такого огромного количества файлов.
Было бы полезно, если вы предложите лучший способраспараллелить работу PySpark.
У меня есть несколько вопросов, касающихся Spark.
Будет полезно просто увеличить число исполнителей, или мне придется написать многопоточное приложение для той же цели?
В настоящее время я использую только локальный режим.Повысит ли производительность кластера производительность или нет?
Жду ваших предложений ...