Обработка большого количества файлов с использованием PySpark - PullRequest
0 голосов
/ 28 февраля 2019

У меня есть приложение PySpark, которое обрабатывает файлы в папке, используя wholeTextFiles().Это приложение может быть выполнено Spark Submit.

Теперь мне нравится использовать одно и то же приложение для обработки около миллиона файлов, которые хранятся в разных папках.

Приложение должно обрабатывать эти файлы параллельновместо пакетной обработки.

Хотя я использую метод parallelize(), но я сомнительно использовать его для такого огромного количества файлов.

Было бы полезно, если вы предложите лучший способраспараллелить работу PySpark.

У меня есть несколько вопросов, касающихся Spark.

  • Будет полезно просто увеличить число исполнителей, или мне придется написать многопоточное приложение для той же цели?

  • В настоящее время я использую только локальный режим.Повысит ли производительность кластера производительность или нет?

Жду ваших предложений ...

...