PySpark - производительность локальной системы - PullRequest
0 голосов
/ 09 апреля 2020

Я новичок в Pyspark. Я хотел бы изучить один из них при решении задачи Kaggle Challenge с использованием большого набора данных.

Предоставляет ли Pyspark преимущество в производительности по сравнению с Pandas при использовании в локальной системе? Или это не имеет значения?

1 Ответ

1 голос
/ 10 апреля 2020

При локальном запуске pyspark работает с таким количеством рабочих потоков, сколько логических ядер доступно на вашем компьютере - если вы запустите spark.sparkContext.master, он должен вернуть local[*] (дополнительную информацию о локальных конфигурациях можно найти здесь ). Поскольку Pandas является однопоточным (если вы не используете что-то вроде Dask ), для больших наборов данных Pyspark должен быть более производительным. Однако из-за накладных расходов, связанных с использованием нескольких потоков, сериализацией данных и отправкой в ​​JVM, et c. Pandas может быть быстрее для небольших наборов данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...