При локальном запуске pyspark работает с таким количеством рабочих потоков, сколько логических ядер доступно на вашем компьютере - если вы запустите spark.sparkContext.master
, он должен вернуть local[*]
(дополнительную информацию о локальных конфигурациях можно найти здесь ). Поскольку Pandas является однопоточным (если вы не используете что-то вроде Dask ), для больших наборов данных Pyspark должен быть более производительным. Однако из-за накладных расходов, связанных с использованием нескольких потоков, сериализацией данных и отправкой в JVM, et c. Pandas может быть быстрее для небольших наборов данных.