Question

Я новичок в Pyspark. Я хотел бы изучить один из них при решении задачи Kaggle Challenge с использованием большого набора данных.

Предоставляет ли Pyspark преимущество в производительности по сравнению с Pandas при использовании в локальной системе? Или это не имеет значения?

danielcahall · Answer 1 · 10 апреля 2020

При локальном запуске pyspark работает с таким количеством рабочих потоков, сколько логических ядер доступно на вашем компьютере - если вы запустите spark.sparkContext.master, он должен вернуть local[*] (дополнительную информацию о локальных конфигурациях можно найти здесь ). Поскольку Pandas является однопоточным (если вы не используете что-то вроде Dask ), для больших наборов данных Pyspark должен быть более производительным. Однако из-за накладных расходов, связанных с использованием нескольких потоков, сериализацией данных и отправкой в JVM, et c. Pandas может быть быстрее для небольших наборов данных.

PySpark - производительность локальной системы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

PySpark - производительность локальной системы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов