Как ускорить кеширование в Spark (Pyspark)? - PullRequest
0 голосов
/ 28 января 2020

Мне нужно кэшировать фрейм данных в Pyspark (2.4.4), и кэширование памяти происходит медленно.

Я тестирую кеширование Pandas с помощью Spark, читая тот же файл (CSV). В частности, Pandas был в 3-4 раза быстрее.

Спасибо, заранее

1 Ответ

4 голосов
/ 28 января 2020

Вы сравниваете яблоки и апельсины. Pandas - это библиотека для анализа одноядерных данных на одной машине, тогда как pyspark - это механизм анализа распределенных (кластерных вычислений) данных. Это означает, что вы никогда не будете превосходить pandas при чтении небольшого файла на одной машине с pyspark из-за издержек (распределенная архитектура, JVM ...). Это также означает, что pyspark превзойдет pandas, как только ваш файл превысит определенный размер.

Вы, как разработчик, должны выбрать решение, которое наилучшим образом соответствует вашим требованиям. Если pandas быстрее для вашего проекта и вы не ожидаете большого увеличения данных в будущем, используйте pandas. В противном случае используйте pyspark или dask или ...

...