Question

Мне нужно кэшировать фрейм данных в Pyspark (2.4.4), и кэширование памяти происходит медленно.

Я тестирую кеширование Pandas с помощью Spark, читая тот же файл (CSV). В частности, Pandas был в 3-4 раза быстрее.

Спасибо, заранее

cronoik · Answer 1 · 28 января 2020

Вы сравниваете яблоки и апельсины. Pandas - это библиотека для анализа одноядерных данных на одной машине, тогда как pyspark - это механизм анализа распределенных (кластерных вычислений) данных. Это означает, что вы никогда не будете превосходить pandas при чтении небольшого файла на одной машине с pyspark из-за издержек (распределенная архитектура, JVM ...). Это также означает, что pyspark превзойдет pandas, как только ваш файл превысит определенный размер.

Вы, как разработчик, должны выбрать решение, которое наилучшим образом соответствует вашим требованиям. Если pandas быстрее для вашего проекта и вы не ожидаете большого увеличения данных в будущем, используйте pandas. В противном случае используйте pyspark или dask или ...

Как ускорить кеширование в Spark (Pyspark)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как ускорить кеширование в Spark (Pyspark)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы