Могли ли когда-нибудь Панды бегать на Искре? - PullRequest
0 голосов
/ 11 сентября 2018

У нас есть кластер Spark, предназначенный для выполнения анализа различных наборов финансовых данных в Python размером до сотен терабайт. Он хорошо работает для тех, кто чувствует себя комфортно со Spark, но недавно у нас было несколько ученых, которые более знакомы с Pandas, желающими использовать Pandas вместо Spark. Основным преимуществом Spark является то, что он предназначен для распределенной обработки и может обрабатывать большие наборы данных, поэтому мы пытались настроить кластер Dask.

Но это заставило меня задуматься: есть ли какая-то концептуальная причина, по которой сценарии Pandas не могут работать на кластере Spark, реализуя слой совместимости для преобразования примитивов Pandas в примитивы Spark, так же, как работает Dask? Или они принципиально чем-то отличаются?

Ответы [ 2 ]

0 голосов
/ 26 апреля 2019

Обновление: похоже, что теперь вы можете сделать это, используя новый проект Databricks Koalas: https://databricks.com/blog/2019/04/24/koalas-easy-transition-from-pandas-to-apache-spark.html

0 голосов
/ 11 сентября 2018

Большинство кластеров Spark используют Apache Yarn для развертывания Spark на многих узлах.Эти кластеры также используют Yarn для развертывания других сервисов, таких как Hive, Flink, Hadoop MapReduce и так далее.Любое приложение, которое может общаться с Yarn, вероятно, сможет работать на вашем кластере изначально;Spark - это всего лишь одно из таких приложений.

Возможно, вы можете запустить Dask Dataframes (которые сегодня являются наиболее близкими к параллельным фреймам данных Pandas) в вашем кластере Spark / Yarn сегодня, используя DaskПряжа проект.

...