У нас есть кластер Spark, предназначенный для выполнения анализа различных наборов финансовых данных в Python размером до сотен терабайт. Он хорошо работает для тех, кто чувствует себя комфортно со Spark, но недавно у нас было несколько ученых, которые более знакомы с Pandas, желающими использовать Pandas вместо Spark. Основным преимуществом Spark является то, что он предназначен для распределенной обработки и может обрабатывать большие наборы данных, поэтому мы пытались настроить кластер Dask.
Но это заставило меня задуматься: есть ли какая-то концептуальная причина, по которой сценарии Pandas не могут работать на кластере Spark, реализуя слой совместимости для преобразования примитивов Pandas в примитивы Spark, так же, как работает Dask? Или они принципиально чем-то отличаются?