Spark предназначен для использования с огромными объемами данных.Если данные помещаются в фрейм данных панд, панды всегда будут быстрее.Дело в том, что для больших данных pandas потерпит неудачу, и Spark выполнит эту работу (например, быстрее, чем MapReduce).
В таких случаях Spark обычно медленнее, потому что ему нужно разработать DAG для операций, чтобывыполнять, как план выполнения, пытаясь оптимизировать его.
Итак, вам следует рассмотреть возможность использования спарка только тогда, когда данные действительно большие, в противном случае используйте панд, это будет быстрее.
Вы можете проверить эту статью и увидеть сравнения между пандами и скоростью искры, и панды всегда быстрее, пока данные не станут такими большими, что они не получатся.