Вы сравниваете яблоки и апельсины. Pandas - это библиотека для анализа одноядерных данных на одной машине, тогда как pyspark - это механизм анализа распределенных (кластерных вычислений) данных. Это означает, что вы никогда не будете превосходить pandas при чтении небольшого файла на одной машине с pyspark из-за издержек (распределенная архитектура, JVM ...). Это также означает, что pyspark превзойдет pandas, как только ваш файл превысит определенный размер.
Вы, как разработчик, должны выбрать решение, которое наилучшим образом соответствует вашим требованиям. Если pandas быстрее для вашего проекта и вы не ожидаете большого увеличения данных в будущем, используйте pandas. В противном случае используйте pyspark или dask или ...