Parquet и ORC - оптимизированные форматы для столбцового чтения / записи, поэтому они хорошо работают в фреймах данных SparkSQL.
Текстовые CSV / TSV намного медленнее по своей конструкции, поскольку целые строки данных необходимо анализировать и извлекать снова и снова во время обработки.
Скорее всего, вы здесь ничего не делаете.Если вам нужна высокая скорость обработки в целом, вам понадобится соответствующая база данных, которая может оптимизировать ваши запросы, а не обрабатывать необработанные файлы