Задание SQL Pyspark замедлилось за счет чтения фиксированной ширины вместо паркета - PullRequest
0 голосов
/ 21 декабря 2018

У меня есть скрипт, который состоит из нескольких объединений и нескольких других основных операций.Когда я читал данные формата паркета, скрипт запускался и быстро записывал новые данные паркета.Недавно я обновил скрипт, чтобы он принимал данные фиксированной ширины и определял столбцы на основе заданных спецификаций.

Это замедлило скрипт в 10 раз.

Я пытался играть с искройконфиги и различные разделы данных, но время выполнения все еще ужасно.

1 Ответ

0 голосов
/ 23 декабря 2018

Parquet и ORC - оптимизированные форматы для столбцового чтения / записи, поэтому они хорошо работают в фреймах данных SparkSQL.

Текстовые CSV / TSV намного медленнее по своей конструкции, поскольку целые строки данных необходимо анализировать и извлекать снова и снова во время обработки.

Скорее всего, вы здесь ничего не делаете.Если вам нужна высокая скорость обработки в целом, вам понадобится соответствующая база данных, которая может оптимизировать ваши запросы, а не обрабатывать необработанные файлы

...