Question

У меня есть скрипт, который состоит из нескольких объединений и нескольких других основных операций.Когда я читал данные формата паркета, скрипт запускался и быстро записывал новые данные паркета.Недавно я обновил скрипт, чтобы он принимал данные фиксированной ширины и определял столбцы на основе заданных спецификаций.

Это замедлило скрипт в 10 раз.

Я пытался играть с искройконфиги и различные разделы данных, но время выполнения все еще ужасно.

cricket_007 · Answer 1 · 23 декабря 2018

Parquet и ORC - оптимизированные форматы для столбцового чтения / записи, поэтому они хорошо работают в фреймах данных SparkSQL.

Текстовые CSV / TSV намного медленнее по своей конструкции, поскольку целые строки данных необходимо анализировать и извлекать снова и снова во время обработки.

Скорее всего, вы здесь ничего не делаете.Если вам нужна высокая скорость обработки в целом, вам понадобится соответствующая база данных, которая может оптимизировать ваши запросы, а не обрабатывать необработанные файлы

Задание SQL Pyspark замедлилось за счет чтения фиксированной ширины вместо паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Задание SQL Pyspark замедлилось за счет чтения фиксированной ширины вместо паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы