Какой вариант лучше всего подходит для выбора кодировки сжатия столбцов [COPY VS ANALYZE COMPRESSION] - PullRequest
0 голосов
/ 29 августа 2018

Сценарий: мне нужно изменить кодировку столбца существующей таблицы

a) Если я выполняю ANALYZE COMPRESSION table_name --- этот подход предлагает использовать сжатие ZSTD для всех столбцов, включая столбец SORT-KEY.

b) Я создал новую таблицу, используя DDL существующей таблицы, и использовал команду copy, чтобы получить кодировку сжатия столбцов (Копировать кодировку сжатия столбцов при загрузке данных в пустую таблицу) --- Команда COPY предложила LZO для всех столбцов, включая Столбец SORT-KEY.

Вопрос:

Какой подход является правильным или оптимизированным? Сжатие столбца SORT-KEY является плохим, поэтому ZSTD для столбца SORT-KEY улучшит производительность?

Ответы [ 2 ]

0 голосов
/ 30 августа 2018

АНАЛИЗ СЖАТИЯ рассматривает только эффективность сжатия на основе хранилища и не учитывает другие факторы.

Во многих случаях первый столбец SORT KEY хорошо сжимается и обычно фильтруется (предикат в предложении where). Если по какой-то причине вы никогда не фильтровали столбец (возможно, объединение слиянием), было бы хорошо сжать клавишу SORT.

Причина, по которой мы рекомендуем распаковывать первый столбец клавиши SORT, заключается в том, что при фильтрации с ограниченным диапазоном сканирования для столбца с высокой степенью сжатия по сравнению с другими сканируемыми столбцами это может привести к незначительному снижению производительности.

0 голосов
/ 29 августа 2018
...