Redshift UNLOAD Select Distinct создает больший zip-файл, чем Select *? - PullRequest
0 голосов
/ 30 апреля 2018

Я вижу очень странную вещь с Redshift UNLOAD и задаюсь вопросом, видел ли кто-то еще это или есть объяснение этому.

У меня есть один запрос UNLOAD. Когда я выгружаюсь с помощью «Select Distinct» с GZIP, выгруженные файлы увеличиваются в три раза, как если бы я делал «Select *» (без четких) с GZIP.

Вот запрос:

UNLOAD ('SELECT DISTINCT <29 fields> FROM public.mytable WHERE myfield = 999') 
TO 's3://myBucket/myfile.txt' CREDENTIALS 'mycreds' DELIMITER '\t' 
GZIP PARALLEL TRUE MAXFILESIZE 256 MB ALLOWOVERWRITE;

Вывод этого запроса составляет до 26 ГБ.

Если я изменю это значение на 'Select *' , выход будет 8 ГБ. Кроме того, Select Distinct создает 14 zip-файлов, а Select * создает только 5 zip-файлов.

Это противоречиво, поскольку можно было бы ожидать, что дедуплицированные файлы будут меньше.

Я думаю, что GZIP Distinct создает гораздо больший файл словаря zip, чем GZIP Select *.

Вопрос в том, почему?

...