Я вижу очень странную вещь с Redshift UNLOAD и задаюсь вопросом, видел ли кто-то еще это или есть объяснение этому.
У меня есть один запрос UNLOAD. Когда я выгружаюсь с помощью «Select Distinct» с GZIP, выгруженные файлы увеличиваются в три раза, как если бы я делал «Select *» (без четких) с GZIP.
Вот запрос:
UNLOAD ('SELECT DISTINCT <29 fields> FROM public.mytable WHERE myfield = 999')
TO 's3://myBucket/myfile.txt' CREDENTIALS 'mycreds' DELIMITER '\t'
GZIP PARALLEL TRUE MAXFILESIZE 256 MB ALLOWOVERWRITE;
Вывод этого запроса составляет до 26 ГБ.
Если я изменю это значение на 'Select *' , выход будет 8 ГБ. Кроме того, Select Distinct создает 14 zip-файлов, а Select * создает только 5 zip-файлов.
Это противоречиво, поскольку можно было бы ожидать, что дедуплицированные файлы будут меньше.
Я думаю, что GZIP Distinct создает гораздо больший файл словаря zip, чем GZIP Select *.
Вопрос в том, почему?