Удаление данных из паркета приводит к их * размеру * - почему? - PullRequest
0 голосов
/ 10 мая 2018

Недавно мы обнаружили, что из-за проблемы в нашем ETL наши паркетные блоки содержали повторяющиеся строки.

Мы запустили проект по удалению дублирующихся строк (чтение паркетов, дедупликация и обратная запись). Удивительно, но мы заметили, что паркеты действительно выросли в размерах!

Как это можно объяснить? возможно ли, что из-за меньшего количества данных существуют определенные сжатия, которые просто не включаются?

В качестве альтернативы, мы должны искать ошибку в логике дедупликации (хотя и маловероятно)?

Ответы [ 2 ]

0 голосов
/ 23 марта 2019

Это может быть связано с изменениями в структуре файла паркета. Каждая группа строк имеет свои собственные метаданные, и если вы измените количество групп строк, размер файла может увеличиться, и это может стать ответом на ваш вопрос.

0 голосов
/ 08 марта 2019

Вы не можете удалить запись из файла паркета. Если вы удалите запись, она все равно будет там. Но дополнительная информация о том, какая запись была «удалена», добавляется в файл паркета.

...