Недавно мы обнаружили, что из-за проблемы в нашем ETL наши паркетные блоки содержали повторяющиеся строки.
Мы запустили проект по удалению дублирующихся строк (чтение паркетов, дедупликация и обратная запись). Удивительно, но мы заметили, что паркеты действительно выросли в размерах!
Как это можно объяснить? возможно ли, что из-за меньшего количества данных существуют определенные сжатия, которые просто не включаются?
В качестве альтернативы, мы должны искать ошибку в логике дедупликации (хотя и маловероятно)?