Question

Недавно мы обнаружили, что из-за проблемы в нашем ETL наши паркетные блоки содержали повторяющиеся строки.

Мы запустили проект по удалению дублирующихся строк (чтение паркетов, дедупликация и обратная запись). Удивительно, но мы заметили, что паркеты действительно выросли в размерах!

Как это можно объяснить? возможно ли, что из-за меньшего количества данных существуют определенные сжатия, которые просто не включаются?

В качестве альтернативы, мы должны искать ошибку в логике дедупликации (хотя и маловероятно)?

Ori N · Answer 1 · 23 марта 2019

Это может быть связано с изменениями в структуре файла паркета. Каждая группа строк имеет свои собственные метаданные, и если вы измените количество групп строк, размер файла может увеличиться, и это может стать ответом на ваш вопрос.

Menzies · Answer 2 · 08 марта 2019

Вы не можете удалить запись из файла паркета. Если вы удалите запись, она все равно будет там. Но дополнительная информация о том, какая запись была «удалена», добавляется в файл паркета.

Удаление данных из паркета приводит к их * размеру * - почему?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удаление данных из паркета приводит к их * размеру * - почему?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы