Как размер файла Parquet изменяется в зависимости от количества в наборе данных Spark - PullRequest
1 голос
/ 30 мая 2019

Я столкнулся со сценарием, в котором у меня был набор искровых данных с 24 столбцами, из которых я группировал по первым 22 столбцам и суммировал последние два столбца.

Я удалил группу из запроса, и у меня естьвсе 24 столбца выбраны сейчас.Первоначальное число наборов данных было 79 304.

После того, как я удалил группу, счет увеличился до 138 204, что понятно, потому что я удалил группу с помощью.

Но мне было непонятно с поведениемчто первоначальный размер файла паркета был 2,3 МБ , но позже он был уменьшен до 1,5 МБ .Может кто-нибудь, пожалуйста, помогите мне понять это.

Также не каждый раз, когда размер уменьшается, у меня был похожий сценарий для подсчета 22 столбцов, до того как было 35 298 226, а после удаления группы было 59 874 208, и здесь размер увеличился с 466,5 МБ до 509.8MB

1 Ответ

4 голосов
/ 30 мая 2019

Когда речь идет о размерах паркета, речь идет не о количестве строк, а о самих данных.Паркет - это столбчато-ориентированный формат, поэтому он хранит столбцы данных и сжимает столбцы данных.Поэтому речь идет не о количестве строк, а о разнообразии столбцов.

Паркет будет лучше сжиматься, чем разнообразие самых разнообразных столбцов в таблице.Поэтому, если у вас есть один кадр данных столбца, он будет сжат как расстояние между значениями столбца.

...