Question

Я храню данные в паркет в S3, в настоящее время они разделены столбцами

org_id, device_id, channel_id, source, col1, col2

Я использую pyspark для чтения / записи паркета в se bucket.

столбцы разделов [org_id, device_id, channel_id]

Теперь я изменил раздел следующим образом

[source, org_id, device_id, channel_id]

после изменения раздела я заметил, что размер паркета резко сократился. Оригинальный паркет имел размер 220 мб после повторного разделения 7.5 mb

Теперь меня беспокоит потеря данных.

Я попробовал метод df.count () для исходных данных и данных после переразделения, он дает равное количество строк, т.е. 85000 Это правильно? способ проверить, что данные не повреждены Есть ли другой способ проверить это?

LuckyGuess · Answer 1 · 06 мая 2020

Используйте exceptAll для сравнения всех dfs
Используйте takeSample для сравнения случайных записей

Переразметка с использованием pyspark dataframe для уменьшения размера паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Переразметка с использованием pyspark dataframe для уменьшения размера паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы