Переразметка с использованием pyspark dataframe для уменьшения размера паркета - PullRequest
0 голосов
/ 01 мая 2020

Я храню данные в паркет в S3, в настоящее время они разделены столбцами

org_id, device_id, channel_id, source, col1, col2

Я использую pyspark для чтения / записи паркета в se bucket.

столбцы разделов [org_id, device_id, channel_id]

Теперь я изменил раздел следующим образом

[source, org_id, device_id, channel_id]

после изменения раздела я заметил, что размер паркета резко сократился. Оригинальный паркет имел размер 220 мб после повторного разделения 7.5 mb

Теперь меня беспокоит потеря данных.

Я попробовал метод df.count () для исходных данных и данных после переразделения, он дает равное количество строк, т.е. 85000 Это правильно? способ проверить, что данные не повреждены Есть ли другой способ проверить это?

1 Ответ

0 голосов
/ 06 мая 2020
  1. Используйте exceptAll для сравнения всех dfs
  2. Используйте takeSample для сравнения случайных записей
...