Я храню данные в паркет в S3, в настоящее время они разделены столбцами
org_id, device_id, channel_id, source, col1, col2
Я использую pyspark для чтения / записи паркета в se bucket.
столбцы разделов [org_id, device_id, channel_id]
Теперь я изменил раздел следующим образом
[source, org_id, device_id, channel_id]
после изменения раздела я заметил, что размер паркета резко сократился. Оригинальный паркет имел размер 220 мб после повторного разделения 7.5 mb
Теперь меня беспокоит потеря данных.
Я попробовал метод df.count () для исходных данных и данных после переразделения, он дает равное количество строк, т.е. 85000 Это правильно? способ проверить, что данные не повреждены Есть ли другой способ проверить это?