У меня проблема с тем, что каждые 15 минут создаются файлы, поэтому через месяц у меня будет ~ 2880 файлов.Через год у меня будет 35 000 файлов!Компактность может быть опцией, которая будет означать, что у меня 1 паркетный файл в час = 8760 файлов!
Однако мне было интересно, как сравнивает имена файлов , используя "$path"
, отличается от использования перегородки ?Сокращение разделов выполняется в одном потоке и не распространяется на кластер Hadoop.Таким образом, если у меня 35 000 файлов, разделенных на год = ???? / день = 365 / час = 24/4 файла каждый, тогда Будет ли производительность сравнения имен файлов такой же, как при использовании сокращения разделов?
PS: я знаю, что могу архивировать старые файлы.
Афина Оптимизация