При поиске оптимизации запросов для больших данных, особенно файла ORC, II натолкнулся на две возможности: предикатное нажатие и Bloom Filters.
Предикатное нажатие помогает нам избежать чтения ненужных полос, что помогает сократить ввод-вывод, но мне кажется, что Bloom Filter также служит той же цели, кроме приведенной ниже.
для предиката push down, нам не нужно явно создавать какие-либо артефакты при записи файла ORC, тогда как для фильтров Bloom нам нужнонастроить столбцы при записи в файл ORC.
Запросить предложения, чтобы лучше понять меня.
Спасибо, Сантош