Здесь у меня есть утилита python для создания нескольких файлов паркета с использованием библиотеки Pyarrow для одного набора данных, так как размер набора данных огромен за один день.Здесь файл паркета содержит 10K групп строк паркета в каждом файле разделенного паркета, здесь в итоге мы объединяем разделенные файлы в один файл, чтобы создать большой отдельный файл паркета.Здесь я создаю две таблицы Impala с объединенным файлом и несколькими разделенными файлами.
Когда данные разделенного файла загружаются в таблицу Impala и пытаются запросить их, результат приходит быстрее за считанные секунды, но когда таблица Impala создается на одном объединенном паркетефайл.Это даст проблему производительности по сравнению с упомянутой таблицей Impala разделенных файлов.Я не могу определить разницу между этими двумя таблицами, когда пытаюсь вычислить статистику для таблиц Impala.
Любая идея, почему такое различие в производительности между разнородными файлами паркета, таблицей Impala и отдельными объединенными файлами Impalaстол.