Паркет столбчатый.Паркет очень быстро из моего опыта.Столбчатый аспект вполне может объяснить одинаковую производительность - независимо от того, ключевой или нет, формат данных физически является столбчатым.
Это таблица Hive, но с использованием Parquet и Bucketing, которая недоступна для Hive / Impala.Так как это паркет, Hive Table Scan не подходит.Таблица Hive может иметь много физических форматов, текст, паркет, ORC.
Вы можете увидеть фильтрацию: PartitionFilters: [], PressedFilters: [IsNotNull (col2), EqualTo (col2,123)],
Нет прогрева как такового.Вы можете .cache вещи, но я тестировал и видел тесты, в которых нет большой разницы с точки зрения кэширования таблиц Паркет, но это зависит от теста.