Оптимизация запросов IMPALA с использованием статистики паркета - PullRequest
0 голосов
/ 12 февраля 2019

В IMPALA мы можем оптимизировать запросы, создавая таблицы, задавая сортировку файлов по некоторым столбцам, т.е. используя SORT BY при создании таблицы. Это похоже на работу, только если мы используем «INSERT» или «CREATE table with select» для созданиятаблица.

В моем случае я создаю файл паркета извне, используя parquet-cpp, загружаю его в HDFS и затем использую команду IMPALA «LOAD DATA».

 With this mode of loading data into IMPALA is there any way we can use SORT BY mechanism?
...