Мы используем Cloudera в качестве нашей среды hadoop.
Может ли кто-нибудь предоставить какую-либо гильдию о том, как интегрировать или перенести существующий паркет / импала в kudu / impala, чтобы, как мы надеемся, улучшить производительность нашего существующего конвейера?
Здесь описан наш существующий конвейер:
Мы получаем данные в формате csv / xlsx;
Перемещаем их на HDFS;
Мы сохраняем их в другое место в формате паркета;
Мы создаем внешнюю таблицу в импале с местоположением, указывающим на данные разделенного паркета;
Мы выполняем наши задания ETL в pyspark, spark scala, spark sql;
Мы выводим наш аналитический результат в csv.
Существующий конвейер работает должным образом, однако, поскольку данные поддерживают постоянный рост, время и ресурсы, необходимые для конвейера, также увеличиваются.
Нам интересно, какова лучшая практикаперенести паркетна основе Impala к Impu на основе куду для улучшения общей производительности?
Большое спасибо.