Question

Мы используем Cloudera в качестве нашей среды hadoop.

Может ли кто-нибудь предоставить какую-либо гильдию о том, как интегрировать или перенести существующий паркет / импала в kudu / impala, чтобы, как мы надеемся, улучшить производительность нашего существующего конвейера?

Здесь описан наш существующий конвейер:

Мы получаем данные в формате csv / xlsx;

Перемещаем их на HDFS;
Мы сохраняем их в другое место в формате паркета;
Мы создаем внешнюю таблицу в импале с местоположением, указывающим на данные разделенного паркета;
Мы выполняем наши задания ETL в pyspark, spark scala, spark sql;
Мы выводим наш аналитический результат в csv.

Существующий конвейер работает должным образом, однако, поскольку данные поддерживают постоянный рост, время и ресурсы, необходимые для конвейера, также увеличиваются.

Нам интересно, какова лучшая практикаперенести паркетна основе Impala к Impu на основе куду для улучшения общей производительности?

Большое спасибо.

Какова лучшая практика от Cloudera для миграции импалы на основе паркета на импалу на основе куду

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Какова лучшая практика от Cloudera для миграции импалы на основе паркета на импалу на основе куду

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы