Какова лучшая практика от Cloudera для миграции импалы на основе паркета на импалу на основе куду - PullRequest
0 голосов
/ 19 декабря 2018

Мы используем Cloudera в качестве нашей среды hadoop.

Может ли кто-нибудь предоставить какую-либо гильдию о том, как интегрировать или перенести существующий паркет / импала в kudu / impala, чтобы, как мы надеемся, улучшить производительность нашего существующего конвейера?

Здесь описан наш существующий конвейер:

Мы получаем данные в формате csv / xlsx;

  • Перемещаем их на HDFS;

  • Мы сохраняем их в другое место в формате паркета;

  • Мы создаем внешнюю таблицу в импале с местоположением, указывающим на данные разделенного паркета;

  • Мы выполняем наши задания ETL в pyspark, spark scala, spark sql;

  • Мы выводим наш аналитический результат в csv.

Существующий конвейер работает должным образом, однако, поскольку данные поддерживают постоянный рост, время и ресурсы, необходимые для конвейера, также увеличиваются.

Нам интересно, какова лучшая практикаперенести паркетна основе Impala к Impu на основе куду для улучшения общей производительности?

Большое спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...