Как эффективно использовать Select Hive Processor в NIFI? - PullRequest
0 голосов
/ 13 июня 2018

Я использовал процессор Select Hive для извлечения данных из Hive и создания файлов CSV.Я наблюдаю около 7 миллионов записей, это занимает около 5 минут.При внимательном рассмотрении было обнаружено, что выборка данных из Hive выполняется быстрее и едва ли занимает менее 10% от общего времени, но запись файлов в CSV занимает слишком много времени.Я использую 8 ядер и 32 ГБ оперативной памяти.Я настроил кучу памяти на 16 ГБ.Может кто-нибудь, пожалуйста, помогите улучшить эту производительность?Нужно ли выполнять какие-либо настройки уровня системы?

1 Ответ

0 голосов
/ 13 июня 2018

Опция вывода CSV в SelectHiveQL, безусловно, может быть улучшена, в настоящее время она строит каждую строку в виде строки в памяти, а затем записывает ее в файл потока, но, вероятно, она может просто записывать данные прямо в файл потока и т. Д. Пожалуйста, не стесняйтесьподать Jira для этого улучшения.

...