Какой формат файла лучше для хранения большего количества маленьких файлов в улье? и почему? - PullRequest
1 голос
/ 04 июня 2019

если у меня есть больше файлов, которые нужно хранить в таблицах улья. какой формат файла лучше хранить и почему?

Ответы [ 2 ]

0 голосов
/ 07 июня 2019

Использование неэффективных форматов файлов, например, формата TextFile, и хранение данных без сжатия усугубляет проблему с файлами, по-разному влияя на производительность и масштабируемость.Если, например, у вас есть таблица в Hive с множеством очень маленьких файлов в формате hdf, неоптимально, лучше объединить эти файлы в менее большие, потому что при чтении этой таблицы будет создано много картографов.

Использование Hive Объединение Функциональность:

Этот подход будет полезен, когда данные хранятся в Hadoop, а таблицы кустов строятся поверх него.По сути, Apache Hive предоставляет команду для объединения небольших файлов в более крупный файл внутри раздела.Вот как выглядит эта команда:

ALTER TABLE table_name [PARTITION (partition_key = 'partition_value' [, ...])] CONCATENATE;

Это работает, только если файлы данных хранятся в форматах RC или ORC .

0 голосов
/ 04 июня 2019

Вы можете это mapred.job.reuse.jvm.num.tasks к улучшенной. Ниже ссылка полезна https://blog.cloudera.com/blog/2009/02/the-small-files-problem/

повторное использование JVM в заданиях Hadoop mapreduce

...