Загрузка данных bzip2 в улей - PullRequest
0 голосов
/ 11 июля 2020

Я загрузил 5 файлов bzip2 из HDFS в 5 различных таблиц кустов (сохраненных как текстовый файл). Я заметил, что все данные были перемешаны в таблицах. Чтобы избежать этого, я вставил данные в другую таблицу (сохраненную как файл последовательности) в соответствии с этим предложением:

https://cwiki.apache.org/confluence/display/Hive/CompressedStorage

Однако размер файлов последовательности сгенерировано было огромным. То есть я не получаю выгоды от сжатия файлов раньше? Есть ли способ или какой-либо параметр, который позволяет hive эффективно обрабатывать файлы в сжатом формате без потери целостности данных?

Когда я обрабатывал файлы bzip с помощью has oop mr или pig, проблем с целостностью данных не было .

...