Я загрузил 5 файлов bzip2 из HDFS в 5 различных таблиц кустов (сохраненных как текстовый файл). Я заметил, что все данные были перемешаны в таблицах. Чтобы избежать этого, я вставил данные в другую таблицу (сохраненную как файл последовательности) в соответствии с этим предложением:
https://cwiki.apache.org/confluence/display/Hive/CompressedStorage
Однако размер файлов последовательности сгенерировано было огромным. То есть я не получаю выгоды от сжатия файлов раньше? Есть ли способ или какой-либо параметр, который позволяет hive эффективно обрабатывать файлы в сжатом формате без потери целостности данных?
Когда я обрабатывал файлы bzip с помощью has oop mr или pig, проблем с целостностью данных не было .