У меня проблемы с чтением сжатых файлов из sqoop с помощью коннектора TDCH в Hive (hadoop 2.6.4.0-91).Файлы не распознаются Hive.
org.apache.hive.service.cli.HiveSQLException: sample_file не является файлом Parquet.ожидаемое магическое число в хвосте [80, 65, 82, 49], но найдено [53, 52, 56, 10]
Тем не менее, я указываю аналогичные параметры для обеих сторон:
Sqoop import
-D mapreduce.output.fileoutputformat.compress=true
-D mapreduce.output.fileoutputformat.compress.type=BLOCK
-D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec
...
--as-parquetfile
Определение таблицы Hive
CREATE EXTERNAL TABLE IF NOT EXISTS test_parquet
…
STORED AS PARQUET
LOCATION '/hive/test_parquet/'
TBLPROPERTIES ("parquet.compression"="SNAPPY");
У вас есть предложения по решению этой проблемы?