Проблема совместимости Sqoop и Hive со сжатыми файлами - PullRequest
0 голосов
/ 21 января 2019

У меня проблемы с чтением сжатых файлов из sqoop с помощью коннектора TDCH в Hive (hadoop 2.6.4.0-91).Файлы не распознаются Hive.

org.apache.hive.service.cli.HiveSQLException: sample_file не является файлом Parquet.ожидаемое магическое число в хвосте [80, 65, 82, 49], но найдено [53, 52, 56, 10]

Тем не менее, я указываю аналогичные параметры для обеих сторон:

Sqoop import

-D mapreduce.output.fileoutputformat.compress=true
-D mapreduce.output.fileoutputformat.compress.type=BLOCK
-D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec
...
--as-parquetfile

Определение таблицы Hive

CREATE EXTERNAL TABLE IF NOT EXISTS test_parquet
…
STORED AS PARQUET 
LOCATION '/hive/test_parquet/'
TBLPROPERTIES ("parquet.compression"="SNAPPY"); 

У вас есть предложения по решению этой проблемы?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...