Я пытаюсь прочитать файл паркета с помощью Impala.
impala-shell> SELECT * FROM `/path/in/hdfs/*.parquet`
Я знаю, что могу сделать это с помощью Spark или Drill, но мне интересно, возможно ли это с помощью Impala?
Спасибо
Вам потребуется создать структурированный table поверх файлов parquet для запроса через Impala.
table
parquet
Общий пример external table, указывающего на каталог паркета ... Документы Cloudera предоставляют все методыздесь:
external table
https://www.cloudera.com/documentation/enterprise/latest/topics/impala_parquet.html#parquet_ddl
CREATE EXTERNAL TABLE ingest_existing_files LIKE PARQUET '/user/etl/destination/datafile1.dat' STORED AS PARQUET LOCATION '/user/etl/destination';