Запрос файла Parquet в HDFS с помощью Impala - PullRequest
1 голос
/ 14 июня 2019

Я пытаюсь прочитать файл паркета с помощью Impala.

impala-shell> SELECT * FROM `/path/in/hdfs/*.parquet`

Я знаю, что могу сделать это с помощью Spark или Drill, но мне интересно, возможно ли это с помощью Impala?

Спасибо

1 Ответ

3 голосов
/ 15 июня 2019

Вам потребуется создать структурированный table поверх файлов parquet для запроса через Impala.

Общий пример external table, указывающего на каталог паркета ... Документы Cloudera предоставляют все методыздесь:

https://www.cloudera.com/documentation/enterprise/latest/topics/impala_parquet.html#parquet_ddl

CREATE EXTERNAL TABLE ingest_existing_files LIKE PARQUET '/user/etl/destination/datafile1.dat'
  STORED AS PARQUET
  LOCATION '/user/etl/destination';
...