Авро -> Паркет -> Spark SQL - PullRequest
0 голосов
/ 07 мая 2019

У меня есть Java-программа, которая использует AvroParquetWriter для создания файлов паркета.

Я могу поместить эти файлы в S3 (AWS).

Сделав это, я хочу создать внешнийтаблица для запроса записей паркета с помощью Spark SQL.

Возможно ли это?Все эксперименты, которые я пробовал, показывают, что Spark во время запроса не может прочитать файлы, созданные AvroParquetWriter.

Если это возможно, что мне делать?

1 Ответ

0 голосов
/ 07 мая 2019

Не уверен насчет вашего AvroParquetWriter, но это сработало для меня, поскольку вы можете запросить каталог файлов паркетных файлов через spark sql следующим образом ...

PATH= '.../data.parquet'
spark.sql("select * from parquet.`{}`".format(PATH)).count()

Вы также можете создать внешнюю таблицу, подобную этой...

CREATE EXTERNAL TABLE db.table
(
C1 INT,
c2 TIMESTAMP,
c3 STRING,
etc...
)
STORED AS PARQUET LOCATION '.../data.parquet'
...