Прочтите файлы паркета, используя Apache стрелку - PullRequest
1 голос
/ 27 мая 2020

У меня есть несколько файлов Parquet, которые я написал в Python с использованием PyArrow (Apache Arrow):

pyarrow.parquet.write_table(table, "example.parquet")

Теперь я хочу прочитать эти файлы (и желательно получить таблицу со стрелками) используя программу Java.

В Python я могу просто использовать следующее, чтобы получить таблицу стрелок из моего файла Parquet:

table = pyarrow.parquet.read_table("example.parquet")

Есть ли эквивалентное и простое решение в Java?

Я не смог найти ни хороших / рабочих примеров, ни полезной документации для Java (только для Python). Или в некоторых примерах не представлены все необходимые зависимости Maven. Я также не хочу использовать файловую систему Had oop, я просто хочу использовать локальные файлы.

Примечание: я также обнаружил, что не могу использовать «Apache Avro», потому что мои файлы Parquet содержат имена столбцов с символами [, ] и $, которые являются недопустимыми символами в Apache Авро.

Также, не могли бы вы предоставить зависимости Maven, если ваше решение использует Maven.


Я на Windows и использую Eclipse.

1 Ответ

0 голосов
/ 27 мая 2020

это несколько перебор, но вы можете использовать Spark.

https://spark.apache.org/docs/latest/sql-data-sources-parquet.html

...