Apache Parquet для хранения данных? - PullRequest
0 голосов
/ 18 марта 2019

По ссылке sql-data-sources-parquet Ниже приведен фрагмент кода, в котором хранится формат данных, но В моем понимании из wiki это просто формат, а не механизм хранения. Так паркет будет в магазинах данные в определенном формате на каком-то механизме хранения, таком как HDFS / S3 / Cassandra и т. д. Не так ли? Так что мой вопрос, где ниже фрагмент кода будет хранить данные, так как я не вижу упоминаний о механизме хранения, таком как HDFS / S3 / Cassandra и т. д.

Dataset<Row> peopleDF = spark.read().json("examples/src/main/resources/people.json");

// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write().parquet("people.parquet");

// Read in the Parquet file created above.
// Parquet files are self-describing so the schema is preserved
// The result of loading a parquet file is also a DataFrame
Dataset<Row> parquetFileDF = spark.read().parquet("people.parquet");

1 Ответ

2 голосов
/ 18 марта 2019

Выводится из схемы URL, например s3://examples/src/main/resources/people.json или hdfs://examples/src/main/resources/people.json.Отображение из схемы в org.apache.hadoop.fs.FileSystem реализации поддерживается в конфигурации hadoop.Например,

<property><name>fs.s3.impl</name><value>org.apache.hadoop.fs.s3a.S3AFileSystem</value></property>

будет отображать s3://... в S3AFileSystem, и для некоторых распространенных файловых систем будут заданы значения по умолчанию, если они явно не настроены.

...