Как читать паркетный файл с PySpark 1.6? - PullRequest
0 голосов
/ 10 июня 2019

Я могу прочитать обычный файл с:

textFile = sc.textFile("README.md")

, но как прочитать файл Parquet?

Ответы [ 2 ]

0 голосов
/ 12 июня 2019
parquetFile = sqlContext.read.parquet("people.parquet")

or in your case

parquetFile = sc.read.parquet("people.parquet")

Я бы прочитал документацию здесь для получения дополнительной информации: https://spark.apache.org/docs/1.6.0/sql-programming-guide.html#hive-metastore-parquet-table-conversion

0 голосов
/ 10 июня 2019
data = sqlContext.read.parquet("/tmp/testParquet")
display(data)
...