Открытый паркет от GCS с использованием местного Pyspark - PullRequest
0 голосов
/ 11 декабря 2019

У меня есть папка в облачном хранилище Google с несколькими паркетными файлами. Я установил в своей виртуальной машине pyspark, и теперь я хочу читать файлы паркета. Вот мой код:

from pyspark.sql import SparkSession

spark = SparkSession\
        .builder\
        .config("spark.driver.maxResultSize", "40g") \
        .config('spark.sql.shuffle.partitions', '2001') \
        .config("spark.jars", "~/spark/spark-2.4.4-bin-hadoop2.7/jars/gcs-connector-hadoop2-latest.jar")\
        .getOrCreate()
sc = spark.sparkContext
# using SQLContext to read parquet file
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
# to read parquet file
filename = "gs://path/to/parquet"
df = sqlContext.read.parquet(filename)
print(df.head())

Когда я запускаю его, мне выдается следующая ошибка:

WARN FileStreamSink: Error while looking for metadata directory.

Чтобы установить pyspark, я следовал этому уроку: https://towardsdatascience.com/how-to-get-started-with-pyspark-1adc142456ec

...