У меня есть папка в облачном хранилище Google с несколькими паркетными файлами. Я установил в своей виртуальной машине pyspark, и теперь я хочу читать файлы паркета. Вот мой код:
from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.config("spark.driver.maxResultSize", "40g") \
.config('spark.sql.shuffle.partitions', '2001') \
.config("spark.jars", "~/spark/spark-2.4.4-bin-hadoop2.7/jars/gcs-connector-hadoop2-latest.jar")\
.getOrCreate()
sc = spark.sparkContext
# using SQLContext to read parquet file
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
# to read parquet file
filename = "gs://path/to/parquet"
df = sqlContext.read.parquet(filename)
print(df.head())
Когда я запускаю его, мне выдается следующая ошибка:
WARN FileStreamSink: Error while looking for metadata directory.
Чтобы установить pyspark, я следовал этому уроку: https://towardsdatascience.com/how-to-get-started-with-pyspark-1adc142456ec