У меня есть корзина с несколькими небольшими файлами Parquet, которые я хотел бы объединить в более крупный.
Чтобы выполнить эту задачу, я хотел бы создать искровое задание для использования и записи нового файла. .
from pyspark import SparkContext
from pyspark.sql import SparkSession, SQLContext
spark = SparkSession.builder \
.master("local") \
.appName("Consolidated tables") \
.getOrCreate()
spark._jsc.hadoopConfiguration().set("fs.s3a.access.key", "access")
spark._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "secret")
df = spark.read.parquet("s3://lake/bronze/appx/contextb/*")
Этот код вызывает у меня исключение: No FileSystem for scheme: s3
. Если я переключаюсь на s3a://...
, я получаю сообщение об ошибке: Class org.apache.hadoop.fs.s3a.S3AFileSystem not found
.
Я пытаюсь запустить этот код как python myfile.py
.
Есть идеи, что случилось?