Я хочу прочитать некоторые файлы паркета, присутствующие в папке poc/folderName
на корзине s3 myBucketName
, на фрейм данных pyspark. Я использую pyspark v2.4.3 для того же.
ниже приведен код, который я использую
sc = SparkContext.getOrCreate()
sc._jsc.hadoopConfiguration().set("fs.s3.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
sc._jsc.hadoopConfiguration().set("fs.s3a.awsAccessKeyId", 'id')
sc._jsc.hadoopConfiguration().set("fs.s3a.awsSecretAccessKey", 'sid')
sqlContext = SQLContext(sc)
parquetDF = sqlContext.read.parquet("s3a://myBucketName/poc/folderName")
Я скачал пакет hadoop-aws с помощью команды pyspark --packages org. apache.hadoop: hadoop-aws: 3.3.0, но когда я запускаю код выше, я получаю сообщение об ошибке ниже.
An error occurred while calling o825.parquet.
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3a.S3AFileSystem not found
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2195)
at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2654)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
Что я здесь не так делаю? Я запускаю код Python, используя Anaconda и Spyder на Windows 10