Я попробовал приведенный ниже код и его комбинации, чтобы прочитать все файлы, указанные в папке S3, но, похоже, ничего не работает. Чувствительная информация / код удалена из приведенного ниже сценария.Есть 6 файлов по 6,5 ГБ.
#Spark Connection
sc<-spark_connect(master = "local" , config=config)
rd_1<-spark_read_csv(sc,name = "Retail_1",path = "s3a://mybucket/xyzabc/Retail_Industry/*/*",header = F,delimiter = "|")
# This is the S3 bucket/folder for files [One of the file names Industry_Raw_Data_000]
s3://mybucket/xyzabc/Retail_Industry/Industry_Raw_Data_000
Это ошибка, которую я получаю
Error: org.apache.spark.sql.AnalysisException: Path does not exist: s3a://mybucket/xyzabc/Retail_Industry/*/*;
at org.apache.spark.sql.execution.datasources.DataSource$.org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary(DataSource.scala:710)