Секционированная загрузка CSV с использованием S3A из хранилища объектов S3 - PullRequest
0 голосов
/ 29 января 2019

Я ищу, чтобы загрузить файл, который был сохранен в s3 с помощью многораздельной загрузки.Я попытался добавить * в конце своего адреса, но, похоже, этот формат недопустим.Мой код выглядит следующим образом:

df= spark.read.csv('s3a://bucket-name/file.csv/*')
                         , header='true'
                         , inferSchema ='true'
                        )

Файлы хранятся со следующими данными:

file.csv/part1.csv
file.csv/part2.csv

Мне интересно, поддерживается ли использование * или нет.А если нет, то какая альтернатива?

1 Ответ

0 голосов
/ 29 января 2019

Вы можете попробовать просто отказаться от местоположения каталога, как показано ниже, указав символ *,

val df=spark.read
  .format("org.apache.spark.csv")
  .option("header", true)
  .option("inferSchema", true) 
  .csv("s3a://bucket-name/file.csv/")
...