Чтобы прочитать что-то из S3, вы можете сделать это:
sc.textFiles("s3n://path/to/dir")
Если dir
содержит ваши файлы gzip, они будут распакованы и объединены в один RDD. Если ваши файлы не находятся непосредственно в корне каталога, как это:
/root
/a
f1.gz
f2.gz
/b
f3.gz
или даже это:
/root
f3.gz
/a
f1.gz
f2.gz
тогда вы должны использовать подстановочный знак, подобный этому sc.textFiles("s3n://path/to/dir/*")
, и spark будет рекурсивно находить файлы в dir
и его подкаталогах.
Остерегайтесь этого . Подстановочный знак будет работать, но у вас могут возникнуть проблемы с речью на S3 в рабочей среде, и вы можете захотеть использовать AmazonS3Client, для которого вы получаете пути.