Используя метод oop FS API listFiles
, вы можете сделать что-то вроде этого:
import org.apache.hadoop.fs._
val conf = sc.hadoopConfiguration
val gcsBucket = new Path("gs://uhg802p0on/test_data")
val filesIter = gcsBucket.getFileSystem(conf).listFiles(gcsBucket, true)
var files = Seq[Path]()
while (filesIter.hasNext) {
files = files :+ filesIter.next().getPath
}
listFiles
с параметром recursive=true
перечисляет все файлы рекурсивно в папка gcs.
Если вам нужны только пути без рекурсивности, вы можете использовать метод globStatus
.