String folder = "/Users/test/data/*/*";
sparkContext.textFile(folder, 1).toJavaRDD()
Звездочки обязательны для прочтения папки. Да, иначе это не чтение файлов в подкаталогах.
Что если я получу папку, в которой больше подкаталогов, чем указано в звездочках? Как справиться с этим сценарием?
Например:
1) /Users/test/data/*/*
Это будет работать ТОЛЬКО если я получу данные как /Users/test/data/folder1/file.txt
2) Как сделать это выражение как generic ? Это все еще должно работать, если я получаю папку как: /Users/test/data/folder1/folder2/folder3/folder4
Структура моей входной папки не всегда одинакова.
Существует ли что-то в Spark для такого сценария?