Путь / имя файла в файловой системе Databricks - PullRequest
0 голосов
/ 31 января 2020

Я использую функцию glob glob, чтобы получить имя каталога / файла под обычным Python.

Например:

glob.glob("/dbfs/mnt/.../*/A*.txt")

Однако, только что реализованный в DBFS, полный путь начинается с / мин. Но есть ли способ в Pyspark, например, использовать glob для получения списка каталогов / имен файлов?

Спасибо,

1 Ответ

0 голосов
/ 31 января 2020

Если вы хотите получить только каталог / список имен, вы можете сделать это только в Python. Pyspark может обработать каталог / список имен sc.textFile("/dbfs/mnt/.../*/A*.txt"), но не вернуть его.

Pyspark - это механизм обработки, а не платформа для задач файловой системы.

...