Я подключил учетную запись хранилища BLOB-объектов к Databricks и могу получить к ней доступ, поэтому я знаю, что она работает.
Что я хочу сделать, так это перечислить имена всех файлов по заданному пути. В настоящее время я делаю это с:
list = dbutils.fs.ls('dbfs:/mnt/myName/Path/To/Files/2019/03/01')
df = spark.createDataFrame(list).select('name')
Проблема, с которой я столкнулся, заключается в том, что она исключительно медленная ... из-за того, что в этом месте находится около 160 000 BLOB-объектов (проводник хранилища показывает это как ~ 1016106592 байта, что составляет 1 ГБ!)
Это, конечно, не может сбрасывать все эти данные, все, что мне нужно / нужно, это имя файла ..
Является ли хранилище больших двоичных объектов моей бутылочной горлышкой, или я (каким-то образом) могу получить блоки данных для параллельного выполнения команды?
Спасибо.