Блоки данных - FileNotFoundException - PullRequest
       23

Блоки данных - FileNotFoundException

0 голосов
/ 03 октября 2019

Извините, если это просто, и я упустил что-то простое. Я пытаюсь запустить приведенный ниже код, чтобы перебирать файлы в папке и объединять все файлы, которые начинаются с определенной строки, в кадр данных. Все файлы сидят в озере.

file_list=[]
path = "/dbfs/rawdata/2019/01/01/parent/"
files  = dbutils.fs.ls(path)
for file in files:
    if(file.name.startswith("CW")):
       file_list.append(file.name)
df = spark.read.load(path=file_list)

# check point
print("Shape: ", df.count(),"," , len(df.columns))
db.printSchema()

Для меня это выглядит нормально, но, видимо, здесь что-то не так. Я получаю сообщение об ошибке:
files = dbutils.fs.ls(path)

Сообщение об ошибке гласит:

java.io.FileNotFoundException: File/6199764716474501/dbfs/rawdata/2019/01/01/parent does not exist.

Путь, файлы и все остальное определенно существуют. Я пробовал с и без части 'dbfs'. Может ли это быть проблема с разрешением? Что-то другое? Я погуглил для решения. Все еще не могу получить тягу с этим.

1 Ответ

1 голос
/ 03 октября 2019

Убедитесь, что у вас есть папка с именем «dbfs», если ваша родительская папка начинается с «rawdata», путь должен быть «/ rawdata / 2019/01/01 / parent» или «rawdata / 2019/01/01 / parent»,

В случае неверного пути выдается ошибка.

...