Все, что мы читаем в PySpark, хранится в RDD / Dataframes. Я хочу получить информацию о файле, который хранится во внешнем местоположении (Azure хранилище озера данных), используя PySpark в кирпичах данных. Есть ли способ добиться этого в искре? Ранее я использовал u sql для достижения этой цели, а u sql имеет встроенную функцию, подобную следующей:
@data=
EXTRACT rowText string,
FileName string,
Filesize = FILE.LENGTH(),
FileCreated = FILE.CREATED(),
FileURI = FILE.URI()
FROM @filePath
USING Extractors.Text(skipFirstNRows : 1, silent : true, delimiter : '|');