Есть ли способ в PySpark, чтобы получить информацию о файле, как размер файла, дата создания присутствует во внешнем местоположении (azure хранилище озера данных) - PullRequest
0 голосов
/ 11 марта 2020

Все, что мы читаем в PySpark, хранится в RDD / Dataframes. Я хочу получить информацию о файле, который хранится во внешнем местоположении (Azure хранилище озера данных), используя PySpark в кирпичах данных. Есть ли способ добиться этого в искре? Ранее я использовал u sql для достижения этой цели, а u sql имеет встроенную функцию, подобную следующей:

@data=
    EXTRACT rowText string,
            FileName string,
            Filesize = FILE.LENGTH(),
            FileCreated = FILE.CREATED(),
            FileURI = FILE.URI()
    FROM @filePath
    USING Extractors.Text(skipFirstNRows : 1, silent : true, delimiter : '|');
...