Как показано в первой ячейке вашей записной книжки DataBricks, вам необходимо скачать zip-файл и каким-то образом распаковать его. Ваш случай отличается, потому что вы используете Azure хранилище BLOB-объектов и хотите сделать все в Python (без других приложений оболочки).
Эта страница описывает процесс доступа к файлам в Azure хранилище BLOB-объектов. Необходимо выполнить следующие действия:
- Установить пакет
azure-storage-blob
. - Импортировать модули SDK и установить необходимые учетные данные ( ссылка ).
- Создать экземпляр
BlobServiceClient
, используя строку подключения:
# Create the BlobServiceClient object which will be used to create a container client
blob_service_client = BlobServiceClient.from_connection_string(connect_str)
Создайте экземпляр
BlobClient
для файла, который вы хотите:
blob_client = blob_service_client.get_blob_client(container="container", blob="path_to_my.zip")
Загрузите BLOB-объект (zip-файл) и разархивируйте его с помощью
gzip
. Я бы написал что-то вроде этого:
from pathlib import Path
import gzip
Path("./my/local/filepath.csv").write_bytes(
gzip.decompress(blob_client.download_blob().readall())
)
Используйте
"./my/local/filepath.csv"
для создания DataFrame.