Azure Машинное обучение - ошибка памяти при создании фрейма данных - PullRequest
1 голос
/ 20 января 2020

Я получаю ошибку памяти при создании простого кадра данных, считываемого из файла CSV на Azure Машинное обучение с использованием виртуальной машины ноутбука в качестве экземпляра вычислений. Виртуальная машина имеет конфигурацию DS 13, 56 ГБ ОЗУ, 8vcpu, 112 ГБ для хранения в Ubuntu (Linux (Ubuntu 16.04). CSV-файл - 5 ГБ.

blob_service = BlockBlobService(account_name,account_key)
blobstring = blob_service.get_blob_to_text(container,filepath).content
dffinaldata = pd.read_csv(StringIO(blobstring), sep=',')

Что я здесь не так делаю?

1 Ответ

0 голосов
/ 21 января 2020

вам нужно предоставить правильную кодировку при вызове get_blob_to_text, пожалуйста, обратитесь к sample .

Код ниже - это то, что обычно используется для чтения файла данных в хранилищах BLOB-объектов. По сути, вы можете использовать URL-адрес BLOB-объекта вместе с токеном SAS и использовать метод запроса. Однако вам может потребоваться изменить цикл for в зависимости от того, какие типы данных у вас есть (например, csv, jpg и т. Д. c).

- Python код ниже -

import requests
from azure.storage.blob import BlockBlobService, BlobPermissions
from azure.storage.blob.baseblobservice import BaseBlobService
from datetime import datetime, timedelta

account_name = '<account_name>'
account_key = '<account_key>'
container_name = '<container_name>'

blob_service=BlockBlobService(account_name,account_key)
generator = blob_service.list_blobs(container_name)

for blob in generator:
    url = f"https://{account_name}.blob.core.windows.net/{container_name}"
    service = BaseBlobService(account_name=account_name, account_key=account_key)
    token = service.generate_blob_shared_access_signature(container_name, img_name, permission=BlobPermissions.READ, expiry=datetime.utcnow() + timedelta(hours=1),)
    url_with_sas = f"{url}?{token}"
    response = requests.get(url_with_sas)

Пожалуйста, перейдите по ссылке ниже, чтобы прочитать данные в Azure Blob Storage. https://docs.microsoft.com/en-us/azure/machine-learning/how-to-access-data

...