Очень медленный переход с ADLS2 на Compute Target Azure Машинное обучение - PullRequest
0 голосов
/ 06 марта 2020

Во время учебного сценария, выполняемого для цели вычислений, мы пытаемся загрузить зарегистрированный набор данных из хранилища данных ADLS2. Проблема в том, что для загрузки ~ 1,5 ГБ (разбитого на ~ 8500 файлов) в целевую вычислительную систему требуется часов следующим способом:

from azureml.core import Datastore, Dataset, Run, Workspace

# Retrieve the run context to get Workspace
RUN = Run.get_context(allow_offline=True)

# Retrieve the workspace
ws = RUN.experiment.workspace

# Creating the Dataset object based on a registered Dataset
dataset = Dataset.get_by_name(ws, name='my_dataset_registered')

# Download the Dataset locally
dataset.download(target_path='/tmp/data', overwrite=False)

Важное примечание: Набор данных регистрируется по пути в Datalake, который содержит множество подпапок (а также подпапок, ..), содержащих небольшие файлы размером около 170 КБ.

Примечание: I'm возможность загрузить полный набор данных на локальный компьютер в течение нескольких минут, используя az copy или Storage Explorer. Кроме того, набор данных определяется на этапе папок с подстановочным знаком ** для сканирования подпапок: datalake/relative/path/to/folder/**

Это известная проблема? Как я могу улучшить скорость передачи?

Спасибо!

Ответы [ 2 ]

0 голосов
/ 11 марта 2020

DataTransferStep создает Azure ML Pipeline шаг, который передает данные между.

Пожалуйста, следуйте ниже для класса DataTransferStep. https://docs.microsoft.com/en-us/python/api/azureml-pipeline-steps/azureml.pipeline.steps.data_transfer_step.datatransferstep?view=azure-ml-py

0 голосов
/ 11 марта 2020

Отредактировано, чтобы быть более похожим на ответ:

Было бы полезно указать: какие версии Azureml-core и Azureml-dataprep SDK вы используете, какой тип виртуальной машины вы работаете как экземпляр compute и какие типы файлов (например, jpg? txt?) использует ваш набор данных. Кроме того, чего вы пытаетесь достичь, загрузив полный набор данных в свой компьютер?

В настоящее время образ экземпляра вычислений поставляется с предустановленными azureml-core 1.0.83 и azureml-dataprep 1.1.35, которые 1 -2 месяца Вы можете использовать даже более старые версии. Вы можете попробовать выполнить обновление, запустив в своей записной книжке:

%pip install -U azureml-sdk

Можно даже попробовать установить экспериментальную версию.

%pip install -U --pre azureml-sdk

Если вы не видите ничего улучшения вашего сценария, вы можете подать проблему на официальной странице документации, чтобы найти кого-то, кто поможет отладить вашу проблему, например, страницу ссылки для FileDataset .

...