Как преодолеть исключение TrainingException при обучении большой модели с помощью службы машинного обучения Azure? - PullRequest
1 голос
/ 05 апреля 2019

Я обучаю модель большого размера и пытаюсь использовать для этой цели Служба машинного обучения Azure в ноутбуках Azure.

Таким образом, я создаю Estimator для локального обучения:

from azureml.train.estimator import Estimator

estimator = Estimator(source_directory='./source_dir',
                      compute_target='local',
                      entry_script='train.py')

(мой train.py должен загружаться и тренироваться, начиная с большого векторного файла слов).

При работе с

run = experiment.submit(config=estimator)

Я получаю

TrainingException:

=============================================== =====================

При попытке сделать снимок / data / home / username / notebooks / source_dir Ваш итог Размер снимка превышает ограничение в 300,0 МБ. Посмотри пожалуйста http://aka.ms/aml-largefiles о том, как работать с большими файлами.

=============================================== =====================

Ссылка, указанная в ошибке, скорее всего, сломана . Содержимое в моем ./source_dir действительно превышает 300 МБ.
Как я могу решить это?

Ответы [ 2 ]

2 голосов
/ 05 апреля 2019

Вы можете поместить обучающие файлы вне source_dir, чтобы они не загружались при отправке эксперимента, а затем загружать их отдельно в хранилище данных (которое в основном использует хранилище Azure, связанное с вашей рабочей областью).,Все, что вам нужно сделать, это ссылаться на учебные файлы из train.py.

См. Учебник Модель поезда , где приведен пример загрузки данных в хранилище данных и последующего доступа к ним из файла обучения.

0 голосов
/ 05 апреля 2019

После прочтения проблемы GitHub Encounter | общий размер снимка 300 МБ при ведении журнала и официальный документ Управление квотами для ресурсов Azure и запрос на них для службы Azure ML, я думаю, что это неизвестная проблема, которая требует времени для ожидания Azure.

Тем временем я порекомендовал вам попробовать перенести текущую работу на другой сервис Блоки данных Azure , загрузить свой набор данных и коды и затем запустить его в записной книжке блоков данных Azure, размещенных на HDInsight. Spark Cluster, не беспокоясь об ограничениях памяти или хранилища. Вы можете обратиться к этим примерам для Azure ML в Azure Databricks.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...