Невозможно запустить электричку на локальном ноутбуке из ноутбуков AML с кластером kubeflow - PullRequest
0 голосов
/ 24 апреля 2020

Мы пытаемся запустить ноутбук AML «train -on-local» на DSVM с кластером Kubeflow на Azure ВМ с блеском AKS в облаке, мы sh запустим образец в стеке Azure, чтобы использовать его вычислить ... https://github.com/Azure/MachineLearningNotebooks/tree/master/how-to-use-azureml/training/train-on-local Сбой с ошибкой ниже знает любого, кто может помочь здесь, так как я думаю, что проблема связана с слишком длинным путем монтирования Kubeflow, но не уверен, как мы можем обойти это….

В том же кластере я могу запустить модель своего ноутбука и поезда с Kubeflow, но в приведенном выше примере произойдет сбой, только с ошибкой ниже…

Ошибка:

Отслеживание SnapshotException (последний вызов последний) в ----> 1 run = exp.submit (sr c)

~ / .local / lib / python3 .6 / site-packages / azureml / core / эксперимент.py в submit (self, config, tags, ** kwargs) 200 submit_fun c = get_experiment_submit (config) 201 с self._log_context ("submit config {}". format (config. class . * 1014) * name )): -> 202 run = submit_fun c (config, self.workspace, self.name, ** kwargs) 203, если теги не равны None: 204 run.set_tags (tags)

~ / .local / lib / python3 .6 / site-packages / azureml / core / script_run_config.py в submit (script_run_config, рабочая область, имя_эксперимента, run_id, _paren t_run_id) 55 run = _commands.start_run (проект, run_config, 56 telemetry_values ​​= script_run_config._telemetry_values, ---> 57 run_id = run_id, parent_run_id = _parent_run_id) 58 run.add_properties (global_reg_ru_info) *

~ / .local / lib / python3 .6 / site-packages / azureml / _execution / _commands.py в start_run (project_object, run_config_object, run_id, injected_files, telemetry_values, parent_run_id, prepare_only, проверить) 114 поднять ExperceptionExecution («Невозможно проверить подготовку локальных целей») 115 return _start_internal_local_cloud (project_object, run_config_object, -> 116 ** shared_start_run_kwargs) 117 остальное: 118 return _start_internal (project_object, run_config_object, prepare_check = check, * 1020 / * 1021 .local / lib / python3 .6 / site-packages / azureml / _execution / _commands.py в _start_internal_local_cloud (project_object, run_config_object, prepare_only, custom_target_dict, run_id, injected_files, телеметрия_values, parent_run_ id) 279 повысить ExperimentExecutionException (ex.output) 280 -> 281 snapshot_id = snapshot_asyn c .get (), если snapshot_asyn c else Нет 282 thread_pool.close () 283

/ usr / lib / python3 .6 / multiprocessing / pool.py в get (self, timeout) 642 вернуть self._value 643 else: -> 644 повысить self._value 645 646 def _set (self, i, obj):

/ usr / lib / python3 .6 / multiprocessing / pool.py в работнике (inqueue, outqueue, initializer, initargs, maxtasks, wrap_exception) 117 заданий, i, fun c, args, kwds = task 118 try : -> 119 result = (True, fun c (* args, ** kwds)) 120 за исключением исключения как e: 121, если wrap_exception и fun c не являются _helper_reraises_exception:

~ /. local / lib / python3 .6 / site-packages / azureml / _restclient / snapshots_client.py в create_snapshot (self, file_or_folder_path, retry_on_failure, поднять_on_validation_failure) 92 "\ n" .format (file_or_folder_pail________40_W_W_FIL_N_FIL_N_FIL_N_F_0_0_0_0_0_P_S_S_F_0_0_P_S_S_S_S_F_0_0_P_S_F_0_0_0_перечислению_и_и_и -> 94 повысить исключение SnapshotException (error_message) 95 еще: 96 prin t (error_message)

SnapshotException: SnapshotException: Сообщение: ======================================== =========================================

При попытке сделать снимок / home / jovyan Ваш проект превышает ограничение файла 2000.

================================== ========================================

            InnerException None
            ErrorResponse 

{"error": {"message ":" ==================================================== ===================== \ n \ nПри попытке сделать снимок / home / jovyan \ nВаш проект превышает ограничение файла 2000. \ n \ n == ================================================== ================ \ n \ n "}}

...