Как записать Azure результатов пакетной оценки машинного обучения в озеро данных? - PullRequest
1 голос
/ 07 августа 2020

Я пытаюсь записать результат пакетной оценки в datalake:

    parallel_step_name = "batchscoring-" + datetime.now().strftime("%Y%m%d%H%M")
    
    output_dir = PipelineData(name="scores", 
                              datastore=def_ADL_store,
                              output_mode="upload",
                              output_path_on_compute="path in data lake")

parallel_run_config = ParallelRunConfig(
    environment=curated_environment,
    entry_script="use_model.py",
    source_directory="./",
    output_action="append_row",
    mini_batch_size="20",
    error_threshold=1,
    compute_target=compute_target,
    process_count_per_node=2,
    node_count=2
)
    
    batch_score_step = ParallelRunStep(
        name=parallel_step_name,
        inputs=[test_data.as_named_input("test_data")],
        output=output_dir,
        parallel_run_config=parallel_run_config,
        allow_reuse=False
    )

Однако я обнаружил ошибку: «code»: «UserError», «message»: «Пользовательская программа завершилась ошибкой с исключением : Отсутствует аргумент --output или его значение пусто. "

Как мне записать результаты оценки пакета в озеро данных?

1 Ответ

0 голосов
/ 07 августа 2020

Я не думаю, что ADLS поддерживается для PipelineData. Я предлагаю использовать хранилище больших двоичных объектов рабочей области по умолчанию для PipelineData, а затем использовать DataTransferStep после завершения ParallelRunStep.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...