Выполните задание PySpark с зависимостями с помощью фабрики данных Azure V2 - PullRequest
0 голосов
/ 27 мая 2018

Я хотел бы выполнить задание PySpark с зависимостями (файлы egg или zip) с использованием Data Factory V2.

При запуске команды непосредственно в кластере головных узлов (HD Insight) в формеметод spark-submit работает следующим образом (и работает):

spark-submit --py-files 0.3-py3.6.egg main.py 1

в фабрике данных (V2)) Я попытался определить следующее:

{
    "name": "dimension",
    "properties": {
        "activities": [{
                "name": "Spark1",
                "type": "HDInsightSpark",
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false
                },
                "typeProperties": {
                    "rootPath": "adfspark",
                    "entryFilePath": "main.py",
                    "getDebugInfo": "Always",
                    "sparkConfig": {
                        "spark.submit.pyFiles": "0.3-py3.6.egg"
                    },
                    "sparkJobLinkedService": {
                        "referenceName": "AzureStorageLinkedService",
                        "type": "LinkedServiceReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "hdinsightlinkedService",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }
}

Все это в контексте, который "adfspark "является контейнером, а зависимости расположены в папке" pyFiles ", как это предлагается в документации Azure: https://docs.microsoft.com/en-us/azure/data-factory/tutorial-transform-data-spark-powershell

Запуск задания только на головном узле будет достаточным началом, хотя распределенное выполнениереальная цель здесь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...