Я хотел бы выполнить задание PySpark с зависимостями (файлы egg или zip) с использованием Data Factory V2.
При запуске команды непосредственно в кластере головных узлов (HD Insight) в формеметод spark-submit работает следующим образом (и работает):
spark-submit --py-files 0.3-py3.6.egg main.py 1
в фабрике данных (V2)) Я попытался определить следующее:
{
"name": "dimension",
"properties": {
"activities": [{
"name": "Spark1",
"type": "HDInsightSpark",
"policy": {
"timeout": "7.00:00:00",
"retry": 0,
"retryIntervalInSeconds": 30,
"secureOutput": false
},
"typeProperties": {
"rootPath": "adfspark",
"entryFilePath": "main.py",
"getDebugInfo": "Always",
"sparkConfig": {
"spark.submit.pyFiles": "0.3-py3.6.egg"
},
"sparkJobLinkedService": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"linkedServiceName": {
"referenceName": "hdinsightlinkedService",
"type": "LinkedServiceReference"
}
}
]
}
}
Все это в контексте, который "adfspark "является контейнером, а зависимости расположены в папке" pyFiles ", как это предлагается в документации Azure: https://docs.microsoft.com/en-us/azure/data-factory/tutorial-transform-data-spark-powershell
Запуск задания только на головном узле будет достаточным началом, хотя распределенное выполнениереальная цель здесь