Другой вариант - использование действия DatabricksSparkPython.Это имеет смысл, если вы хотите уменьшить масштаб, но может потребовать некоторых модификаций кода для поддержки PySpark.Причиной причины является рабочая область Azure Databricks.Вы должны загрузить свой скрипт в DBFS и запустить его через фабрику данных Azure.В следующем примере запускается сценарий pi.py:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksSparkPython",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedservice",
"type": "LinkedServiceReference"
},
"typeProperties": {
"pythonFile": "dbfs:/docs/pi.py",
"parameters": [
"10"
],
"libraries": [
{
"pypi": {
"package": "tensorflow"
}
}
]
}
}
}
Подробнее см. В документации .